









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Il documento contiene appunti sulla statistica bivariata presi a lezione della professoressa Roberta Paroli.
Tipologia: Appunti
1 / 16
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










E’ la parte della statistica che si occupa delle relazioni tra due caratteri, X e Y con le rispettive modalità xi (i=1...h) e yj (j=1...k). → Tabella a doppia entrata.
Sull’asse delle ascisse: modalità variabile indipendente X Sull’asse delle ordinate: modalità variabile indipendente Y
Sul grafico si rappresentano le coppie di modalità con frequenza non nulla; Non si rappresenta il valore delle frequenze congiunte; Non si congiungono i quadratini trovati; Si può costruire anche con le coppie di caratteri senza la tabella a doppia entrata; (vedi grafico slide). X|Yj (x dato yj) →La somma delle condizionate è la marginale n.j Dove : X è variabile condizionata; Y è variabile condizionante Y|Xi (Y dato xi) → La somma delle condizionate è la marginale ni. Dove: Y è variabile condizionata; X è variabile condizionante. Osservazione NB :
Lo scopo di una tabella a doppia entrata è capire se esistono delle relazioni tra due caratteri. Se non c’è relazione avremo un’indipendenza tra caratteri.
Vale per qualunque tipologia di carattere Due caratteri x e y sono stocasticamente indipendenti se tutte le frequenze condizionate relative sono uguali tra loro e uguali alla corrispondente marginale:
frequenze teoriche assolute frequenze teoriche relative Sono tante quante le nij; Formano la tabella delle frequenze teoriche.
Consideriamo X condizionata ad Y Si ha dipendenza funzionale quando → ad ogni yj corrisponde un solo xi → h deve essere≤ k. La dipendenza funzionale tra X e Y è biunivoca → ad ogni yj corrisponde un solo xi e viceversa → H=K. (In una tabella quadrata la massima dipendenza funzionale non può che essere biunivoca)
La dipendenza tra caratteri si può studiare tramite: → connessione , principalmente per caratteri qualitativi → modelli di regressione , solo per caratteri quantitativi per descrivere analiticamente un carattere in unzione dell’altro.
Equivale alla non indipendenza stocastica. Si ha connessione quando la variabile statistica (x,y) è caratterizzata da condizionate non uguali. Gli indici di connessione possono essere definiti in due modi distinti:
E’ basato sui valori delle contingenze e delle frequenze teoriche
2
i
j
2
→ Situazione di Minima connessione=Indipendenza Stocastica Se χ^2 min=0 (osservate=teoriche) → Situazione di Massima connessione=Dipendenza funzionale Se χ^2 max= n x min (h-1;k-1)
E’ lo studio della dipendenza tra caratteri quantitativi Data una variabile statistica doppia (X,Y) ci si propone di descrivere al meglio l’andamento di Y al variare di X o viceversa. Per fare questo si cercano dei modelli teorici che approssimano al meglio le nostre osservazioni (es. y*= g(x) + ej , dove ej è l’errore di misura). Per identificare g(x): → Interpolazione matematica: curva analitica che passa esattamente per punti dati → Interpolazione statistica: curva analitica che passa tra i punti dati. Utilizzeremo l’interpolazione statistica= REGRESSIONE
Dovremo definire una funzione che ci faccia perdere meno informazioni possibili, la funzione di Perdita; vogliamo quindi che y-y* (ovvero la perdita) sia molto piccola. → L(y- g(x))≥ 0 → Funzione di danno globale. Tra le varie g(x) che passano tra i dati in esame, si sceglie la funzione di media quadratica, ovvero la media dei quadrati dagli scarti: → L(y-g(x))= M (( Y- g(x))^2 = min → è la proprietà di minimo della media Siccome vogliamo trovare la funzione che passa tra i nostri dati, la media che ci interessa è la Media Condizionata→ g(xi)= μy (xi) Avremo tante Medie/Varianze Condizionate tante quante sono le modalità della condizionante. M(x) condizionata totale = (μgruppi x nigruppi ) / n → è uguale alla media totale di X marginale σ^2 (x) condizionata totale = (σ^2 gruppi x ni (^) gruppi ) / n
Si ha se le medie condizionate sono uguali tra di loro e uguali alla media marginale a) per Y|x : - μY (xi)= μY , allora la varianza spiegata sarà uguale a 0 (e quindi anche η^2 =0)
→ L’Indipendenza in Media non è simmetrica (se Y|x è indipendente in media, non è detto che lo sia anche X|y) (a differenza dell’indipendenza stocastica che è simmetrica). → Se c’è indipendenza stocastica allora c’è indipendenza in Media (NB: NON VICEVERSA), sia per Y dato x che per X dato y, e sono =0. In questo caso l’indipendenza in media è simmetrica.
Si ha quando ad ogni X corrisponde una sola Y (e viceversa). Questo perché essendoci un solo dato, esso coinciderà con la media. La variabile è quindi degenere e quindi le varianze condizionate saranno nulle e anche la varianza residua è nulla. Quindi η^2 Y=1 (che si ottiene facendo 1 – 0).
Es. 2 Y|X x1 x2 x y1 1 0 0 1 y2 0 4 0 4 η^2 Y=η^2 Y=1 → Perfetta dipendenza funzionale y3 0 0 3 3 biunivoca. 1 4 3 8 → η^2 Y=1 allora varianza between = varianza totale e quindi varianza within =0 (varianze marg.=0) Casi Particolari in cui η^2 Y=η^2 X
Nei casi limite: indipendenza stocastica e perfetta dipendenza funzionale biunivoca Nel caso di uguaglianza tra la distribuzione delle medie di X|y, la la distribuzione delle media di Y|x e tra le varianze marginali.
E’ un polinomio completo di grado (h-1), passante per le h medie condizionate che unisce le medie senza discontinuità. Per Y|x → g(x)=μY(xi)= a 0 +a 1 x+a 2 x^2 +a 3 x^3 +...+ah-1x h-1.
Sono dei modelli che approssimano la funzione di regressione; Non passano per le medie condizionate ma fra i dati Sono dei modelli polinomiali completi il cui grado è compreso tra 0≤r≤h-1 (dove h-1 è l’esatta funzione di regressione). Avremo quindi y= a 0 +a 1 x+a 2 x^2 +...arxr. Y= valore teorico derivante dal modello Y= valori osservati Analisi di un modello
Altrimenti si può utilizzare la Formula Operativa , ovvero la media dei prodotti – il prodotto tra le due medie. Es.
Y|X 1 2 3 4 30 3 0 0 0 3 50 1 4 6 2 13 70 0 1 2 6 9 4 5 8 8 25 M(X)= 2. M(Y)= 54. Formula di definizione→ Cov(X,Y)= ((1-2,8)(30-54,8) 3)+ ((1-2,8)(50-54,8) 1) +...ecc))/25= 9. Formula Operativa→ Cov(X,Y)= ((1 x 30 x 3)+(1x50x1)+ ...ecc))/25 – (2.8 x 54.8) = 9.
X Y XY 1 20 20 2 29 58 μx= 3 2 31 62 μy=27. 3 40 120 3 50 150 Cov(X,Y)= (620/8) – (3x27.5)= - 4 21 84 4 19 76 5 10 50 620 La Quantità (xi-μx)(yj-μy) è: Più spesso Positiva se Cov > 0 Più spesso negativa se Cov < 0 → La Covarianza può assumere tutti i valori reali; Se è positiva indica una tendenza alla linearità positiva (crescente) Se è negativa indica una tendenza alla linearità negativa (decrescente).
→ E’ compreso tra -1 e +1 ed è simmetrico
Se c’è Indipendenza stocastica ci sono Indipendenza in Media e Incorrelazione (Indip. Lineare). Se c’è Indipendenza in Media c’è anche Incorrelazione, ma non implica Indipendenza stocastica. L’Incorrelazione non implica ne una ne l’altra. COV=0 se c’è Indipendenza Stocastica oppure Indipendenza in Media.
σ^2 SP= varianza dei valori teorici = M((â+ḃX) - μy)^2 σ^2 YR= varianza dei residui = M (Y- (â+ḃX))^2 || σ^2 YR= σ^2 Y(1- ρ^2 ) ||
E’ un valore compreso tra 0 e 1, tanto più è vicino a 1 tanto spiega il nostro modello. Se è =0, la retta non spiega nulla e i dati non presentano linearità; Se è =1 i dati sono allineati e la retta spiega tutto (passa per i dati). R^2 retta = ρ^2.
In Entrambi i casi non si può calcolare ρ^2 come indice di adattamento -Y= bX; retta passante per origine ḃ= μ(xy)/ μ(x^2 ) M(E^2 )= σ^2 YR= (Σ(yi – ŷi)^2 ) / n , dove ŷ= y moltipl. ḃ R^2 = 1 - (σ^2 YR/ σ^2 Y) -Y= a; retta parallela all’asse x; â= μy M(E^2 )= σ^2 YR = σy σ^2 SP = R^2 = 0
E’ possibile applicare la Regressione anche nel caso in cui la Variabile Indipendente (X) sia Qualitativa → Y*= a+bX La Variabile qualitativa è resa quantitativa tramite le Variabili Dummy.
I parametri â e ḃ si calcolano esattamente come per la retta completa utilizzando 0,1 per la vs X. I valori dei parametri si possono interpretare come “incremento” o “decremento” della media della variabile dipendente per la modalità di valore 1 nei confronti dell’altra. Se poniamo M=1 e F=0, il coefficiente angolare (b) rappresenta l’incremento/decremento della
media di y del gruppo con x=1 (maschi) rispetto alla media di y di chi ha x=0 (femmine)
Se Y=a, vuol dire che a è l’Y media quando x=0 (quindi nel nostro esempio è la media delle femmine) La valutazione della bontà del modello si conduce come la retta di regressione tramite l’indice di adattamento o la varianza residua. Le variabili dummy si utilizzano per lo più in modelli con più variabili indipendenti (es. Modello Multiplo) se b>0→ incremento reddito maschi rispetto al reddito femmine
se b<0 → decremento reddito maschi rispetto al reddito femmine se b=0 → il reddito dei maschi non è diverso da quello delle femmine
η^2 è l’indice di adattamento della funzione di regressione ρ^2 è l’indice riferito al solo modello retta completo R^2 è invece l’indice di adattamento di un qualsiasi altro modello → La retta di regressione è un modello di grado 1, che approssima la funzione di regressione (che è un modello di grado h-1). Tra i due il modello migliore è la funzione di regressione, e siccome il modello migliore è quello con l’indice più alto, quindi → 0 ≤ρ^2 ≤η^2 ≤ 1 Casi Particolari di confronto tra η^2 e ρ^2 Vedi slide e appunti!!!
NB: Individuazione miglior modello→ massimo indice di adattamento; parsimonia (= bisogna inserire il numero minimo di variabili indipendenti che consenta di spiegare al meglio il modello).