Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


APPUNTI: Statistica Bivariata, Appunti di Statistica

Il documento contiene appunti sulla statistica bivariata presi a lezione della professoressa Roberta Paroli.

Tipologia: Appunti

2019/2020

Caricato il 13/01/2022

Alessia_Bignotti
Alessia_Bignotti 🇮🇹

4.2

(6)

19 documenti

1 / 16

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Statistica Bivariata
E’ la parte della statistica che si occupa delle relazioni tra due caratteri, X e Y con le rispettive
modalità xi (i=1...h) e yj (j=1...k).
Tabella a doppia entrata.
ni. : frequenza marginale di X Numero di unità statistiche che possiedono la modalità i
del carattere X (sommatoria in j)
n.j : frequenza marginale di Y Numero di unità statistiche che possiedono la modalità j
del carattere Y (sommatoria in i)
nij : frequenza congiunta Numero di unità statistiche che possiedono
contemporaneamente la modalità i del carattere X e la modalità j del carattere Y;
n : numero totale di unità statistiche somma delle marginali oppure somma di tutte le nij.
Nelle tabelle a doppia entrata abbiamo una sola tipologia di grafico:
Scatter Plot grafico in coordinate cartesiane ortogonali
Sull’asse delle ascisse: modalità variabile indipendente X
Sull’asse delle ordinate: modalità variabile indipendente Y
> Sul grafico si rappresentano le coppie di modalità con frequenza non nulla;
> Non si rappresenta il valore delle frequenze congiunte;
> Non si congiungono i quadratini trovati;
> Si può costruire anche con le coppie di caratteri senza la tabella a doppia entrata;
(vedi grafico slide).
X|Yj (x dato yj) La somma delle condizionate è la marginale n.j
Dove : X è variabile condizionata; Y è variabile condizionante
Y|Xi (Y dato xi) La somma delle condizionate è la marginale ni.
Dove: Y è variabile condizionata; X è variabile condizionante.
Osservazione NB:
- dalle marginali NON si può ricostruire la tabella a doppia entrata delle frequenze congiunte;
- dalle condizionate (X|yj, Y|xi) e si conoscono le frequenze marginali n.j o ni. , è possibile ricavare
la tabella a doppia entrata delle frequenze congiunte.
(vedi es. slide).
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica APPUNTI: Statistica Bivariata e più Appunti in PDF di Statistica solo su Docsity!

Statistica Bivariata

E’ la parte della statistica che si occupa delle relazioni tra due caratteri, X e Y con le rispettive modalità xi (i=1...h) e yj (j=1...k). → Tabella a doppia entrata.

  • (^) ni. : frequenza marginale di X → Numero di unità statistiche che possiedono la modalità i del carattere X (sommatoria in j)
  • (^) n.j : frequenza marginale di Y → Numero di unità statistiche che possiedono la modalità j del carattere Y (sommatoria in i)
  • (^) nij : frequenza congiunta → Numero di unità statistiche che possiedono contemporaneamente la modalità i del carattere X e la modalità j del carattere Y;
  • (^) n : numero totale di unità statistiche → somma delle marginali oppure somma di tutte le nij. Nelle tabelle a doppia entrata abbiamo una sola tipologia di grafico:

Scatter Plot → grafico in coordinate cartesiane ortogonali

Sull’asse delle ascisse: modalità variabile indipendente X Sull’asse delle ordinate: modalità variabile indipendente Y

Sul grafico si rappresentano le coppie di modalità con frequenza non nulla; Non si rappresenta il valore delle frequenze congiunte; Non si congiungono i quadratini trovati; Si può costruire anche con le coppie di caratteri senza la tabella a doppia entrata; (vedi grafico slide). X|Yj (x dato yj) →La somma delle condizionate è la marginale n.j Dove : X è variabile condizionata; Y è variabile condizionante Y|Xi (Y dato xi) → La somma delle condizionate è la marginale ni. Dove: Y è variabile condizionata; X è variabile condizionante. Osservazione NB :

  • dalle marginali NON si può ricostruire la tabella a doppia entrata delle frequenze congiunte;
  • dalle condizionate (X|yj, Y|xi) e si conoscono le frequenze marginali n.j o ni. , è possibile ricavare la tabella a doppia entrata delle frequenze congiunte. (vedi es. slide).

La Connessione

Lo scopo di una tabella a doppia entrata è capire se esistono delle relazioni tra due caratteri. Se non c’è relazione avremo un’indipendenza tra caratteri.

Indipendenza tra Caratteri

Indipendenza Stocastica

Vale per qualunque tipologia di carattere Due caratteri x e y sono stocasticamente indipendenti se tutte le frequenze condizionate relative sono uguali tra loro e uguali alla corrispondente marginale:

  1. tutte le frequenze condizionate X|y relative sono uguali tra loro
  2. tutte le frequenze condizionate Y|x relative sono uguali tra loro
  3. le condizionati sono somiglianti alle rispettive marginali Es. 1 X=professione paterna; Y=scolarità dei figli X|Y elementari diploma laurea | ni. operaio 3 2 5 | impiegato 9 6 15 | dirigente 18 12 30 | n.j 30 20 50 | Se faccio il grafico Y|x → considero le righe per vedere se la scolarità dipende dalla professione Y sembra variare al variare di X Se faccio il grafico delle condizionate relative (divido i dati della prima riga / ni.) Y non varia al variare di X. Se faccio il grafico della marginale n.j → Y non varia al variare di X Es. x= anno nascita; y=età lavorativa X|Y 14 18 23 1936 0.5 0.25 0.25 1 1946 0.3 0.5 0.2 1 Condiziono Y|x → NON INDIPENDENZA 1956 1 0 0 1 1966 0.333 0.5 0.167 1 1976 1 0 0 1

Frequenze teoriche

frequenze teoriche assolute frequenze teoriche relative Sono tante quante le nij; Formano la tabella delle frequenze teoriche.

^

nij =

ni. × n. j

n

^

f ij = f i. × f. j

Consideriamo X condizionata ad Y Si ha dipendenza funzionale quando → ad ogni yj corrisponde un solo xi → h deve essere≤ k. La dipendenza funzionale tra X e Y è biunivoca → ad ogni yj corrisponde un solo xi e viceversa → H=K. (In una tabella quadrata la massima dipendenza funzionale non può che essere biunivoca)

Studio della Dipendenza

La dipendenza tra caratteri si può studiare tramite: → connessione , principalmente per caratteri qualitativi → modelli di regressione , solo per caratteri quantitativi per descrivere analiticamente un carattere in unzione dell’altro.

1. La Connessione

Equivale alla non indipendenza stocastica. Si ha connessione quando la variabile statistica (x,y) è caratterizzata da condizionate non uguali. Gli indici di connessione possono essere definiti in due modi distinti:

  1. Misura della variabilità fra distribuzioni
  2. Misura della distanza dalla indipendenza | Le Contingenze assolute (= distanze elementari) Proprietà delle contingenze
    1. La somma delle contingenze per colonna è sempre = 0
    2. La somma delle contingenze per riga è sempre = 0
    3. La somma totale delle contingenze è = 0
    4. Se tutte le contingenze = 0, allora Indipendenza stocastica Indici di Connessione

Indice Chi-Quadrato di Pearson (assoluto normalizzato)

E’ basato sui valori delle contingenze e delle frequenze teoriche

Cij = nij −

^

nij

2

i

j

cij

2

^

nij

→ Situazione di Minima connessione=Indipendenza Stocastica Se χ^2 min=0 (osservate=teoriche) → Situazione di Massima connessione=Dipendenza funzionale Se χ^2 max= n x min (h-1;k-1)

Indice Normalizzato →

  • è compreso tra 0 (indipendenza stocastica) e 1 (massima dipendenza funzionale)
  • è simmetrico (ovvero è uguale per Y|x e per X|y). Inizio Parziale 2

L’Interpolazione Statistica

E’ lo studio della dipendenza tra caratteri quantitativi Data una variabile statistica doppia (X,Y) ci si propone di descrivere al meglio l’andamento di Y al variare di X o viceversa. Per fare questo si cercano dei modelli teorici che approssimano al meglio le nostre osservazioni (es. y*= g(x) + ej , dove ej è l’errore di misura). Per identificare g(x): → Interpolazione matematica: curva analitica che passa esattamente per punti dati → Interpolazione statistica: curva analitica che passa tra i punti dati. Utilizzeremo l’interpolazione statistica= REGRESSIONE

Regressione in Media

Dovremo definire una funzione che ci faccia perdere meno informazioni possibili, la funzione di Perdita; vogliamo quindi che y-y* (ovvero la perdita) sia molto piccola. → L(y- g(x))≥ 0 → Funzione di danno globale. Tra le varie g(x) che passano tra i dati in esame, si sceglie la funzione di media quadratica, ovvero la media dei quadrati dagli scarti: → L(y-g(x))= M (( Y- g(x))^2 = min → è la proprietà di minimo della media Siccome vogliamo trovare la funzione che passa tra i nostri dati, la media che ci interessa è la Media Condizionata→ g(xi)= μy (xi) Avremo tante Medie/Varianze Condizionate tante quante sono le modalità della condizionante. M(x) condizionata totale = (μgruppi x nigruppi ) / n → è uguale alla media totale di X marginale σ^2 (x) condizionata totale = (σ^2 gruppi x ni (^) gruppi ) / n

χ n^2 =

χ^2

n ⋅ min

[(

h − 1 ); ( k − 1 )

]

Indipendenza in Media → η^2 Y=

Si ha se le medie condizionate sono uguali tra di loro e uguali alla media marginale a) per Y|x : - μY (xi)= μY , allora la varianza spiegata sarà uguale a 0 (e quindi anche η^2 =0)

  • La Funzione di Regressione è una retta parallela all’asse X b) per X|y: - μX (yi)= μX, allora la varianza spiegata sarà uguale a 0
  • La Funzione di Regressione è una retta parallela all’asse Y Es: considero Y dato X Y|X x1 x2 x 1 0 20 10 30 μy(x1)= (10+210+30)/10=2 → η^2 Y= 2 10 30 0 40 μy(x2)= (120+230+320)/70=2 ^2 X≠0) 3 0 20 10 30 μy(x3)= (110+20+3*10)/20= → η^2 Y=0 se varianza between =0 , quindi medie marginali uguali tra loro

Relazione tra Indipendenza Stocastica e Indipendenza in Media

→ L’Indipendenza in Media non è simmetrica (se Y|x è indipendente in media, non è detto che lo sia anche X|y) (a differenza dell’indipendenza stocastica che è simmetrica). → Se c’è indipendenza stocastica allora c’è indipendenza in Media (NB: NON VICEVERSA), sia per Y dato x che per X dato y, e sono =0. In questo caso l’indipendenza in media è simmetrica.

Dipendenza Funzionale → η^2 Y=

Si ha quando ad ogni X corrisponde una sola Y (e viceversa). Questo perché essendoci un solo dato, esso coinciderà con la media. La variabile è quindi degenere e quindi le varianze condizionate saranno nulle e anche la varianza residua è nulla. Quindi η^2 Y=1 (che si ottiene facendo 1 – 0).

  • La Funzione di Regressione diventa l’interpolante matematica dei dati (ovvero una retta che passa per i dati). Es. 1 Y|X x1 x2 x y1 1 0 3 4 y2 0 10 0 10 η^2 Y=1→ Perfetta dipendenza funzionale 1 10 3 14 η^2 X≠ 1 → non c’è simmetria

Es. 2 Y|X x1 x2 x y1 1 0 0 1 y2 0 4 0 4 η^2 Y=η^2 Y=1 → Perfetta dipendenza funzionale y3 0 0 3 3 biunivoca. 1 4 3 8 → η^2 Y=1 allora varianza between = varianza totale e quindi varianza within =0 (varianze marg.=0) Casi Particolari in cui η^2 Y=η^2 X

Nei casi limite: indipendenza stocastica e perfetta dipendenza funzionale biunivoca Nel caso di uguaglianza tra la distribuzione delle medie di X|y, la la distribuzione delle media di Y|x e tra le varianze marginali.

Espressione analitica della Funzione di Regressione

E’ un polinomio completo di grado (h-1), passante per le h medie condizionate che unisce le medie senza discontinuità. Per Y|x → g(x)=μY(xi)= a 0 +a 1 x+a 2 x^2 +a 3 x^3 +...+ah-1x h-1.

Regressione ai Minimi Quadrati

→ I Modelli di Regressione

Sono dei modelli che approssimano la funzione di regressione; Non passano per le medie condizionate ma fra i dati Sono dei modelli polinomiali completi il cui grado è compreso tra 0≤r≤h-1 (dove h-1 è l’esatta funzione di regressione). Avremo quindi y= a 0 +a 1 x+a 2 x^2 +...arxr. Y= valore teorico derivante dal modello Y= valori osservati Analisi di un modello

  1. Scelta del Modello Potrò scegliere un modello lineare (polinomio di ordine r) oppure non lineare (esponenziale, logaritmico ecc). Nel caso scegliessimo un modello polinomiale bisogna scegliere il grado r del polinomio.
  2. Calcolo o stima dei parametri A questo punto bisogna trovare il valore dei parametri a0, a1, ecc

Altrimenti si può utilizzare la Formula Operativa , ovvero la media dei prodotti – il prodotto tra le due medie. Es.

Y|X 1 2 3 4 30 3 0 0 0 3 50 1 4 6 2 13 70 0 1 2 6 9 4 5 8 8 25 M(X)= 2. M(Y)= 54. Formula di definizione→ Cov(X,Y)= ((1-2,8)(30-54,8) 3)+ ((1-2,8)(50-54,8) 1) +...ecc))/25= 9. Formula Operativa→ Cov(X,Y)= ((1 x 30 x 3)+(1x50x1)+ ...ecc))/25 – (2.8 x 54.8) = 9.

X Y XY 1 20 20 2 29 58 μx= 3 2 31 62 μy=27. 3 40 120 3 50 150 Cov(X,Y)= (620/8) – (3x27.5)= - 4 21 84 4 19 76 5 10 50 620 La Quantità (xi-μx)(yj-μy) è: Più spesso Positiva se Cov > 0 Più spesso negativa se Cov < 0 → La Covarianza può assumere tutti i valori reali; Se è positiva indica una tendenza alla linearità positiva (crescente) Se è negativa indica una tendenza alla linearità negativa (decrescente).

Proprietà della Covarianza

  1. Cov(X,Y)=Cov(Y,X) simmetria
  2. La Covarianza è compresa tra -σxσy e + σxσy (prodotto degli scarti quadratici medi marginali).
  3. Var(X±Y)= Var(X)+(VarY) ± 2Cov (X,Y)

Cov ( X , Y ) =

xi ⋅ yi ⋅ f ij ) − ( μ x ⋅ μy )

Per capire se la covarianza è alta o bassa calcoliamo la Covarianza Normalizzata, ovvero il

Coefficiente di correlazione Lineare ρ

→ E’ compreso tra -1 e +1 ed è simmetrico

Casi Particolari

  1. ρ=0 → Caso di Minima Correlazione E’ la condizione di incorrelazione /indipendenza lineare tra le due variabili (non esiste alcun legame di tipo lineare)
  2. ρ=+1 → Caso di Massima Correlazione Si ha quando il legame tra le due variabili è perfettamente lineare e diretto. La retta che congiunge i punti ha coefficiente angolare positivo
  3. ρ=-1 → Caso di Massima Correlazione Si ha quando il legame tra le due variabili è perfettamente lineare ma inverso. La retta che congiunge i punti ha coefficiente angolare negativo NB: Per capire la grandezza del coefficiente di correlazione lineare bisogna guardare il numero in valore assoluto, senza segno. Il segno serve per capire se è correlazione positiva o negativa. Es. come tabella 1) precedente ρ= 9.76/ (radice di 1.12 x radice di 168.96)= 0. Es. come tabella 2) sopra ρ= -5 / (radice di 1.5 x radice di 144.25) = -0. NB: → Correlazione (relazione di linearità tra variabili) E’ DIVERSO DA Causalità (relazione di causa tra due variabili). → Correlazione spuria= correlazione che risulta alta quando in realtà la relazione non sussiste.

Relazioni tra le forme di Indipendenza

Se c’è Indipendenza stocastica ci sono Indipendenza in Media e Incorrelazione (Indip. Lineare). Se c’è Indipendenza in Media c’è anche Incorrelazione, ma non implica Indipendenza stocastica. L’Incorrelazione non implica ne una ne l’altra. COV=0 se c’è Indipendenza Stocastica oppure Indipendenza in Media.

Cov ( X , Y )

σ x ⋅ σ y

σ^2 SP= varianza dei valori teorici = M((â+ḃX) - μy)^2 σ^2 YR= varianza dei residui = M (Y- (â+ḃX))^2 || σ^2 YR= σ^2 Y(1- ρ^2 ) ||

Indice di Adattamento della Retta di Regressione → R^2 = σ^2 SP/σ^2 Y

E’ un valore compreso tra 0 e 1, tanto più è vicino a 1 tanto spiega il nostro modello. Se è =0, la retta non spiega nulla e i dati non presentano linearità; Se è =1 i dati sono allineati e la retta spiega tutto (passa per i dati). R^2 retta = ρ^2.

Casi Particolari

→ Modello Retta Incompleta

In Entrambi i casi non si può calcolare ρ^2 come indice di adattamento -Y= bX; retta passante per origine ḃ= μ(xy)/ μ(x^2 ) M(E^2 )= σ^2 YR= (Σ(yi – ŷi)^2 ) / n , dove ŷ= y moltipl. ḃ R^2 = 1 - (σ^2 YR/ σ^2 Y) -Y= a; retta parallela all’asse x; â= μy M(E^2 )= σ^2 YR = σy σ^2 SP = R^2 = 0

→ Modelli Non Lineari : modelli non lineari nei parametri che trasformati divengono lineari

  • Non vale il teorema della scomposizione della Varianza
  • Non si possono calcolare ρ e R^2
  • Per confrontare i modelli posso calcolare solo la varianza residua: non è un valore normalizzato quindi posso solo confrontarlo con altri modelli senza stabilire se è grande o piccolo.
  1. lny= lna + bx → W=A+bx Â= M(W)-ḃ(M(X)) ḃ= Cov(X,W)/σ^2 x W= Â+ḃx → Y= (eÂ)(e ḃx) σ^2 res= M(y- eÂ^ x e ḃx)^2
  2. Y= a+b/X → Y=a+bW â e ḃ si calcolano con le formule della retta (con W=1/X) (^) Per calcolare la bontà del modello posso usare σ (^2) res o ρ^2 ρ^2 = Cov (WY)^2 / σ^2 w σ^2 y σ^2 res= M(Y-Y*)^2

→ Modello Retta di Regressione con Variabili Qualitative

E’ possibile applicare la Regressione anche nel caso in cui la Variabile Indipendente (X) sia Qualitativa → Y*= a+bX La Variabile qualitativa è resa quantitativa tramite le Variabili Dummy.

I parametri â e ḃ si calcolano esattamente come per la retta completa utilizzando 0,1 per la vs X. I valori dei parametri si possono interpretare come “incremento” o “decremento” della media della variabile dipendente per la modalità di valore 1 nei confronti dell’altra. Se poniamo M=1 e F=0, il coefficiente angolare (b) rappresenta l’incremento/decremento della

media di y del gruppo con x=1 (maschi) rispetto alla media di y di chi ha x=0 (femmine)

Se Y=a, vuol dire che a è l’Y media quando x=0 (quindi nel nostro esempio è la media delle femmine) La valutazione della bontà del modello si conduce come la retta di regressione tramite l’indice di adattamento o la varianza residua. Le variabili dummy si utilizzano per lo più in modelli con più variabili indipendenti (es. Modello Multiplo) se b>0→ incremento reddito maschi rispetto al reddito femmine

se b<0 → decremento reddito maschi rispetto al reddito femmine se b=0 → il reddito dei maschi non è diverso da quello delle femmine

Confronti tra gli indici di adattamento

η^2 è l’indice di adattamento della funzione di regressione ρ^2 è l’indice riferito al solo modello retta completo R^2 è invece l’indice di adattamento di un qualsiasi altro modello → La retta di regressione è un modello di grado 1, che approssima la funzione di regressione (che è un modello di grado h-1). Tra i due il modello migliore è la funzione di regressione, e siccome il modello migliore è quello con l’indice più alto, quindi → 0 ≤ρ^2 ≤η^2 ≤ 1 Casi Particolari di confronto tra η^2 e ρ^2 Vedi slide e appunti!!!

NB: Individuazione miglior modello→ massimo indice di adattamento; parsimonia (= bisogna inserire il numero minimo di variabili indipendenti che consenta di spiegare al meglio il modello).

  1. Tabella di analisi della varianza : contiene delle informazioni descrittive ed inferenziali. Nella tabella abbiamo per esempio R^2 , che ci da l’R^2 del nostro modello e le Osservazioni. Nello schema dove si analizza la varianza troviamo dei dati riferiti alla Regressione (quantità riferite al modello stimato), al Residuo (quantità riferite alla parte “non spiegata” dal modello) e al Totale (quantità riferite alla variabile dipendente). Tra i dati riferiti a queste tre analisi troviamo:
  • gdl= gradi di libertà
  • SQ= somma dei quadrati (ovvero il numeratore della varianza)
  • MQ= media dei quadrati (ovvero SQ/gdl)
  • Test di Adattamento= F(gdl (regressione), gdl(residuo))=MQ(regressione/MQ(residuo)
  • F= Test F
  • P-Value= Significatività F (è la probabilità associata al test F, ovvero è la probabilità che la nostra variabile casuale F sia maggiore o uguale del numero calcolato stampato nella colonna F); Definisce la significatività del modello→ è un altro indice che definisce la bontà del modello. Se è un numero < 0.05, la significatività del modello è molto buona.
  1. Tabella delle Stime e dei test parametri : contiene i coefficienti (a0,a1,a2 ecc), ovvero le stime del modello. Nello schema troviamo i dati di Intercetta e Variabili X1,X2 ecc. Tra i dati riferiti a queste analisi troviamo:
  • Coefficienti= valori delle stime e dei parametri
  • Errore standard =valori degli errori quadratici delle stime
  • Stat t= valori del test t associato ad ogni parametro
  • P-Value= Significatività dei coefficienti (indica se un coefficiente è davvero diverso da 0 e quindi significativo); se il P-Value è < 0.05, la variabile associata a questo valore è significativa per il modello, se il P-value è >0.05 la variabile non è significativa, potremo decidere se togliere la variabile dal modello. 16