






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
misurazione della relazione lineare esistente fra due variabili
Tipologia: Dispense
1 / 12
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







In questa Lezione presentiamo un modello per la misurazione della relazione lineare esistente fra due variabili. Come ricordiamo, per confrontare adeguatamente due distribuzioni possiamo fare riferimento alle variabili standardizzandole per evitare l’influenza, nel confronto, dovuta a differenze nei valori della Media e della Varianza. In questo modo è anche possibile procedere alla creazione di un indice importantissimo in statistica, che misura il grado di relazione lineare esistente fra le due variabili confrontate. Se le variabili sono X ed Y e standardizziamo le stesse mediante sottrazione ad ogni osservazione della media aritmetica e divisione del risultato per la deviazione standard, otteniamo le già denominate, nelle lezioni precedenti, variabili standard Z. La misura sintetica che indica quale sia la relazione lineare esistente fra due variabili X ed Y, allora, si ottiene mediante la media aritmetica dei prodotti delle variabili standardizzate. In simboli, abbiamo il seguente Coefficiente di correlazione lineare di Pearson , normalmente denominato con la lettera greca “rho”: ρ
n i (^) x
n i i xi yi
x X y Y ρ (^) n (^) 1 z , z , n 1 σ σ
Tale espressione si può anche scrivere come segue
x y
i i
n i n x X y^ Y ρ σ σ
1
per evidenziare il numeratore che assume il nome
=
n xy (^) i i i n x X y Y 1
σ^1 ( )( ). Quindi, il coefficiente di
correlazione lineare può anche esprimersi sinteticamente mediante la
seguente espressione: x y xy xy σσ ρ = σ per la quale il numeratore è la
Covarianza ed il denominatore è dato dal prodotto degli Scarti quadratici medi delle due variabili. Notiamo che per il modo in cui tale indice è costruito vale la seguente: ρ (^) xy = ρyx.
Ai fini di un confronto fra variabili, sarà opportuno utilizzare il Coefficiente di correlazione lineare perché la Covarianza dipende dall’unità di misura delle variabili confrontate, mentre il Coefficiente di correlazione lineare è un indice normalizzato , non dipendente quindi dalle unità di misura delle variabili che analizza e col seguente campo di variazione: − 1 < ρ (^) xy <+ 1.
Se =1 siamo di fronte a perfetta correlazione lineare positiva. Se = -1 siamo di fronte a perfetta correlazione lineare negativa. Se = 0 siamo di fronte ad assenza di correlazione lineare. Se il valore del coefficiente è positivo ma inferiore ad uno, siamo di fronte a correlazione positiva (diretta); viceversa, se il valore è negativo ma superiore a -1, la correlazione fra le due variabili è negativa (detta anche inversa) ma non perfetta.
Correlazione Positiva
0
1
2
3
4
5
6
7
8
9
(^1 2 3) Variabile X 4 5 6 7
Variabile Y
Correlazione Positiva
Viceversa, il contrario.
Correlazione Negativa
0
1
2
3
4
5
6
7
8
(^1 2 3) Variabile X 4 5 6 7
Variabile Y
Correlazione Negativa
Se, invece, al variare di una non si identifica un incremento né una diminuzione dell’altra, allora si parlerà di assenza di correlazione.
Correlazione Nulla
1,
1,
1,
2,
2,
2,
2,
2,
3,
(^1 2 3) Variabile X 4 3 3 3
Variabile Y
Correlazione NullaLineare (Correlazione Nulla)
Come si può intuire dai grafici, il Coefficiente di correlazione lineare quantifica la relazione lineare esistente fra le variabili ma non fornisce l’equazione della (cosiddetta) “ Retta di regressione ”, ossia della retta che quantifica precisamente la relazione lineare esistente fra le due variabili in termini matematici , considerando che una delle due può essere considerata variabile indipendente e l’altra variabile dipendente. Come precedentemente affermato, infatti, il Coefficiente di correlazione lineare non ci dice nulla in merito all’ eventuale rapporto di causazione fra le due variabili. Solamente se quest’ultimo viene individuato (al di fuori delle valutazioni quantitative, quindi) e si stabilisce che ci sia un rapporto di causazione fra le due variabili, allora ha senso che la relazione lineare esistente sia espressa sotto forma di Retta di regressione , perché questa che ora spieghiamo si quantifica nei parametri, in base alla supposta dipendenza di una variabile da un’altra.
la retta di regressione (la retta orizzontale dello stesso grafico), la teoria matematica ha stabilito che i parametri in oggetto si individuano come soluzione del sistema lineare di due equazioni in due incognite (i parametri della retta di regressione) derivato dalla minimizzazione della somma dei quadrati degli scarti (da qui la locuzione: Metodo dei minimi quadrati) fra i valori osservati e quelli che giacciono sulla retta di regressione. In simboli, dobbiamo trovare i valori teorici della Y, denominati y ˆ i , tali per cui sia
minima la distanza fra i valori osservati nella variabile dipendente e tali
valori teorici. In formula: 2 1
=
n i i^ i
Min y y , dove le y (^) i sono i valori
osservati della variabile dipendente e le y ˆ (^) i sono i valori teorici che
giacciono sulla retta di regressione ( y ˆ^ i = β (^) 0 + βxyxi ) i cui parametri sono da
quantificare. Per trovare il risultato dei valor dei due parametri, la minimizzazione si può esprimere sostituendo alle y ˆ (^) i il termine di destra
dell’equazione della retta di regressione: 2 1 0
=
n i i^ xy i
Min y β β x. Ora non
svolgeremo i passaggi relativi ma ricordiamo che per calcolare un punto di minimo di una funzione quadratica si devono porre uguali a zero le derivate parziali rispetto alle incognite (in questo caso, rispetto a β (^) 0 e β (^) xy ). Dopo lo
svolgimento dei relativi passaggi, si individuano le seguenti soluzioni.
=
= −
= (^) n i i
n xy i i i x X
x X y Y
1
2
1 ( )
β ;
β (^) 0 = Y − βxy X
La relazione principale da determinare, evidentemente, è la prima, dato che la seconda è derivabile mediante una semplice sottrazione, partendo dalla prima; tale valore rappresenta il coefficiente angolare della retta di
regressione e si può anche riscrivere come segue β (^) xy = CovVar (( X X , Y )), ossia
considerandolo come il rapporto fra la Covarianza fra le due variabili e la Varianza della variabile indipendente. Inoltre, considerando dei semplici passaggi algebrici, si può anche scrivere:
x xy xy y σ β = ρ σ , ossia che il coefficiente angolare della retta di regressione è
dato dal rapporto fra gli Scarti quadratici medi delle due variabili: al numeratore quello della variabile dipendente ed al denominatore quello della variabile indipendente. Per questo indice, al contrario di quanto visto per il coefficiente di correlazione lineare, per il modo in cui è costruito vale che: β (^) xy ≠ βyx , dato che il numeratore ed il denominatore nel secondo caso
sono invertiti nel quoziente della formula di calcolo.
Esempio. Siano dati i seguenti valori di due variabili, X e Y.
Calcolare:
X Y 2 4 5 5 3 2 8 7 9 6
Per calcolare i parametri della retta di regressione, invece, iniziamo dal coefficiente angolare della retta, il parametro β (^) xy.
Dato che abbiamo già calcolato il coefficiente di correlazione lineare e gli scarti quadratici medi delle due variabili, possiamo calcolarne direttamente
il valore: = = 0 , 826812 ,,^7273 = 0 , 5215 x xy xy y σ β ρ σ. Da questo deriva che:
β 0 (^) = Y − βxyX = 4 , 80 − 0 , 5215 × 5 , 40 = 1 , 9839 ; pertanto l’equazione della
retta di regressione, indicando con Y la variabile dipendente e con X la
variabile indipendente, è la seguente: Y ˆ^ = β 0 (^) + βxy X = 1 , 9839 + 0 , 5215 X.
Una volta determinati i parametri della Retta di regressione lineare, possiamo determinare i valori teorici della variabile dipendente in funzione di tale retta. Ossia, abbiamo osservato determinati valori della Y ed ora possiamo determinare i valori teorici desumibili per ogni X dall’applicazione dell’equazione della retta. Per X=2 , il primo valore che abbiamo osservato della Y era 4 ma se noi applichiamo la retta di regressione per determinare il valore teorico della Y corrispondente al valore
X=2 , otteniamo: Y ˆ^ = 1 , 9839 +( 0 , 515 × 2 )= 3 , 0269. Così via per tutti gli altri
valori teorici delle Y corrispondenti ai valori osservati della X , in questo caso denominati Y’. X Y' (stimati) 2 3, 5 4, 3 3, 8 6, 9 6, Sulla base di questi valori stimati, possiamo calcolare anche la differenza fra i valori osservati e quelli teorici stimati e determinare così i cosiddetti
“residui” del modello: ri = ( yi − y ˆ i ). Sempre indicando con Y’ i valori
teorici e con Y quelli osservati si determina, per ciascuna osservazione, il residuo, ossia la “distanza” (differenza) fra i secondi ed i primi. r (=Y - Y') 0, 0, -1, 0, -0, Da questo dato, allora, si può considerare che la Varianza totale dei dati osservati risulta essere il risultato della somma fra la Varianza dei dati teorici, ossia della Varianza “spiegata” dal modello, e la Varianza dei residui. Possiamo pertanto scrivere la seguente: Var(Y) = Var(Y') + Var(r). Calcolate la Varianze, otteniamo: Var(Y)2,96 = Var(Y')2,02 + Var(r)0,94, e quindi possiamo anche considerare che la Varianza spiegata dal modello sarà sempre minore o uguale a quella totale, ossia Var ( Y ')≤ Var ( Y ); quindi
possiamo anche scrivere che il rapporto fra queste due varianze sarà al
massimo pari ad uno VarVar^ ((^ Y Y '))≤^1 sapendo che sarà proprio pari ad uno in
caso di assenza di residui nel modello applicato. Ebbene, questo rapporto assume il nome di Coefficiente di determinazione
lineare e si indica con il simbolo R^2. Nel caso specifico, abbiamo il seguente valore del Coefficiente di
determinazione lineare R^2 = VarVar (( YY '))= 22 ,, 9602 = 0 , 68 che ci indica che il 68%
della Varianza delle osservazioni è spiegato dal modello di regressione lineare utilizzato. In questo modo, possiamo ottenere una quantificazione dell’utilità del modello stesso, nella sua capacità di rappresentare