Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Il Coefficiente di Correlazione Lineare di Pearson e la Retta di Regressione, Dispense di Statistica

Università telematica eCampus (UNIECAMPUS)Statistica

misurazione della relazione lineare esistente fra due variabili

Tipologia: Dispense

2019/2020

Caricato il 23/10/2020

cerenzia 🇮🇹

4

(1)

24 documenti

1 / 12

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

Lezione 7

Regressione lineare semplice

In questa Lezione presentiamo un modello per la misurazione della

relazione lineare esistente fra due variabili. Come ricordiamo, per

confrontare adeguatamente due distribuzioni possiamo fare riferimento alle

variabili standardizzandole per evitare l’influenza, nel confronto, dovuta a

differenze nei valori della Media e della Varianza. In questo modo è anche

possibile procedere alla creazione di un indice importantissimo in statistica,

che misura il grado di relazione lineare esistente fra le due variabili

confrontate.

Se le variabili sono X ed Y e standardizziamo le stesse mediante

sottrazione ad ogni osservazione della media aritmetica e divisione del

risultato per la deviazione standard, otteniamo le già denominate, nelle

lezioni precedenti, variabili standard Z.

La misura sintetica che indica quale sia la relazione lineare esistente

fra due variabili X ed Y, allora, si ottiene mediante la media aritmetica dei

prodotti delle variabili standardizzate. In simboli, abbiamo il seguente

Coefficiente di correlazione lineare di Pearson, normalmente denominato

con la lettera greca “rho”:

ρ











−











−

== ∑∑ == y

i

n

ix

i

n

iiyix

YyXx

n

zz

nσσ

ρ

11 ,,

11

Scopri Dispense di Statistica Università telematica eCampus (UNIECAMPUS)

Documenti correlati

Correlazione tra variabili: calcolare coefficiente di correlazione e retta di regressione

Correlazione regressione lineare

correlazione lineare linea di regressione

Regressione lineare, dipendenza e correlazione

Analisi della retta di regressione e della correlazione lineare - Prof. Cossari

Lezione 7: Retta di regressione e correlazione

Analisi Statistica: Correlazione e Regressione Lineare

Calcoli statistici: correlazione lineare e regressione

Distribuzioni Doppie: Regressione Lineare e Correlazione

Massimo minimo, coefficiente R, retta di regressione, tabelle di indipendenza.

Calcoli di Correlazione e Regressione: Covarianza, Indice di Correlazione, Retta di Regres

Analisi della regressione lineare e coefficiente di determinazione

(2)

Anteprima parziale del testo

Scarica Il Coefficiente di Correlazione Lineare di Pearson e la Retta di Regressione e più Dispense in PDF di Statistica solo su Docsity!

Lezione 7

Regressione lineare semplice

In questa Lezione presentiamo un modello per la misurazione della relazione lineare esistente fra due variabili. Come ricordiamo, per confrontare adeguatamente due distribuzioni possiamo fare riferimento alle variabili standardizzandole per evitare l’influenza, nel confronto, dovuta a differenze nei valori della Media e della Varianza. In questo modo è anche possibile procedere alla creazione di un indice importantissimo in statistica, che misura il grado di relazione lineare esistente fra le due variabili confrontate. Se le variabili sono X ed Y e standardizziamo le stesse mediante sottrazione ad ogni osservazione della media aritmetica e divisione del risultato per la deviazione standard, otteniamo le già denominate, nelle lezioni precedenti, variabili standard Z. La misura sintetica che indica quale sia la relazione lineare esistente fra due variabili X ed Y, allora, si ottiene mediante la media aritmetica dei prodotti delle variabili standardizzate. In simboli, abbiamo il seguente Coefficiente di correlazione lineare di Pearson , normalmente denominato con la lettera greca “rho”: ρ



= = ^ −

∑= ∑= i y

n i (^) x

n i i xi yi

x X y Y ρ (^) n (^) 1 z , z , n 1 σ σ

Tale espressione si può anche scrivere come segue

x y

i i

n i n x X y^ Y ρ σ σ

1

per evidenziare il numeratore che assume il nome

di Covarianza: ∑

=

n xy (^) i i i n x X y Y 1

σ^1 ( )( ). Quindi, il coefficiente di

correlazione lineare può anche esprimersi sinteticamente mediante la

seguente espressione: x y xy xy σσ ρ = σ per la quale il numeratore è la

Covarianza ed il denominatore è dato dal prodotto degli Scarti quadratici medi delle due variabili. Notiamo che per il modo in cui tale indice è costruito vale la seguente: ρ (^) xy = ρyx.

Ai fini di un confronto fra variabili, sarà opportuno utilizzare il Coefficiente di correlazione lineare perché la Covarianza dipende dall’unità di misura delle variabili confrontate, mentre il Coefficiente di correlazione lineare è un indice normalizzato , non dipendente quindi dalle unità di misura delle variabili che analizza e col seguente campo di variazione: − 1 < ρ (^) xy <+ 1.

Se =1 siamo di fronte a perfetta correlazione lineare positiva. Se = -1 siamo di fronte a perfetta correlazione lineare negativa. Se = 0 siamo di fronte ad assenza di correlazione lineare. Se il valore del coefficiente è positivo ma inferiore ad uno, siamo di fronte a correlazione positiva (diretta); viceversa, se il valore è negativo ma superiore a -1, la correlazione fra le due variabili è negativa (detta anche inversa) ma non perfetta.

Correlazione Positiva

0

1

2

3

4

5

6

7

8

9

(^1 2 3) Variabile X 4 5 6 7

Variabile Y

Correlazione Positiva

Viceversa, il contrario.

Correlazione Negativa

0

1

2

3

4

5

6

7

8

(^1 2 3) Variabile X 4 5 6 7

Variabile Y

Correlazione Negativa

Se, invece, al variare di una non si identifica un incremento né una diminuzione dell’altra, allora si parlerà di assenza di correlazione.

Correlazione Nulla

1,

2,

3,

(^1 2 3) Variabile X 4 3 3 3

Variabile Y

Correlazione NullaLineare (Correlazione Nulla)

Come si può intuire dai grafici, il Coefficiente di correlazione lineare quantifica la relazione lineare esistente fra le variabili ma non fornisce l’equazione della (cosiddetta) “ Retta di regressione ”, ossia della retta che quantifica precisamente la relazione lineare esistente fra le due variabili in termini matematici , considerando che una delle due può essere considerata variabile indipendente e l’altra variabile dipendente. Come precedentemente affermato, infatti, il Coefficiente di correlazione lineare non ci dice nulla in merito all’ eventuale rapporto di causazione fra le due variabili. Solamente se quest’ultimo viene individuato (al di fuori delle valutazioni quantitative, quindi) e si stabilisce che ci sia un rapporto di causazione fra le due variabili, allora ha senso che la relazione lineare esistente sia espressa sotto forma di Retta di regressione , perché questa che ora spieghiamo si quantifica nei parametri, in base alla supposta dipendenza di una variabile da un’altra.

la retta di regressione (la retta orizzontale dello stesso grafico), la teoria matematica ha stabilito che i parametri in oggetto si individuano come soluzione del sistema lineare di due equazioni in due incognite (i parametri della retta di regressione) derivato dalla minimizzazione della somma dei quadrati degli scarti (da qui la locuzione: Metodo dei minimi quadrati) fra i valori osservati e quelli che giacciono sulla retta di regressione. In simboli, dobbiamo trovare i valori teorici della Y, denominati y ˆ i , tali per cui sia

minima la distanza fra i valori osservati nella variabile dipendente e tali

valori teorici. In formula: 2 1

∑( ˆ^ )

=

n i i^ i

Min y y , dove le y (^) i sono i valori

osservati della variabile dipendente e le y ˆ (^) i sono i valori teorici che

giacciono sulla retta di regressione ( y ˆ^ i = β (^) 0 + βxyxi ) i cui parametri sono da

quantificare. Per trovare il risultato dei valor dei due parametri, la minimizzazione si può esprimere sostituendo alle y ˆ (^) i il termine di destra

dell’equazione della retta di regressione: 2 1 0

=

n i i^ xy i

Min y β β x. Ora non

svolgeremo i passaggi relativi ma ricordiamo che per calcolare un punto di minimo di una funzione quadratica si devono porre uguali a zero le derivate parziali rispetto alle incognite (in questo caso, rispetto a β (^) 0 e β (^) xy ). Dopo lo

svolgimento dei relativi passaggi, si individuano le seguenti soluzioni.

=

= −

= (^) n i i

n xy i i i x X

x X y Y

1

2

1 ( )

β ;

β (^) 0 = Y − βxy X

La relazione principale da determinare, evidentemente, è la prima, dato che la seconda è derivabile mediante una semplice sottrazione, partendo dalla prima; tale valore rappresenta il coefficiente angolare della retta di

regressione e si può anche riscrivere come segue β (^) xy = CovVar (( X X , Y )), ossia

considerandolo come il rapporto fra la Covarianza fra le due variabili e la Varianza della variabile indipendente. Inoltre, considerando dei semplici passaggi algebrici, si può anche scrivere:

x xy xy y σ β = ρ σ , ossia che il coefficiente angolare della retta di regressione è

dato dal rapporto fra gli Scarti quadratici medi delle due variabili: al numeratore quello della variabile dipendente ed al denominatore quello della variabile indipendente. Per questo indice, al contrario di quanto visto per il coefficiente di correlazione lineare, per il modo in cui è costruito vale che: β (^) xy ≠ βyx , dato che il numeratore ed il denominatore nel secondo caso

sono invertiti nel quoziente della formula di calcolo.

Esempio. Siano dati i seguenti valori di due variabili, X e Y.

Calcolare:

il Coefficiente di correlazione lineare fra le due variabili;

X Y 2 4 5 5 3 2 8 7 9 6

Per calcolare i parametri della retta di regressione, invece, iniziamo dal coefficiente angolare della retta, il parametro β (^) xy.

Dato che abbiamo già calcolato il coefficiente di correlazione lineare e gli scarti quadratici medi delle due variabili, possiamo calcolarne direttamente

il valore: = = 0 , 826812 ,,^7273 = 0 , 5215 x xy xy y σ β ρ σ. Da questo deriva che:

β 0 (^) = Y − βxyX = 4 , 80 − 0 , 5215 × 5 , 40 = 1 , 9839 ; pertanto l’equazione della

retta di regressione, indicando con Y la variabile dipendente e con X la

variabile indipendente, è la seguente: Y ˆ^ = β 0 (^) + βxy X = 1 , 9839 + 0 , 5215 X.

Una volta determinati i parametri della Retta di regressione lineare, possiamo determinare i valori teorici della variabile dipendente in funzione di tale retta. Ossia, abbiamo osservato determinati valori della Y ed ora possiamo determinare i valori teorici desumibili per ogni X dall’applicazione dell’equazione della retta. Per X=2 , il primo valore che abbiamo osservato della Y era 4 ma se noi applichiamo la retta di regressione per determinare il valore teorico della Y corrispondente al valore

X=2 , otteniamo: Y ˆ^ = 1 , 9839 +( 0 , 515 × 2 )= 3 , 0269. Così via per tutti gli altri

valori teorici delle Y corrispondenti ai valori osservati della X , in questo caso denominati Y’. X Y' (stimati) 2 3, 5 4, 3 3, 8 6, 9 6, Sulla base di questi valori stimati, possiamo calcolare anche la differenza fra i valori osservati e quelli teorici stimati e determinare così i cosiddetti

“residui” del modello: ri = ( yi − y ˆ i ). Sempre indicando con Y’ i valori

teorici e con Y quelli osservati si determina, per ciascuna osservazione, il residuo, ossia la “distanza” (differenza) fra i secondi ed i primi. r (=Y - Y') 0, 0, -1, 0, -0, Da questo dato, allora, si può considerare che la Varianza totale dei dati osservati risulta essere il risultato della somma fra la Varianza dei dati teorici, ossia della Varianza “spiegata” dal modello, e la Varianza dei residui. Possiamo pertanto scrivere la seguente: Var(Y) = Var(Y') + Var(r). Calcolate la Varianze, otteniamo: Var(Y)2,96 = Var(Y')2,02 + Var(r)0,94, e quindi possiamo anche considerare che la Varianza spiegata dal modello sarà sempre minore o uguale a quella totale, ossia Var ( Y ')≤ Var ( Y ); quindi

possiamo anche scrivere che il rapporto fra queste due varianze sarà al

massimo pari ad uno VarVar^ ((^ Y Y '))≤^1 sapendo che sarà proprio pari ad uno in

caso di assenza di residui nel modello applicato. Ebbene, questo rapporto assume il nome di Coefficiente di determinazione

lineare e si indica con il simbolo R^2. Nel caso specifico, abbiamo il seguente valore del Coefficiente di

determinazione lineare R^2 = VarVar (( YY '))= 22 ,, 9602 = 0 , 68 che ci indica che il 68%

della Varianza delle osservazioni è spiegato dal modello di regressione lineare utilizzato. In questo modo, possiamo ottenere una quantificazione dell’utilità del modello stesso, nella sua capacità di rappresentare