Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti sulla regressione lineare, Appunti di Statistica

Dispensa sulla regressione lineare

Tipologia: Appunti

2014/2015

Caricato il 25/04/2015

antonella.olanda
antonella.olanda 🇮🇹

4.7

(17)

20 documenti

1 / 8

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
LA REGRESSIONE LINEARE SEMPLICE
Premessa
Quando si prendono in considerazione congiuntamente due o più variabili quantitative (per quelle
qualitative, dette anche categoriali, si può ricorrere al Chi-quadrato o alle sue modificazioni), oltre
alla media e alle varianza, per ognuna di esse, è possibile:
Esaminare anche il tipo e l’intensità delle relazioni che sussistono tra loro; per esempio,
quando di un individuo si misurano contemporaneamente il peso e l’altezza, è possibile
verificare statisticamente se queste due variabili cambino simultaneamente, valutando
direzione e intensità della loro relazione;
Predire il valore di una variabile quando l’altra è nota (ad esempio come determinare in un
gruppo d’individuo il peso di ognuno sulla base della loro altezza).
Per rispondere a questa serie di domande, nel caso della rilevazione congiunta di due variabili, è
possibile ricorrere:
All’analisi della regressione;
Analisi della correlazione
Queste sono da considerare tra loro concettualmente alternative, seppure fondate su principi e
metodi simili.
In particolare:
si ricorre all'analisi della regressione quando dai dati campionari si vuole ricavare un
modello statistico che predica i valori di una variabile (Y) detta dipendente individuata come
effetto, a partire dai valori dell'altra variabile (X), detta indipendente o esplicativa,
individuata come causa.
si ricorre all'analisi della correlazione quando si vuole misurare l'intensità dell'associazione
tra due variabili quantitative (X1 e X2) che variano congiuntamente, senza che tra esse
esista una relazione diretta di causa-effetto.
E’ sempre importante saper distinguere tra:
Casualità o legame di causa-effetto, che richiede l’esame della regressione;
L’associazione o evoluzione temporale simile, che richiede la correlazione.
Queste relazioni di casualità oppure di evoluzione simile devono trovare i loro motivi e le
spiegazioni nella disciplina specifica in cui è posto il problema, non nella statistica. Sia più in
generale nella formulazione delle ipotesi e nella scelta dei confronti da effettuare, sia in questo caso
di scelta tra regressione e correlazione, non è possibile realizzare un’analisi statistica intelligente,
quando si separa la tecnica statistica dalla conoscenza della materia.
Spesso, per molti ricercatori, il calcolo e l’analisi della regressione:
Non implicano necessariamente l’esistenza di una relazione di causalità tra la X e la Y;
Né che essa sia nella direzione indicata dalla simbologia.
Spesso si ricorre alla regressione, quando si vuole semplicemente utilizzare la sua capacità
predittiva per stimare Y conoscendo X, ossia quando si vuole solamente ottenere una descrizione di
una relazione empirica oppure un controllo statistico della sua esistenza, senza entrare nella logica
disciplinare del suo effettivo significato.
Un po’ di storia…
La funzione matematica che può esprimere in modo oggettivo la relazione di causa-effetto tra due
variabili è chiamata equazione di regressione o funzione di regressione della variabile Y sulla
variabile X.
pf3
pf4
pf5
pf8

Anteprima parziale del testo

Scarica Appunti sulla regressione lineare e più Appunti in PDF di Statistica solo su Docsity!

LA REGRESSIONE LINEARE SEMPLICE

Premessa

Quando si prendono in considerazione congiuntamente due o più variabili quantitative (per quelle qualitative, dette anche categoriali, si può ricorrere al Chi-quadrato o alle sue modificazioni), oltre alla media e alle varianza, per ognuna di esse, è possibile:

  • Esaminare anche il tipo e l’intensità delle relazioni che sussistono tra loro; per esempio, quando di un individuo si misurano contemporaneamente il peso e l’altezza, è possibile verificare statisticamente se queste due variabili cambino simultaneamente, valutando direzione e intensità della loro relazione;
  • Predire il valore di una variabile quando l’altra è nota (ad esempio come determinare in un gruppo d’individuo il peso di ognuno sulla base della loro altezza). Per rispondere a questa serie di domande, nel caso della rilevazione congiunta di due variabili, è possibile ricorrere:
  • All’analisi della regressione;
  • Analisi della correlazione Queste sono da considerare tra loro concettualmente alternative, seppure fondate su principi e metodi simili. In particolare:
  • si ricorre all'analisi della regressione quando dai dati campionari si vuole ricavare un modello statistico che predica i valori di una variabile (Y) detta dipendente individuata come effetto, a partire dai valori dell'altra variabile (X), detta indipendente o esplicativa, individuata come causa.
  • si ricorre all'analisi della correlazione quando si vuole misurare l'intensità dell'associazione tra due variabili quantitative (X1 e X2) che variano congiuntamente, senza che tra esse esista una relazione diretta di causa-effetto.

E’ sempre importante saper distinguere tra:

  • Casualità o legame di causa-effetto, che richiede l’esame della regressione;
  • L’associazione o evoluzione temporale simile, che richiede la correlazione.

Queste relazioni di casualità oppure di evoluzione simile devono trovare i loro motivi e le spiegazioni nella disciplina specifica in cui è posto il problema, non nella statistica. Sia più in generale nella formulazione delle ipotesi e nella scelta dei confronti da effettuare, sia in questo caso di scelta tra regressione e correlazione, non è possibile realizzare un’analisi statistica intelligente, quando si separa la tecnica statistica dalla conoscenza della materia. Spesso, per molti ricercatori, il calcolo e l’analisi della regressione:

  • Non implicano necessariamente l’esistenza di una relazione di causalità tra la X e la Y;
  • Né che essa sia nella direzione indicata dalla simbologia. Spesso si ricorre alla regressione, quando si vuole semplicemente utilizzare la sua capacità predittiva per stimare Y conoscendo X, ossia quando si vuole solamente ottenere una descrizione di una relazione empirica oppure un controllo statistico della sua esistenza, senza entrare nella logica disciplinare del suo effettivo significato.

Un po’ di storia…

La funzione matematica che può esprimere in modo oggettivo la relazione di causa-effetto tra due variabili è chiamata equazione di regressione o funzione di regressione della variabile Y sulla variabile X.

Quindi con la regressione si intende lo studio della relazione che, a partire da una o più variabili esplicative (X), hanno come effetti sulla determinazione di una variabile dipendente (Y). Ovviamente tale relazione è soggetta a molti limiti , tra i quali vi sono, principalmente, le ipotesi che sottendono ad essa. Ipotesi che derivano, spesso, dalle impostazioni del ricercatore, il quale presuppone l’esistenza di un legame non sempre derivato dall’osservazione sperimentale, ma anche dalle sue stesse idee o dalla sua formazione politica e/o ideologica. Proprio la storia dell’evoluzione della tecnica della regressione lineare ne è un esempio. Le retta di regressione con il metodo dei minimi quadrati ( least squares ) è una delle tecniche più antiche della statistica moderna. La prima pubblicazione sul metodo least squares fitting è del 1806 ed è dovuta al matematico francese Adrian M. Legendre per il volume Nouvelles Methodes pour la Determination des Orbits des Cometes, (Paris). Nel 1809 il matematico e astronomo tedesco Karl F. Gauss (1777-1855) pubblica una memoria ( Werke, Gottingen, 4, 1821, collected works, 1873; vedere anche Theory of the Motion of the Heavenly Bodies Moving about the Sun in Conic Sections, Dover, new York. ) in cui afferma che all’età di 24 anni (1801) se ne era servito per calcolare l’orbita dell’asteroide Ceres e che aveva già impiegato questo metodo nel 1795. Il termine regressione e la sua applicazione a problemi statistici furono introdotti verso la metà dell'ottocento, insieme con i concetti di base della correlazione, dall’inglese Sir Francis Galton (1822-1911). Successivamente, sono stati sviluppati, in contesti differenti, da Karl Pearson (1857-

  1. e Ronald Fisher (1890-1962). Diplomatosi in Matematica presso il Trinity College di Cambridge, Galton interruppe gli studi e non raggiunse la laurea. Tuttavia, ebbe una attività scientifica importante (340 tra pubblicazioni e libri), in molti settori della ricerca e della vita sociale inglese:
  • eesploratore nell’Africa Equatoriale (Namibia) e membro eletto della Royal Geographic Society;
  • meteorologo, inventore della prima mappa sulla distribuzione geografica della pressione dell’aria per la teoria meteorologica degli anti-cicloni;
  • scopritore delle impronte digitali come indicatore certo dell’identità personale; persuase Scotland Yard ad adottare il sistema della impronte digitali;
  • statistico, dimostrò che la distribuzione di Laplace-Gauss o distribuzione normale può essere applicata agli attributi psicologici dell’uomo, inclusa l’intelligenza; introdusse l’uso dei percentili per misure relative in distribuzioni normali;
  • genetista, coniò il termine Eugenics e la frase Nature versus Nurture; introdusse il metodo del pedigree e quello dello studio dei gemelli, nell’analisi dei caratteri ereditari;
  • psicologo, definì l’abilità mentale e il genio in termini di punteggio (il quoziente d’intelligenza I.Q.), con il test d’intelligenza Stanford-Binet; fondò il primo centro mondiale per test mentali, nel quale una persona, dopo aver risolto una batteria di test, poteva ottenere un certificato del punteggio raggiunto. Soprattutto studiò le diversità dell’uomo, con particolare attenzione alle capacità intellettuali e morali, arrivando alla conclusione che il talento e il carattere sono solamente ereditari. Sarà chiamata la teoria del sangue blu: ogni uomo nella sua vita può essere solamente quello che è dalla nascita e per nascita. La conclusione scientifica e politica di questa concezione è che l’uomo può essere migliorato unicamente attraverso incroci selettivi. Galton estese questi concetti dalle caratteristiche individuali alle popolazioni: sulla base delle sue osservazioni in Africa, stimò che, nella distribuzione normale dell’abilità mentale generale, i popoli africani si trovavano di due gradi sotto la posizione degli anglosassoni. Biologo, Psicologo, Statistico ed Educatore, è riconosciuto come il padre della behavioral genetics. L’analisi della regressione lineare semplice nasce in questo contesto culturale e politico. Sviluppando i suoi studi di eugenica, Galton voleva verificare se la statura dei figli potesse essere prevista sulla base di quella dei genitori. Ed esprimere questa corrispondenza in una legge matematica. Il ragionamento era da genetista: nell’uomo esistono fattori ereditari fisici e psicologici?

regressione verso la mediocrità ( regression towards mediocrity ) corretta poi dagli statistici, con termini più asettici, in regressione verso la media ( regression towards the mean ).

La tecnica della regressione lineare

In seguito, dal suo significato originario di "ritornare indietro" verso la media e verso “la mediocrità”, il termine regressione assunse solo quello neutro di funzione che esprime matematicamente la relazione tra:

  • la variabile attesa o predetta o teorica, indicata con Y,
  • la variabile empirica od attuale, indicata con X.

La forma più generale di una equazione di regressione, di primo grado con m variabili esplicative, è:

Y = a 1 Xi +...+ amX m

Ovviamente sono possibili equazioni di regressione di grado superiore al secondo, quali, ad esempio:

2 2 Y = a 1 Xi +... + amXm + a 1 X 1 +...+ amXm

Ma il biologo e l’ambientalista non possono limitarsi alla ricerca della funzione matematica che meglio descrive i dati raccolti con un solo campione: devono soprattutto fornire una interpretazione logica del fenomeno, con argomenti e leggi tratti dalla disciplina. Quasi sempre l'interpretazione dell’equazione di regressione è tanto più attendibile e generale quanto più la curva è semplice, come quelle di primo o di secondo grado. Regressioni di ordine superiore sono quasi sempre legate alle variazioni casuali; sono effetti delle situazioni specifiche del campione raccolto e solo molto raramente esprimono relazioni reali e permanenti, non accidentali, tra le due variabili. Di conseguenza, tutti coloro che ricorrono alla statistica applicata nell’ambito della loro disciplina utilizzano quasi esclusivamente regressioni lineari (di primo ordine) o le regressioni curvilinee più semplici (di secondo ordine).

Le figure che precedono mostrano:

  • nel primo caso, all’aumento dei valori di una variabile corrisponde un aumento anche nell’altra;
  • nel secondo, all’aumento dell’una corrisponde una diminuzione dell’altra.

La relazione matematica più semplice tra due variabili è, quindi, la regressione lineare rappresentata dall’equazione:

Y = α + β X

Dove:

  • Y rappresenta la variabile dipendente;
  • α l’intercetta della retta di regressione (il valore in corrispondenza del quale la retta attraversa l’asse delle ordinate);
  • β il coefficiente angolare della retta di regressione; misura di quanto varia la Y al variare di una unità della variabile X;
  • X la variabile indipendente o esplicativa.

La rappresentazione grafica evidenzia che:

  • L’intercetta fissa la posizione della retta rispetto l’asse delle ordinate; è il valore di Y quando X è uguale a 0;
  • Il coefficiente angolare indica l’aumento di Y tra due punti di coordinate X1, Y1 e X2, Y2; Due rette che differiscano solo per il valore dell’intercetta , quindi con coefficiente angolare uguale, sono tra loro parallele. Come evidenziato dalla figura che segue, ogni punto y i osservato ha una componente di errore e i , pari alla differenza tra:

ei = yiy ˆ i

= = =

n

i

n

i

n

i

yi xi yi n xi 1 1 1

da cui:

n

y x

n

i

i

n

i

∑ i ∑

= =

Mentre dalla seconda:

= = = =

n

i

n

i

n

i

n

i

yi xi xi yixi xi xi 1 1 1 1

( α β ) α β^2

Sostituendo, quindi, nella seconda espressione il valore di α derivato dalla prima si ha:

1

2

2

1 1 1 1 1 1 1

1 1 2

= = = = = = = =

n

i

i

n

i

i

n

i

i

n

i

i

n

i

i i

n

i

n

i

n

i

i i

n

i

i

n

i

i i i n x x n yx x y x n x

y x

yx β β β

Da cui segue:

2

1 1

2

1 1 1

⎟ ⎠

= =

= = = n

i

i

n

i

i

n

i

i

n

i

i

n

i

i i

n x x

n yx x y

Osservando che:

cov( , ) 1 1 1

n yx x y x y

n

i

i

n

i

i

n

i

∑ i i −^ ∑ ∑ =

= = =

Ossia che il numeratore è la covarianza tra x e y , e:

var( )

2

1 1

n x^2 x x

n

i

i

n

i

i ⎟ = ⎠

∑ −^ ∑

= = È la varianza della variabile x , si ha che:

var( )

cov( , ) x

x y

Procedendo con le sostituzioni del risultato individuato onde procedere all’individuazione del valore di α, si verifica che:

α = y − β x

Calcolati i valori dell'intercetta a e del coefficiente angolare b , è possibile procedere alla rappresentazione grafica della retta. Anche a questo scopo, è importante ricordare che la retta passa sempre dal baricentro del diagramma di dispersione, individuato dal punto d'incontro delle due medie X e Y.

Di conseguenza, è sufficiente:

  • calcolare α e β;
  • tracciare una retta che passi per i punti medi della X e della Y e per il valore dell’intercetta α.