




Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Dispensa sulla regressione lineare
Tipologia: Appunti
1 / 8
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





Premessa
Quando si prendono in considerazione congiuntamente due o più variabili quantitative (per quelle qualitative, dette anche categoriali, si può ricorrere al Chi-quadrato o alle sue modificazioni), oltre alla media e alle varianza, per ognuna di esse, è possibile:
E’ sempre importante saper distinguere tra:
Queste relazioni di casualità oppure di evoluzione simile devono trovare i loro motivi e le spiegazioni nella disciplina specifica in cui è posto il problema, non nella statistica. Sia più in generale nella formulazione delle ipotesi e nella scelta dei confronti da effettuare, sia in questo caso di scelta tra regressione e correlazione, non è possibile realizzare un’analisi statistica intelligente, quando si separa la tecnica statistica dalla conoscenza della materia. Spesso, per molti ricercatori, il calcolo e l’analisi della regressione:
Un po’ di storia…
La funzione matematica che può esprimere in modo oggettivo la relazione di causa-effetto tra due variabili è chiamata equazione di regressione o funzione di regressione della variabile Y sulla variabile X.
Quindi con la regressione si intende lo studio della relazione che, a partire da una o più variabili esplicative (X), hanno come effetti sulla determinazione di una variabile dipendente (Y). Ovviamente tale relazione è soggetta a molti limiti , tra i quali vi sono, principalmente, le ipotesi che sottendono ad essa. Ipotesi che derivano, spesso, dalle impostazioni del ricercatore, il quale presuppone l’esistenza di un legame non sempre derivato dall’osservazione sperimentale, ma anche dalle sue stesse idee o dalla sua formazione politica e/o ideologica. Proprio la storia dell’evoluzione della tecnica della regressione lineare ne è un esempio. Le retta di regressione con il metodo dei minimi quadrati ( least squares ) è una delle tecniche più antiche della statistica moderna. La prima pubblicazione sul metodo least squares fitting è del 1806 ed è dovuta al matematico francese Adrian M. Legendre per il volume Nouvelles Methodes pour la Determination des Orbits des Cometes, (Paris). Nel 1809 il matematico e astronomo tedesco Karl F. Gauss (1777-1855) pubblica una memoria ( Werke, Gottingen, 4, 1821, collected works, 1873; vedere anche Theory of the Motion of the Heavenly Bodies Moving about the Sun in Conic Sections, Dover, new York. ) in cui afferma che all’età di 24 anni (1801) se ne era servito per calcolare l’orbita dell’asteroide Ceres e che aveva già impiegato questo metodo nel 1795. Il termine regressione e la sua applicazione a problemi statistici furono introdotti verso la metà dell'ottocento, insieme con i concetti di base della correlazione, dall’inglese Sir Francis Galton (1822-1911). Successivamente, sono stati sviluppati, in contesti differenti, da Karl Pearson (1857-
regressione verso la mediocrità ( regression towards mediocrity ) corretta poi dagli statistici, con termini più asettici, in regressione verso la media ( regression towards the mean ).
La tecnica della regressione lineare
In seguito, dal suo significato originario di "ritornare indietro" verso la media e verso “la mediocrità”, il termine regressione assunse solo quello neutro di funzione che esprime matematicamente la relazione tra:
La forma più generale di una equazione di regressione, di primo grado con m variabili esplicative, è:
Y = a 1 Xi +...+ amX m
Ovviamente sono possibili equazioni di regressione di grado superiore al secondo, quali, ad esempio:
2 2 Y = a 1 Xi +... + amXm + a 1 X 1 +...+ amXm
Ma il biologo e l’ambientalista non possono limitarsi alla ricerca della funzione matematica che meglio descrive i dati raccolti con un solo campione: devono soprattutto fornire una interpretazione logica del fenomeno, con argomenti e leggi tratti dalla disciplina. Quasi sempre l'interpretazione dell’equazione di regressione è tanto più attendibile e generale quanto più la curva è semplice, come quelle di primo o di secondo grado. Regressioni di ordine superiore sono quasi sempre legate alle variazioni casuali; sono effetti delle situazioni specifiche del campione raccolto e solo molto raramente esprimono relazioni reali e permanenti, non accidentali, tra le due variabili. Di conseguenza, tutti coloro che ricorrono alla statistica applicata nell’ambito della loro disciplina utilizzano quasi esclusivamente regressioni lineari (di primo ordine) o le regressioni curvilinee più semplici (di secondo ordine).
Le figure che precedono mostrano:
La relazione matematica più semplice tra due variabili è, quindi, la regressione lineare rappresentata dall’equazione:
Y = α + β X
Dove:
La rappresentazione grafica evidenzia che:
ei = yi − y ˆ i
= = =
n
i
n
i
n
i
yi xi yi n xi 1 1 1
da cui:
n
y x
n
i
i
n
i
= =
Mentre dalla seconda:
= = = =
n
i
n
i
n
i
n
i
yi xi xi yixi xi xi 1 1 1 1
Sostituendo, quindi, nella seconda espressione il valore di α derivato dalla prima si ha:
1
2
2
1 1 1 1 1 1 1
1 1 2
= = = = = = = =
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
n
i
n
i
n
i
i i
n
i
i
n
i
i i i n x x n yx x y x n x
y x
Da cui segue:
2
1 1
2
1 1 1
⎟ ⎠
= =
= = = n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
n x x
n yx x y
Osservando che:
cov( , ) 1 1 1
n yx x y x y
n
i
i
n
i
i
n
i
= = =
Ossia che il numeratore è la covarianza tra x e y , e:
var( )
2
1 1
n x^2 x x
n
i
i
n
i
i ⎟ = ⎠
= = È la varianza della variabile x , si ha che:
var( )
cov( , ) x
x y
Procedendo con le sostituzioni del risultato individuato onde procedere all’individuazione del valore di α, si verifica che:
Calcolati i valori dell'intercetta a e del coefficiente angolare b , è possibile procedere alla rappresentazione grafica della retta. Anche a questo scopo, è importante ricordare che la retta passa sempre dal baricentro del diagramma di dispersione, individuato dal punto d'incontro delle due medie X e Y.
Di conseguenza, è sufficiente: