Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


SLIDE SULLA REGRESSIONE LINEARE, Slide di Statistica

SLIDE SULLA REGRESSIONE DESCRITTIVA E INFERENZIALE

Tipologia: Slide

2017/2018

Caricato il 31/07/2018

andreamarra
andreamarra 🇮🇹

3 documenti

1 / 57

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Regressione
Luca Tardella
1Sapienza Universit`a di Roma
Corso di Alta Formazione Interfacolt`a
in
Metodi Statistici per la Ricerca e la Pratica Biomedica
a.a. 2015/2016
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39

Anteprima parziale del testo

Scarica SLIDE SULLA REGRESSIONE LINEARE e più Slide in PDF di Statistica solo su Docsity!

Regressione

Luca Tardella

(^1) Sapienza Universit`a di Roma

Corso di Alta Formazione Interfacolt`a in Metodi Statistici per la Ricerca e la Pratica Biomedica

a.a. 2015/

Sommario (II)

La regressione dal punto di vista inferenziale nei modelli statistici Funzione di regressione Il modello di regressione lineare Ruolo delle variabili casuali, parametri, quantit`a fissate note Stime dei parametri del modello Differenza di ruolo tra interpolazione e modello di regressione Modelli di regressione lineare (semplice, multipla) e strumenti inferenziali Esempio su dati reali (peso alla nascita)

La regressione lineare

Particolare approccio allo studio della dipendenza di un carattere quantitativo Y da un altro carattere quantitativo X : Finora avevamo considerato due tipi di dipendenza: (i) di Y da X [Y |X ] (o viceversa di X da Y ) (ii) mutua tra i due caratteri X e Y In (i) si e sempre tentato di qualificare e quantificare la presenza di variazioni sistematiche del carattere Y in concomitanza con variazioni del carattere X attraverso un indice legato alle distribuzioni (ed eventuali sintesi) condizionate di Y |X. Nella regressione lineare si riprende questo approccio e lo si approfondisce con l’idea di ricostruire un legame funzionale tra i due caratteri quantitativi come strumento per esplicitare una regolarita. Ripartiamo da un esempio particolare in cui X e quantitativo e assume un numero finito di modalita → Funzione di Regressione

Impostazione del problema di regressione

Cerchiamo una funzione “teorica” f : X → Y x 7 → y = f (x) che sia il piu possibile in grado di rappresentare l’evidenza empirica mostrata nel diagramma (nuvola di punti) Scegliere una famiglia di funzioni “candidate” f ∈ F Problema di adattamento di una relazione (curva) teorica ad una distribuzione empirica (problema di interpolazione) Quale significato attribuisco a tale operazione? Semplificazione ↔ Interpretazione Quali funzioni sono candidate ad agevolare l’interpretazione della relazione funzionale? Criterio di semplicita =⇒ facilita di comprensione come formalizzo l’idea che la curva rossa rappresenta bene la nuvola nera? Scostamento/distanza tra relazione teorica e realta −→ Criterio dei minimi quadrati

Criterio dei minimi quadrati

f −→ F (f ) =

∑^ n

i=

(yi − f (xi ))^2

Stabilito il criterio si cerca di risolvere il problema di individuare, se esiste,

inf f ∈F F (f )

e nel caso in cui l’inf e raggiunto in corrispondenza di una funzione f ∗, l’estremo inferioree in effetti un minimo

F (f ∗) = inf f ∈F F (f )

Funzione di Regressione ovvero

Linea [Spezzata] delle Medie Condizionate

Se non considero restrizioni al tipo di funzione f (x) (ovvero F `e la famiglia di tutte le funzioni da R → R) allora la soluzione al problema dei minimi quadrati

min f ∈F

F (f ) = min f ∈F

∑^ n

i=

(yi − f (xi ))^2 −→

∑^ n

i=

(yi − f ∗(xi ))^2

`e data dalla funzione

x 7 → f ∗(x) = MEDIA[Y |X = x]

definita in modo univoco nei soli punti x = xi per qualche unit`a i

y (^) i∗ = f ∗(xi ) = MEDIA[Y |X = xi ]

(se unita con segmenti viene anche denominata spezzata delle medie [condizionate]) → vedi figura

Regressione lineare o retta di regressione

Scelto il criterio di scostamento (non-adattamento) da minimizzare

F (α, β) =

∑^ n

i=

(yi − f (xi ; α, β))^2 =

∑^ n

i=

(yi − (α + β xi ))^2

soluzione del problema di ottimo

min α,β F (α, β) = min α,β

∑^ n

i=

[yi − (α + βxi )]^2

∑^ n

i=

[yi − (α∗^ + β∗xi )]^2

d`a luogo alla retta di regressione y = α∗^ + β∗x dove α∗^ e β∗^ sono i parametri della r. di regressione (r. interpolatrice ottima)

  • visualizziamo la retta • interpretiamo i parametri
  • propriet`a della soluzione dei minimi quadrati

Soluzione dei minimi quadrati (I)

Soluzioni in α e β del seguente sistema di equazioni

∂α

F (α, β) = 2

∑^ n

i=

[yi − (α + βxi )] (−1) (1)

∂β

F (α, β) = 2

∑^ n

i=

[yi − (α + βxi )] (−xi ) (2)

e quindi moltiplicando entrambe le equazioni per − (^12)

∑^ n

i=

yi − αn − β

∑^ n

i=

xi = n¯y − nα − n¯xβ = 0 (3)

∑^ n

i=

xi yi − α

∑^ n

i=

xi − β

∑^ n

i=

x^2 i =

∑^ n

i=

xi yi − n¯xα − β

∑^ n

i=

x i^2 = 0 (4)

da cui moltiplicando la prima equazione per − ¯xn e la seconda per (^1) n otteniamo (→ segue)

Soluzione dei minimi quadrati II

−¯x y¯ + ¯xα + ¯x^2 β = 0 (5) 1 n

∑^ n

i=

xi yi − x¯α −

n

∑^ n

i=

x i^2

β = 0 (6)

Sommando le due equazioni ( 1 n

∑^ n

i=

xi yi − x¯ y¯

n

∑^ n

i=

x i^2 − x¯^2

β = 0 (7)

otteniamo la soluzione in β

β∗^ =

Cov [X , Y ] Var [X ]

∑n i=1 ∑(xi^ −^ x¯)(yi^ −^ y¯^ ) n i=1(xi^ −^ ¯x) 2

e dalla prima equazione (nella versione del lucido precedente)

y¯ − α − β ¯x = 0

sostituendo a β la soluzione β∗^ otteniamo

α∗^ = ¯y − β∗^ x¯

Come visualizzare i dati, la retta di regressione ...

... e altre info utili con R

plot(x,y,main="Nuvola dei punti") abline(obj$coefficients) y.valori.teorici<-obj$fitted points(x,y.valori.teorici,pch="x",col="red",font=2)

visualizziamo gli scostamenti tra

valore osservato y[i]

e valore teorico y.valori.teorici[i]

segments(x[1],y[1],x[1],y.valori.teorici[1],col="blue")

summary(obj)

Interpretazione dei parametri

interpretazione geometrica: α intercetta e β coefficiente angolare interpretazione in termini di variazioni corrispondenti campo di variazione segno dei parametri? unit`a di misura

Tre quantit`a importanti nell’interpolazione con la retta di

regressione

Dev (Y ∗) =

∑^ n

i=

(y (^) i∗ − y¯ )^2

Dev (E ) =

∑^ n

i=

e i^2 =

∑^ n

i=

(yi − y (^) i∗ )^2

Dev (Y ) =

∑^ n

i=

(yi − y¯ )^2

  • sono tre devianze dal significato ben chiaro
  • sono strettamente legate tra di loro dalla relazione Dev (Y ) = Dev (Y ∗) + Dev (E )
  • consentono di chiarire alcuni aspetti fondamentali dell’operazione di regressione e comprendere meglio alcuni indici come ad esempio il coefficiente di correlazione r

Relazioni fondamentali

(^1) decomposizione

Dev (Y ) = Dev (Y ∗) + Dev (E ) (^2) relazione con il coefficiente r

Dev (Y ∗) = r 2 Dev (Y ) (^3) misura di accostamento relativo

R^2 =

Dev (Y ∗) Dev (Y )

Dev (E ) Dev (Y ) (^4) implicazioni geometriche

Dev (E ) = (1 − r 2 )Dev (Y ) (^5) interpolazioni con diverse famiglie e miglioramento di accostamento

r 2 = R^2 =

(0)ΘY |X −(1) ΘY |X

(0)ΘY |X

Dev (Y ) − Dev (E ) Dev (Y )

Dev (Y ∗) Dev (Y )