

















































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
SLIDE SULLA REGRESSIONE DESCRITTIVA E INFERENZIALE
Tipologia: Slide
1 / 57
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


















































Luca Tardella
(^1) Sapienza Universit`a di Roma
Corso di Alta Formazione Interfacolt`a in Metodi Statistici per la Ricerca e la Pratica Biomedica
a.a. 2015/
La regressione dal punto di vista inferenziale nei modelli statistici Funzione di regressione Il modello di regressione lineare Ruolo delle variabili casuali, parametri, quantit`a fissate note Stime dei parametri del modello Differenza di ruolo tra interpolazione e modello di regressione Modelli di regressione lineare (semplice, multipla) e strumenti inferenziali Esempio su dati reali (peso alla nascita)
Particolare approccio allo studio della dipendenza di un carattere quantitativo Y da un altro carattere quantitativo X : Finora avevamo considerato due tipi di dipendenza: (i) di Y da X [Y |X ] (o viceversa di X da Y ) (ii) mutua tra i due caratteri X e Y In (i) si e sempre tentato di qualificare e quantificare la presenza di variazioni sistematiche del carattere Y in concomitanza con variazioni del carattere X attraverso un indice legato alle distribuzioni (ed eventuali sintesi) condizionate di Y |X. Nella regressione lineare si riprende questo approccio e lo si approfondisce con l’idea di ricostruire un legame funzionale tra i due caratteri quantitativi come strumento per esplicitare una regolarita. Ripartiamo da un esempio particolare in cui X e quantitativo e assume un numero finito di modalita → Funzione di Regressione
Cerchiamo una funzione “teorica” f : X → Y x 7 → y = f (x) che sia il piu possibile in grado di rappresentare l’evidenza empirica mostrata nel diagramma (nuvola di punti) Scegliere una famiglia di funzioni “candidate” f ∈ F Problema di adattamento di una relazione (curva) teorica ad una distribuzione empirica (problema di interpolazione) Quale significato attribuisco a tale operazione? Semplificazione ↔ Interpretazione Quali funzioni sono candidate ad agevolare l’interpretazione della relazione funzionale? Criterio di semplicita =⇒ facilita di comprensione come formalizzo l’idea che la curva rossa rappresenta bene la nuvola nera? Scostamento/distanza tra relazione teorica e realta −→ Criterio dei minimi quadrati
f −→ F (f ) =
∑^ n
i=
(yi − f (xi ))^2
Stabilito il criterio si cerca di risolvere il problema di individuare, se esiste,
inf f ∈F F (f )
e nel caso in cui l’inf e raggiunto in corrispondenza di una funzione f ∗, l’estremo inferioree in effetti un minimo
F (f ∗) = inf f ∈F F (f )
Se non considero restrizioni al tipo di funzione f (x) (ovvero F `e la famiglia di tutte le funzioni da R → R) allora la soluzione al problema dei minimi quadrati
min f ∈F
F (f ) = min f ∈F
∑^ n
i=
(yi − f (xi ))^2 −→
∑^ n
i=
(yi − f ∗(xi ))^2
`e data dalla funzione
x 7 → f ∗(x) = MEDIA[Y |X = x]
definita in modo univoco nei soli punti x = xi per qualche unit`a i
y (^) i∗ = f ∗(xi ) = MEDIA[Y |X = xi ]
(se unita con segmenti viene anche denominata spezzata delle medie [condizionate]) → vedi figura
Scelto il criterio di scostamento (non-adattamento) da minimizzare
F (α, β) =
∑^ n
i=
(yi − f (xi ; α, β))^2 =
∑^ n
i=
(yi − (α + β xi ))^2
soluzione del problema di ottimo
min α,β F (α, β) = min α,β
∑^ n
i=
[yi − (α + βxi )]^2
∑^ n
i=
[yi − (α∗^ + β∗xi )]^2
d`a luogo alla retta di regressione y = α∗^ + β∗x dove α∗^ e β∗^ sono i parametri della r. di regressione (r. interpolatrice ottima)
Soluzioni in α e β del seguente sistema di equazioni
∂α
F (α, β) = 2
∑^ n
i=
[yi − (α + βxi )] (−1) (1)
∂β
F (α, β) = 2
∑^ n
i=
[yi − (α + βxi )] (−xi ) (2)
e quindi moltiplicando entrambe le equazioni per − (^12)
∑^ n
i=
yi − αn − β
∑^ n
i=
xi = n¯y − nα − n¯xβ = 0 (3)
∑^ n
i=
xi yi − α
∑^ n
i=
xi − β
∑^ n
i=
x^2 i =
∑^ n
i=
xi yi − n¯xα − β
∑^ n
i=
x i^2 = 0 (4)
da cui moltiplicando la prima equazione per − ¯xn e la seconda per (^1) n otteniamo (→ segue)
Soluzione dei minimi quadrati II
−¯x y¯ + ¯xα + ¯x^2 β = 0 (5) 1 n
∑^ n
i=
xi yi − x¯α −
n
∑^ n
i=
x i^2
β = 0 (6)
Sommando le due equazioni ( 1 n
∑^ n
i=
xi yi − x¯ y¯
n
∑^ n
i=
x i^2 − x¯^2
β = 0 (7)
otteniamo la soluzione in β
β∗^ =
Cov [X , Y ] Var [X ]
∑n i=1 ∑(xi^ −^ x¯)(yi^ −^ y¯^ ) n i=1(xi^ −^ ¯x) 2
e dalla prima equazione (nella versione del lucido precedente)
y¯ − α − β ¯x = 0
sostituendo a β la soluzione β∗^ otteniamo
α∗^ = ¯y − β∗^ x¯
... e altre info utili con R
plot(x,y,main="Nuvola dei punti") abline(obj$coefficients) y.valori.teorici<-obj$fitted points(x,y.valori.teorici,pch="x",col="red",font=2)
visualizziamo gli scostamenti tra
valore osservato y[i]
e valore teorico y.valori.teorici[i]
segments(x[1],y[1],x[1],y.valori.teorici[1],col="blue")
summary(obj)
interpretazione geometrica: α intercetta e β coefficiente angolare interpretazione in termini di variazioni corrispondenti campo di variazione segno dei parametri? unit`a di misura
Dev (Y ∗) =
∑^ n
i=
(y (^) i∗ − y¯ )^2
Dev (E ) =
∑^ n
i=
e i^2 =
∑^ n
i=
(yi − y (^) i∗ )^2
Dev (Y ) =
∑^ n
i=
(yi − y¯ )^2
(^1) decomposizione
Dev (Y ) = Dev (Y ∗) + Dev (E ) (^2) relazione con il coefficiente r
Dev (Y ∗) = r 2 Dev (Y ) (^3) misura di accostamento relativo
R^2 =
Dev (Y ∗) Dev (Y )
Dev (E ) Dev (Y ) (^4) implicazioni geometriche
Dev (E ) = (1 − r 2 )Dev (Y ) (^5) interpolazioni con diverse famiglie e miglioramento di accostamento
r 2 = R^2 =
Dev (Y ) − Dev (E ) Dev (Y )
Dev (Y ∗) Dev (Y )