Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi della regressione lineare: Esercizi e quiz, Slide di Statistica

indice di correlazione, adattamento della retta

Tipologia: Slide

2018/2019

Caricato il 11/09/2019

luisa778
luisa778 🇮🇹

4.4

(5)

18 documenti

1 / 55

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.1
6. ANALISI DELLA REGRESSIONE LINEARE
6. Modelli statistici:
analisi della regressione
lineare
BIOSTATISTICA
Marta Blangiardo, Imperial College, London
Department of Epidemiology and Public Health
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37

Anteprima parziale del testo

Scarica Analisi della regressione lineare: Esercizi e quiz e più Slide in PDF di Statistica solo su Docsity!

6. Modelli statistici:

analisi della regressione

lineare

BIOSTATISTICA

Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health [email protected]

MODELLO STATISTICO

Rappresentazione seplificata, analogica e necessaria della realtà

Semplificazione della realtà: il modello di un bacino idrologico, di un aereoplano, del flusso finanziario di un Paese ottenuti riproducendo gli aspetti “essenziali” e eliminando quelli ritenuti “superficiali”.

Analogia della realtà: il modello è una riproduzione della realtà

Rappresentazione necessaria della realtà: anche se è semplificato il modello è necessario per capire la realtà tramite lo studio di relazioni semplici e di maggiore intellegibilità

In alcuni contesti la specificazione della relazione funzionale risulta immediata dalla natura del problema:

1) Se Y è il peso ed X è l’altezza di una persona adulta la prima relazione da specificare è quella proporzionale (maggiore il peso, maggiore l’altezza e viceversa) Y= ββββ X+ εεεε

2) Se Y è il peso di una mattonella rettangolare per la quale X 1 e X 2 sono rispettivamente la lunghezza e la larghezza, allora una relazione funzionale può essere specificata mediante Y= ββββ X 1 X 2 + εεεε

Entrambe le specificazioni evidenziano un parametro ββββ che deve essere determinato per poter utilizzare il modello specificato

Modelli statistici

Non lineari

Multivariati (più di una X e più di una Y)

Semplici (una X e una Y)

Multipli (più di una X ma una Y)

Lineari

Modello di regressione lineare

Il termine REGRESSIONE deriva dall’applicazione svolta dal biologo Galton che nel 1886 esaminò altezze dei figli (Y) in funzione delle altezze dei genitori (X) in Inghilterra e notò una relazione funzionale tra le due variabili: più alti i genitori, più alti i figli e viceversa.

Tuttavia ai genitori che si collocavano agli estremi (molto bassi o molto alti) non corrispondevano figli altrettanto estremi, ovvero Galton osservò che l’altezza dei figli si spostava verso la media e quindi concluse che questo costituiva una regression towards mediocrity e la relazione funzionale fu chiamata “modello di regressione”.

Oggi il termine regressione è divenuto significato di “relazione funzionale tra variabili ottenuta con metodi statistici” e la frase “regredire Y su (X 1 ,…,Xp)” significa ricercare una relazione statistica del tipo:

Y = f(X 1 , X 2 ,…,Xp) + (^) εεεε

Il modello di regressione semplice è specificato dalla relazione: yi = f(xi;ββββ) + εεεε i La funzione f(xi;ββββ) può essere di primo grado, ad esempio: yi = b 0 + b 1 xi + εεεεi

Oppure di grado superiore al primo, ad esempio di secondo grado: yi = b 0 + b 1 xi + b 2 xi^2 + εεεεi

X

Y

Che relazione c’è tra X e Y?

X

Y

X

Y

Covariano positivamente

Covariano negativamente

Non covariano

La covarianza misura l’attitudine a covariare di due caratteri

6

3

1

Y-Y

24

21

15

16

19

17

14

Y

3

1

5

0

X-X 10 20 15 0 20 5 14 2 12 9 16 3 18 18

X (X-X)(Y-Y)

Cov(X,Y) =

Σi=1(x – x )(y – y )

n

n-

x =15 y =

Cov(X,Y) = 20+0+5+2+9+3+ 7-

0

5

10

15

20

25

30

(^9 11 13) X 15 17 19 21

Y

18 24

16 21

12 15

14 16

20 19

15 17

10 14

X Y

Cov(X,Y)=9.5 > 0

ρρρρ =

Cov(X,Y)

sd(X).^ sd(Y)

Deviazione standard

Deviazione standard

COVARIANZA

E’ utile costruire una misura STANDARDIZZATA che esprima quanto I due caratteri covariano

COEFFICIENTE DI
CORRELAZIONE

Cov(X,Y)=0 Cov(X,Y)= NON c’è sd(X)^.^ sd(Y) correlazione PERFETTA Correlazione POSITIVA

Cov(X,Y)=

- sd(X).^ sd(Y)

PERFETTA Correlazione NEGATIVA

Per un insieme di punti possono passare infinite rette! Come scegliere la retta “migliore”?

X

Y

Metodo dei Minimi Quadrati

yˆ^ =βˆ 0 +βˆ 1 x

εˆ i

X

Y

ŷi

yi

L’idea dei minimi quadrati è quella di scegliere la retta che minimizza la somma degli scarti dalla retta di regressione

Scarti: εεεεi = yi - ŷi

RSS=Σi εεεεi^2 = Σi (yi - ŷi)^2 = Σi (yi - ββββ 0 – ββββ 1 xi)^2

Coefficiente di correlazione

? ββββ 1

ρρρρ =

Cov(X,Y)

sd(X).^ sd(Y)

ββββ 1111 =

Cov(X,Y)

Var(X)

ρρρρ = ββββ 1

sd(X)

sd(Y)

  1. Ricavo ρρρρ da ββββ 1

  2. Ricavo ββββ 1111 da ρρρρ

ββββ 1111 = (^) ρρρρ

sd(Y)

sd(X)

Dalla popolazione di camelie estraiamo un campione di 15 foglie della varietà cordiforme sui quali misuriamo la variabile X (peso vivo) e Y (peso secco). Otteniamo i seguenti valori:

7.910 2. 8.879 3. 11.160 4. 5.295 1. 8.421 3. 12.232 5. 5.422 2. 9.900 2. 12.441 5.

8.424 3.

10.296 4.

12.476 4.

8.459 2.

7.267 3.

9.705 3.

X Y

Trovare la retta di regressione dei minimi quadrati che spiega Y in funzione di X