Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi statistica: valutazione regressione, determinazione e multicollinearità, Esercizi di Statistica

Il risultato di un'analisi statistica di un modello di regressione, con il calcolo del coefficiente di determinazione multiplo e della multicollinearità tra le variabili indipendenti. Il documento include anche la tabella dei coefficienti standardizzati e la tabella anova per valutare la significatività del modello. Inoltre, vengono presentati due casi specifici di modelli di regressione con variabili dipendenti diverse: reddito familiare e aspettativa di vita.

Tipologia: Esercizi

2022/2023

Caricato il 12/02/2024

ruggero.massinelli01
ruggero.massinelli01 🇮🇹

1 documento

1 / 11

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
18.1
a.
b.
c.
d.
18.2
Sì, è un modello di regressione lineare multipla. Ponendo e a.
si ottiene .
No, non è un modello di regressione lineare multipla ma utilizzando la trasfor-b.
mazione logaritmica si ottiene e quindi con
e si ottiene il modello di regressione lineare.
No, non è un modello di regressione lineare multipla.c.
No, non è un modello di regressione lineare multipla ma utilizzando la trasfor-d.
mazione inversa si ottiene e ponendo
si ottiene il modello di regressione lineare.
18.3
Dal coefficiente di regressione stimato possiamo dire che aumenta mediamentea.
di 0,885.
Considerando la colonna corrispondente al p-value tutte e tre le variabili espli-b.
cative possiedono un coefficiente di regressione significativamente diverso da
zero.
No, infatti il valore può rientrare tra 0,595 e 1,175.c.
Il coefficiente di determinazione multiplo è pari a 0,292, quindi solo il 30% della
d.
variabilità totale è spiegata dal modello di regressione. La bontà di adattamento
del modello non è molto elevata.
=xxlog
ii22
=xx
ii32
2
 =+ + ++Yxxx
iiiii0112233
=YYlog
ii 
=+ + +Yxxlog
iiii01122
2
=xx
ii22
2
=log
ii
=
YY
ii
1
()
=+ + +Yx1exp
iii011
()
=YYlog 1
ii
=
xxxx
xxxx
xxxx
xxxx
X
1
1
1
1
11 12 11 12
21 22 21 22
31 32 31 32
41 42 41 42
==
xx
xx
xx
xx
X
1
1
1
1
11 12
21 22
31 32
41 42
0
1
2
=
=
xx
xx
xx
xx
X
1
1
1
1
11 12
21 22
31 32
41 42
0
1
2
=
0
1
2
3
==
xxx
xxx
xxx
xxx
X
1
1
1
1
11 12 12
2
21 22 22
2
31 32 32
2
41 42 42
2
0
1
2
3
CAPITOLO
18
SOLUZIONI DEGLI ESERCIZI
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Analisi statistica: valutazione regressione, determinazione e multicollinearità e più Esercizi in PDF di Statistica solo su Docsity!

a.

b.

c.

d.

a. Sì, è un modello di regressione lineare multipla. Ponendo e

si ottiene.

b. No, non è un modello di regressione lineare multipla ma utilizzando la trasfor-

mazione logaritmica si ottiene e quindi con

e si ottiene il modello di regressione lineare.

c. No, non è un modello di regressione lineare multipla.

d. No, non è un modello di regressione lineare multipla ma utilizzando la trasfor-

mazione inversa si ottiene e ponendo

si ottiene il modello di regressione lineare.

a. Dal coefficiente di regressione stimato possiamo dire che aumenta mediamente

di 0,885.

b. Considerando la colonna corrispondente al p-value tutte e tre le variabili espli-

cative possiedono un coefficiente di regressione significativamente diverso da

zero.

c. No, infatti il valore può rientrare tra 0,595 e 1,175.

d. Il coefficiente di determinazione multiplo è pari a 0,292, quindi solo il 30% della

variabilità totale è spiegata dal modello di regressione. La bontà di adattamento

del modello non è molto elevata.

x^  (^) i 2 =log xi 2 x  (^) i 3 = xi^22

Y (^) i =  (^) 0 +  1 (^) x (^) i 1 +  (^) 2 x (^) i  2 +  3 (^) xi ^3 + i

Y (^) i^  =log Yi Y (^) i  =  0 (^) +  1 x (^) i 1 +  (^) 2 x (^) i^2 2 +log i

x^  (^) i 2 = xi^22  (^) i ^ = log i

Y i^  = Yi ^1 Y i  = 1 + exp(  0 +  1 xi 1 + i )

Y (^) i  = log (^) ( Yi  (^1) )

x x x x

x x x x

x x x x

x x x x

X

11 12 11 12

21 22 21 22

31 32 31 32

41 42 41 42

x x

x x

x x

x x

X

11 12

21 22

31 32

41 42

0

1

2

x x

x x

x x

x x

X

11 12

21 22

31 32

41 42

0

1

2

0

1

2

3

x x x

x x x

x x x

x x x

X

11 12 12

2

21 22 22

2

31 32 32

2

41 42 42

2

0

1

2

3

SOLUZIONI DEGLI ESERCIZI CAPITOLO 18

e. Guardando al valore della statistica e al corrispondente valore del p-value pos-

siamo rifiutare l’ipotesi nulla.

f. Dai valori del tutti inferiori a 2 possiamo concludere che non vi è presenza

di multicollinearità.

a. Sono significativamente diversi da zero i coefficienti delle variabili CV e Peso.

b. No, infatti il valore può rientrare tra 0,02 e 0,01.

c. Il coefficiente di determinazione multiplo è pari a 0,704, quindi circa il 70% della

variabilità totale è spiegata dal modello di regressione. La bontà di adattamento

del modello è piuttosto elevata.

d. Guardando al valore della statistica e al corrispondente valore del p-value pos-

siamo rifiutare l’ipotesi nulla.

e. Dai valori del tutti superiori a 2 possiamo concludere che vi è presenza di

multicollinearità.

a. No, infatti, sia il coefficiente di determinazione multiplo sia quello corretto sono

praticamente uguali a quello del modello completo.

b. Sì, infatti, il valore del test è pari a

inferiore a 3,019, pertanto non si può rifiutare l’ipotesi nulla.

a. Sì, poiché il segno negativo del coefficiente indica una relazione inversa tra Tasso

percentuale di disoccupazione e Spesa per consumi.

b. Sì, infatti il valore del p-value non è inferiore a 0,01.

c. Sì, poiché il coefficiente di determinazione multiplo è pari a 0,937.

d. Il valore previsto dal modello è

e..

f. Si ha.

g. Sì, possiamo rifiutare l’ipotesi nulla. Il modello lineare con le due variabili espli-

cative riesce a spiegare in modo significativo la variabilità della variabile dipen-

dente.

h. Le due variabili presentano entrambe un livello del VIF inferiore a 2 indicando

assenza di multicollinearità.

F 

F

F

VIF

VIF

F

F 7.015,8 6.985,3 2 6.985,3 386=

y ˆ =  11.478,921 + ( 0,065 249.973 ) +(  161,084 5,6 ) =3.859,

2 Soluzione agli esercizi

a. La seguente tabella riporta la stima del modello di regressione:

4 Soluzione agli esercizi

Coefficienti a

Modello

Coefficienti non

standardizzati

Coeffi-

cienti

standardiz-

zati

t Sig.

Intervallo di

confidenza per B al 95%

Statistiche

di collinearità

B

Errore

std. Beta

Limite

inferiore

Limite

superiore

Tolle-

ranza VIF

1 (Costante) 90,622 4,356 20,806 ,000 81,780 99,

Logaritmo

del numero medio

di persone per TV

6,713 1,360 ,585 4,936 ,000 9,475 3,952 ,433 2,

Logaritmo

del numero di

persone per medico

5,201 1,721 ,358 3,022 ,005 8,695 1,707 ,433 2,

a (^) Variabile dipendente: Aspettativa di vita.

b. La seguente tabella riporta gli indici di bontà di adattamento del modello:

dai valori mostrati dall’ R^2 possiamo considerare l’adattamento soddisfacente visto

che il modello spiega circa il 79% della variabilità complessiva.

c. Di seguito viene riportata la tabella ANOVA:

dal valore della statistica test F e della sua significatività possiamo concludere

che il modello di regressione nel suo complesso è significativo.

d. Dalla tabella del punto a_._ , tutti i coefficienti di regressione risultano significati-

vamente diversi da zero. Entrambe le variabili possiedono una relazione inversa

con l’ Aspettativa di vita , come mostrato dal segno negativo dei coefficienti. Dalla

colonna dei coefficienti standardizzati si evince che il Logaritmo del numero me-

dio di persone per TV risulta essere più influente nella variazione del Reddito.

e. I valori del VIF sono piuttosto elevati (superiori a 2), pertanto vi è presenza di

multicollinearità.

f. Dalla seguente tabella si può osservare che nessuno dei residui standardizzati su-

pera, in valore assoluto, 3 volte la deviazione standard, pertanto si può ritenere

che non vi siano valori anomali.

Riepilogo per modello

Modello R R^2

R^2

corretto

Errore std.

della stima

1 ,887 ,787 ,775 3,

ANOVA

Modello

Somma dei

quadrati df

Media dei

quadrati F Sig.

1 Regressione 1.772,256 2 886,128 64,598 ,

Residuo 480,113 35 13,

Totale 2.252,368 37

Capitolo 20 5

g. Il seguente grafico mostra il diagramma di dispersione tra i residui standardizzati

e i valori predetti standardizzati. Dall’andamento dei punti possiamo ritenere che

valga l’ipotesi di omoschedasticità.

a. La seguente tabella riporta la stima del modello di regressione:

Statistiche dei residui

Minimo Massimo Media

Deviazione

std. N

Valore atteso 48,746 76,301 67,763 6,9209 38

Residuo 7,717 5,855 ,000 3,6022 38

Valore atteso std. 2,748 1,234 ,000 1,000 38

Residuo std. 2,084 1,581 ,000 ,973 38

–3 –2 –1 0 1 2

2

1

0

Coefficienti a

Modello

Coefficienti non

standardizzati

Coeffi-

cienti

standardiz-

zati

t Sig.

Intervallo di

confidenza per B

al 95%

Statistiche

di collinearità

B

Errore

std. Beta

Limite

inferiore

Limite

superiore

Tolle -

ranza VIF

1 (Costante) (^) 2,223 ,553 (^) 4,016 ,001 (^) 3,370 1,

Monossido

di Carbonio (mg)

,446 ,110 ,373 4,067 ,001 ,219 ,673 ,143 7,

Nicotina (mg) 10,101 1,468 ,631 6,882 ,000 7,057 13,145 ,143 7,

a (^) Variabile dipendente: Catrame (mg).

si può osservare che entrambi i coefficienti risultano significativi e di segno po-

sitivo indicando una relazione diretta con il Catrame. Anche l’adattamento del

modello è quasi perfetto, come si evince dalla seguente tabella:

Capitolo 20 7

a. La seguente tabella riporta la stima del modello di regressione:

b. La seguente tabella riporta le statistiche di bontà di adattamento:

Dal valore dell’ R

2 circa il 70% della variabilità è spiegata dal modello, pertanto

l’adattamento si può ritenere soddisfacente.

c. Il valore della statistica test F e della sua significatività mostrano che il modello

è significativo nel suo complesso.

d. Sulla base della tabella al punto a, i coefficienti del modello risultano tutti signi-

ficativi indicando un rapporto diretto tra le variabili esplicative e la variabile di-

pendente. La Categoria lavorativa sembra avere più influenza sulla variabile di-

pendente Stipendio attuale.

e. Dalla tabella seguente risultano diversi casi il cui residuo standardizzato supera

di tre volte la deviazione standard.

Riepilogo per modello

Modello R R^2

R^2

corretto

Errore std.

della stima

1 ,837 a^ ,700 ,699 9.369,

a (^) Stimatori: (costante), Categoria lavorativa , Annualità scolastiche.

ANOVA

Modello

Somma dei

quadrati df

Media dei

quadrati F Sig.

1 Regressione 96.571.426.150.224 2 48.285.713.075.112 550,067 ,000 a

Residuo 41.345.069.286.116 471 87.781.463.

Totale 137.916.495.436.340 473

a (^) Stimatori: (costante), Nicotina (mg), Monossido di carbonio (mg).

Coefficienti a

Modello

Coefficienti non

standardizzati

Coeffi-

cienti

standardiz-

zati

t Sig.

Intervallo di

confidenza per B

al 95%

Statistiche

di collinearità

B

Errore

std. Beta

Limite

inferiore

Limite

superiore

Tolle -

ranza VIF

1 (Costante) (^) 12.423,793 2.080,476 (^) 5,972 ,000 (^) 16.511,956 8.335,

Annualità

scolastiche

2.088,651 174,070 ,353 11,999 ,000 1.746,602 2.430,700 ,736 1,

Categoria

lavorativa

13.223,960 649,461 ,599 20,361 ,000 11.947,762 14.500,159 ,736 1,

a (^) Variabile dipendente: Stipendio attuale (000).

f. Il seguente grafico di dispersione mostra che i residui standardizzati hanno un

andamento casuale intorno all’origine; a eccezione di alcuni casi, la forma della

nuvola di punti sembra indicare l’omoschedasticità dei residui.

Diagnostiche per casi

Numero di caso

Residuo

std.

Stipendio

attuale (000)

Valore

atteso Residuo

18 4.598 103.750 60.666,50 43.083,

29 7.265 135.000 66.932,46 68.067,

32 4.663 110.625 66.932,46 43.692,

103 3.209 97.000 66.932,46 30.067,

218 5.109 80.000 32.129,93 47.870,

272 3.040 66.875 38.395,89 28.479,

343 4.572 103.500 60.666,50 42.833,

446 4.198 100.000 60.666,50 39.333,

-2 -1 0 1 2 3

8

6

4

2

0

8 Soluzione agli esercizi

Quindi la stima puntuale di è

b. Con si ottiene e quindi un intervallo di credibilità HPD per

la media

La distribuzione a posteriori è una Normale. Pertanto, poiché è una funzione di den-

sità simmetrica, moda, mediana e media aritmetica coincidono e valgono in questo

caso 80,08. Considerando, per esempio, una popolazione iniziale distribuita come

una Poisson e una distribuzione a priori di tipo Gamma, si otterrebbe una distribu-

zione a posteriori ancora di tipo Gamma, non necessariamente simmetrica, e quindi

con media, mediana e moda con valori fra loro diversi.

Considerando che lo stimatore è dato da una media ponderata tra l’informazione

campionaria e quella a priori, del tipo: con peso

si vuole fissare. Perciò

e quindi , da cui , quindi.

Dal problema si ha: e.

a. La distribuzione a posteriori è

da cui.

b. La distribuzione a posteriori è

da cui.

1   =0,99 z (^) 2 =2,

 80,08 2,58 1 6,25 1 400 22,7 2, 48

1

^  = px + (1 p ) 

( )

( )







p

n

n

2

2

2

p 0,

( )

+( )







n

n

2

2

2

(^ ^ )  

 n 

2 2

(   )  n

2 

n =

2

n = 30 x = 6

 

x

n

i i



h (  x (^) ) = Gamma (^) ( x (^) i ; n (^) )= Gamma ( 180; 30) i

  = = = =

x

n

ˆ (^) x

i i

^  =

h (  | x ) = Gamma ( (^)  (^) ix (^) i +   ; + n ) = Gamma ( 6 30 + 5; 1 + 30 ) = Gamma ( 185; 31)

10 Soluzione agli esercizi

a. La verosimiglianza sotto l’ipotesi nulla è data da

Poiché l’ipotesi alternativa è composta, si deve considerare al denominatore del

fattore di Bayes la verosimiglianza media data da:

Ricordando che si ha:

La probabilità a posteriori dell’ipotesi nulla è dunque:

in cui.

b. Il fattore di Bayes è dato da:

c. Il valore del fattore di Bayes è inferiore a 1, pertanto si rifiuta l’ipotesi nulla.

Poiché si vuole

allora

e quindi

Sostituendo i valori delle varianze si ottiene:

Per ottenere una varianza non superiore a 0,1 si riapplica lo stesso procedimento ot-

tenendo:

 ( n + 1 ) = n!

c = L (  0 | , x H 0 ) P H ( 0 ) + L (  | , x H 1 ) P H ( 1 )

B H , H = =

45 55



n

2 2 2

1

n

2 2

n 1

2

2

n (^1)  =

n (^10)  =

  L | , x H 0,3 0,7 0,3 0, i xi^ n^ ix^ i^45 0 0

( (^ ^ ))^

Av L | , x H =

1

( ( ))

  Av L H

n

n

| , x

x x 1

i (^) i ii

h (^)  = c

| x

45 55 0

Capitolo 21 11