Appunti di Statistica Applicata (Modulo B) | Dispense di Statistica Applicata

Test per due campioni

Test per il confronto di due medie per due campioni indipendenti

Possiamo trovarci in due casi

entrambi i campioni derivano da una Normale

varianze note

○

varianze incognite

uguali

diverse

○

non è verificata l'ipotesi di normalità

Normali con varianze note

Ammettiamo di avere due campioni da due variabili casuali X e Y

𝑋−𝑁(𝜇!;'𝜎!

𝑌−𝑁(𝜇#;'𝜎#

I test sono sempre di tipo unilaterale destro, unilaterale sinistro e bilaterale

La funzione test si basa sulla differenza tra medie

→'𝑡

(

𝑥

)

=𝑋$

////

−𝑌%

////

𝜎!

𝑛+𝜎#

𝑚

'−𝑁(0,1)

La regione di rifiuto segue il ragionamento dei test classici

Test sulle varianze (test di omoschedasticità)

Prima di vedere i test sulle medie con varianze ignote, occorre eseguire un test sulle varianze, per verificare se sono uguali o diverse

Il test è dunque il seguente

𝐻':'𝜎!

"=𝜎#

"''𝑜𝑣𝑣𝑒𝑟𝑜'𝜎!

𝜎#

"=1

𝐻(:'𝜎!

"≠𝜎#

"''𝑜𝑣𝑣𝑒𝑟𝑜'𝜎!

𝜎#

"≠1

La statistica test è data dal rapporto tra le due stime delle varianze ed assume la forma di una F di Snedecor con n-1 e m-1 gradi di libertà

→'𝑡

(

𝑥

)

=𝑠!

𝑠#

"'−𝐹$)(;%)(

Per comodità di effettua sempre il test unilaterale destro, scegliendo il rapporto tra la varianza massima e quella minima

𝑠!

">𝑠#

"'→'𝑠!

𝑠#

">𝑠!

"'→'𝑠#

𝑠!

E la regione di rifiuto diventa

→'𝑠!

𝑠#

">𝐹+;,$.(;,%)(

Esempio

𝑠!

"=3530,8

𝑠#

"=2677,8

→𝑡

(

𝑥

)

=𝑠!

𝑠#

"=3530,8

2677.8=1,3185

Normali con varianze ignote ma uguali

Ammettiamo di avere due campioni da due variabili casuali X e Y con varianze uguali

𝑋−𝑁(𝜇!;'𝑠!

𝑌−𝑁

𝜇#;'𝑠#

La varianza comune viene stimata come quanto segue

𝑠.

(

𝑛−1

)

·𝑠!

(

𝑚−1

)

·𝑠#

𝑛+𝑚−2

I test sono sempre di tipo unilaterale destro, unilaterale sinistro e bilaterale

La funzione test si basa sulla differenza tra medie

→'𝑡

(

𝑥

)

=𝑋$

////

−𝑌%

////

𝑠.

"·

𝑛+1

𝑚

'−𝑡$/%)"'𝑜𝑝𝑝𝑢𝑟𝑒'𝑁

(

0,1

)

'𝑐𝑜𝑛'𝑛'𝑒'𝑚'"𝑔𝑟𝑎𝑛𝑑𝑖"

La regione di rifiuto segue il ragionamento dei test classici

Normali con varianze ignote ma diverse (Test di Welch)

Ammettiamo di avere due campioni da due variabili casuali X e Y con varianze uguali

𝑋−𝑁(𝜇!;'𝑠!

𝑌−𝑁

𝜇#;'𝑠#

I test sono sempre di tipo unilaterale destro, unilaterale sinistro e bilaterale

La funzione test si basa sulla differenza tra medie

→'𝑡

(

𝑥

)

=𝑋$

////

−𝑌%

////

𝑠!

𝑛+𝑠#

𝑚

'−𝑡0'𝑜𝑝𝑝𝑢𝑟𝑒'𝑁

(

0,1

)

'𝑐𝑜𝑛'𝑛'𝑒'𝑚'"𝑔𝑟𝑎𝑛𝑑𝑖"

Dove il grado di libertà g viene stimato come quanto segue

𝑔=

𝑠!

𝑛+𝑠#

𝑚

𝑠!

𝑛

𝑛−1+

𝑠#

𝑚

𝑚−1

La regione di rifiuto segue il ragionamento dei test classici

Test non parametrici (che non rispettano la condizione di Normalità)

Test di Wilcoxon e Test di Mann-Whitney

Test per il confronto di due medie per due campioni dipendenti (Paired test)

Questo test si applica per due unità statistiche identiche ma osservate in due momenti diversi, ad esempio, in medicina, due gruppi di pazienti uguali osservati prima e dopo la cura

Il test valuta la differenze medie tra i due periodi, con le seguenti ipotesi

𝐻':'𝜇1233 =0

𝐻(:'𝜇1233 ≠0

La statistica test è la seguente

𝑡

(

𝑥

)

=𝑋1233

///////

𝑠1233

"/𝑛

'−𝑡$)('𝑜𝑝𝑝𝑢𝑟𝑒'𝑁

(

0,1

)

'𝑐𝑜𝑛'𝑛'"𝑔𝑟𝑎𝑛𝑑𝑒"

Test per il confronto di due proporzioni per due campioni indipendenti

Ammettiamo di avere due campioni da due variabili casuali X e Y

𝑋−𝐵𝑖𝑛(1;𝜋!)

𝑌−𝐵𝑖𝑛H1;𝜋#I

I test sono sempre di tipo unilaterale destro, unilaterale sinistro e bilaterale

La varianza comune viene stimata come quanto segue

𝑃=𝑛·𝑃!+𝑚·𝑃#

𝑛+𝑚

La funzione test si basa sulla differenza tra medie

→'𝑡(𝑥)= 𝑃!−𝑃#

0𝑃(1−𝑃)·K1

𝑛+1

𝑚L

'−𝑁(0,1)

La regione di rifiuto segue il ragionamento dei test classici

Esercitazione - Test due campioni (pt.1)

possiamo scriverla sulle tavole!!

Esercizio 3

A: 𝑛=13;𝑋/=9;𝑠4=5,3

B: 𝑚=20;𝑋/=6,2;𝑠4=4,6

Test confronto medie per popolazioni normali con varianze ignote e diversea. 𝐻':'𝜇4=𝜇5

-𝐻(:𝜇4≠𝜇5

𝑡(𝑥)= 𝑋$

////−𝑌%

////

0𝑠!

𝑛+𝑠#

𝑚

'−𝑡0'𝑜𝑝𝑝𝑢𝑟𝑒'𝑁(0,1)'𝑐𝑜𝑛'𝑛'𝑒'𝑚'"𝑔𝑟𝑎𝑛𝑑𝑖"

In questo caso n e m sono piccoli, la funzione test assume la forma di una t di student

𝑡(𝑥)=𝑋$

////−𝑌%

////

0𝑠!

𝑛+𝑠#

𝑚

=9−6,2

05,3"

13 +4,6"

=1,5606

Per calcolare il valore critico occorre calcolare i gradi di libertà g

𝑔= U𝑠!

𝑛+𝑠#

𝑚V"

W𝑠!

𝑛X"

𝑛−1+U𝑠#

𝑚V"

𝑚−1=U5,3"

13 +4,6"

20V"

U5,3"

13V"

13−1+U4,6"

20V"

20−1≈23

𝑡"6;+/"8','": =2,07

Accetto 𝐻'

Ipotesi di eteroschedasticitàb. 𝐻':'𝜎4

"=𝜎5

-𝐻(:𝜎4

"≠𝜎5

𝑡(𝑥)=𝑠4

𝑠5

"'−𝐹$)(;%)(

𝐻':𝜎%+!

𝜎%2$

"=1'→'𝜎4

𝜎5

"=1

𝐻(:𝜎%+!

𝜎%2$

">1'→''𝜎4

𝜎5

">1

𝑡(𝑥)=𝑠%+!

𝑠%2$

"'−𝐹$)(;%)( '→'𝑡(𝑥)=𝑠4

𝑠5

"'−𝐹$)(;%)(

𝑡(𝑥)=𝑠4

𝑠5

"=5,3"

4,6"=1,33

𝐹(";(;;+8',': =2,31

Accetto H''→ l'ipotesi di eteroschedasticità era sbagliata

Riproporre il test con varianze ignote ma UGUALI (FAI A CASA)c.

Esercizio 4

A: 𝑛=64;𝑋/=2,1;𝑠4=0,29

B: 𝑚=75;𝑋/=1,7;𝑠4=0,24

Ipotesi di omoschedasticitàa. 𝐻':'𝜎4

"=𝜎5

-𝐻(:𝜎4

"≠𝜎5

𝑡(𝑥)=𝑠4

𝑠5

"'−𝐹$)(;%)(

𝐻':𝜎%+!

𝜎%2$

"=1'→'𝜎4

𝜎5

"=1

𝐻(:𝜎%+!

𝜎%2$

">1'→''𝜎4

𝜎5

">1

𝑡(𝑥)=𝑠%+!

𝑠%2$

"'−𝐹$)(;%)( '→'𝑡(𝑥)=𝑠4

𝑠5

"'−𝐹$)(;%)(

𝑡(𝑥)=𝑠4

𝑠5

"=0,29"

0,24"=1,46

𝐹<6;=>;+8','( =1,40

Rifiuto H''→ i due campioni sono eteroschedastici

Test confronto medie per popolazioni normali con varianze ignote e diverseb. 𝐻':'𝜇4=𝜇5

-𝐻(:𝜇4≠𝜇5

𝑡(𝑥)=𝑋$

////−𝑌%

////

0𝑠!

𝑛+𝑠#

𝑚

'−𝑡0'𝑜𝑝𝑝𝑢𝑟𝑒'𝑁(0,1)'𝑐𝑜𝑛'𝑛'𝑒'𝑚'"𝑔𝑟𝑎𝑛𝑑𝑖"

In questo caso n e m sono grandi, la funzione test assume la forma di una Normale

standardizzata

𝑡(𝑥)=𝑋$

////−𝑌%

////

0𝑠!

𝑛+𝑠#

𝑚

=2,1−1,7

00,29"

64 +0,24"

=8,76

𝑡+/"8',': =1,645

Rifiuto 𝐻'

Esercizio 6

𝑛=227;𝑃(=163

227=0,718

1. 𝑚=262;𝑃"=154

262=0,588

Test su due proporzioni di due campioni indipendenti

𝐻':'𝜋(=𝜋"

-𝐻(:'𝜋(≠𝜋"

Le ipotesi sono che le due popolazioni derivano da due bernoulliane

−'𝐵𝑒𝑟𝑛'(𝜋()1. −'𝐵𝑒𝑟𝑛'(𝜋")

𝑡(𝑥)=𝑃!−𝑃#

0𝑃(1−𝑃)·K1

𝑛+1

𝑚L

'−𝑁(0,1)

𝑃=𝑛·𝑃(+𝑚·𝑃"

𝑛+𝑚 =227·0,718+262·0,588

227+262 =0,648

𝑡(𝑥)= 0,718−0,588

00,648·(1−0,648)·K 1

227+1

262L

=3,01

𝑡+/"8','": =1,96

Rifiuto 𝐻'

Esercizio 7

Tipo di test, sistema di ipotesi e assunzioni necessaria.

Il test è un test di confronto tra medie per due campioni (Two Sample t-test) indipendenti con

varianze uguali e ignota (var.equal=TRUE). Il test è unilaterale sinistro (alternative="less")

𝐻':'𝜇!=𝜇!

-𝐻(:𝜇!<𝜇!

L'assunzione necessaria è che X e Y provengano da due Normali indipendenti

decisione e livello di significativitàb.

p-value = 0,001397 →'p-value abbastanza piccolo, rifiuto 𝐻'per ogni livello di significatività

fino ad a = 0,0015

varianza comunec.

𝑠.

"=(𝑛−1)·𝑠!

"+(𝑚−1)·𝑠#

𝑛+𝑚−2

𝑠!

𝑠#

Per non calcolarle io, posso ricavare la varianza comune dall'output con un passaggio inverso

Dall'output so che t(x) = - 3,6763

'−3,6763=4,4−5,9

0𝑠.

"·K1

8+1

'→'𝑠.

"=U4,4−5,9

−3,6763V"

8+1

7=0,7883

comando Rd.

t.TEST(x,y,alyernative="two.sided", var.equal=FALSE)

Test Chi quadrato

Sono di due tipologie

di associazione

di adattamento

Sono test non parametrici, che non studiano un parametro ma le connessioni tra due popolazioni campionarie

Test Chi quadrato di associazione (o di indipendenza)

Ci chiediamo se la dipendenza che abbiamo osservato nel campione è una peculiarità caratteristica dei soli estratti e quindi l’abbiamo osservata per puro caso ovvero è la manifestazione di

una reale associazione tra i due fenomeni esistente nella popolazione di riferimento.

L'indipendenza stocastica è confermata se 𝜋2? =𝜋2·𝜋?

Il test ha quindi le seguenti ipotesi

𝐻':∀'𝑖,𝑗'→'𝜋2? =𝜋2·𝜋?'

-𝐻(:∃'𝑖,𝑗'→'𝜋2? ≠𝜋2·𝜋?'

La funzione test è la seguente

𝑡(𝑥)=𝑖𝑛𝑑𝑖𝑐𝑒'𝑋"'𝑑𝑖'𝑃𝑒𝑎𝑟𝑠𝑜𝑛'−𝑋"

@)(;,%)(

Dove r e m sono rispettivamente il numero di righe e colonne

Il sistema di ipotesi si può quindi riscrivere come

𝐻':𝑋"=0

-𝐻(:𝑋"≠0

Il test è un test di tipo unilaterale destro →'rifiuto se 𝑋">𝑋"

+;@)(;%)(

Test Chi quadrato di adattamento

Utile per verificare l’ipotesi che i dati campionari provengano da una variabile casuale la cui distribuzione di probabilità è nota

E' dunque un test per un solo campione 𝑋−𝐹(𝑥;𝜃)', che viene confrontato con una certa distribuzione 𝐹'=𝐹(𝑥;𝜃)

Il test ha quindi le seguenti ipotesi

𝐻':'∀'𝑥'→'𝐹'=𝐹(𝑥;𝜃)'

-𝐻(:'∃'𝑥'→'𝐹'≠𝐹(𝑥;𝜃)

La funzione test è la seguente

𝑡(𝑥)=𝑖𝑛𝑑𝑖𝑐𝑒'𝑋"'𝑑𝑖'𝑃𝑒𝑎𝑟𝑠𝑜𝑛'−𝑋"

A)()$B%..+@+%CD@2,1+,ED2%+@C

Dove k è il numero di classi nelle quali è stato diviso il campione

Infatti, i dati campionari devono essere suddivisi in k classi a cui saranno associate le frequenze assolute e le frequenze teoriche, ovvero le probabilità che la variabile casuale assunta come

ipotesi nulla assuma valori della classe di riferimento

Esempio di classi, frequenze assolute e teoriche

Una volta ottenute le frequenze teoriche si applica la formula di Chi quadrato

𝑋"=f(𝑛2−𝑛𝜋2)"

𝑛𝜋2'

28(

E’ necessario però definire anche il valore dei parametri della distribuzione (dunque la media e la varianza)

Quando non si conoscono (praticamente sempre), essi vanno stimati sullo stesso campione di dati.

In questo caso la distribuzione della statistica 𝑋"è sempre quella di una variabile casuale Chi-quadrato ma i suoi gradi di libertà sono (k-1-num. parametri da stimare).

Test per la verifica della normalità

I test sulla media presentati funzionano nel caso in cui sia possibile assumere la normalità della distribuzione dei dati.

Come possiamo verificare questa assunzione?

strumenti grafici: istogrammi e q-q-plot

test statistici

Test di Kolmogorov e Smirnov

Il test ha le seguenti ipotesi

𝐻':'∀'𝑥'→'𝐹'=𝐹(𝑥;𝜃)'

-𝐻(:'∃'𝑥'→'𝐹'≠𝐹(𝑥;𝜃)

La funzione test è la seguente

𝐷$=sup|𝐹(𝑥)−𝐹'(𝑥)|'

Il valore critico viene così calcolato

𝑘=m−1

2𝑛·lnK𝑎



per valori grandi di 𝐷$(o maggiori del valore critico) si rifiuta 𝐻'

Esercitazione - Test due campioni (pt.2)

Esercizio 5 - FAI A CASA!!

Risposte

test di confronto tra due medie di campioni indipendenti con varianze ignote

media camp (x) = 4,256; media camp (y) = 4,84; s(x) = 2,20; s(y) = 2,59

faccio un test sulla varianza, t(x) = 1,387, accetto H0, le varianze sono uguali

s^2p = 5,77; t(x) = -0,2147, accetto H0

Esercizio 8

sistema di ipotesia. 𝐻':'𝜇.@2%+ =𝜇1F.F

-𝐻(:𝜇.@2%+ >𝜇1F.F

quale più opportunob.

Chiaramente il Paired Test, perché i due campioni sono dipendenti

conclusione del testc.

Accetto H0 ad un livello di significatività di 0,05%, ma non del 0,1%

Esercizio 9

sistema di ipotesia. 𝐻':'𝜇4=𝜇5

-𝐻(:𝜇4>𝜇5

quale più opportunob.

Chiaramente il Paired Test, perché i due campioni sono dipendenti (sono gli stessi bilanci)

p-value e come ottenerloc.

p-value test 1 = 0,005923

p-value test 2 = 0,003318

Da questi valori rifiuterei sempre H0

Avrei potuto ottenere i p-value calcolando la probabilità che la variabile test fosse superiore del

valore t in una T di Student con 11 e 22 gradi di libertà

P(T(x)>3.011) - t11

P(T(x)>2.9973) - t22

in caso di test bilateraled.

La risposta sarebbe uguale, rifiuterei H0 sempre

Esercizio 10

quale più opportunoa.

Chiaramente il Paired Test, perché i due campioni sono dipendenti (sono le stesse persone)

ipotesi del testb.

Che la media sia uguale

𝑡(𝑥)=𝑋1233

///////

m𝑠1233

𝑛

'−𝑡$)('𝑜𝑝𝑝𝑢𝑟𝑒'𝑁(0,1)'𝑐𝑜𝑛'𝑛'grande

Capire se varianze sono uguali o diverse!!!

i gradi di libertàc.

interpretazione risultatod.

p-value alto, accetto H0

Esercizio 11

Sistema di ipotesia. 𝐻':∀'𝑖,𝑗'→'𝜋2? =𝜋2·𝜋?'

-𝐻(:∃'𝑖,𝑗'→'𝜋2? ≠𝜋2·𝜋?'

Testb.

𝑋"=4,433;𝑎=0,05

𝑋"

($)()·(%)() =𝑋"

"'→𝑋";+8',':

"=5,994

Accetto H0

Esercizio 12

Soluzioni (FAI A CASA)

il test Chi Quadratoa.

testb.

𝑋"

($)()·(%)() =𝑋>

"'→𝑋>;+8',':

"=9,488

Rifiuto H0

Esercizio 13

Test di adattamento (Kolmogorov Smirnov)

Distribuzione di frequenza osservata dal campione

-𝑥2𝑛2𝑓2𝐹2

A1170 0,468 0,468

B585 0,234 0,702

C405 0,162 0,864

D340 0,136 1

Distribuzione di frequenza teorica

-𝑥2𝑓2𝐹2

A0,40 0,40

B0,30 0,70

C0,20 0,90

D0,10 1

Il Test KS si basa sulle differenze in valore assoluto

𝐹(𝑋) 𝐹'Diff.

0,468 0,40 0,068

0,702 0,70 0,002

0,864 0,90 0,036

1 1 0

Il valore massimo, ovvero la statistica test, è 0,068

𝑘=m−1

2𝑛·lnK𝑎

=m−1

2·2500·lnW0,01

=0,032

0,068 > 0,032 →'rifiuto 𝐻'

Test ANOVA (ANalisys Of VAriance)

E' un test sulle medie di 3 o più gruppi che sfrutta le varianze di gruppo

In particolare useremo il test per studiare una sola variabile di interesse Y, che dipende da un unico fattore qualitativo X, dalle cui modalità deriva la divisione in k gruppi

Esempio

X = sessione di laurea

Y = stipendio

Dividiamo la popolazione in tanti gruppi quante le sessioni di laurea per studiarne gli stipendi medi

Per il confronto delle medie di gruppo si usa il teorema di scomposizione della varianza, per il quale la varianza totale è la somma della varianza between (varianza delle medie di

gruppo) e della varianza within (medie delle varianze di gruppo)

Da questo teorema deriva la correlazione

𝑐𝑜𝑟𝑟=𝜂"=𝜎5

𝜎"

Maggiore è la correlazione, maggiore sono diverse tra loro le medie

Il test ha le seguenti ipotesi

𝐻':'𝜇(=𝜇"=⋯=𝜇A

-𝐻(:'∃'𝜇(≠𝜇A

La funzione test è la seguente

𝑡(𝑥)=𝐷𝑒𝑣5

"/(𝑘−1)

𝐷𝑒𝑣J

"/(𝑛−𝑘)−𝐹(𝑘−1;𝑛−𝑘)

Il test è un test unilaterale destro

Modello di regressione multiplo

Si tratta dell'estensione del modello di regressione lineare, in cui facevamo analisi di regressione sulla variabile Y data una sola variabile X, ora le variabili X aumentano

Si usano

matrice di correlazione: la presentazione sotto forma di matrice dei coefficienti di correlazione tra tutte le coppie

Serve a stabilire i legami tra le variabili (legame lineare o meno)

Y X1 X2 X3

Y 1 𝑝KL( 𝑝KL"𝑝KL6

X1 𝑝KL( 1𝑝L(L" 𝑝L(L6

X2 𝑝KL"𝑝L(L" 1𝑝L"L6

X3 𝑝KL6 𝑝L(L6 𝑝L"L6 1

Nell'esempio numerico tutte le variabili X hanno una bassa correlazione con Y

Viceversa, un'alta correlazione tra due variabili X rappresenta un campanello d'allarme per le variabili indipendenti scelte (multicollinearità)

matrice di scatterplot

Il modello si basa sul fatto che le n osservazioni provengano da un modello del tipo

𝑌=𝐵'+𝑋(𝐵(+𝑋"𝐵"…+𝑋A𝐵A+𝜀

Le assunzioni del modello sono

YM=B'+xM(B(+xM(B"…+xMNBN+εM'→'linerarità1.

gli errori sono variabili casuali indipendenti con valore atteso nullo e varianza uguale a 𝜎"→'Y è una variabile casuale le cui osservazioni sono indipendenti

i valori degli Xi non hanno una distribuzione da variabile casuale e sono noti senza errori3.

I beta incogniti si stimano con il metodo dei minimi quadrati, in generale sono stimatori corretti ed efficienti

Ogni Beta misura la variazione media di Y in corrispondenza di una variazione unitaria di una variabile esplicativa Xi, tenendo costanti le altre

Per confrontare i coefficienti Beta occorre normalizzarli

→'𝐵?

∗=∆𝑌•

𝑠#=𝐵?·𝑠!?

𝑠#

In R

> nomemodello <-lm(formula)

formula = var risp ~ var espl = y ~ x1+x2+…

dove ‘var espl’ sarà dato dall’elenco delle variabili esplicative che vogliamo inserire

> summary(nomemodello)

Stima della varianza

Si applica usando i residui (RSS), ovvero le differenze tra gli Y dati e gli Y teorici, e stimando le loro varianze

𝜎€"=𝑅𝑆𝑆

𝑑𝑓

𝑅𝑆𝐸=„𝜎€"



𝑑𝑓=𝑛−𝑘−1

Anche nel modello multiplo si divide la varianza in

varianza spiegata →'𝑆𝑆@C0

varianza residua →𝑅𝑆𝑆

Queste vengono usate per il calcolo dell'indicatore di bontà del modello, maggiore è questo, maggiore sarà la bontà del modello

→'𝑅"=𝑆𝑆@C0

𝑆𝑆K

Inferenza sul modello

E' necessaria un'ulteriore assunzione, ovvero che le variabili casuali'𝜀2'siano delle Normali, e quindi che anche gli Y e gli stimatori Beta siano delle Normali

Ora possiamo eseguire test per decidere se mantenere o meno il modello ottenuto

Test F1.

E' il test sulla significatività di tutti i parametri per definire la bontà del modello

𝐻':'∀'𝐵2=0'

-𝐻(:'∃'𝐵2≠0'

La funzione test è

𝑡(𝑥)=𝑆𝑆@C0/𝑘

𝑅𝑆𝑆/(𝑛−1−𝑘)

se la funzione test è circa 1 il modello di regressione NON spiega la variabilità di Y

se è molto maggiore di 1 il modello di regressione spiega la variabilità di Y

La statistica test è una F di Fischer del tipo 𝐹−𝐹A;,$)()A

Il test è di tipo unilaterale destro

Se rifiuto il test il modello è un "buon" modello

Test T2.

E' il test sulla significatività del singolo parametro nel modello

𝐻':'𝐵2=0'

-𝐻(:'𝐵2≠0'

La funzione test è

𝑡(𝑥)=𝐵•?

0𝑣𝑎𝑟H𝐵•?I

…

=𝐵•?

𝑠𝑒H𝐵•?I

La statistica test è una t di Student del tipo 𝐹−t$)A)(

Il test è di tipo bilaterale

Se rifiuto il test il parametro è un "buon" parametro

Assunzioni sui residui

assunzione di linearità

assunzione di omoschedasticità

assunzione di indipendenza

assunzione di normalità

Regressione con variabili qualitative

Regressione con variabile categorica dummy (dicotomica)

La variabile qualitativa ha solamente due modalità 𝑥(e 𝑥", che esprimiamo come 0 e 1

𝑋=𝑥('→'𝑤=1'

-𝑋=𝑥"'→'𝑤=0

Da cui deriva che

𝑦=𝐵'+𝐵(·𝑤+𝜀

Per cui

𝐵'→'media della variabile Y quando W = 0

-𝐵(→variazione media della variabile Y quando W = 1

La modalità che assume valore nullo è detta "baseline"

Regressione con variabile categorica politomica

Con più di 2 modalità è sbagliato trattare la variabile qualitativa come fosse quantitativa

Occorre, invece, trasformare ogni modalità della variabile politomica in una variabile dicotomica, che ha valore nullo in assenza della modalità e valore positivo in presenza della

modalità

La variabile politomica, quindi, si amplia in tante variabili dummy tante quante modalità presenta

Se facciamo regressione una delle k variabili dummy verrà esclusa perché collineare e assumerà il ruolo di "baseline" nella interpretazione dei coefficienti

Esercitazione - Modelli di regressione lineare

Esercizio 3

assunzioni del modello semplice1.

Nell'esame verranno chieste quelle del modello multiplo, studiale!!

commentare i coefficienti e la significatività

𝐵': fatturato medio di un negozio quando non effettua promozioni = 26,538

○𝐵(: variazione di fatturato medio di un negozio quando effettua promozioni = 45,746

○

Entrambi i coefficienti sono significativi al 100%

dimensione campionaria e varianza dell'errore3.

n -k - 1 = 88 gradi di libertà

k è il numero di variabili regressori xi, in questo caso è solamente 1

Quindi n = 88 + k + 1 = 88 + 1 + 1 = 90

Per varianza dell'errore si intende la varianza residua, cioè quella non spiegata dal modello

𝜎€"=(𝑅'𝑆𝐸)"=21,59"=466,128

fatturato medio nelle due ipotesi

senza promozione = M(Y|x=0) = 26,538

○

con promozione = M(Y|x=1) = 26,538 + 45,746 = 72,284

○

Esercizio 4

espressione e assunzioni del modello multiplo1. 𝑦€=𝐵'+𝐵(𝑥(+𝐵"𝑥"+𝜀

Le assunzioni del modello sono 4

linearità

○

media nulla degli errori

○

incorrelazione tra i residui

○

normalità degli 𝜀

○

numero di osservazioni disponibili2.

n -k - 1 = 27 gradi di libertà

k = 2

n = 27 + 2 + 1 = 30

valore osservato della statistica t3.

Il valore t per la variabile reddito è 110,972

Se fosse rimosso dall'output si determinerebbe tramite la sua formula

𝑡5!=𝐵•(

𝑆𝐸(𝐵•()=0,0496833

0,0004477=110,972

si rifiuta o si accetta al 5% per la variabile reddito e per educ4.

Dato che il p-value di reddito è molto piccolo e quindi inferiore a 0,05 si rifiuta H0

Per educ invece si accetta, dato che il p-value è maggiore di 0,05

stima varianza errori5. 𝜎€"=(𝑅𝑆𝐸)"=0,1019"=0,01038

Esercizio 5

sufficienza assunzione sugli errori1.

No, mancano le assunzioni di normalità e di omoschedasticità degli errori

espressione del modello2. 𝑦€=9,983+16,412·𝐷𝐼𝑆𝑇+8,718·𝐸𝑇𝐴+3,264·𝑇𝐸𝑀𝑃𝑂

interpretazione coefficiente TEMPO3.

Rappresenta la variazione della spesa media (3,264€) in corrispondenza di un aumento di un minuto di

tempo trascorso in magazzino, a parità di età e distanza

utilità ETA'4.

No, il p-value del test T è molto alto (0,241), la variabile ETA' andrebbe rimossa

ipotesi del test globale del modello5.

Le ipotesi del test F sono

𝐵(=𝐵"=𝐵6=0

○𝐵('𝑜'𝐵"'𝑜'𝐵6≠0

○

I gradi di libertà sono k = 3 e n - k - 1 = 56

conclusione del test F per a = 0,056.

Per un livello di significatività pari a 0,05 accetto il test F (0,07403 > 0,05), il modello non è significativo

coefficiente di determinazione7.

E' pari a 0,1211, ovvero spiega solo il 12% dei dati, quindi per nulla significativo

analisi dei grafici e dei residui8.

Dal QQplot si evince la normalità dei residui

Esercizio 6

bontà di adattamento del modello ai dati1.

Il modello è molto buono, spiega il 99,98% dei dati

coefficiente di costo della farina2.

La differenza di aumento di prezzo medio del pane venduto nel supermercato rispetto a quello venduto

nei negozi è pari a 2,0108741 euro/kg in corrispondenza di un aumento di 1 euro/kg della farina

SE costo della farina3.

E' pari a 𝑆𝐸H𝐵•"I=0,00456

Se non ci fosse si calcolerebbe con la sua formula

𝑡5"=𝐵•"

𝑆𝐸H𝐵•"I'→𝑆𝐸H𝐵•"I=𝐵•"

𝑡5"

coefficiente di tipologia4. 𝑡5!=𝐵•(

𝑆𝐸H𝐵•(I→'𝐵•(=𝑡5!·𝑆𝐸H𝐵•(I

costo del pane al kg per un negozio che compra la farina a 2 euro al kg5. 𝑦€=−0,0094507+0,3014718·1+2,0108741·2=4,3137

valore delle medie del prezzo del pane in funzione del punto di vendita

supermercato = -0,0094507

○

negozio = -0,0094507 + 0,3014718 = 0,2920211

○

Modello di regressione LOGIT

E' il modello di regressione che permette di agire su variabili Y dicotomiche, ovvero variabili dummy, con solo due eventi (pari/dispari, bianco/nero, ecc.)

Si basa sulle probabilità che ciascuno dei due eventi si verifichi, intesa come il numero di frequenze sul totale

Il modello LOGIT parte proprio dalla definizione delle probabilità

𝑃(𝑌=1)=𝑝

-𝑃(𝑌=0)=1−𝑝

Definiamo il rapporto ODDS, ovvero il rapporto tra la probabilità che l’evento accada rispetto alla probabilità che non accada

→𝑂𝐷𝐷𝑆=𝑝

1−𝑝

Se p è compreso tra 0 e 0.5, ODDS avrà un valore compreso tra 0 e 1, viceversa se p supera 0.5, ODDS tenderà sempre di più verso infinito

Il logaritmo degli ODDS è detto LOGIT

𝑙𝑜𝑔𝑖𝑡(𝑝)=logW𝑝

1−𝑝X

Usiamo il logaritmo perché trasforma la funzione in una funzione continua e lineare tra -∞ e +∞

Confronto tra ODDS

Quando si ipotizza che Y sia influenzato da una variabile esplicativa X, si possono calcolare gli ODDS delle probabilità condizionate

𝑂𝐷𝐷𝑆|𝑥2=𝑃(𝑌=1|𝑥2)

1−𝑃(𝑌=1|𝑥2)

Per eseguire un confronto tra due X si valuta il rapporto, detto ODDS RATIO

𝑂𝑅=𝑂𝐷𝐷𝑆|𝑥(

𝑂𝐷𝐷𝑆|𝑥"=𝑃(𝑌=1|𝑥()

1−𝑃(𝑌=1|𝑥()

𝑃(𝑌=1|𝑥")

1−𝑃(𝑌=1|𝑥")

OR < 1 →'effetto negativo passando da x1 a x2 →la variabile esplicativa X influisce diminuendo l'ODDS sul verificarsi dell'evento

OR = 1 →'nessun effetto passando da x1 a x2 →la variabile esplicativa X non influisce sul verificarsi dell'evento

OR > 1 →'effetto positivo passando da x1 a x2 →la variabile esplicativa X influisce aumentando l'ODDS sul verificarsi dell'evento

Nel modello LOGIT verrà usato il logaritmo degli OR

log(𝑂𝑅)=logW𝑂𝐷𝐷𝑆|𝑥(

𝑂𝐷𝐷𝑆|𝑥"X=log•𝑃(𝑌=1|𝑥()

1−𝑃(𝑌=1|𝑥()

𝑃(𝑌=1|𝑥")

1−𝑃(𝑌=1|𝑥")‘=𝑙𝑜𝑔𝑖𝑡(𝑃(𝑌=1|𝑥()−𝑙𝑜𝑔𝑖𝑡(𝑃(𝑌=1|𝑥")

Modello di regressione logistica semplice

Si ipotizza di disporre di un'unica variabile esplicativa X

logW𝑝

1−𝑝X=𝑎+𝐵𝑥

dove il coefficiente

𝑎esprime un livello base del log-odds-ratio del verificarsi di un evento a prescindere dai valori e dalle modalità delle variabili esplicative

-𝐵=𝑙𝑜𝑔'(𝑂𝑅)esprime la variazione del log-odds-ratio per un incremento unitario di X

Test sul modello

test globale: test del rapporto della massima verosimiglianza

-𝐺"=𝐷𝑒𝑣(𝑚𝑜𝑑𝑒𝑙𝑙𝑜'𝑠𝑜𝑡𝑡𝑜'𝐻')−𝐷𝑒𝑣(𝑚𝑜𝑑𝑒𝑙𝑙𝑜'𝑐𝑜𝑚𝑝𝑙𝑒𝑡𝑜)−𝑋(,13

test sui parametri: test di Wald

-𝑋"=𝐵•"

𝑉𝑎𝑟(𝐵•)−𝑋(,13

"'→𝑍= 𝐵•

𝑠𝑒H𝐵•I−𝑁(0,1)

Modello di regressione logistica multipla

Si ipotizza di disporre di più di una sola variabile esplicativa X

logW𝑝

1−𝑝X=𝑎+𝐵(𝑥(+𝐵"𝑥"+⋯+𝐵2𝑥2

dove il coefficiente

𝑎esprime un livello base del log-odds-ratio del verificarsi di un evento a prescindere dai valori e dalle modalità delle variabili esplicative

-𝐵=𝑙𝑜𝑔'(𝑂𝑅)esprime la variazione del log-odds-ratio per un incremento unitario di X, tenendo fisse tutte le altre variabili esplicative

Test sul modello

test globale: test del rapporto della massima verosimiglianza

-𝐺"=𝐷𝑒𝑣(𝑚𝑜𝑑𝑒𝑙𝑙𝑜'𝑠𝑜𝑡𝑡𝑜'𝐻')−𝐷𝑒𝑣(𝑚𝑜𝑑𝑒𝑙𝑙𝑜'𝑐𝑜𝑚𝑝𝑙𝑒𝑡𝑜)−𝑋A,13

test sui parametri: test di Wald

-𝐵•"

𝑉𝑎𝑟(𝐵•)−𝑋A,13

"'→𝑍= 𝐵•

𝑠𝑒H𝐵•I−𝑁(0,1)

Tutto

lunedì 20 aprile 2026

10:40

Appunti di Statistica Applicata (Modulo B), Dispense di Statistica Applicata

Documenti correlati

Anteprima parziale del testo

Scarica Appunti di Statistica Applicata (Modulo B) e più Dispense in PDF di Statistica Applicata solo su Docsity!

Test per due campioni

𝑌 − 𝑁H𝜇

L

𝑌 − 𝑁H𝜇

I

U

V

W

X

U

V

𝑌 − 𝐵𝑖𝑛H 1 ; 𝜋

I

Tutto

𝑌 − 𝐵𝑖𝑛H 1 ; 𝜋

I

· K

L

A: 𝑛 = 13 ; 𝑋

B: 𝑚 = 20 ; 𝑋

U

V

W

X

U

V

U

V

U

V

U

V

A: 𝑛 = 64 ; 𝑋

B: 𝑚 = 75 ; 𝑋

𝑃( 1 − 𝑃) · K

L

L

A 1170 0,468 0,

B 585 0,234 0,

C 405 0,162 0,

D 340 0,136 1

A 0,40 0,

B 0,30 0,

C 0,20 0,

D 0,10 1

L

X

Y X1 X2 X

Y 1 𝑝

X1 𝑝

X2 𝑝

X3 𝑝

I = 0 , 00456

𝑆𝐸H𝐵

I

→ 𝑆𝐸H𝐵

I =

𝑆𝐸H𝐵

I

· 𝑆𝐸H𝐵

I

X

X = 𝑎 + 𝐵𝑥