Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti di Statistica Applicata (Modulo B), Dispense di Statistica Applicata

Appunti relativi al secondo modulo di Statistica Applicata

Tipologia: Dispense

2025/2026

Caricato il 16/06/2026

gerri-scotteam
gerri-scotteam 🇮🇹

5

(2)

32 documenti

1 / 9

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Test per due campioni
Test per il confronto di due medie per due campioni indipendenti
Possiamo trovarci in due casi
entrambi i campioni derivano da una Normale
varianze note
varianze incognite
uguali
§
diverse
§
-
non è verificata l'ipotesi di normalità
-
Normali con varianze note
1.
Ammettiamo di avere due campioni da due variabili casuali X e Y
𝑋𝑁(𝜇!;'𝜎!
")
𝑌𝑁(𝜇#;'𝜎#
")
I test sono sempre di tipo unilaterale destro, unilaterale sinistro e bilaterale
La funzione test si basa sulla differenza tra medie
(
)
////
////
0
La regione di rifiuto segue il ragionamento dei test classici
Test sulle varianze (test di omoschedasticità)
Prima di vedere i test sulle medie con varianze ignote, occorre eseguire un test sulle varianze, per verificare se sono uguali o diverse
Il test è dunque il seguente
𝐻':'𝜎!
"=𝜎#
"''𝑜𝑣𝑣𝑒𝑟𝑜'𝜎!
"
𝜎#
"=1
-
𝐻(:'𝜎!
"𝜎#
"''𝑜𝑣𝑣𝑒𝑟𝑜'𝜎!
"
𝜎#
"1
-
La statistica test è data dal rapporto tra le due stime delle varianze ed assume la forma di una F di Snedecor con n-1 e m-1 gradi di libertà
'𝑡
(
𝑥
)
=𝑠!
"
𝑠#
"'−𝐹$)(;%)(
Per comodità di effettua sempre il test unilaterale destro, scegliendo il rapporto tra la varianza massima e quella minima
𝑠!
">𝑠#
"'→'𝑠!
"
𝑠#
"
-
𝑠#
">𝑠!
"'→'𝑠#
"
𝑠!
"
-
E la regione di rifiuto diventa
→'𝑠!
"
𝑠#
">𝐹+;,$.(;,%)(
Esempio
𝑠!
"=3530,8
-
𝑠#
"=2677,8
-
𝑡
(
𝑥
)
=𝑠!
"
𝑠#
"=3530,8
2677.8=1,3185
Normali con varianze ignote ma uguali
2.
Ammettiamo di avere due campioni da due variabili casuali X e Y con varianze uguali
𝑋𝑁(𝜇!;'𝑠!
")
𝑌𝑁
H
𝜇#;'𝑠#
"
I
La varianza comune viene stimata come quanto segue
𝑠.
"=
(
𝑛1
)
·𝑠!
"+
(
𝑚1
)
·𝑠#
"
𝑛+𝑚2
I test sono sempre di tipo unilaterale destro, unilaterale sinistro e bilaterale
La funzione test si basa sulla differenza tra medie
'𝑡
(
𝑥
)
=𝑋$
////
𝑌%
////
0
𝑠.
"·
K
1
𝑛+1
𝑚
L
'−𝑡$/%)"'𝑜𝑝𝑝𝑢𝑟𝑒'𝑁
(
0,1
)
'𝑐𝑜𝑛'𝑛'𝑒'𝑚'"𝑔𝑟𝑎𝑛𝑑𝑖"
La regione di rifiuto segue il ragionamento dei test classici
Normali con varianze ignote ma diverse (Test di Welch)
3.
Ammettiamo di avere due campioni da due variabili casuali X e Y con varianze uguali
𝑋𝑁(𝜇!;'𝑠!
")
𝑌𝑁
H
𝜇#;'𝑠#
"
I
I test sono sempre di tipo unilaterale destro, unilaterale sinistro e bilaterale
La funzione test si basa sulla differenza tra medie
'𝑡
(
𝑥
)
=𝑋$
////
𝑌%
////
0
𝑠!
"
𝑛+𝑠#
"
𝑚
'−𝑡0'𝑜𝑝𝑝𝑢𝑟𝑒'𝑁
(
0,1
)
'𝑐𝑜𝑛'𝑛'𝑒'𝑚'"𝑔𝑟𝑎𝑛𝑑𝑖"
Dove il grado di libertà g viene stimato come quanto segue
𝑔=
U
𝑠!
"
𝑛+𝑠#
"
𝑚
V
"
W
𝑠!
"
𝑛
X
"
𝑛1+
U
𝑠#
"
𝑚
V
"
𝑚1
La regione di rifiuto segue il ragionamento dei test classici
Test non parametrici (che non rispettano la condizione di Normalità)
4.
Test di Wilcoxon e Test di Mann-Whitney
Test per il confronto di due medie per due campioni dipendenti (Paired test)
Questo test si applica per due unità statistiche identiche ma osservate in due momenti diversi, ad esempio, in medicina, due gruppi di pazienti uguali osservati prima e dopo la cura
Il test valuta la differenze medie tra i due periodi, con le seguenti ipotesi
𝐻':'𝜇1233 =0
-
𝐻(:'𝜇1233 0
-
La statistica test è la seguente
𝑡
(
𝑥
)
=𝑋1233
///////
0
𝑠1233
"/𝑛
'−𝑡$)('𝑜𝑝𝑝𝑢𝑟𝑒'𝑁
(
0,1
)
'𝑐𝑜𝑛'𝑛'"𝑔𝑟𝑎𝑛𝑑𝑒"
Test per il confronto di due proporzioni per due campioni indipendenti
Ammettiamo di avere due campioni da due variabili casuali X e Y
𝑋𝐵𝑖𝑛(1;𝜋!)
𝑌𝐵𝑖𝑛H1;𝜋#I
I test sono sempre di tipo unilaterale destro, unilaterale sinistro e bilaterale
La varianza comune viene stimata come quanto segue
𝑃=𝑛·𝑃!+𝑚·𝑃#
𝑛+𝑚
La funzione test si basa sulla differenza tra medie
'𝑡(𝑥)= 𝑃!𝑃#
0𝑃(1𝑃)·K1
𝑛+1
𝑚L
'𝑁(0,1)
La regione di rifiuto segue il ragionamento dei test classici
Esercitazione - Test due campioni (pt.1)
possiamo scriverla sulle tavole!!
Esercizio 3
A: 𝑛=13;𝑋/=9;𝑠4=5,3
-
B: 𝑚=20;𝑋/=6,2;𝑠4=4,6
-
Test confronto medie per popolazioni normali con varianze ignote e diversea. 𝐻':'𝜇4=𝜇5
-𝐻(:𝜇4𝜇5
-
𝑡(𝑥)= 𝑋$
////𝑌%
////
0𝑠!
"
𝑛+𝑠#
"
𝑚
'𝑡0'𝑜𝑝𝑝𝑢𝑟𝑒'𝑁(0,1)'𝑐𝑜𝑛'𝑛'𝑒'𝑚'"𝑔𝑟𝑎𝑛𝑑𝑖"
In questo caso n e m sono piccoli, la funzione test assume la forma di una t di student
𝑡(𝑥)=𝑋$
////𝑌%
////
0𝑠!
"
𝑛+𝑠#
"
𝑚
=96,2
05,3"
13 +4,6"
20
=1,5606
Per calcolare il valore critico occorre calcolare i gradi di liberg
𝑔= U𝑠!
"
𝑛+𝑠#
"
𝑚V"
W𝑠!
"
𝑛X"
𝑛1+U𝑠#
"
𝑚V"
𝑚1=U5,3"
13 +4,6"
20V"
U5,3"
13V"
131+U4,6"
20V"
20123
𝑡"6;+/"8','": =2,07
Accetto 𝐻'
Ipotesi di eteroschedasticib. 𝐻':'𝜎4
"=𝜎5
"'
-𝐻(:𝜎4
"𝜎5
"'
-
𝑡(𝑥)=𝑠4
"
𝑠5
"'𝐹$)(;%)(
𝐻':𝜎%+!
"
𝜎%2$
"=1''𝜎4
"
𝜎5
"=1
-
𝐻(:𝜎%+!
"
𝜎%2$
">1'''𝜎4
"
𝜎5
">1
-
𝑡(𝑥)=𝑠%+!
"
𝑠%2$
"'𝐹$)(;%)( ''𝑡(𝑥)=𝑠4
"
𝑠5
"'𝐹$)(;%)(
𝑡(𝑥)=𝑠4
"
𝑠5
"=5,3"
4,6"=1,33
𝐹(";(;;+8',': =2,31
Accetto H'' l'ipotesi di eteroschedasticiera sbagliata
Riproporre il test con varianze ignote ma UGUALI (FAI A CASA)c.
Esercizio 4
A: 𝑛=64;𝑋/=2,1;𝑠4=0,29
-
B: 𝑚=75;𝑋/=1,7;𝑠4=0,24
-
Ipotesi di omoschedasticia. 𝐻':'𝜎4
"=𝜎5
"'
-𝐻(:𝜎4
"𝜎5
"'
-
𝑡(𝑥)=𝑠4
"
𝑠5
"'𝐹$)(;%)(
𝐻':𝜎%+!
"
𝜎%2$
"=1''𝜎4
"
𝜎5
"=1
-
𝐻(:𝜎%+!
"
𝜎%2$
">1'''𝜎4
"
𝜎5
">1
-
𝑡(𝑥)=𝑠%+!
"
𝑠%2$
"'𝐹$)(;%)( ''𝑡(𝑥)=𝑠4
"
𝑠5
"'𝐹$)(;%)(
𝑡(𝑥)=𝑠4
"
𝑠5
"=0,29"
0,24"=1,46
𝐹<6;=>;+8','( =1,40
Rifiuto H'' i due campioni sono eteroschedastici
Test confronto medie per popolazioni normali con varianze ignote e diverseb. 𝐻':'𝜇4=𝜇5
-𝐻(:𝜇4𝜇5
-
𝑡(𝑥)=𝑋$
////𝑌%
////
0𝑠!
"
𝑛+𝑠#
"
𝑚
'𝑡0'𝑜𝑝𝑝𝑢𝑟𝑒'𝑁(0,1)'𝑐𝑜𝑛'𝑛'𝑒'𝑚'"𝑔𝑟𝑎𝑛𝑑𝑖"
In questo caso n e m sono grandi, la funzione test assume la forma di una Normale
standardizzata
𝑡(𝑥)=𝑋$
////𝑌%
////
0𝑠!
"
𝑛+𝑠#
"
𝑚
=2,11,7
00,29"
64 +0,24"
75
=8,76
𝑡+/"8',': =1,645
Rifiuto 𝐻'
Esercizio 6
𝑛=227;𝑃(=163
227=0,718
1. 𝑚=262;𝑃"=154
262=0,588
2.
Test su due proporzioni di due campioni indipendenti
𝐻':'𝜋(=𝜋"
-𝐻(:'𝜋(𝜋"
-
Le ipotesi sono che le due popolazioni derivano da due bernoulliane
'𝐵𝑒𝑟𝑛'(𝜋()1. '𝐵𝑒𝑟𝑛'(𝜋")
2.
𝑡(𝑥)=𝑃!𝑃#
0𝑃(1𝑃)·K1
𝑛+1
𝑚L
'𝑁(0,1)
𝑃=𝑛·𝑃(+𝑚·𝑃"
𝑛+𝑚 =227·0,718+262·0,588
227+262 =0,648
𝑡(𝑥)= 0,7180,588
00,648·(10,648)·K 1
227+1
262L
=3,01
𝑡+/"8','": =1,96
Rifiuto 𝐻'
Esercizio 7
Tipo di test, sistema di ipotesi e assunzioni necessaria.
Il test è un test di confronto tra medie per due campioni (Two Sample t-test) indipendenti con
varianze uguali e ignota (var.equal=TRUE). Il test è unilaterale sinistro (alternative="less")
𝐻':'𝜇!=𝜇!
-𝐻(:𝜇!<𝜇!
-
L'assunzione necessaria è che X e Y provengano da due Normali indipendenti
decisione e livello di significativib.
p-value = 0,001397 'p-value abbastanza piccolo, rifiuto 𝐻'per ogni livello di significativi
fino ad a = 0,0015
varianza comunec.
𝑠.
"=(𝑛1)·𝑠!
"+(𝑚1)·𝑠#
"
𝑛+𝑚2
𝑠!
"=
𝑠#
"=
Per non calcolarle io, posso ricavare la varianza comune dall'output con un passaggio inverso
Dall'output so che t(x) = - 3,6763
'3,6763=4,45,9
0𝑠.
"·K1
8+1
7L
''𝑠.
"=U4,45,9
3,6763V"
1
8+1
7=0,7883
comando Rd.
t.TEST(x,y,alyernative="two.sided", var.equal=FALSE)
Test Chi quadrato
Sono di due tipologie
di associazione
-
di adattamento
-
Sono test non parametrici, che non studiano un parametro ma le connessioni tra due popolazioni campionarie
Test Chi quadrato di associazione (o di indipendenza)
Ci chiediamo se la dipendenza che abbiamo osservato nel campione è una peculiaricaratteristica dei soli estratti e quindi labbiamo osservata per puro caso ovvero è la manifestazione di
una reale associazione tra i due fenomeni esistente nella popolazione di riferimento.
L'indipendenza stocastica è confermata se 𝜋2? =𝜋2·𝜋?
Il test ha quindi le seguenti ipotesi
𝐻':'𝑖,𝑗''𝜋2? =𝜋2·𝜋?'
-𝐻(:'𝑖,𝑗''𝜋2? 𝜋2·𝜋?'
-
La funzione test è la seguente
𝑡(𝑥)=𝑖𝑛𝑑𝑖𝑐𝑒'𝑋"'𝑑𝑖'𝑃𝑒𝑎𝑟𝑠𝑜𝑛'𝑋"
@)(;,%)(
Dove r e m sono rispettivamente il numero di righe e colonne
Il sistema di ipotesi si può quindi riscrivere come
𝐻':𝑋"=0
-𝐻(:𝑋"0
-
Il test è un test di tipo unilaterale destro 'rifiuto se 𝑋">𝑋"
+;@)(;%)(
Test Chi quadrato di adattamento
Utile per verificare lipotesi che i dati campionari provengano da una variabile casuale la cui distribuzione di probabiliè nota
E' dunque un test per un solo campione 𝑋𝐹(𝑥;𝜃)', che viene confrontato con una certa distribuzione 𝐹'=𝐹(𝑥;𝜃)
Il test ha quindi le seguenti ipotesi
𝐻':''𝑥''𝐹'=𝐹(𝑥;𝜃)'
-𝐻(:''𝑥''𝐹'𝐹(𝑥;𝜃)
-
La funzione test è la seguente
𝑡(𝑥)=𝑖𝑛𝑑𝑖𝑐𝑒'𝑋"'𝑑𝑖'𝑃𝑒𝑎𝑟𝑠𝑜𝑛'𝑋"
A)()$B%..+@+%CD@2,1+,ED2%+@C
Dove k è il numero di classi nelle quali è stato diviso il campione
Infatti, i dati campionari devono essere suddivisi in k classi a cui saranno associate le frequenze assolute e le frequenze teoriche, ovvero le probabiliche la variabile casuale assunta come
ipotesi nulla assuma valori della classe di riferimento
Esempio di classi, frequenze assolute e teoriche
Una volta ottenute le frequenze teoriche si applica la formula di Chi quadrato
𝑋"=f(𝑛2𝑛𝜋2)"
𝑛𝜋2'
A
28(
E necessario però definire anche il valore dei parametri della distribuzione (dunque la media e la varianza)
Quando non si conoscono (praticamente sempre), essi vanno stimati sullo stesso campione di dati.
In questo caso la distribuzione della statistica 𝑋"è sempre quella di una variabile casuale Chi-quadrato ma i suoi gradi di libersono (k-1-num. parametri da stimare).
Test per la verifica della normali
I test sulla media presentati funzionano nel caso in cui sia possibile assumere la normalidella distribuzione dei dati.
Come possiamo verificare questa assunzione?
strumenti grafici: istogrammi e q-q-plot
-
test statistici
-
Test di Kolmogorov e Smirnov
Il test ha le seguenti ipotesi
𝐻':''𝑥''𝐹'=𝐹(𝑥;𝜃)'
-𝐻(:''𝑥''𝐹'𝐹(𝑥;𝜃)
-
La funzione test è la seguente
𝐷$=sup|𝐹(𝑥)𝐹'(𝑥)|'
Il valore critico viene così calcolato
𝑘=m1
2𝑛·lnK𝑎
2L
per valori grandi di 𝐷$(o maggiori del valore critico) si rifiuta 𝐻'
Esercitazione - Test due campioni (pt.2)
Esercizio 5 - FAI A CASA!!
Risposte
test di confronto tra due medie di campioni indipendenti con varianze ignote
-
media camp (x) = 4,256; media camp (y) = 4,84; s(x) = 2,20; s(y) = 2,59
-
faccio un test sulla varianza, t(x) = 1,387, accetto H0, le varianze sono uguali
s^2p = 5,77; t(x) = -0,2147, accetto H0
-
Esercizio 8
sistema di ipotesia. 𝐻':'𝜇.@2%+ =𝜇1F.F
-𝐻(:𝜇.@2%+ >𝜇1F.F
-
quale più opportunob.
Chiaramente il Paired Test, perché i due campioni sono dipendenti
conclusione del testc.
Accetto H0 ad un livello di significatividi 0,05%, ma non del 0,1%
Esercizio 9
sistema di ipotesia. 𝐻':'𝜇4=𝜇5
-𝐻(:𝜇4>𝜇5
-
quale più opportunob.
Chiaramente il Paired Test, perché i due campioni sono dipendenti (sono gli stessi bilanci)
p-value e come ottenerloc.
p-value test 1 = 0,005923
-
p-value test 2 = 0,003318
-
Da questi valori rifiuterei sempre H0
Avrei potuto ottenere i p-value calcolando la probabiliche la variabile test fosse superiore del
valore t in una T di Student con 11 e 22 gradi di liber
P(T(x)>3.011) - t11
-
P(T(x)>2.9973) - t22
-
in caso di test bilateraled.
La risposta sarebbe uguale, rifiuterei H0 sempre
Esercizio 10
quale più opportunoa.
Chiaramente il Paired Test, perché i due campioni sono dipendenti (sono le stesse persone)
ipotesi del testb.
Che la media sia uguale
𝑡(𝑥)=𝑋1233
///////
m𝑠1233
"
𝑛
'𝑡$)('𝑜𝑝𝑝𝑢𝑟𝑒'𝑁(0,1)'𝑐𝑜𝑛'𝑛'grande
Capire se varianze sono uguali o diverse!!!
i gradi di liberc.
??
interpretazione risultatod.
p-value alto, accetto H0
Esercizio 11
Sistema di ipotesia. 𝐻':'𝑖,𝑗''𝜋2? =𝜋2·𝜋?'
-𝐻(:'𝑖,𝑗''𝜋2? 𝜋2·𝜋?'
-
Testb.
𝑋"=4,433;𝑎=0,05
𝑋"
($)()·(%)() =𝑋"
"'𝑋";+8',':
"=5,994
Accetto H0
Esercizio 12
Soluzioni (FAI A CASA)
il test Chi Quadratoa.
testb.
𝑋"
($)()·(%)() =𝑋>
"'𝑋>;+8',':
"=9,488
Rifiuto H0
Esercizio 13
Test di adattamento (Kolmogorov Smirnov)
Distribuzione di frequenza osservata dal campione
-𝑥2𝑛2𝑓2𝐹2
A1170 0,468 0,468
B585 0,234 0,702
C405 0,162 0,864
D340 0,136 1
Distribuzione di frequenza teorica
-𝑥2𝑓2𝐹2
A0,40 0,40
B0,30 0,70
C0,20 0,90
D0,10 1
Il Test KS si basa sulle differenze in valore assoluto
𝐹(𝑋) 𝐹'Diff.
0,468 0,40 0,068
0,702 0,70 0,002
0,864 0,90 0,036
1 1 0
Il valore massimo, ovvero la statistica test, è 0,068
𝑘=m1
2𝑛·lnK𝑎
2L
=m1
2·2500·lnW0,01
2X
=0,032
0,068 > 0,032 'rifiuto 𝐻'
Test ANOVA (ANalisys Of VAriance)
E' un test sulle medie di 3 o più gruppi che sfrutta le varianze di gruppo
In particolare useremo il test per studiare una sola variabile di interesse Y, che dipende da un unico fattore qualitativo X, dalle cui modalideriva la divisione in k gruppi
Esempio
X = sessione di laurea
-
Y = stipendio
-
Dividiamo la popolazione in tanti gruppi quante le sessioni di laurea per studiarne gli stipendi medi
Per il confronto delle medie di gruppo si usa il teorema di scomposizione della varianza, per il quale la varianza totale è la somma della varianza between (varianza delle medie di
gruppo) e della varianza within (medie delle varianze di gruppo)
Da questo teorema deriva la correlazione
𝑐𝑜𝑟𝑟=𝜂"=𝜎5
"
𝜎"
Maggiore è la correlazione, maggiore sono diverse tra loro le medie
Il test ha le seguenti ipotesi
𝐻':'𝜇(=𝜇"==𝜇A
-𝐻(:''𝜇(𝜇A
-
La funzione test è la seguente
𝑡(𝑥)=𝐷𝑒𝑣5
"/(𝑘1)
𝐷𝑒𝑣J
"/(𝑛𝑘)𝐹(𝑘1;𝑛𝑘)
Il test è un test unilaterale destro
Modello di regressione multiplo
Si tratta dell'estensione del modello di regressione lineare, in cui facevamo analisi di regressione sulla variabile Y data una sola variabile X, ora le variabili X aumentano
Si usano
matrice di correlazione: la presentazione sotto forma di matrice dei coefficienti di correlazione tra tutte le coppie
-
Serve a stabilire i legami tra le variabili (legame lineare o meno)
Y X1 X2 X3
Y 1 𝑝KL( 𝑝KL"𝑝KL6
X1 𝑝KL( 1𝑝L(L" 𝑝L(L6
X2 𝑝KL"𝑝L(L" 1𝑝L"L6
X3 𝑝KL6 𝑝L(L6 𝑝L"L6 1
Nell'esempio numerico tutte le variabili X hanno una bassa correlazione con Y
Viceversa, un'alta correlazione tra due variabili X rappresenta un campanello d'allarme per le variabili indipendenti scelte (multicollinearità)
matrice di scatterplot
-
Il modello si basa sul fatto che le n osservazioni provengano da un modello del tipo
𝑌=𝐵'+𝑋(𝐵(+𝑋"𝐵"+𝑋A𝐵A+𝜀
Le assunzioni del modello sono
YM=B'+xM(B(+xM(B"+xMNBN+εM''linerari1.
gli errori sono variabili casuali indipendenti con valore atteso nullo e varianza uguale a 𝜎"'Y è una variabile casuale le cui osservazioni sono indipendenti
2.
i valori degli Xi non hanno una distribuzione da variabile casuale e sono noti senza errori3.
I beta incogniti si stimano con il metodo dei minimi quadrati, in generale sono stimatori corretti ed efficienti
Ogni Beta misura la variazione media di Y in corrispondenza di una variazione unitaria di una variabile esplicativa Xi, tenendo costanti le altre
Per confrontare i coefficienti Beta occorre normalizzarli
'𝐵?
=𝑌
𝑠#=𝐵?·𝑠!?
𝑠#
In R
> nomemodello <-lm(formula)
formula = var risp ~ var espl = y ~ x1+x2+…
dove var espl sarà dato dallelenco delle variabili esplicative che vogliamo inserire
> summary(nomemodello)
Stima della varianza
Si applica usando i residui (RSS), ovvero le differenze tra gli Y dati e gli Y teorici, e stimando le loro varianze
𝜎"=𝑅𝑆𝑆
𝑑𝑓
𝑅𝑆𝐸=𝜎"
𝑑𝑓=𝑛𝑘1
Anche nel modello multiplo si divide la varianza in
varianza spiegata '𝑆𝑆@C0
-
varianza residua 𝑅𝑆𝑆
-
Queste vengono usate per il calcolo dell'indicatore di bondel modello, maggiore è questo, maggiore sarà la bondel modello
'𝑅"=𝑆𝑆@C0
𝑆𝑆K
Inferenza sul modello
E' necessaria un'ulteriore assunzione, ovvero che le variabili casuali'𝜀2'siano delle Normali, e quindi che anche gli Y e gli stimatori Beta siano delle Normali
Ora possiamo eseguire test per decidere se mantenere o meno il modello ottenuto
Test F1.
E' il test sulla significatividi tutti i parametri per definire la bondel modello
𝐻':''𝐵2=0'
-𝐻(:''𝐵20'
-
La funzione test è
𝑡(𝑥)=𝑆𝑆@C0/𝑘
𝑅𝑆𝑆/(𝑛1𝑘)
se la funzione test è circa 1 il modello di regressione NON spiega la variabilidi Y
-
se è molto maggiore di 1 il modello di regressione spiega la variabilidi Y
-
La statistica test è una F di Fischer del tipo 𝐹𝐹A;,$)()A
Il test è di tipo unilaterale destro
Se rifiuto il test il modello è un "buon" modello
Test T2.
E' il test sulla significatividel singolo parametro nel modello
𝐻':'𝐵2=0'
-𝐻(:'𝐵20'
-
La funzione test è
𝑡(𝑥)=𝐵?
0𝑣𝑎𝑟H𝐵?I
=𝐵?
𝑠𝑒H𝐵?I
La statistica test è una t di Student del tipo 𝐹t$)A)(
Il test è di tipo bilaterale
Se rifiuto il test il parametro è un "buon" parametro
Assunzioni sui residui
assunzione di lineari
-
assunzione di omoschedastici
-
assunzione di indipendenza
-
assunzione di normali
-
Regressione con variabili qualitative
Regressione con variabile categorica dummy (dicotomica)
La variabile qualitativa ha solamente due modali𝑥(e 𝑥", che esprimiamo come 0 e 1
𝑋=𝑥(''𝑤=1'
-𝑋=𝑥"''𝑤=0
-
Da cui deriva che
𝑦=𝐵'+𝐵(·𝑤+𝜀
Per cui
𝐵''media della variabile Y quando W = 0
-𝐵(variazione media della variabile Y quando W = 1
-
La modaliche assume valore nullo è detta "baseline"
Regressione con variabile categorica politomica
Con più di 2 modaliè sbagliato trattare la variabile qualitativa come fosse quantitativa
Occorre, invece, trasformare ogni modalidella variabile politomica in una variabile dicotomica, che ha valore nullo in assenza della modalie valore positivo in presenza della
modali
La variabile politomica, quindi, si amplia in tante variabili dummy tante quante modalipresenta
Se facciamo regressione una delle k variabili dummy verrà esclusa perché collineare e assumerà il ruolo di "baseline" nella interpretazione dei coefficienti
Esercitazione - Modelli di regressione lineare
Esercizio 3
assunzioni del modello semplice1.
Nell'esame verranno chieste quelle del modello multiplo, studiale!!
commentare i coefficienti e la significativi
𝐵': fatturato medio di un negozio quando non effettua promozioni = 26,538
𝐵(: variazione di fatturato medio di un negozio quando effettua promozioni = 45,746
2.
Entrambi i coefficienti sono significativi al 100%
dimensione campionaria e varianza dell'errore3.
n -k - 1 = 88 gradi di liber
k è il numero di variabili regressori xi, in questo caso è solamente 1
Quindi n = 88 + k + 1 = 88 + 1 + 1 = 90
Per varianza dell'errore si intende la varianza residua, cioè quella non spiegata dal modello
𝜎"=(𝑅'𝑆𝐸)"=21,59"=466,128
fatturato medio nelle due ipotesi
senza promozione = M(Y|x=0) = 26,538
con promozione = M(Y|x=1) = 26,538 + 45,746 = 72,284
4.
Esercizio 4
espressione e assunzioni del modello multiplo1. 𝑦=𝐵'+𝐵(𝑥(+𝐵"𝑥"+𝜀
Le assunzioni del modello sono 4
lineari
media nulla degli errori
incorrelazione tra i residui
normalidegli 𝜀
numero di osservazioni disponibili2.
n -k - 1 = 27 gradi di liber
k = 2
n = 27 + 2 + 1 = 30
valore osservato della statistica t3.
Il valore t per la variabile reddito è 110,972
Se fosse rimosso dall'output si determinerebbe tramite la sua formula
𝑡5!=𝐵(
𝑆𝐸(𝐵()=0,0496833
0,0004477=110,972
si rifiuta o si accetta al 5% per la variabile reddito e per educ4.
Dato che il p-value di reddito è molto piccolo e quindi inferiore a 0,05 si rifiuta H0
Per educ invece si accetta, dato che il p-value è maggiore di 0,05
stima varianza errori5. 𝜎"=(𝑅𝑆𝐸)"=0,1019"=0,01038
Esercizio 5
sufficienza assunzione sugli errori1.
No, mancano le assunzioni di normalie di omoschedasticidegli errori
espressione del modello2. 𝑦=9,983+16,412·𝐷𝐼𝑆𝑇+8,718·𝐸𝑇𝐴+3,264·𝑇𝐸𝑀𝑃𝑂
interpretazione coefficiente TEMPO3.
Rappresenta la variazione della spesa media (3,264) in corrispondenza di un aumento di un minuto di
tempo trascorso in magazzino, a paridi ee distanza
utiliETA'4.
No, il p-value del test T è molto alto (0,241), la variabile ETA' andrebbe rimossa
ipotesi del test globale del modello5.
Le ipotesi del test F sono
𝐵(=𝐵"=𝐵6=0
𝐵('𝑜'𝐵"'𝑜'𝐵60
I gradi di libersono k = 3 e n - k - 1 = 56
conclusione del test F per a = 0,056.
Per un livello di significativipari a 0,05 accetto il test F (0,07403 > 0,05), il modello non è significativo
coefficiente di determinazione7.
E' pari a 0,1211, ovvero spiega solo il 12% dei dati, quindi per nulla significativo
analisi dei grafici e dei residui8.
Dal QQplot si evince la normalidei residui
Esercizio 6
bondi adattamento del modello ai dati1.
Il modello è molto buono, spiega il 99,98% dei dati
coefficiente di costo della farina2.
La differenza di aumento di prezzo medio del pane venduto nel supermercato rispetto a quello venduto
nei negozi è pari a 2,0108741 euro/kg in corrispondenza di un aumento di 1 euro/kg della farina
SE costo della farina3.
E' pari a 𝑆𝐸H𝐵"I=0,00456
Se non ci fosse si calcolerebbe con la sua formula
𝑡5"=𝐵"
𝑆𝐸H𝐵"I'𝑆𝐸H𝐵"I=𝐵"
𝑡5"
coefficiente di tipologia4. 𝑡5!=𝐵(
𝑆𝐸H𝐵(I'𝐵(=𝑡5!·𝑆𝐸H𝐵(I
costo del pane al kg per un negozio che compra la farina a 2 euro al kg5. 𝑦=0,0094507+0,3014718·1+2,0108741·2=4,3137
valore delle medie del prezzo del pane in funzione del punto di vendita
supermercato = -0,0094507
negozio = -0,0094507 + 0,3014718 = 0,2920211
6.
Modello di regressione LOGIT
E' il modello di regressione che permette di agire su variabili Y dicotomiche, ovvero variabili dummy, con solo due eventi (pari/dispari, bianco/nero, ecc.)
Si basa sulle probabiliche ciascuno dei due eventi si verifichi, intesa come il numero di frequenze sul totale
Il modello LOGIT parte proprio dalla definizione delle probabili
𝑃(𝑌=1)=𝑝
-𝑃(𝑌=0)=1𝑝
-
Definiamo il rapporto ODDS, ovvero il rapporto tra la probabiliche levento accada rispetto alla probabiliche non accada
𝑂𝐷𝐷𝑆=𝑝
1𝑝
Se p è compreso tra 0 e 0.5, ODDS avrà un valore compreso tra 0 e 1, viceversa se p supera 0.5, ODDS tenderà sempre di più verso infinito
Il logaritmo degli ODDS è detto LOGIT
𝑙𝑜𝑔𝑖𝑡(𝑝)=logW𝑝
1𝑝X
Usiamo il logaritmo perché trasforma la funzione in una funzione continua e lineare tra -e +∞
Confronto tra ODDS
Quando si ipotizza che Y sia influenzato da una variabile esplicativa X, si possono calcolare gli ODDS delle probabilicondizionate
𝑂𝐷𝐷𝑆|𝑥2=𝑃(𝑌=1|𝑥2)
1𝑃(𝑌=1|𝑥2)
Per eseguire un confronto tra due X si valuta il rapporto, detto ODDS RATIO
𝑂𝑅=𝑂𝐷𝐷𝑆|𝑥(
𝑂𝐷𝐷𝑆|𝑥"=𝑃(𝑌=1|𝑥()
1𝑃(𝑌=1|𝑥()
𝑃(𝑌=1|𝑥")
1𝑃(𝑌=1|𝑥")
OR < 1 'effetto negativo passando da x1 a x2 la variabile esplicativa X influisce diminuendo l'ODDS sul verificarsi dell'evento
-
OR = 1 'nessun effetto passando da x1 a x2 la variabile esplicativa X non influisce sul verificarsi dell'evento
-
OR > 1 'effetto positivo passando da x1 a x2 la variabile esplicativa X influisce aumentando l'ODDS sul verificarsi dell'evento
-
Nel modello LOGIT verrà usato il logaritmo degli OR
log(𝑂𝑅)=logW𝑂𝐷𝐷𝑆|𝑥(
𝑂𝐷𝐷𝑆|𝑥"X=log𝑃(𝑌=1|𝑥()
1𝑃(𝑌=1|𝑥()
𝑃(𝑌=1|𝑥")
1𝑃(𝑌=1|𝑥")=𝑙𝑜𝑔𝑖𝑡(𝑃(𝑌=1|𝑥()𝑙𝑜𝑔𝑖𝑡(𝑃(𝑌=1|𝑥")
Modello di regressione logistica semplice
Si ipotizza di disporre di un'unica variabile esplicativa X
logW𝑝
1𝑝X=𝑎+𝐵𝑥
dove il coefficiente
𝑎esprime un livello base del log-odds-ratio del verificarsi di un evento a prescindere dai valori e dalle modalidelle variabili esplicative
-𝐵=𝑙𝑜𝑔'(𝑂𝑅)esprime la variazione del log-odds-ratio per un incremento unitario di X
-
Test sul modello
test globale: test del rapporto della massima verosimiglianza
-𝐺"=𝐷𝑒𝑣(𝑚𝑜𝑑𝑒𝑙𝑙𝑜'𝑠𝑜𝑡𝑡𝑜'𝐻')𝐷𝑒𝑣(𝑚𝑜𝑑𝑒𝑙𝑙𝑜'𝑐𝑜𝑚𝑝𝑙𝑒𝑡𝑜)𝑋(,13
"
test sui parametri: test di Wald
-𝑋"=𝐵"
𝑉𝑎𝑟(𝐵)𝑋(,13
"'𝑍= 𝐵
𝑠𝑒H𝐵I𝑁(0,1)
Modello di regressione logistica multipla
Si ipotizza di disporre di più di una sola variabile esplicativa X
logW𝑝
1𝑝X=𝑎+𝐵(𝑥(+𝐵"𝑥"++𝐵2𝑥2
dove il coefficiente
𝑎esprime un livello base del log-odds-ratio del verificarsi di un evento a prescindere dai valori e dalle modalidelle variabili esplicative
-𝐵=𝑙𝑜𝑔'(𝑂𝑅)esprime la variazione del log-odds-ratio per un incremento unitario di X, tenendo fisse tutte le altre variabili esplicative
-
Test sul modello
test globale: test del rapporto della massima verosimiglianza
-𝐺"=𝐷𝑒𝑣(𝑚𝑜𝑑𝑒𝑙𝑙𝑜'𝑠𝑜𝑡𝑡𝑜'𝐻')𝐷𝑒𝑣(𝑚𝑜𝑑𝑒𝑙𝑙𝑜'𝑐𝑜𝑚𝑝𝑙𝑒𝑡𝑜)𝑋A,13
"
test sui parametri: test di Wald
-𝐵"
𝑉𝑎𝑟(𝐵)𝑋A,13
"'𝑍= 𝐵
𝑠𝑒H𝐵I𝑁(0,1)
Tutto
lunedì 20 aprile 2026
10:40
pf3
pf4
pf5
pf8
pf9

Anteprima parziale del testo

Scarica Appunti di Statistica Applicata (Modulo B) e più Dispense in PDF di Statistica Applicata solo su Docsity!

Test per due campioni

Test per il confronto di due medie per due campioni indipendenti

Possiamo trovarci in due casi

entrambi i campioni derivano da una Normale

varianze note ○

varianze incognite

§ uguali

§ diverse

non è verificata l'ipotesi di normalità

1. Normali con varianze note

Ammettiamo di avere due campioni da due variabili casuali X e Y

!

!

"

)

"

)

I test sono sempre di tipo unilaterale destro, unilaterale sinistro e bilaterale

La funzione test si basa sulla differenza tra medie

$

%

!

"

"

La regione di rifiuto segue il ragionamento dei test classici

Test sulle varianze (test di omoschedasticità)

Prima di vedere i test sulle medie con varianze ignote, occorre eseguire un test sulle varianze, per verificare se sono uguali o diverse

Il test è dunque il seguente

'

!

"

= 𝜎

"

𝑜𝑣𝑣𝑒𝑟𝑜

!

"

"

(

!

"

"

!

"

"

La statistica test è data dal rapporto tra le due stime delle varianze ed assume la forma di una F di Snedecor con n-1 e m-1 gradi di libertà

!

"

"

$)(;%)(

Per comodità di effettua sempre il test unilaterale destro, scegliendo il rapporto tra la varianza massima e quella minima

!

"

> 𝑠

"

"

"

"

> 𝑠 !

"

"

!

"

E la regione di rifiuto diventa

!

"

"

+; $.(; %)(

Esempio

!

"

  • = 3530 , 8

"

!

"

"

2. Normali con varianze ignote ma uguali

Ammettiamo di avere due campioni da due variabili casuali X e Y con varianze uguali

!

!

"

)

𝑌 − 𝑁H𝜇

"

I

La varianza comune viene stimata come quanto segue

.

"

=

!

"

"

I test sono sempre di tipo unilaterale destro, unilaterale sinistro e bilaterale

La funzione test si basa sulla differenza tra medie

$

%

.

"

· K

L

$/%)"

La regione di rifiuto segue il ragionamento dei test classici

3. Normali con varianze ignote ma diverse (Test di Welch)

Ammettiamo di avere due campioni da due variabili casuali X e Y con varianze uguali

!

!

"

)

𝑌 − 𝑁H𝜇

"

I

I test sono sempre di tipo unilaterale destro, unilaterale sinistro e bilaterale

La funzione test si basa sulla differenza tra medie

$

%

!

"

"

0

Dove il grado di libertà g viene stimato come quanto segue

U

!

"

"

V

"

W

!

"

X

"

U

"

V

"

La regione di rifiuto segue il ragionamento dei test classici

4. Test non parametrici (che non rispettano la condizione di Normalità)

Test di Wilcoxon e Test di Mann-Whitney

Test per il confronto di due medie per due campioni dipendenti (Paired test)

Questo test si applica per due unità statistiche identiche ma osservate in due momenti diversi, ad esempio, in medicina, due gruppi di pazienti uguali osservati prima e dopo la cura

Il test valuta la differenze medie tra i due periodi, con le seguenti ipotesi

'

1233

(

1233

La statistica test è la seguente

1233

1233

"

/𝑛

$)(

Test per il confronto di due proporzioni per due campioni indipendenti

Ammettiamo di avere due campioni da due variabili casuali X e Y

!

𝑌 − 𝐵𝑖𝑛H 1 ; 𝜋

I

I test sono sempre di tipo unilaterale destro, unilaterale sinistro e bilaterale

La varianza comune viene stimata come quanto segue

!

possiamo scriverla sulle tavole!!

Tutto

lunedì 20 aprile 2026 10:

' 1233

(

1233

La statistica test è la seguente

1233

1233

"

/𝑛

$)(

Test per il confronto di due proporzioni per due campioni indipendenti

Ammettiamo di avere due campioni da due variabili casuali X e Y

!

𝑌 − 𝐵𝑖𝑛H 1 ; 𝜋

I

I test sono sempre di tipo unilaterale destro, unilaterale sinistro e bilaterale

La varianza comune viene stimata come quanto segue

!

La funzione test si basa sulla differenza tra medie

!

· K

L

La regione di rifiuto segue il ragionamento dei test classici

Esercitazione - Test due campioni (pt.1)

Esercizio 3

A: 𝑛 = 13 ; 𝑋

4

B: 𝑚 = 20 ; 𝑋

4

a. Test confronto medie per popolazioni normali con varianze ignote e diverse

'

4

5

(

4

5

$

%

!

"

"

0

In questo caso n e m sono piccoli, la funzione test assume la forma di una t di student

$

%

!

"

"

"

"

Per calcolare il valore critico occorre calcolare i gradi di libertà g

U

!

"

"

V

"

W

!

"

X

"

U

"

V

"

U

"

"

V

"

U

"

V

"

U

"

V

"

"6;+/" 8 ','":

Accetto 𝐻 '

b. Ipotesi di eteroschedasticità

'

4

"

= 𝜎

5

"

(

4

"

5

"

4

"

5

"

$)(;%)(

'

%+!

"

%2$

"

4

"

5

"

(

%+!

"

%2$

"

4

"

5

"

%+!

"

%2$

"

$)(;%)(

4

"

5

"

$)(;%)(

4

"

5

"

"

"

(";(;;+ 8 ',':

Accetto H

'

→ l'ipotesi di eteroschedasticità era sbagliata

c. Riproporre il test con varianze ignote ma UGUALI (FAI A CASA)

Esercizio 4

A: 𝑛 = 64 ; 𝑋

4

B: 𝑚 = 75 ; 𝑋

4

a. Ipotesi di omoschedasticità

'

4

"

5

"

(

4

"

≠ 𝜎

5

"

4

"

5

"

$)(;%)(

'

%+!

"

%2$

"

4

"

5

"

(

%+!

"

%2$

"

4

"

5

"

%+!

"

%2$

"

$)(;%)(

4

"

5

"

$)(;%)(

4

"

5

"

"

"

<6;=>;+ 8 ','(

Rifiuto H '

→ i due campioni sono eteroschedastici

b. Test confronto medie per popolazioni normali con varianze ignote e diverse

'

4

5

(

4

5

$

%

!

"

"

0

In questo caso n e m sono grandi, la funzione test assume la forma di una Normale

standardizzata

$

%

!

"

"

"

"

+/" 8 ',':

Rifiuto 𝐻 '

Esercizio 6

(

"

Test su due proporzioni di due campioni indipendenti

'

(

"

(

(

"

Le ipotesi sono che le due popolazioni derivano da due bernoulliane

(

"

!

𝑃( 1 − 𝑃) · K

L

Esercizio 5 - FAI A CASA!!

Risposte

  • test di confronto tra due medie di campioni indipendenti con varianze ignote

media camp (x) = 4,256; media camp (y) = 4,84; s(x) = 2,20; s(y) = 2,

faccio un test sulla varianza, t(x) = 1,387, accetto H0, le varianze sono uguali

  • s^2p = 5,77; t(x) = - 0,2147, accetto H

2

28 (

E’ necessario però definire anche il valore dei parametri della distribuzione (dunque la media e la varianza)

Quando non si conoscono (praticamente sempre), essi vanno stimati sullo stesso campione di dati.

In questo caso la distribuzione della statistica 𝑋

"

è sempre quella di una variabile casuale Chi-quadrato ma i suoi gradi di libertà sono (k- 1 - num. parametri da stimare).

Test per la verifica della normalità

I test sulla media presentati funzionano nel caso in cui sia possibile assumere la normalità della distribuzione dei dati.

Come possiamo verificare questa assunzione?

  • strumenti grafici: istogrammi e q-q-plot
  • test statistici

Test di Kolmogorov e Smirnov

Il test ha le seguenti ipotesi

'

'

(

'

La funzione test è la seguente

$

= sup

'

Il valore critico viene così calcolato

m −

· ln K

L

per valori grandi di 𝐷 $

(o maggiori del valore critico) si rifiuta 𝐻

'

Esercitazione - Test due campioni (pt.2)

Esercizio 8

a. sistema di ipotesi

'

.@2%+

1F.F

(

.@2%+

1F.F

b. quale più opportuno

Chiaramente il Paired Test, perché i due campioni sono dipendenti

c. conclusione del test

Accetto H0 ad un livello di significatività di 0,05%, ma non del 0,1%

Esercizio 9

a. sistema di ipotesi

'

4

5

(

4

b. quale più opportuno

Chiaramente il Paired Test, perché i due campioni sono dipendenti (sono gli stessi bilanci)

c. p-value e come ottenerlo

p-value test 1 = 0,

  • p-value test 2 = 0,

Da questi valori rifiuterei sempre H

Avrei potuto ottenere i p-value calcolando la probabilità che la variabile test fosse superiore del

valore t in una T di Student con 11 e 22 gradi di libertà

  • P(T(x)>3.011) - t
  • P(T(x)>2.9973) - t

d. in caso di test bilaterale

La risposta sarebbe uguale, rifiuterei H0 sempre

Esercizio 10

a. quale più opportuno

Chiaramente il Paired Test, perché i due campioni sono dipendenti (sono le stesse persone)

b. ipotesi del test

Che la media sia uguale

1233

m

1233

"

$)(

𝑜𝑝𝑝𝑢𝑟𝑒 𝑁( 0 , 1 ) 𝑐𝑜𝑛 𝑛 grande

Capire se varianze sono uguali o diverse!!!

c. i gradi di libertà

d. interpretazione risultato

p-value alto, accetto H

Esercizio 11

a. Sistema di ipotesi

'

2?

2

?

(

2?

2

?

b. Test

"

= 4 , 433 ; 𝑎 = 0 , 05

"

($)()·(%)()

"

"

→ 𝑋

";+ 8 ',':

"

= 5 , 994

Esercizio 11

a. Sistema di ipotesi

'

2?

2

?

(

2?

2

?

b. Test

"

= 4 , 433 ; 𝑎 = 0 , 05

"

($)()·(%)()

"

"

→ 𝑋

";+ 8 ',':

"

= 5 , 994

Accetto H

Esercizio 12

Soluzioni (FAI A CASA)

a. il test Chi Quadrato

b. test

"

($)()·(%)()

>

"

>;+ 8 ',':

"

Rifiuto H

Esercizio 13

Test di adattamento (Kolmogorov Smirnov)

Distribuzione di frequenza osservata dal campione

2

2

2

2

A 1170 0,468 0,

B 585 0,234 0,

C 405 0,162 0,

D 340 0,136 1

  • Distribuzione di frequenza teorica

2

2

2

A 0,40 0,

B 0,30 0,

C 0,20 0,

D 0,10 1

Il Test KS si basa sulle differenze in valore assoluto

'

Diff.

Il valore massimo, ovvero la statistica test, è 0,

m −

· ln K

L

= m−

· ln W

X

0,068 > 0,032 → rifiuto 𝐻

'

Test ANOVA (ANalisys Of VAriance)

E' un test sulle medie di 3 o più gruppi che sfrutta le varianze di gruppo

In particolare useremo il test per studiare una sola variabile di interesse Y, che dipende da un unico fattore qualitativo X, dalle cui modalità deriva la divisione in k gruppi

Esempio

X = sessione di laurea

  • Y = stipendio

Dividiamo la popolazione in tanti gruppi quante le sessioni di laurea per studiarne gli stipendi medi

Per il confronto delle medie di gruppo si usa il teorema di scomposizione della varianza, per il quale la varianza totale è la somma della varianza between (varianza delle medie di

gruppo) e della varianza within (medie delle varianze di gruppo)

Da questo teorema deriva la correlazione

"

=

5

"

"

Maggiore è la correlazione, maggiore sono diverse tra loro le medie

Il test ha le seguenti ipotesi

'

(

"

A

(

(

A

La funzione test è la seguente

5

"

/(𝑘 − 1 )

J

"

Il test è un test unilaterale destro

Modello di regressione multiplo

Si tratta dell'estensione del modello di regressione lineare, in cui facevamo analisi di regressione sulla variabile Y data una sola variabile X, ora le variabili X aumentano

Si usano

  • matrice di correlazione: la presentazione sotto forma di matrice dei coefficienti di correlazione tra tutte le coppie

Serve a stabilire i legami tra le variabili (legame lineare o meno)

Y X1 X2 X

Y 1 𝑝

KL(

KL"

KL

X1 𝑝

KL(

L(L"

L(L

X2 𝑝

KL"

L(L"

L"L

X3 𝑝

KL

L(L

L"L

Nell'esempio numerico tutte le variabili X hanno una bassa correlazione con Y

Viceversa, un'alta correlazione tra due variabili X rappresenta un campanello d'allarme per le variabili indipendenti scelte (multicollinearità)

  • matrice di scatterplot

La variabile politomica, quindi, si amplia in tante variabili dummy tante quante modalità presenta

Se facciamo regressione una delle k variabili dummy verrà esclusa perché collineare e assumerà il ruolo di "baseline" nella interpretazione dei coefficienti

Esercitazione - Modelli di regressione lineare

Esercizio 3

  1. assunzioni del modello semplice

Nell'esame verranno chieste quelle del modello multiplo, studiale!!

commentare i coefficienti e la significatività

'

○ : fatturato medio di un negozio quando non effettua promozioni = 26,

(

: variazione di fatturato medio di un negozio quando effettua promozioni = 45, ○

Entrambi i coefficienti sono significativi al 100%

  1. dimensione campionaria e varianza dell'errore

n - k - 1 = 88 gradi di libertà

k è il numero di variabili regressori xi, in questo caso è solamente 1

Quindi n = 88 + k + 1 = 88 + 1 + 1 = 90

Per varianza dell'errore si intende la varianza residua, cioè quella non spiegata dal modello

"

= (𝑅 𝑆𝐸)

"

= 21 , 59

"

= 466 , 128

fatturato medio nelle due ipotesi

senza promozione = M(Y|x=0) = 26, ○

○ con promozione = M(Y|x=1) = 26,538 + 45,746 = 72,

Esercizio 4

  1. espressione e assunzioni del modello multiplo

'

(

(

"

"

Le assunzioni del modello sono 4

linearità ○

○ media nulla degli errori

incorrelazione tra i residui ○

○ normalità degli 𝜀

  1. numero di osservazioni disponibili

n - k - 1 = 27 gradi di libertà

k = 2

n = 27 + 2 + 1 = 30

  1. valore osservato della statistica t

Il valore t per la variabile reddito è 110,

Se fosse rimosso dall'output si determinerebbe tramite la sua formula

5 !

(

(

  1. si rifiuta o si accetta al 5% per la variabile reddito e per educ

Dato che il p-value di reddito è molto piccolo e quindi inferiore a 0,05 si rifiuta H

Per educ invece si accetta, dato che il p-value è maggiore di 0,

  1. stima varianza errori

"

= (𝑅𝑆𝐸)

"

= 0 , 1019

"

= 0 , 01038

Esercizio 5

  1. sufficienza assunzione sugli errori

No, mancano le assunzioni di normalità e di omoschedasticità degli errori

  1. espressione del modello
  1. interpretazione coefficiente TEMPO

Rappresenta la variazione della spesa media (3,264€) in corrispondenza di un aumento di un minuto di

tempo trascorso in magazzino, a parità di età e distanza

  1. utilità ETA'

No, il p-value del test T è molto alto (0,241), la variabile ETA' andrebbe rimossa

  1. ipotesi del test globale del modello

Le ipotesi del test F sono

(

"

6

(

"

6

I gradi di libertà sono k = 3 e n - k - 1 = 56

  1. conclusione del test F per a = 0,

Per un livello di significatività pari a 0,05 accetto il test F (0,07403 > 0,05), il modello non è significativo

  1. coefficiente di determinazione

E' pari a 0,1211, ovvero spiega solo il 12% dei dati, quindi per nulla significativo

  1. analisi dei grafici e dei residui

Dal QQplot si evince la normalità dei residui

Dal QQplot si evince la normalità dei residui

Esercizio 6

  1. bontà di adattamento del modello ai dati

Il modello è molto buono, spiega il 99,98% dei dati

  1. coefficiente di costo della farina

La differenza di aumento di prezzo medio del pane venduto nel supermercato rispetto a quello venduto

nei negozi è pari a 2,0108741 euro/kg in corrispondenza di un aumento di 1 euro/kg della farina

  1. SE costo della farina

E' pari a 𝑆𝐸H𝐵

"

I = 0 , 00456

Se non ci fosse si calcolerebbe con la sua formula

5 "

"

𝑆𝐸H𝐵

"

I

→ 𝑆𝐸H𝐵

"

I =

"

5 "

  1. coefficiente di tipologia

5 !

(

𝑆𝐸H𝐵

(

I

(

5 !

· 𝑆𝐸H𝐵

(

I

  1. costo del pane al kg per un negozio che compra la farina a 2 euro al kg

valore delle medie del prezzo del pane in funzione del punto di vendita

○ supermercato = - 0,

○ negozio = - 0,0094507 + 0,3014718 = 0,

Modello di regressione LOGIT

E' il modello di regressione che permette di agire su variabili Y dicotomiche, ovvero variabili dummy, con solo due eventi (pari/dispari, bianco/nero, ecc.)

Si basa sulle probabilità che ciascuno dei due eventi si verifichi, intesa come il numero di frequenze sul totale

Il modello LOGIT parte proprio dalla definizione delle probabilità

Definiamo il rapporto ODDS, ovvero il rapporto tra la probabilità che l’evento accada rispetto alla probabilità che non accada

Se p è compreso tra 0 e 0.5, ODDS avrà un valore compreso tra 0 e 1, viceversa se p supera 0.5, ODDS tenderà sempre di più verso infinito

Il logaritmo degli ODDS è detto LOGIT

𝑙𝑜𝑔𝑖𝑡(𝑝) = log W

X

Usiamo il logaritmo perché trasforma la funzione in una funzione continua e lineare tra - ∞ e +∞

Confronto tra ODDS

Quando si ipotizza che Y sia influenzato da una variabile esplicativa X, si possono calcolare gli ODDS delle probabilità condizionate

2

2

2

Per eseguire un confronto tra due X si valuta il rapporto, detto ODDS RATIO

(

"

(

(

"

"

  • OR < 1 → effetto negativo passando da x1 a x2 → la variabile esplicativa X influisce diminuendo l'ODDS sul verificarsi dell'evento

OR = 1 → nessun effetto passando da x1 a x2 → la variabile esplicativa X non influisce sul verificarsi dell'evento

  • OR > 1 → effetto positivo passando da x1 a x2 → la variabile esplicativa X influisce aumentando l'ODDS sul verificarsi dell'evento

Nel modello LOGIT verrà usato il logaritmo degli OR

log(𝑂𝑅) = log W

(

"

X = log 

(

(

"

"

(

"

Modello di regressione logistica semplice

Si ipotizza di disporre di un'unica variabile esplicativa X

log W

X = 𝑎 + 𝐵𝑥

dove il coefficiente

𝑎 esprime un livello base del log-odds-ratio del verificarsi di un evento a prescindere dai valori e dalle modalità delle variabili esplicative

  • 𝐵 = 𝑙𝑜𝑔(𝑂𝑅) esprime la variazione del log-odds-ratio per un incremento unitario di X