Esercizio 3
A: 𝑛=13;𝑋/=9;𝑠4=5,3
-
B: 𝑚=20;𝑋/=6,2;𝑠4=4,6
-
Test confronto medie per popolazioni normali con varianze ignote e diversea. 𝐻':'𝜇4=𝜇5
-𝐻(:𝜇4≠𝜇5
-
𝑡(𝑥)= 𝑋$
////−𝑌%
////
0𝑠!
"
𝑛+𝑠#
"
𝑚
'−𝑡0'𝑜𝑝𝑝𝑢𝑟𝑒'𝑁(0,1)'𝑐𝑜𝑛'𝑛'𝑒'𝑚'"𝑔𝑟𝑎𝑛𝑑𝑖"
In questo caso n e m sono piccoli, la funzione test assume la forma di una t di student
𝑡(𝑥)=𝑋$
////−𝑌%
////
0𝑠!
"
𝑛+𝑠#
"
𝑚
=9−6,2
05,3"
13 +4,6"
20
=1,5606
Per calcolare il valore critico occorre calcolare i gradi di libertà g
𝑔= U𝑠!
"
𝑛+𝑠#
"
𝑚V"
W𝑠!
"
𝑛X"
𝑛−1+U𝑠#
"
𝑚V"
𝑚−1=U5,3"
13 +4,6"
20V"
U5,3"
13V"
13−1+U4,6"
20V"
20−1≈23
𝑡"6;+/"8','": =2,07
Accetto 𝐻'
Ipotesi di eteroschedasticitàb. 𝐻':'𝜎4
"=𝜎5
"'
-𝐻(:𝜎4
"≠𝜎5
"'
-
𝑡(𝑥)=𝑠4
"
𝑠5
"'−𝐹$)(;%)(
𝐻':𝜎%+!
"
𝜎%2$
"=1'→'𝜎4
"
𝜎5
"=1
-
𝐻(:𝜎%+!
"
𝜎%2$
">1'→''𝜎4
"
𝜎5
">1
-
𝑡(𝑥)=𝑠%+!
"
𝑠%2$
"'−𝐹$)(;%)( '→'𝑡(𝑥)=𝑠4
"
𝑠5
"'−𝐹$)(;%)(
𝑡(𝑥)=𝑠4
"
𝑠5
"=5,3"
4,6"=1,33
𝐹(";(;;+8',': =2,31
Accetto H''→ l'ipotesi di eteroschedasticità era sbagliata
Riproporre il test con varianze ignote ma UGUALI (FAI A CASA)c.
Esercizio 4
A: 𝑛=64;𝑋/=2,1;𝑠4=0,29
-
B: 𝑚=75;𝑋/=1,7;𝑠4=0,24
-
Ipotesi di omoschedasticitàa. 𝐻':'𝜎4
"=𝜎5
"'
-𝐻(:𝜎4
"≠𝜎5
"'
-
𝑡(𝑥)=𝑠4
"
𝑠5
"'−𝐹$)(;%)(
𝐻':𝜎%+!
"
𝜎%2$
"=1'→'𝜎4
"
𝜎5
"=1
-
𝐻(:𝜎%+!
"
𝜎%2$
">1'→''𝜎4
"
𝜎5
">1
-
𝑡(𝑥)=𝑠%+!
"
𝑠%2$
"'−𝐹$)(;%)( '→'𝑡(𝑥)=𝑠4
"
𝑠5
"'−𝐹$)(;%)(
𝑡(𝑥)=𝑠4
"
𝑠5
"=0,29"
0,24"=1,46
𝐹<6;=>;+8','( =1,40
Rifiuto H''→ i due campioni sono eteroschedastici
Test confronto medie per popolazioni normali con varianze ignote e diverseb. 𝐻':'𝜇4=𝜇5
-𝐻(:𝜇4≠𝜇5
-
𝑡(𝑥)=𝑋$
////−𝑌%
////
0𝑠!
"
𝑛+𝑠#
"
𝑚
'−𝑡0'𝑜𝑝𝑝𝑢𝑟𝑒'𝑁(0,1)'𝑐𝑜𝑛'𝑛'𝑒'𝑚'"𝑔𝑟𝑎𝑛𝑑𝑖"
In questo caso n e m sono grandi, la funzione test assume la forma di una Normale
standardizzata
𝑡(𝑥)=𝑋$
////−𝑌%
////
0𝑠!
"
𝑛+𝑠#
"
𝑚
=2,1−1,7
00,29"
64 +0,24"
75
=8,76
𝑡+/"8',': =1,645
Rifiuto 𝐻'
Esercizio 6
𝑛=227;𝑃(=163
227=0,718
1. 𝑚=262;𝑃"=154
262=0,588
2.
Test su due proporzioni di due campioni indipendenti
𝐻':'𝜋(=𝜋"
-𝐻(:'𝜋(≠𝜋"
-
Le ipotesi sono che le due popolazioni derivano da due bernoulliane
−'𝐵𝑒𝑟𝑛'(𝜋()1. −'𝐵𝑒𝑟𝑛'(𝜋")
2.
𝑡(𝑥)=𝑃!−𝑃#
0𝑃(1−𝑃)·K1
𝑛+1
𝑚L
'−𝑁(0,1)
𝑃=𝑛·𝑃(+𝑚·𝑃"
𝑛+𝑚 =227·0,718+262·0,588
227+262 =0,648
𝑡(𝑥)= 0,718−0,588
00,648·(1−0,648)·K 1
227+1
262L
=3,01
𝑡+/"8','": =1,96
Rifiuto 𝐻'
Esercizio 7
Tipo di test, sistema di ipotesi e assunzioni necessaria.
Il test è un test di confronto tra medie per due campioni (Two Sample t-test) indipendenti con
varianze uguali e ignota (var.equal=TRUE). Il test è unilaterale sinistro (alternative="less")
𝐻':'𝜇!=𝜇!
-𝐻(:𝜇!<𝜇!
-
L'assunzione necessaria è che X e Y provengano da due Normali indipendenti
decisione e livello di significativitàb.
p-value = 0,001397 →'p-value abbastanza piccolo, rifiuto 𝐻'per ogni livello di significatività
fino ad a = 0,0015
varianza comunec.
𝑠.
"=(𝑛−1)·𝑠!
"+(𝑚−1)·𝑠#
"
𝑛+𝑚−2
𝑠!
"=
𝑠#
"=
Per non calcolarle io, posso ricavare la varianza comune dall'output con un passaggio inverso
Dall'output so che t(x) = - 3,6763
'−3,6763=4,4−5,9
0𝑠.
"·K1
8+1
7L
'→'𝑠.
"=U4,4−5,9
−3,6763V"
1
8+1
7=0,7883
comando Rd.
t.TEST(x,y,alyernative="two.sided", var.equal=FALSE)
Test Chi quadrato
Sono di due tipologie
di associazione
-
di adattamento
-
Sono test non parametrici, che non studiano un parametro ma le connessioni tra due popolazioni campionarie
Test Chi quadrato di associazione (o di indipendenza)
Ci chiediamo se la dipendenza che abbiamo osservato nel campione è una peculiarità caratteristica dei soli estratti e quindi l’abbiamo osservata per puro caso ovvero è la manifestazione di
una reale associazione tra i due fenomeni esistente nella popolazione di riferimento.
L'indipendenza stocastica è confermata se 𝜋2? =𝜋2·𝜋?
Il test ha quindi le seguenti ipotesi
𝐻':∀'𝑖,𝑗'→'𝜋2? =𝜋2·𝜋?'
-𝐻(:∃'𝑖,𝑗'→'𝜋2? ≠𝜋2·𝜋?'
-
La funzione test è la seguente
𝑡(𝑥)=𝑖𝑛𝑑𝑖𝑐𝑒'𝑋"'𝑑𝑖'𝑃𝑒𝑎𝑟𝑠𝑜𝑛'−𝑋"
@)(;,%)(
Dove r e m sono rispettivamente il numero di righe e colonne
Il sistema di ipotesi si può quindi riscrivere come
𝐻':𝑋"=0
-𝐻(:𝑋"≠0
-
Il test è un test di tipo unilaterale destro →'rifiuto se 𝑋">𝑋"
+;@)(;%)(
Test Chi quadrato di adattamento
Utile per verificare l’ipotesi che i dati campionari provengano da una variabile casuale la cui distribuzione di probabilità è nota
E' dunque un test per un solo campione 𝑋−𝐹(𝑥;𝜃)', che viene confrontato con una certa distribuzione 𝐹'=𝐹(𝑥;𝜃)
Il test ha quindi le seguenti ipotesi
𝐻':'∀'𝑥'→'𝐹'=𝐹(𝑥;𝜃)'
-𝐻(:'∃'𝑥'→'𝐹'≠𝐹(𝑥;𝜃)
-
La funzione test è la seguente
𝑡(𝑥)=𝑖𝑛𝑑𝑖𝑐𝑒'𝑋"'𝑑𝑖'𝑃𝑒𝑎𝑟𝑠𝑜𝑛'−𝑋"
A)()$B%..+@+%CD@2,1+,ED2%+@C
Dove k è il numero di classi nelle quali è stato diviso il campione
Infatti, i dati campionari devono essere suddivisi in k classi a cui saranno associate le frequenze assolute e le frequenze teoriche, ovvero le probabilità che la variabile casuale assunta come
ipotesi nulla assuma valori della classe di riferimento
Esempio di classi, frequenze assolute e teoriche
Una volta ottenute le frequenze teoriche si applica la formula di Chi quadrato
𝑋"=f(𝑛2−𝑛𝜋2)"
𝑛𝜋2'
A
28(
E’ necessario però definire anche il valore dei parametri della distribuzione (dunque la media e la varianza)
Quando non si conoscono (praticamente sempre), essi vanno stimati sullo stesso campione di dati.
In questo caso la distribuzione della statistica 𝑋"è sempre quella di una variabile casuale Chi-quadrato ma i suoi gradi di libertà sono (k-1-num. parametri da stimare).
Test per la verifica della normalità
I test sulla media presentati funzionano nel caso in cui sia possibile assumere la normalità della distribuzione dei dati.
Come possiamo verificare questa assunzione?
strumenti grafici: istogrammi e q-q-plot
-
test statistici
-
Test di Kolmogorov e Smirnov
Il test ha le seguenti ipotesi
𝐻':'∀'𝑥'→'𝐹'=𝐹(𝑥;𝜃)'
-𝐻(:'∃'𝑥'→'𝐹'≠𝐹(𝑥;𝜃)
-
La funzione test è la seguente
𝐷$=sup|𝐹(𝑥)−𝐹'(𝑥)|'
Il valore critico viene così calcolato
𝑘=m−1
2𝑛·lnK𝑎
2L
per valori grandi di 𝐷$(o maggiori del valore critico) si rifiuta 𝐻'
Esercitazione - Test due campioni (pt.2)
Esercizio 5 - FAI A CASA!!
Risposte
test di confronto tra due medie di campioni indipendenti con varianze ignote
-
media camp (x) = 4,256; media camp (y) = 4,84; s(x) = 2,20; s(y) = 2,59
-
faccio un test sulla varianza, t(x) = 1,387, accetto H0, le varianze sono uguali
s^2p = 5,77; t(x) = -0,2147, accetto H0
-
Esercizio 8
sistema di ipotesia. 𝐻':'𝜇.@2%+ =𝜇1F.F
-𝐻(:𝜇.@2%+ >𝜇1F.F
-
quale più opportunob.
Chiaramente il Paired Test, perché i due campioni sono dipendenti
conclusione del testc.
Accetto H0 ad un livello di significatività di 0,05%, ma non del 0,1%
Esercizio 9
sistema di ipotesia. 𝐻':'𝜇4=𝜇5
-𝐻(:𝜇4>𝜇5
-
quale più opportunob.
Chiaramente il Paired Test, perché i due campioni sono dipendenti (sono gli stessi bilanci)
p-value e come ottenerloc.
p-value test 1 = 0,005923
-
p-value test 2 = 0,003318
-
Da questi valori rifiuterei sempre H0
Avrei potuto ottenere i p-value calcolando la probabilità che la variabile test fosse superiore del
valore t in una T di Student con 11 e 22 gradi di libertà
P(T(x)>3.011) - t11
-
P(T(x)>2.9973) - t22
-
in caso di test bilateraled.
La risposta sarebbe uguale, rifiuterei H0 sempre
Esercizio 10
quale più opportunoa.
Chiaramente il Paired Test, perché i due campioni sono dipendenti (sono le stesse persone)
ipotesi del testb.
Che la media sia uguale
𝑡(𝑥)=𝑋1233
///////
m𝑠1233
"
𝑛
'−𝑡$)('𝑜𝑝𝑝𝑢𝑟𝑒'𝑁(0,1)'𝑐𝑜𝑛'𝑛'grande
Capire se varianze sono uguali o diverse!!!
i gradi di libertàc.
??
interpretazione risultatod.
p-value alto, accetto H0
Esercizio 11
Sistema di ipotesia. 𝐻':∀'𝑖,𝑗'→'𝜋2? =𝜋2·𝜋?'
-𝐻(:∃'𝑖,𝑗'→'𝜋2? ≠𝜋2·𝜋?'
-
Testb.
𝑋"=4,433;𝑎=0,05
𝑋"
($)()·(%)() =𝑋"
"'→𝑋";+8',':
"=5,994
Accetto H0
Esercizio 12
Soluzioni (FAI A CASA)
il test Chi Quadratoa.
testb.
𝑋"
($)()·(%)() =𝑋>
"'→𝑋>;+8',':
"=9,488
Rifiuto H0
Esercizio 13
Test di adattamento (Kolmogorov Smirnov)
Distribuzione di frequenza osservata dal campione
-𝑥2𝑛2𝑓2𝐹2
A1170 0,468 0,468
B585 0,234 0,702
C405 0,162 0,864
D340 0,136 1
Distribuzione di frequenza teorica
-𝑥2𝑓2𝐹2
A0,40 0,40
B0,30 0,70
C0,20 0,90
D0,10 1
Il Test KS si basa sulle differenze in valore assoluto
𝐹(𝑋) 𝐹'Diff.
0,468 0,40 0,068
0,702 0,70 0,002
0,864 0,90 0,036
1 1 0
Il valore massimo, ovvero la statistica test, è 0,068
𝑘=m−1
2𝑛·lnK𝑎
2L
=m−1
2·2500·lnW0,01
2X
=0,032
0,068 > 0,032 →'rifiuto 𝐻'
Test ANOVA (ANalisys Of VAriance)
E' un test sulle medie di 3 o più gruppi che sfrutta le varianze di gruppo
In particolare useremo il test per studiare una sola variabile di interesse Y, che dipende da un unico fattore qualitativo X, dalle cui modalità deriva la divisione in k gruppi
Esempio
X = sessione di laurea
-
Y = stipendio
-
Dividiamo la popolazione in tanti gruppi quante le sessioni di laurea per studiarne gli stipendi medi
Per il confronto delle medie di gruppo si usa il teorema di scomposizione della varianza, per il quale la varianza totale è la somma della varianza between (varianza delle medie di
gruppo) e della varianza within (medie delle varianze di gruppo)
Da questo teorema deriva la correlazione
𝑐𝑜𝑟𝑟=𝜂"=𝜎5
"
𝜎"
Maggiore è la correlazione, maggiore sono diverse tra loro le medie
Il test ha le seguenti ipotesi
𝐻':'𝜇(=𝜇"=⋯=𝜇A
-𝐻(:'∃'𝜇(≠𝜇A
-
La funzione test è la seguente
𝑡(𝑥)=𝐷𝑒𝑣5
"/(𝑘−1)
𝐷𝑒𝑣J
"/(𝑛−𝑘)−𝐹(𝑘−1;𝑛−𝑘)
Il test è un test unilaterale destro
Modello di regressione multiplo
Si tratta dell'estensione del modello di regressione lineare, in cui facevamo analisi di regressione sulla variabile Y data una sola variabile X, ora le variabili X aumentano
Si usano
matrice di correlazione: la presentazione sotto forma di matrice dei coefficienti di correlazione tra tutte le coppie
-
Serve a stabilire i legami tra le variabili (legame lineare o meno)
Y X1 X2 X3
Y 1 𝑝KL( 𝑝KL"𝑝KL6
X1 𝑝KL( 1𝑝L(L" 𝑝L(L6
X2 𝑝KL"𝑝L(L" 1𝑝L"L6
X3 𝑝KL6 𝑝L(L6 𝑝L"L6 1
Nell'esempio numerico tutte le variabili X hanno una bassa correlazione con Y
Viceversa, un'alta correlazione tra due variabili X rappresenta un campanello d'allarme per le variabili indipendenti scelte (multicollinearità)
matrice di scatterplot
-
Il modello si basa sul fatto che le n osservazioni provengano da un modello del tipo
𝑌=𝐵'+𝑋(𝐵(+𝑋"𝐵"…+𝑋A𝐵A+𝜀
Le assunzioni del modello sono
YM=B'+xM(B(+xM(B"…+xMNBN+εM'→'linerarità1.
gli errori sono variabili casuali indipendenti con valore atteso nullo e varianza uguale a 𝜎"→'Y è una variabile casuale le cui osservazioni sono indipendenti
2.
i valori degli Xi non hanno una distribuzione da variabile casuale e sono noti senza errori3.
I beta incogniti si stimano con il metodo dei minimi quadrati, in generale sono stimatori corretti ed efficienti
Ogni Beta misura la variazione media di Y in corrispondenza di una variazione unitaria di una variabile esplicativa Xi, tenendo costanti le altre
Per confrontare i coefficienti Beta occorre normalizzarli
→'𝐵?
∗=∆𝑌•
𝑠#=𝐵?·𝑠!?
𝑠#
In R
> nomemodello <-lm(formula)
formula = var risp ~ var espl = y ~ x1+x2+…
dove ‘var espl’ sarà dato dall’elenco delle variabili esplicative che vogliamo inserire
> summary(nomemodello)
Stima della varianza
Si applica usando i residui (RSS), ovvero le differenze tra gli Y dati e gli Y teorici, e stimando le loro varianze
𝜎€"=𝑅𝑆𝑆
𝑑𝑓
𝑅𝑆𝐸=„𝜎€"
𝑑𝑓=𝑛−𝑘−1
Anche nel modello multiplo si divide la varianza in
varianza spiegata →'𝑆𝑆@C0
-
varianza residua →𝑅𝑆𝑆
-
Queste vengono usate per il calcolo dell'indicatore di bontà del modello, maggiore è questo, maggiore sarà la bontà del modello
→'𝑅"=𝑆𝑆@C0
𝑆𝑆K
Inferenza sul modello
E' necessaria un'ulteriore assunzione, ovvero che le variabili casuali'𝜀2'siano delle Normali, e quindi che anche gli Y e gli stimatori Beta siano delle Normali
Ora possiamo eseguire test per decidere se mantenere o meno il modello ottenuto
Test F1.
E' il test sulla significatività di tutti i parametri per definire la bontà del modello
𝐻':'∀'𝐵2=0'
-𝐻(:'∃'𝐵2≠0'
-
La funzione test è
𝑡(𝑥)=𝑆𝑆@C0/𝑘
𝑅𝑆𝑆/(𝑛−1−𝑘)
se la funzione test è circa 1 il modello di regressione NON spiega la variabilità di Y
-
se è molto maggiore di 1 il modello di regressione spiega la variabilità di Y
-
La statistica test è una F di Fischer del tipo 𝐹−𝐹A;,$)()A
Il test è di tipo unilaterale destro
Se rifiuto il test il modello è un "buon" modello
Test T2.
E' il test sulla significatività del singolo parametro nel modello
𝐻':'𝐵2=0'
-𝐻(:'𝐵2≠0'
-
La funzione test è
𝑡(𝑥)=𝐵•?
0𝑣𝑎𝑟H𝐵•?I
…
=𝐵•?
𝑠𝑒H𝐵•?I
La statistica test è una t di Student del tipo 𝐹−t$)A)(
Il test è di tipo bilaterale
Se rifiuto il test il parametro è un "buon" parametro
Assunzioni sui residui
assunzione di linearità
-
assunzione di omoschedasticità
-
assunzione di indipendenza
-
assunzione di normalità
-
Regressione con variabili qualitative
Regressione con variabile categorica dummy (dicotomica)
La variabile qualitativa ha solamente due modalità 𝑥(e 𝑥", che esprimiamo come 0 e 1
𝑋=𝑥('→'𝑤=1'
-𝑋=𝑥"'→'𝑤=0
-
Da cui deriva che
𝑦=𝐵'+𝐵(·𝑤+𝜀
Per cui
𝐵'→'media della variabile Y quando W = 0
-𝐵(→variazione media della variabile Y quando W = 1
-
La modalità che assume valore nullo è detta "baseline"
Regressione con variabile categorica politomica
Con più di 2 modalità è sbagliato trattare la variabile qualitativa come fosse quantitativa
Occorre, invece, trasformare ogni modalità della variabile politomica in una variabile dicotomica, che ha valore nullo in assenza della modalità e valore positivo in presenza della
modalità
La variabile politomica, quindi, si amplia in tante variabili dummy tante quante modalità presenta
Se facciamo regressione una delle k variabili dummy verrà esclusa perché collineare e assumerà il ruolo di "baseline" nella interpretazione dei coefficienti
Esercitazione - Modelli di regressione lineare
Esercizio 3
assunzioni del modello semplice1.
Nell'esame verranno chieste quelle del modello multiplo, studiale!!
commentare i coefficienti e la significatività
𝐵': fatturato medio di un negozio quando non effettua promozioni = 26,538
○𝐵(: variazione di fatturato medio di un negozio quando effettua promozioni = 45,746
○
2.
Entrambi i coefficienti sono significativi al 100%
dimensione campionaria e varianza dell'errore3.
n -k - 1 = 88 gradi di libertà
k è il numero di variabili regressori xi, in questo caso è solamente 1
Quindi n = 88 + k + 1 = 88 + 1 + 1 = 90
Per varianza dell'errore si intende la varianza residua, cioè quella non spiegata dal modello
𝜎€"=(𝑅'𝑆𝐸)"=21,59"=466,128
fatturato medio nelle due ipotesi
senza promozione = M(Y|x=0) = 26,538
○
con promozione = M(Y|x=1) = 26,538 + 45,746 = 72,284
○
4.
Esercizio 4
espressione e assunzioni del modello multiplo1. 𝑦€=𝐵'+𝐵(𝑥(+𝐵"𝑥"+𝜀
Le assunzioni del modello sono 4
linearità
○
media nulla degli errori
○
incorrelazione tra i residui
○
normalità degli 𝜀
○
numero di osservazioni disponibili2.
n -k - 1 = 27 gradi di libertà
k = 2
n = 27 + 2 + 1 = 30
valore osservato della statistica t3.
Il valore t per la variabile reddito è 110,972
Se fosse rimosso dall'output si determinerebbe tramite la sua formula
𝑡5!=𝐵•(
𝑆𝐸(𝐵•()=0,0496833
0,0004477=110,972
si rifiuta o si accetta al 5% per la variabile reddito e per educ4.
Dato che il p-value di reddito è molto piccolo e quindi inferiore a 0,05 si rifiuta H0
Per educ invece si accetta, dato che il p-value è maggiore di 0,05
stima varianza errori5. 𝜎€"=(𝑅𝑆𝐸)"=0,1019"=0,01038
Esercizio 5
sufficienza assunzione sugli errori1.
No, mancano le assunzioni di normalità e di omoschedasticità degli errori
espressione del modello2. 𝑦€=9,983+16,412·𝐷𝐼𝑆𝑇+8,718·𝐸𝑇𝐴+3,264·𝑇𝐸𝑀𝑃𝑂
interpretazione coefficiente TEMPO3.
Rappresenta la variazione della spesa media (3,264€) in corrispondenza di un aumento di un minuto di
tempo trascorso in magazzino, a parità di età e distanza
utilità ETA'4.
No, il p-value del test T è molto alto (0,241), la variabile ETA' andrebbe rimossa
ipotesi del test globale del modello5.
Le ipotesi del test F sono
𝐵(=𝐵"=𝐵6=0
○𝐵('𝑜'𝐵"'𝑜'𝐵6≠0
○
I gradi di libertà sono k = 3 e n - k - 1 = 56
conclusione del test F per a = 0,056.
Per un livello di significatività pari a 0,05 accetto il test F (0,07403 > 0,05), il modello non è significativo
coefficiente di determinazione7.
E' pari a 0,1211, ovvero spiega solo il 12% dei dati, quindi per nulla significativo
analisi dei grafici e dei residui8.
Dal QQplot si evince la normalità dei residui
Esercizio 6
bontà di adattamento del modello ai dati1.
Il modello è molto buono, spiega il 99,98% dei dati
coefficiente di costo della farina2.
La differenza di aumento di prezzo medio del pane venduto nel supermercato rispetto a quello venduto
nei negozi è pari a 2,0108741 euro/kg in corrispondenza di un aumento di 1 euro/kg della farina
SE costo della farina3.
E' pari a 𝑆𝐸H𝐵•"I=0,00456
Se non ci fosse si calcolerebbe con la sua formula
𝑡5"=𝐵•"
𝑆𝐸H𝐵•"I'→𝑆𝐸H𝐵•"I=𝐵•"
𝑡5"
coefficiente di tipologia4. 𝑡5!=𝐵•(
𝑆𝐸H𝐵•(I→'𝐵•(=𝑡5!·𝑆𝐸H𝐵•(I
costo del pane al kg per un negozio che compra la farina a 2 euro al kg5. 𝑦€=−0,0094507+0,3014718·1+2,0108741·2=4,3137
valore delle medie del prezzo del pane in funzione del punto di vendita
supermercato = -0,0094507
○
negozio = -0,0094507 + 0,3014718 = 0,2920211
○
6.
Modello di regressione LOGIT
E' il modello di regressione che permette di agire su variabili Y dicotomiche, ovvero variabili dummy, con solo due eventi (pari/dispari, bianco/nero, ecc.)
Si basa sulle probabilità che ciascuno dei due eventi si verifichi, intesa come il numero di frequenze sul totale
Il modello LOGIT parte proprio dalla definizione delle probabilità
𝑃(𝑌=1)=𝑝
-𝑃(𝑌=0)=1−𝑝
-
Definiamo il rapporto ODDS, ovvero il rapporto tra la probabilità che l’evento accada rispetto alla probabilità che non accada
→𝑂𝐷𝐷𝑆=𝑝
1−𝑝
Se p è compreso tra 0 e 0.5, ODDS avrà un valore compreso tra 0 e 1, viceversa se p supera 0.5, ODDS tenderà sempre di più verso infinito
Il logaritmo degli ODDS è detto LOGIT
𝑙𝑜𝑔𝑖𝑡(𝑝)=logW𝑝
1−𝑝X
Usiamo il logaritmo perché trasforma la funzione in una funzione continua e lineare tra -∞ e +∞
Confronto tra ODDS
Quando si ipotizza che Y sia influenzato da una variabile esplicativa X, si possono calcolare gli ODDS delle probabilità condizionate
𝑂𝐷𝐷𝑆|𝑥2=𝑃(𝑌=1|𝑥2)
1−𝑃(𝑌=1|𝑥2)
Per eseguire un confronto tra due X si valuta il rapporto, detto ODDS RATIO
𝑂𝑅=𝑂𝐷𝐷𝑆|𝑥(
𝑂𝐷𝐷𝑆|𝑥"=𝑃(𝑌=1|𝑥()
1−𝑃(𝑌=1|𝑥()
𝑃(𝑌=1|𝑥")
1−𝑃(𝑌=1|𝑥")
OR < 1 →'effetto negativo passando da x1 a x2 →la variabile esplicativa X influisce diminuendo l'ODDS sul verificarsi dell'evento
-
OR = 1 →'nessun effetto passando da x1 a x2 →la variabile esplicativa X non influisce sul verificarsi dell'evento
-
OR > 1 →'effetto positivo passando da x1 a x2 →la variabile esplicativa X influisce aumentando l'ODDS sul verificarsi dell'evento
-
Nel modello LOGIT verrà usato il logaritmo degli OR
log(𝑂𝑅)=logW𝑂𝐷𝐷𝑆|𝑥(
𝑂𝐷𝐷𝑆|𝑥"X=log•𝑃(𝑌=1|𝑥()
1−𝑃(𝑌=1|𝑥()
𝑃(𝑌=1|𝑥")
1−𝑃(𝑌=1|𝑥")‘=𝑙𝑜𝑔𝑖𝑡(𝑃(𝑌=1|𝑥()−𝑙𝑜𝑔𝑖𝑡(𝑃(𝑌=1|𝑥")
Modello di regressione logistica semplice
Si ipotizza di disporre di un'unica variabile esplicativa X
logW𝑝
1−𝑝X=𝑎+𝐵𝑥
dove il coefficiente
𝑎esprime un livello base del log-odds-ratio del verificarsi di un evento a prescindere dai valori e dalle modalità delle variabili esplicative
-𝐵=𝑙𝑜𝑔'(𝑂𝑅)esprime la variazione del log-odds-ratio per un incremento unitario di X
-
Test sul modello
test globale: test del rapporto della massima verosimiglianza
-𝐺"=𝐷𝑒𝑣(𝑚𝑜𝑑𝑒𝑙𝑙𝑜'𝑠𝑜𝑡𝑡𝑜'𝐻')−𝐷𝑒𝑣(𝑚𝑜𝑑𝑒𝑙𝑙𝑜'𝑐𝑜𝑚𝑝𝑙𝑒𝑡𝑜)−𝑋(,13
"
test sui parametri: test di Wald
-𝑋"=𝐵•"
𝑉𝑎𝑟(𝐵•)−𝑋(,13
"'→𝑍= 𝐵•
𝑠𝑒H𝐵•I−𝑁(0,1)
Modello di regressione logistica multipla
Si ipotizza di disporre di più di una sola variabile esplicativa X
logW𝑝
1−𝑝X=𝑎+𝐵(𝑥(+𝐵"𝑥"+⋯+𝐵2𝑥2
dove il coefficiente
𝑎esprime un livello base del log-odds-ratio del verificarsi di un evento a prescindere dai valori e dalle modalità delle variabili esplicative
-𝐵=𝑙𝑜𝑔'(𝑂𝑅)esprime la variazione del log-odds-ratio per un incremento unitario di X, tenendo fisse tutte le altre variabili esplicative
-
Test sul modello
test globale: test del rapporto della massima verosimiglianza
-𝐺"=𝐷𝑒𝑣(𝑚𝑜𝑑𝑒𝑙𝑙𝑜'𝑠𝑜𝑡𝑡𝑜'𝐻')−𝐷𝑒𝑣(𝑚𝑜𝑑𝑒𝑙𝑙𝑜'𝑐𝑜𝑚𝑝𝑙𝑒𝑡𝑜)−𝑋A,13
"
test sui parametri: test di Wald
-𝐵•"
𝑉𝑎𝑟(𝐵•)−𝑋A,13
"'→𝑍= 𝐵•
𝑠𝑒H𝐵•I−𝑁(0,1)