














Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Test di ipotesi su modello di regressione
Tipologia: Appunti
1 / 22
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!















Per calcolare le caratteristiche della distribuzione di una popolazione abbiamo bisogno dell’intera popolazione. Ad esempio, per trovare il reddito medio di tutti gli abitanti di New York in un dato momento nel tempo abbiamo bisogno di informazioni che riguardano tutti gli abitanti di New York. In realtà, però, non è molto pratico collezionare le informazioni relative a tutti gli abitanti; ciò che viene fatto è trovare un campione rappresentativo o casuale da questa popolazione e calcolare il reddito medio su questo camione.
Sia X il numero di macchine vendute in un giorno da un rivenditore. Supponiamo di voler sapere il numero medio (cioè E(X)) di auto vendute i primi dieci giorni di ogni mese. Supponiamo, inoltre che il rivenditore ha la sua attività da dieci anni, ma non ha alcun dato per i primi 10 giorni di ogni mese degli ultimi dieci anni. Prendiamo a caso le vendite dei primi dieci giorni di un mese per ogni anno di attività: 9, 11, 11, 14, 13, 9, 8, 9, 14, 12. Abbiamo un campione composto da 10 osservazioni. La media campionaria è data da:
Nel nostro caso:
I valori del precedente esempio non sono tutti uguali al media camiponaria 11. La variabilità dei dieci valori può essere misurata dalla varianza campionaria. La varianza campionaria viene definita nel modo seguente:
Che non è altro che la differenza al quadrato di ogni singolo valore di X dalla sua media, diviso il numero delle osservazioni. L’espressione (n-1) è nota come gradi di libertà , di cui vedremo in seguito il significato.
Dato il precedente esempio, abbiamo
La deviazione standard campionaria è data da
Y (1)
X (2) (^) (3)
Distribuzione di probabilità importanti
Probabilmente la distribuzione statistica più famosa ed utilizzata.
Per notazione convenzionale, la distribuzione di una normale viene così espressa:
Proprietà:
La curva cosiddetta normale fu sviluppata nel 1733 da DeMoivre, come un'approssimazione alla distribuzione binomiale.
I suoi scritti furono persi fino al 1924, quando Karl Pearson li ritrovò. Laplace utilizzò la curva normale nel 1783 per descrivere la distribuzione degli errori. Nel 1809, Gauss la impiegò nell'analisi di dati astronomici. La curva normale è spesso chiamata "distribuzione gaussiana”.
Ogni distribuzione normale è a se stante perché dipende dai valori della V. C di riferimento. Ossia due distribuzioni possono avere media diversa e varianza diversa, oppure media uguale e varianza diversa, oppure varianza uguale e media diversa. Com’è possibile comparare due distribuzioni normali diverse tra loro? Volendo una distribuzione normale standardizzata, ossia che non dipenda dall’unità di misura della variabile di riferimento, si può ottenere quest’ultima mediante la relazione:
La variabile Z ha media F 06 D =0 e varianza F 07 3^2 =1.
In statistica ci troviamo spesso di fronte a quantità elevate al quadrato come ad esempio X 2 oppure.
Queste quantità hanno la loro distribuzione campionaria?
Sotto certe condizioni, la distribuzione di queste quantità può essere derivata.
Consideriamo una variabile casuale distribuita normalmente
Sappiamo che la sua standardizzazione si distribuisce:
La teoria statistica dimostra che il quadrato di variabile standardizzata di distribuisce come una F 06 3^2
con un grado di libertà. Simbolicamente:
Così come la media e la varianza sono parametri della distribuzione normale, così i gadi di libertà sono i parametri della distribuzione chi-quadrato. Il termine grado di libertà in statistica è usato in
Conosciuta anche come distribuzione t di Student.
Si è visto in precedenza che se a una variabile normale (x) sottraiamo la media (μ) e dividiamo tale differenza per la deviazione standard (σ) otteniamo una normale standard (z) con media 0 e varianza 1:
se x ~ N (μ, σ 2 ), z ~ N (0, 1) dove
Poiché le medie campionarie (), calcolate su campioni tratti dalla variabile , hanno distribuzione normale con media μ e varianza , se standardizziamo la variabile media campionaria otteniamo una deviata normale standard Z con media 0 e varianza 1:
Quando il parametro σ^2 è ignoto, possiamo sostituirlo con la sua stima campionaria s 2 , ed ottenere il rapporto
Qual è la distribuzione di tale rapporto?
Si può dimostrare che, per campioni tratti da una variabile normale, il rapporto "t" è una variabile casuale la cui distribuzione è descritta da una funzione simmetrica la cui forma dipende da i gradi di libertà della stima campionaria della varianza ed è nota con il nome di "t" di Student.
~ t di Student (con k = n-1 g.d.l.)
Come nella distribuzione chi-quadro, la distribuzione t dipende dal paramentro gradi di libertà (gdl).
Proprietà
Se da una popolazione normale N F 07 E( F 06 D, F 07 3^2 ) estraiamo due campioni indipendenti otteniamo due
stime S 1 ed S 2 della deviazione standard. Se operiamo infinite volte l'estrazione di coppie di campioni e ogni volta misuriamo il loro rapporto otteniamo la variabile casuale F di Fisher , con k (^) i gradi di liberta al numeratore (relativi ad S 1 ) e k (^) i2 gradi di liberta al denominatore (relativi a S 2 ).
Proprietà
differenti campioni e costruiamo di volta in volta gli interballi di confidenza usando le formule, allora nel 100 percento di tutti i casi l’intervallo dato includerà il vero valore. Come esempio su come usare la distribuzione campionaria per costruire gli intervalli di confidenza, consideriamo il campione con n osservazioni dipendenti da una distribuzione normale con media F 06 D
e varianza F 07 3^2. Allora
e Se l’ampiezza campionaria è pari a 20, da cui i gradi di libertà sono n -1=19, possiamo vedere nelle tavole della con gradi di libertà 19 e diciamo:
O che
Oppure, riferendoci alla tavola t -Student con 19 gradi di libertà, abbiamo che
Da cui, sostituendo:
Se e S =3 abbiamo intervalli di confidenza al 95% per di (3.6 e 6.4)
Supponiamo di avere il seguente campione:
P/E ratio Frequency 6 2 7 2 8 5 9 6 10 5 11 7 12 5 13 4 14 3 15 4 16 6 18 1 Totale 50 Media=11. Varianza Campionaria= 9. Deviazione Standard =3.
Supponiamo di ipotizzare che il vero valore della media sia. Il nostro obiettivo è quello di testare l’ipotesi. Nel linguaggio dei test è chiamata ipotesi nulla ed è generalmente denotata da H 0 , da cui H 0 :. L’ipotesi nulla viene generalmente testata contro un’ ipotesi alternativa , denotata dal simbolo H (^) 1. L’ipotesi alternativa può prendere una di queste forme:
H 1 : : ipotesi alternativa ad una coda
H 1 : : anch’essa ipotesi alternativa ad una coda
H 1 : : ipotesi alternativa a due code
Basandoci sulla statistica t:
Abbiamo i seguenti intervalli di confidenza al 95%
Test d’ipotesi nel modello bivariato
Supponiamo di avere il seguente dataset:
Deamnd (Y) Price (X) 49 1 45 2 44 3 39 4 38 5 37 6 34 7 33 8 30 9 29 10
La nostra regressione è data da:
Stimando la retta di regressione con il metodo dei minimi quadrati ( OLS ) otteniamo:
Modello 1: OLS, usando le osservazioni 1-
Variabile dipendente: Deamnd(y)
const 49,6667 0,746439 66,54 2,90e-012 *** Price(X) -2,15758 0,120300 -17,94 9,58e-08 ***
Media var. dipendente 37,80000 SQM var. dipendente 6, Somma quadr. residui 9,551515 E.S. della regressione 1, R-quadro 0,975733 R-quadro corretto 0, F(1, 8) 321,6650 P-value(F) 9,58e- Log-verosimiglianza -13,95996 Criterio di Akaike 31, Criterio di Schwarz 32,52509 Hannan-Quinn 31,
Note: SQM = scarto quadratico medio; E.S. = errore standard
Supponiamo ora che qualcuno ci suggerisce the il prezzo di un bene non abbia alcun effetto sulla quantità domandata. Ossia la nostra ipotesi nulla è data da:
( B rappresenta il vero valore di β )
Il risultato della nostra regressione mostra che β =-2,1576. Sicuramente in questo caso ci aspettiamo di non poter accettare l’ipotesi nulla. In realtà non possiamo solo guardare al risultato numerico, sappiamo benissimo che il valore numerico cambia da campione a campione. Abbiamo bisogno di una procedura formale per testare la procedure di accettare o rifiutare l’ipotesi nulla.
Come procedere?
Sappiamo che il nostro stimatore β si distribuisce come una normale (SEMPRE!!!!).
Per testare l’ipotesi possiamo usare:
Dato che β segue una distribuzione normale, , sappiamo che ( vedere precedente dispensa sulle distribuzioni ):
*****: ricordatevi che**
è la distribuzione normale standardizzata. Sappiamo che la proprietà che il 95% dell’area della distribuzione normale si trova a due deviazioni standard dalla valore medio, per cui se la nostra ipotesi nulla 0 e il nostro stimatore è β =-2,1576, possiamo calcolare la probabilità di trovare questo valore dalla
Nella figura potete notare l’intervallo di confidenza:
β
-2.4350 -1.
Dato che il valore zero (della nostra ipotesi nulla) non si trova nell’intervallo di confidenza, possiamo rifiutare l’ipotesi nulla che il prezzo di un bene non ha effetti sulla quantità domandata del bene stesso.
In questo caso la decisione di accettare o rifiutare l’ipotesi nulla si basa sul vlaore del test statistico ottenuto dal campione. Vediamo in dettaglio.
Ricordiamo che
Segue una distribuzione t con ( n -2) gradi di libertà. Ora se
dove è uno specifico valore numerico di B (ad esempio ). Allora possiamo subito calcolarci:
Dato che tutti i valori sono noti, possiamo i valori ottenuto dalla precedente espressione come test statistico con distribuzione t di Student e ( n -2) gradi di libertà. Questa procedura è chiamata t Test.
Ora per usare il test t abbiamo bisogno di conoscere tre cose fondamentali:
approssimativamente
Ora dalle tavole statistiche della distribuzione t , abbiamo che per otto gradi di libertà i valori critici sono:
Livello di significatività 0.01 0.05 0. Valori Critici di t 3.355 2.306 1.
Tenete bene a mente la seguente tabella:
Ipotesi nulla Ipotesi alternativa Valori critici di rifiuto dell'ipotesi nulla β x= β 0 β x >β 0 >tα β x= β 0 β x <β 0 <tα β x= β 0 β x ≠β 0 >tα/
Dalla seguente tabella notiamo che, dato il t ottenuto, rifiutiamo l’ipotesi che il nostro stimatore sia uguale a zero, e accettiamo l’ipotesi alternativa che esso sia diverso da zero.
RSS n-3 (nel modello a tre variabili (Y, X1 e X2)) ESS 2 (due sono le variabili (X1 eX2))
Ora abbiniamo ad ogni Sum of Squares il loro grado di libertà,
Fonte di variazione Sum of Squares G.d.l. MSS= Dovuta alla regressione (ESS) 2
Dovuta ai residui (RSS) n - Totale (TSS) n - Nota : MSS= media delle somme dei quadrati.
Ora, data l’ipotesi nulla , la variabile
Segue una distribuzione F con 2 e ( n -3) gradi di libertà al numeratore e denominatore rispettivamente. Più in generale, se il modello di regressione ha k variabili indipendenti, il rapporto F ha (k-1) gradi di libertà al numeratore e (n-k) gradi di libertà al denominatore. Come usare la l’equazione con la freccia nera per testare l’ipotesi congiunta che tutte e due le variabili indipendenti non hanno alcun effetto sulla variabile dipendente? La risposta è evidente nell’equazione stessa. Se il numeratore è maggiore del denominatore il valore della F sarà maggiore di uno. Allo stesso modo, man mano che la varianza spiegata dalle variabili indipendenti sale diventando più grande rispetto alla varianza non spiegata, l’ F test diventerà grande allo stesso modo. Un valore molto alto di F ci porta a rifiutare l’ipotesi che le variabili indipendenti (o esplicative) non hanno alcun effetto sulla variabile dipendente.
Supponiamo di avere il seguente dataset:
Y X1 X 11.484 2.26 3. 9.348 2.54 2. 8.429 3.07 4. 10.079 2.91 3. 9.24 2.73 3. 8.862 2.77 3. 6.216 3.59 3. 8.253 3.23 3. 8.038 2.6 3. 7.476 2.89 3. 5.911 3.77 3. 7.95 3.64 3. 6.134 2.82 2. 5.868 2.96 3. 3.16 4.24 3. 5.872 3.69 3.
Supponiamo di avere la seguente stima di regressione
Modello 1: OLS, usando le osservazioni 1- Variabile dipendente: Y
const 9,73422 2,88806 3,371 0,0050 *** X1 -3,78220 0,572455 -6,607 1,70e-05 *** X2 2,81525 0,947511 2,971 0,0108 **
Media var. dipendente 7,645000 SQM var. dipendente 2, Somma quadr. residui 14,35662 E.S. della regressione 1, R-quadro 0,770648 R-quadro corretto 0, F(2, 13) 21,84067 P-value(F) 0, Log-verosimiglianza -21,83600 Criterio di Akaike 49, Criterio di Schwarz 51,98976 Hannan-Quinn 49, Note: SQM = scarto quadratico medio; E.S. = errore standard