Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Test modello regressione, Appunti di Econometria

Test di ipotesi su modello di regressione

Tipologia: Appunti

2015/2016

Caricato il 13/07/2016

valeria.volpe2
valeria.volpe2 🇮🇹

4.6

(14)

7 documenti

1 / 22

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Corso di Econometria
A.A. 2011-2012
Dispensa n.1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16

Anteprima parziale del testo

Scarica Test modello regressione e più Appunti in PDF di Econometria solo su Docsity!

Corso di Econometria

A.A. 2011-

Dispensa n.

Richiami di statistica

Per calcolare le caratteristiche della distribuzione di una popolazione abbiamo bisogno dell’intera popolazione. Ad esempio, per trovare il reddito medio di tutti gli abitanti di New York in un dato momento nel tempo abbiamo bisogno di informazioni che riguardano tutti gli abitanti di New York. In realtà, però, non è molto pratico collezionare le informazioni relative a tutti gli abitanti; ciò che viene fatto è trovare un campione rappresentativo o casuale da questa popolazione e calcolare il reddito medio su questo camione.

Media Campionaria.

Sia X il numero di macchine vendute in un giorno da un rivenditore. Supponiamo di voler sapere il numero medio (cioè E(X)) di auto vendute i primi dieci giorni di ogni mese. Supponiamo, inoltre che il rivenditore ha la sua attività da dieci anni, ma non ha alcun dato per i primi 10 giorni di ogni mese degli ultimi dieci anni. Prendiamo a caso le vendite dei primi dieci giorni di un mese per ogni anno di attività: 9, 11, 11, 14, 13, 9, 8, 9, 14, 12. Abbiamo un campione composto da 10 osservazioni. La media campionaria è data da:

Nel nostro caso:

Varianza Campionaria.

I valori del precedente esempio non sono tutti uguali al media camiponaria 11. La variabilità dei dieci valori può essere misurata dalla varianza campionaria. La varianza campionaria viene definita nel modo seguente:

Che non è altro che la differenza al quadrato di ogni singolo valore di X dalla sua media, diviso il numero delle osservazioni. L’espressione (n-1) è nota come gradi di libertà , di cui vedremo in seguito il significato.

Dato il precedente esempio, abbiamo

La deviazione standard campionaria è data da

Covarianza Campionaria.

Y (1)

X (2) (^) (3)

Distribuzione di probabilità importanti

La Distribuzione Normale

Probabilmente la distribuzione statistica più famosa ed utilizzata.

Per notazione convenzionale, la distribuzione di una normale viene così espressa:

Proprietà:

  1. Come si vede dalla figura, la distribuzione normale è simmetrica intorno alla sua media.
  2. La distribuzione è alta intorno alla media, ma sulle code è molto bassa. Questo significa che la probabilità di ottenere un valore di una distribuzione normale lontano dalla propria media è molto bassa.
  3. Approssimativamente, il 68% dell’area si trova tra i valori , il 95% tra i valori , e il 97.5% tra i valori.
  4. (^) Una distribuzione normale è descritta completamente dai due suoi paramentri F 06 D e F 07 3^2. Una volta che il valore di questi due parametri viene trovato, è possibile stimare la probabilità che un certo valore di X si trovi all’interno di un certo intervallo.
  5. (^) La combinazione lineare di due variabili normali è anche’essa una variabile normale

La curva cosiddetta normale fu sviluppata nel 1733 da DeMoivre, come un'approssimazione alla distribuzione binomiale.

I suoi scritti furono persi fino al 1924, quando Karl Pearson li ritrovò. Laplace utilizzò la curva normale nel 1783 per descrivere la distribuzione degli errori. Nel 1809, Gauss la impiegò nell'analisi di dati astronomici. La curva normale è spesso chiamata "distribuzione gaussiana”.

La Distribuzione Normale Standardizzata

Ogni distribuzione normale è a se stante perché dipende dai valori della V. C di riferimento. Ossia due distribuzioni possono avere media diversa e varianza diversa, oppure media uguale e varianza diversa, oppure varianza uguale e media diversa. Com’è possibile comparare due distribuzioni normali diverse tra loro? Volendo una distribuzione normale standardizzata, ossia che non dipenda dall’unità di misura della variabile di riferimento, si può ottenere quest’ultima mediante la relazione:

La variabile Z ha media F 06 D =0 e varianza F 07 3^2 =1.

La Distribuzione Chi-quadrato χ 2

In statistica ci troviamo spesso di fronte a quantità elevate al quadrato come ad esempio X 2 oppure.

Queste quantità hanno la loro distribuzione campionaria?

Sotto certe condizioni, la distribuzione di queste quantità può essere derivata.

Consideriamo una variabile casuale distribuita normalmente

Sappiamo che la sua standardizzazione si distribuisce:

La teoria statistica dimostra che il quadrato di variabile standardizzata di distribuisce come una F 06 3^2

con un grado di libertà. Simbolicamente:

Così come la media e la varianza sono parametri della distribuzione normale, così i gadi di libertà sono i parametri della distribuzione chi-quadrato. Il termine grado di libertà in statistica è usato in

La Distribuzione t

Conosciuta anche come distribuzione t di Student.

Si è visto in precedenza che se a una variabile normale (x) sottraiamo la media (μ) e dividiamo tale differenza per la deviazione standard (σ) otteniamo una normale standard (z) con media 0 e varianza 1:

se x ~ N (μ, σ 2 ), z ~ N (0, 1) dove

Poiché le medie campionarie (), calcolate su campioni tratti dalla variabile , hanno distribuzione normale con media μ e varianza , se standardizziamo la variabile media campionaria otteniamo una deviata normale standard Z con media 0 e varianza 1:

Quando il parametro σ^2 è ignoto, possiamo sostituirlo con la sua stima campionaria s 2 , ed ottenere il rapporto

Qual è la distribuzione di tale rapporto?

Si può dimostrare che, per campioni tratti da una variabile normale, il rapporto "t" è una variabile casuale la cui distribuzione è descritta da una funzione simmetrica la cui forma dipende da i gradi di libertà della stima campionaria della varianza ed è nota con il nome di "t" di Student.

~ t di Student (con k = n-1 g.d.l.)

Come nella distribuzione chi-quadro, la distribuzione t dipende dal paramentro gradi di libertà (gdl).

Proprietà

  1. La distribuzione t , come la distribuzione normale, è simmetrica come si vede dalla figura sopra.
  2. La media della distribuzione , come la distribuzione normale standard è zero, ma la varianza è data da k/(k-2). Per questo motivo, la varianza di una distribuzione t è definita per gradi di libertà maggiori di due. Ma mano che k aumenta, la varianza di una distribuzione t si avvicina alla varianza di una distribuzione normale standardizzata, cioè 1. Per cui, se i gdl, ad esempio sono 10, la varianza sarà 10/8=1.25, se k =30, la varianza sarà 30/28=1.07, se k =100, la varianza sarà 100/98=1.02. Anche per valori di k molto piccoli, come 30, non c’è molta differenza nella varianza della distribuzione t e della normale standard. Per cui, ampiezza campionaria non deve essere enorme affinché la t approssimi una distribuzione normale.

La Distribuzione F

Se da una popolazione normale N F 07 E( F 06 D, F 07 3^2 ) estraiamo due campioni indipendenti otteniamo due

stime S 1 ed S 2 della deviazione standard. Se operiamo infinite volte l'estrazione di coppie di campioni e ogni volta misuriamo il loro rapporto otteniamo la variabile casuale F di Fisher , con k (^) i gradi di liberta al numeratore (relativi ad S 1 ) e k (^) i2 gradi di liberta al denominatore (relativi a S 2 ).

Proprietà

  1. Come la distribuzione chi-quadrato, anche la distribuzione F è skewed a destra e ha valori che vanno da zero a infinito.
  2. Come la distribuzione chi-quadro, la distribuzione F approccia la distribuzione normale, al crescere di k 1 e k 2.
  3. Il quadrato di una distribuzione t con k gdl, ha una distribuzione F con 1 e k gdl al numeratore e denominatore rispettivamente.

differenti campioni e costruiamo di volta in volta gli interballi di confidenza usando le formule, allora nel 100 percento di tutti i casi l’intervallo dato includerà il vero valore. Come esempio su come usare la distribuzione campionaria per costruire gli intervalli di confidenza, consideriamo il campione con n osservazioni dipendenti da una distribuzione normale con media F 06 D

e varianza F 07 3^2. Allora

e Se l’ampiezza campionaria è pari a 20, da cui i gradi di libertà sono n -1=19, possiamo vedere nelle tavole della con gradi di libertà 19 e diciamo:

O che

Oppure, riferendoci alla tavola t -Student con 19 gradi di libertà, abbiamo che

Da cui, sostituendo:

Se e S =3 abbiamo intervalli di confidenza al 95% per di (3.6 e 6.4)

Test d’ipotesi

Supponiamo di avere il seguente campione:

P/E ratio Frequency 6 2 7 2 8 5 9 6 10 5 11 7 12 5 13 4 14 3 15 4 16 6 18 1 Totale 50 Media=11. Varianza Campionaria= 9. Deviazione Standard =3.

Supponiamo di ipotizzare che il vero valore della media sia. Il nostro obiettivo è quello di testare l’ipotesi. Nel linguaggio dei test è chiamata ipotesi nulla ed è generalmente denotata da H 0 , da cui H 0 :. L’ipotesi nulla viene generalmente testata contro un’ ipotesi alternativa , denotata dal simbolo H (^) 1. L’ipotesi alternativa può prendere una di queste forme:

H 1 : : ipotesi alternativa ad una coda

H 1 : : anch’essa ipotesi alternativa ad una coda

H 1 : : ipotesi alternativa a due code

Basandoci sulla statistica t:

Abbiamo i seguenti intervalli di confidenza al 95%

Test d’ipotesi nel modello bivariato

Supponiamo di avere il seguente dataset:

Deamnd (Y) Price (X) 49 1 45 2 44 3 39 4 38 5 37 6 34 7 33 8 30 9 29 10

La nostra regressione è data da:

Stimando la retta di regressione con il metodo dei minimi quadrati ( OLS ) otteniamo:

Modello 1: OLS, usando le osservazioni 1-

Variabile dipendente: Deamnd(y)

coefficiente errore std. rapporto t p-value

const 49,6667 0,746439 66,54 2,90e-012 *** Price(X) -2,15758 0,120300 -17,94 9,58e-08 ***

Media var. dipendente 37,80000 SQM var. dipendente 6, Somma quadr. residui 9,551515 E.S. della regressione 1, R-quadro 0,975733 R-quadro corretto 0, F(1, 8) 321,6650 P-value(F) 9,58e- Log-verosimiglianza -13,95996 Criterio di Akaike 31, Criterio di Schwarz 32,52509 Hannan-Quinn 31,

Note: SQM = scarto quadratico medio; E.S. = errore standard

Supponiamo ora che qualcuno ci suggerisce the il prezzo di un bene non abbia alcun effetto sulla quantità domandata. Ossia la nostra ipotesi nulla è data da:

( B rappresenta il vero valore di β )

Il risultato della nostra regressione mostra che β =-2,1576. Sicuramente in questo caso ci aspettiamo di non poter accettare l’ipotesi nulla. In realtà non possiamo solo guardare al risultato numerico, sappiamo benissimo che il valore numerico cambia da campione a campione. Abbiamo bisogno di una procedura formale per testare la procedure di accettare o rifiutare l’ipotesi nulla.

Come procedere?

Sappiamo che il nostro stimatore β si distribuisce come una normale (SEMPRE!!!!).

Per testare l’ipotesi possiamo usare:

  1. L’approccio intervalli di confidenza , oppure
  2. L’approccio test di significatività.

Dato che β segue una distribuzione normale, , sappiamo che ( vedere precedente dispensa sulle distribuzioni ):

*****: ricordatevi che**

è la distribuzione normale standardizzata. Sappiamo che la proprietà che il 95% dell’area della distribuzione normale si trova a due deviazioni standard dalla valore medio, per cui se la nostra ipotesi nulla 0 e il nostro stimatore è β =-2,1576, possiamo calcolare la probabilità di trovare questo valore dalla

Nella figura potete notare l’intervallo di confidenza:

β

-2.4350 -1.

Dato che il valore zero (della nostra ipotesi nulla) non si trova nell’intervallo di confidenza, possiamo rifiutare l’ipotesi nulla che il prezzo di un bene non ha effetti sulla quantità domandata del bene stesso.

Approccio test di significatività

In questo caso la decisione di accettare o rifiutare l’ipotesi nulla si basa sul vlaore del test statistico ottenuto dal campione. Vediamo in dettaglio.

Ricordiamo che

Segue una distribuzione t con ( n -2) gradi di libertà. Ora se

dove è uno specifico valore numerico di B (ad esempio ). Allora possiamo subito calcolarci:

Dato che tutti i valori sono noti, possiamo i valori ottenuto dalla precedente espressione come test statistico con distribuzione t di Student e ( n -2) gradi di libertà. Questa procedura è chiamata t Test.

Ora per usare il test t abbiamo bisogno di conoscere tre cose fondamentali:

  1. I gradi di libertà sono sempre ( n -2) per il modello di regressione bivariato
  2. Il livello di significatività α : 1, 5 e 10% sono quelli che di norma si usano nell’analisi empirica
  3. Possiamo usare test ad una coda o due code.
  4. Test a due code. Ipotizziamo che Usando l’espressione con la freccia blu, abbiamo che

approssimativamente

Ora dalle tavole statistiche della distribuzione t , abbiamo che per otto gradi di libertà i valori critici sono:

Livello di significatività 0.01 0.05 0. Valori Critici di t 3.355 2.306 1.

Tenete bene a mente la seguente tabella:

Ipotesi nulla Ipotesi alternativa Valori critici di rifiuto dell'ipotesi nulla β x= β 0 β x >β 0 >tα β x= β 0 β x <β 0 <tα β x= β 0 β x ≠β 0 >tα/

Dalla seguente tabella notiamo che, dato il t ottenuto, rifiutiamo l’ipotesi che il nostro stimatore sia uguale a zero, e accettiamo l’ipotesi alternativa che esso sia diverso da zero.

RSS n-3 (nel modello a tre variabili (Y, X1 e X2)) ESS 2 (due sono le variabili (X1 eX2))

Ora abbiniamo ad ogni Sum of Squares il loro grado di libertà,

Fonte di variazione Sum of Squares G.d.l. MSS= Dovuta alla regressione (ESS) 2

Dovuta ai residui (RSS) n - Totale (TSS) n - Nota : MSS= media delle somme dei quadrati.

Ora, data l’ipotesi nulla , la variabile

Segue una distribuzione F con 2 e ( n -3) gradi di libertà al numeratore e denominatore rispettivamente. Più in generale, se il modello di regressione ha k variabili indipendenti, il rapporto F ha (k-1) gradi di libertà al numeratore e (n-k) gradi di libertà al denominatore. Come usare la l’equazione con la freccia nera per testare l’ipotesi congiunta che tutte e due le variabili indipendenti non hanno alcun effetto sulla variabile dipendente? La risposta è evidente nell’equazione stessa. Se il numeratore è maggiore del denominatore il valore della F sarà maggiore di uno. Allo stesso modo, man mano che la varianza spiegata dalle variabili indipendenti sale diventando più grande rispetto alla varianza non spiegata, l’ F test diventerà grande allo stesso modo. Un valore molto alto di F ci porta a rifiutare l’ipotesi che le variabili indipendenti (o esplicative) non hanno alcun effetto sulla variabile dipendente.

Supponiamo di avere il seguente dataset:

Y X1 X 11.484 2.26 3. 9.348 2.54 2. 8.429 3.07 4. 10.079 2.91 3. 9.24 2.73 3. 8.862 2.77 3. 6.216 3.59 3. 8.253 3.23 3. 8.038 2.6 3. 7.476 2.89 3. 5.911 3.77 3. 7.95 3.64 3. 6.134 2.82 2. 5.868 2.96 3. 3.16 4.24 3. 5.872 3.69 3.

Supponiamo di avere la seguente stima di regressione

Modello 1: OLS, usando le osservazioni 1- Variabile dipendente: Y

coefficiente errore std. rapporto t p-value

const 9,73422 2,88806 3,371 0,0050 *** X1 -3,78220 0,572455 -6,607 1,70e-05 *** X2 2,81525 0,947511 2,971 0,0108 **

Media var. dipendente 7,645000 SQM var. dipendente 2, Somma quadr. residui 14,35662 E.S. della regressione 1, R-quadro 0,770648 R-quadro corretto 0, F(2, 13) 21,84067 P-value(F) 0, Log-verosimiglianza -21,83600 Criterio di Akaike 49, Criterio di Schwarz 51,98976 Hannan-Quinn 49, Note: SQM = scarto quadratico medio; E.S. = errore standard