Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi Statistica: Errori e Regressione Lineare, Sbobinature di Economia

Come definire gli errori in un modello statistico di regressione lineare e come valutare se gli stimatori OLS sono buoni stimatori. Viene inoltrata l'ipotesi di indipendenza tra errori e variabili indipendenti, omoschedasticità e distribuzione normale degli errori.

Tipologia: Sbobinature

2018/2019

Caricato il 14/03/2022

Otta98
Otta98 🇮🇹

25 documenti

1 / 9

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Nota di servizio: gli esercizi che troviamo alla fine del libro hanno due parti: una parte teorica ed una parte empirica (che corrisponde a ciò che ci
verrà chiesto all’esame). Dovremo, cioè, fare dimostrazioni teoriche e interpretare dei risultati di alcune stime. Per la parte empirica, c’è bisogno di
un database (lo estraiamo dal sito del libro) e un software (quello più utilizzato dai ricercatori è Stata, ma è costoso; altri software sono Gauss;
Matlab; Gretl (è OpenSource: e quindi il professore lo consiglia).
Econometria 3
Gli economisti sono interessati a studiare momenti di funzioni di distribuzioni condizionate, e quindi a stimare gli
effetti di una variabile su un’altra, sotto l’ipotesi che le due variabili non siano indipendenti tra loro: se lo fossero, non
vi sarebbero momenti interessanti.
Tra i vari momenti che si possono studiare, dal punto di vista statistico, di una distribuzione condizionata,
consideriamo importante la media condizionata: cioè, il valore atteso di Y rispetto ad X. Non conosciamo, però,
quale sia la forma funzionale della relazione tra Y ed X e quindi assumiamo, per semplicità, linearità nella relazione,
ossia, che la media condizionata di Y rispetto ad X si possa scrivere come l’equazione di una retta:
𝐸
[
𝑌
|
𝑋
]
=𝛽!+𝛽"𝑋
Ricordiamo che, in questa specifica relazione,
𝛽!**𝑒**𝛽"
sono i parametri che si riferiscono alla popolazione. Cioè,
assumiamo che la media condizionata della popolazione abbia questa forma funzionale. Chiaramente,
𝛽!**𝑒**𝛽"
non
sono conosciute.
Abbiamo, poi, detto che in economia, tipicamente, le variabili Y ed X sono variabili stocastiche; ma, per semplicità,
assumiamo che le X siano deterministiche, ossia fisse in campioni ripetuti.
Andiamo, quindi, a stimare i parametri ignoti
𝛽!**𝑒**𝛽"
ma non all’interno della popolazione, perché non si hanno mai i
dati che riguardano la popolazione, ma dobbiamo stimarli in alcuni campioni. E sappiamo che quando si va ad
applicare un modello ai dati e si studiano le variabili, ci sono sempre degli errori, che possono essere errori di
osservazione o errori di misura. Gli errori sono definiti come le differenze tra le Y osservate e le Y teoriche. Quindi,
nella componente di errore, teniamo conto di tutti gli errori di misura della Y, della X, gli errori di campionamento e
tutti i valori della Y che non sono spiegati da X.
𝑒#=𝑌#𝐸
[
𝑌
|
𝑋
]
=𝑌#𝛽!𝛽"𝑋
Sostituendo il nostro modello teorico all’interno dell’espressione dell’errore, arriviamo a definire il modello di
regressione lineare della popolazione:
𝑌#=𝛽!+𝛽"𝑋#+𝑒#
(valori teorici)
Andiamo a stimare, attraverso il Metodo dei Minimi Quadrati, tale equazione:
𝑌#=𝑏!+𝑏"𝑋#+𝜀#
(valori stimati)
In questo caso, abbiamo cambiato
𝛽!*
con
𝑏!
e
𝛽"*
con
𝑏":
e questo perché si tratta di stime dei valori teorici. Le stime
non coincidono con i valori teorici, perché le stime si ottengono attraverso gli stimatori che essi stessi sono variabili
casuali, poiché funzioni di variabili casuali. Infatti,
𝑏!
lo abbiamo definito come:
𝑏!=𝑌
0
𝑏"𝑋
0
e
𝑏"
come:
𝑏"=
(𝑋#𝑋
0
)(𝑌#𝑌
0
)
(𝑋#𝑋
0
)$
Quindi, da questo si vede chiaramente che
𝑏"
è una variabile casuale: è vero che è funzione di
𝑋#
, che è deterministica
(non è una variabile casuale) ma è anche vero che è funzione di
𝑌#
. Le
𝑌#
, campionarie, sono variabili casuali e quindi
𝑏"
è essa stessa una variabile casuale.
𝑏!
è funzione di
𝑏"
che è una variabile casuale, e quindi anche
𝑏!
è una variabile casuale. Quindi, una volta che
estraiamo il campione, abbiamo una stima di
𝛽!
e
𝛽"
che corrisponde a
𝑏"
e
𝑏!
che andiamo a stimare e che sono
possibili realizzazioni di
𝛽!
e
𝛽"
. Ma non sappiamo se sono vicine o lontane o quanto vicine e quanto lontane a
𝛽!
e
𝛽".
pf3
pf4
pf5
pf8
pf9

Anteprima parziale del testo

Scarica Analisi Statistica: Errori e Regressione Lineare e più Sbobinature in PDF di Economia solo su Docsity!

Nota di servizio: gli esercizi che troviamo alla fine del libro hanno due parti: una parte teorica ed una parte empirica (che corrisponde a ciò che ci

verrà chiesto all’esame). Dovremo, cioè, fare dimostrazioni teoriche e interpretare dei risultati di alcune stime. Per la parte empirica, c’è bisogno di

un database (lo estraiamo dal sito del libro) e un software (quello più utilizzato dai ricercatori è Stata, ma è costoso; altri software sono Gauss;

Econometria 3

Gli economisti sono interessati a studiare momenti di funzioni di distribuzioni condizionate, e quindi a stimare gli

effetti di una variabile su un’altra, sotto l’ipotesi che le due variabili non siano indipendenti tra loro: se lo fossero, non

vi sarebbero momenti interessanti.

Tra i vari momenti che si possono studiare, dal punto di vista statistico, di una distribuzione condizionata,

consideriamo importante la media condizionata: cioè, il valore atteso di Y rispetto ad X. Non conosciamo, però,

quale sia la forma funzionale della relazione tra Y ed X e quindi assumiamo, per semplicità, linearità nella relazione,

ossia, che la media condizionata di Y rispetto ad X si possa scrivere come l’equazione di una retta:

𝐸[𝑌|𝑋] = 𝛽

!

"

Ricordiamo che, in questa specifica relazione, 𝛽 !

"

sono i parametri che si riferiscono alla popolazione. Cioè,

assumiamo che la media condizionata della popolazione abbia questa forma funzionale. Chiaramente, 𝛽

!

"

non

sono conosciute.

Abbiamo, poi, detto che in economia, tipicamente, le variabili Y ed X sono variabili stocastiche; ma, per semplicità,

assumiamo che le X siano deterministiche, ossia fisse in campioni ripetuti.

Andiamo, quindi, a stimare i parametri ignoti 𝛽 !

"

ma non all’interno della popolazione, perché non si hanno mai i

dati che riguardano la popolazione, ma dobbiamo stimarli in alcuni campioni. E sappiamo che quando si va ad

applicare un modello ai dati e si studiano le variabili, ci sono sempre degli errori, che possono essere errori di

osservazione o errori di misura. Gli errori sono definiti come le differenze tra le Y osservate e le Y teoriche. Quindi,

nella componente di errore, teniamo conto di tutti gli errori di misura della Y, della X, gli errori di campionamento e

tutti i valori della Y che non sono spiegati da X.

− 𝐸[𝑌|𝑋] = 𝑌

!

"

Sostituendo il nostro modello teorico all’interno dell’espressione dell’errore, arriviamo a definire il modello di

regressione lineare della popolazione:

!

"

(valori teorici)

Andiamo a stimare, attraverso il Metodo dei Minimi Quadrati, tale equazione:

!

"

(valori stimati)

In questo caso, abbiamo cambiato 𝛽 !

con 𝑏

!

e 𝛽

"

con 𝑏

"

: e questo perché si tratta di stime dei valori teorici. Le stime

non coincidono con i valori teorici, perché le stime si ottengono attraverso gli stimatori che essi stessi sono variabili

casuali, poiché funzioni di variabili casuali. Infatti, 𝑏

!

lo abbiamo definito come:

!

"

e 𝑏 "

come:

"

$

Quindi, da questo si vede chiaramente che 𝑏 "

è una variabile casuale: è vero che è funzione di 𝑋

, che è deterministica

(non è una variabile casuale) ma è anche vero che è funzione di 𝑌

. Le 𝑌

, campionarie, sono variabili casuali e quindi 𝑏

"

è essa stessa una variabile casuale.

!

è funzione di 𝑏

"

che è una variabile casuale, e quindi anche 𝑏

!

è una variabile casuale. Quindi, una volta che

estraiamo il campione, abbiamo una stima di 𝛽 !

e 𝛽

"

che corrisponde a 𝑏

"

e 𝑏

!

che andiamo a stimare e che sono

possibili realizzazioni di 𝛽 !

e 𝛽

"

. Ma non sappiamo se sono vicine o lontane o quanto vicine e quanto lontane a 𝛽

!

e 𝛽

"

Nota di servizio: gli esercizi che troviamo alla fine del libro hanno due parti: una parte teorica ed una parte empirica (che corrisponde a ciò che ci

verrà chiesto all’esame). Dovremo, cioè, fare dimostrazioni teoriche e interpretare dei risultati di alcune stime. Per la parte empirica, c’è bisogno di

un database (lo estraiamo dal sito del libro) e un software (quello più utilizzato dai ricercatori è Stata, ma è costoso; altri software sono Gauss;

Quello che dobbiamo capire è innanzitutto se gli stimatori OLS sono dei buoni stimatori: quindi, dobbiamo valutare se

considerare gli stimatori OLS possa essere una buona idea in termini statistici (se sono stimatori corretti ed efficienti)

e valuteremo se sono i migliori tra gli alternativi stimatori possibili (cioè se esistono stimatori lineari alternativi che

possano fare un lavoro simile o migliore rispetto agli stimatori OLS).

Oltre alle assunzioni che abbiamo fatto (nel libro, sono presenti due blocchi di assunzioni: quelli che riguardano la Y e

quelli che riguardano l’errore: in realtà, sono la stessa cosa. Cioè, o si fa un’assunzione sulle Y o si fa un’assunzione

sull’errore, è la stessa cosa, perché queste assunzioni riguardano le uniche componenti stocastiche del nostro setting,

che sono le Y i

e gli errori .

E hanno una relazione stretta di uguaglianza), dobbiamo introdurre, per dimostrare la

correttezza e l’efficienza degli stimatori, altre assunzioni ausiliarie. Partiamo dal presupposto che le Y i

del campione

sono iid: indipendenti tra di loro e identicamente distribuite.

  1. Il fatto che le Y del campione, e quindi le Y i

siano indipendenti tra loro implica che la covarianza tra ciascuna

Y

i

e Y j

è uguale a 0: 𝑪𝒐𝒗 8 𝒀

𝒊

𝒋

; = 𝟎. Questa assunzione, dato che X è deterministica, è equivalente a dire

che la covarianza degli errori è nulla: 𝑪𝒐𝒗 8 𝒆

𝒊

𝒋

  1. Il fatto che le Y i

siano identicamente distribuite, cioè che hanno la stessa varianza, ha a che fare con la

seconda assunzione: quella di omoschedasticità. Che vuol dire che due variabili sono identicamente

distribuite? Vuol dire che hanno stessi momenti: la stessa media, la stessa varianza. Cioè, la varianza di Y è

costante ed è uguale a 𝜎

$

Quindi, le distribuzioni delle Y i

sono uguali, cioè sono tratte dallo stesso campione, con stessa varianza: il che

equivale a dire che anche la varianza dell’errore è uguale a 𝜎

$

$

  1. La terza ipotesi che abbiamo formulato e che può essere definita come non necessaria è che gli errori si

distribuiscono normalmente con media nulla e varianza costante: 𝑒~𝑁( 0 ; 𝜎

$

) e la 𝑌~𝑁(𝛽

!

"

$

Quindi, la media è esattamente il valore atteso teorico e la varianza è esattamente quella che abbiamo

assunto, pari cioè a 𝜎

$

La normalità è un’assunzione facoltativa che si potrebbe rimuovere insieme a quella relativa all’omoschedasticità,

come vedremo in seguito. Ma è più difficile da rimuovere l’assunzione che la covarianza sia nulla (ipotesi 1). Mentre,

invece, l’assunzione di linearità e l’assunzione che X sia deterministica sono necessarie: tutti i ragionamenti che

faremo oggi non possono prescindere da tali ipotesi.

L’ipotesi di linearità e la scelta di definire gli errori come differenza tra le Y osservate e le Y teoriche (𝑒

= 𝑌 − 𝐸[𝑌|𝑋])

implica che il valore atteso dell’errore è uguale a 0 ed essendo la X deterministica, in questo contesto, abbiamo che il

valore atteso dell’errore incondizionato è esattamente la stessa cosa del valore atteso condizionato: 𝐸

𝑋). Infatti, essendo la X deterministica e l’errore una componente stocastica, la covarianza tra X e l’errore è nulla,

e quindi X e l’errore sono indipendenti (la X è fissa in campioni ripetuti e quindi non covaria con le componenti

stocastiche): 𝐶𝑜𝑣(𝑋; 𝑒) = 0.

Vogliamo dimostrare che gli stimatori OLS sono corretti (unbiased: cioè uno stimatore tale per cui il valore atteso di

"

è 𝒑𝒂𝒓𝒊 𝒆𝒔𝒂𝒕𝒕𝒂𝒎𝒆𝒏𝒕𝒆 𝒂 𝛽

"

𝐸[𝑏

"

] = 𝛽

"

Sappiamo che 𝑏 "

è una variabile casuale, e quindi quando andiamo a stimare, su un solo campione, 𝑏

"

, abbiamo una

stima potenziale di 𝑏

"

. quello che ci aspettiamo da uno stimatore corretto è che se noi consideriamo 50 o 60 campioni,

e quindi ripetiamo l’esercizio più volte, quello che otteniamo è un valore medio delle stime di 𝑏 "

pari a 𝛽

"

, e cioè che

le stime di 𝑏 "

convergano al vero valore di 𝛽

"

che rimane un parametro ignoto, e lo sarà sempre. Ma più ripetiamo

l’esercizio e più abbiamo un valore medio vicino alla meta. Ma vogliamo dimostrare che

𝐸[𝑏

"

] = 𝛽

"

Sia vero.

Nota di servizio: gli esercizi che troviamo alla fine del libro hanno due parti: una parte teorica ed una parte empirica (che corrisponde a ciò che ci

verrà chiesto all’esame). Dovremo, cioè, fare dimostrazioni teoriche e interpretare dei risultati di alcune stime. Per la parte empirica, c’è bisogno di

un database (lo estraiamo dal sito del libro) e un software (quello più utilizzato dai ricercatori è Stata, ma è costoso; altri software sono Gauss;

"

U 𝑊

+ U 𝑊

Ma

= 1. E questo merita un ulteriore approfondimento. Perché è uguale ad 1? Scriviamolo per esteso:

U 𝑊

$

Al denominatore, sappiamo che

=0, e quindi ne deduciamo che la

$

Possiamo riscrivere, alla luce di quanto detto:

"

"

+ U 𝑊

Adesso, consideriamone il valore atteso:

"

"

+ U 𝑊

Il valore atteso della costante 𝛽 "

è la costante stessa.

"

"

+ 𝐸[(U 𝑊

)]

Vogliamo dimostrare, per comprendere se il nostro sia o meno uno stimatore non distorto, che 𝐸[(∑ 𝑊

)] = 0. Così

facendo, dimostriamo che il valore atteso di b 1,

lo stimatore OLS, è esattamente uguale a 𝛽

"

Generalmente, ∑(𝑋

≠ 0 (altrimenti non potremmo calcolare lo stimatore

1

); ma è uguale a 0 se la covarianza

tra X ed Y è uguale a 0. Quindi, è uguale a 0 quando X ed Y sono indipendenti.

Quindi, ∑ 𝑊

è uguale a 0 quando le due variabili sono indipendenti, cioè se la covarianza tra le due variabili è uguale

a 0. Infatti, riprendendo tale ipotesi 𝐶𝑜𝑣

= 0 , e ricordando quindi che le 𝑋

sono deterministiche, allora lo

saranno anche i termini 𝑊

, che dipendono soltanto dalle 𝑋

. Insomma, le uniche componenti stocastiche, sono

proprio gli 𝑒

. Quindi, se la covarianza tra le X e le 𝑒 è uguale a 0, ∑ 𝑊

è uguale a 0 e il nostro stimatore OLS è non

distorto.

Come si dimostra tutto ciò? Usiamo la proprietà secondo la quale il valore atteso di una somma è pari alla somma dei

valori attesi:

𝐸[(∑ 𝑊

)] = 𝐸[𝑊

"

"

] + 𝐸[𝑊

$

$

] + 𝐸[𝑊

] (1)

E quindi, qui abbiamo somme di aspettative di prodotti. E, riprendendo tale formula: 𝐸[𝑋 ∗ 𝑌] = 𝐶𝑜𝑣(𝑋, 𝑌) +

𝐸(𝑋)𝐸(𝑌), la possiamo applicare a questo caso. Vuol dire che ciascun addendo di questa espressione è esattamente

uguale a:

"

"

"

"

1 Il professore si riferisce a questa formula:

𝑏 !

=

∑( 𝑋 "

− 𝑋

) ) 𝑌 "

∑ (𝑋 "

− 𝑋

)

) 𝑌

)

∑(𝑋

"

− 𝑋

) )

Nota di servizio: gli esercizi che troviamo alla fine del libro hanno due parti: una parte teorica ed una parte empirica (che corrisponde a ciò che ci

verrà chiesto all’esame). Dovremo, cioè, fare dimostrazioni teoriche e interpretare dei risultati di alcune stime. Per la parte empirica, c’è bisogno di

un database (lo estraiamo dal sito del libro) e un software (quello più utilizzato dai ricercatori è Stata, ma è costoso; altri software sono Gauss;

E questo è vero per ogni n. Per definizione, sappiamo che il valore atteso di 𝑒 è uguale a 0. Sappiamo che la covarianza

tra 𝑒 ed X è uguale a 0, per assunzione. E quindi, tutte le aspettative sono pari a 0.

Ma se le aspettative sono uguali a 0, vuol dire che 𝐸[

]

E quindi l’aspettativa dello stimatore OLS è uguale a

"

"

Se vale l’assunzione di indipendenza tra 𝑒 ed X, allora, lo stimatore OLS è uno stimatore corretto. Cioè, se ripetiamo la

stima di 𝑏 "

per n volte, otteniamo un valore che sarà vicinissimo a quello della popolazione.

Quindi, il primo risultato di oggi è che lo stimatore OLS è lineare ed è corretto, cioè non distorto, se gli errori sono

indipendenti dalla X.

Il libro di testo lo ripete tante volte: la non distorsione, cioè la correttezza, è una proprietà dello stimatore e non della

stima. Cioè, la stima è quella a cui si perviene applicando il Metodo dei Minimi Quadrati ad un campionamento della

popolazione fino ad ottenere la stima b 1

che è quindi uguale ad un certo numero. Lo stimatore, invece, è lo stimatore

OLS:

"

$

La realizzazione di 𝑏 "

varia a seconda del campionamento che si fa. Quindi, un errore che si fa tipicamente nei compiti

è dire che la stima è non distorta, ma è lo stimatore che non è distorto. È il valore atteso di 𝑏

"

che è uguale a 𝛽

"

, non

abbiamo mica dimostrato che 𝑏

"

è uguale a 𝛽

"

! Questo altrimenti vorrebbe dire che è la stima che equivale

esattamente al 𝛽 della popolazione, ma vuol dire che noi conosciamo con certezza il valore della popolazione (tuttavia

questo non lo sapremo mai). Quello che sappiamo è che l’aspettativa di 𝑏 "

, che è una variabile stocastica, che è uguale

a 𝛽 "

. Questo significa che lo stimatore è corretto. Ma dire, invece, che 𝑏

"

"

, vorrebbe dire che la stima è non

distorta: ma una singola stima 𝑏

"

(e quindi un certo valore, ad esempio immaginiamo che 𝑏

"

=10) può essere prossima

o lontana da 𝛽 "

. E visto che 𝛽

"

non è mai noto, non potremo mai sapere, sulla base di un unico campione, se la nostra

stima sia o meno vicina a 𝛽 "

Poi, abbiamo detto che lo stimatore dei minimi quadrati (o, se preferiamo, la procedura di stima dei minimi quadrati)

"

di 𝛽

"

è una variabile casuale e che il suo valore atteso è uguale a 𝛽

"

. Ma cosa rende una variabile casuale o

stocastica? Il fatto che abbia una distribuzione di probabilità caratterizzata da n momenti. Se la distribuzione è

Normale, solo da due momenti. Ma, in generale, da n momenti.

Quindi, una volta che abbiamo ottenuto la media di tale stimatore, qual è il naturale passaggio successivo? La

varianza , che è un momento di dispersione. Abbiamo, cioè, determinato il momento della media e adesso dobbiamo

determinare il momento secondo, che è l’indice di dispersione e quindi la varianza.

Usiamo il risultato che abbiamo ottenuto precedentemente scrivendolo nella formula della varianza e ricordando che

la varianza di una somma è uguale alle somme delle due varianze più la covarianza tra le due variabili.

"

"

) = Var(𝛽

"

) + Var(Σ 𝑊

) + 2Cov(𝛽

"

Ma β rappresenta la popolazione, dunque la sua varianza sarà pari a 0 e anche la covarianza sarà uguale a 0, da cui ne

deriva che:

"

) = Var(Σ 𝑊

E quindi che la varianza di b 1

sarà uguale alla somme delle singole varianze 𝑊

"

"

$

$

a cui andranno

aggiunte le singole covarianze a due a due.

Nota di servizio: gli esercizi che troviamo alla fine del libro hanno due parti: una parte teorica ed una parte empirica (che corrisponde a ciò che ci

verrà chiesto all’esame). Dovremo, cioè, fare dimostrazioni teoriche e interpretare dei risultati di alcune stime. Per la parte empirica, c’è bisogno di

un database (lo estraiamo dal sito del libro) e un software (quello più utilizzato dai ricercatori è Stata, ma è costoso; altri software sono Gauss;

Sostituendo le varianze a noi note di Y e di b 1

avremo:

!

σ

$

$

$

$

σ

$

$

$

$

L'altro momento che possiamo studiare è la covarianza tra b 1

e b 0.

Quest'ultima sarà uguale a:

"

!

$

$

Il professore suggerisce di dimostrare perché si ottenga tale risultato.

Se aumenta σ

2

ci sarà un aumento (in valore assoluto) delle varianze di 𝑏

",

di b 0

e della covarianza tra b 1

e b

Quindi,

quanto questo parametro è maggiore, tanto maggiore è la dispersione e più l’informazione che abbiamo su 𝛽 !

"

è

meno precisa.

Se aumenta ∑(𝑿 𝒊

j

)

𝟐

, e quindi la somma dei quadrati degli scarti tra i valori di X e la rispettiva media campionaria,

insomma la devianza di X, ci sarà una diminuzione di varianza dei nostri stimatori b 1

,b 0

così come per la covarianza tra

i due stimatori, e quindi si potranno stimare i parametri ignoti più precisamente.

All'aumentare di N , e quindi della numerosità campionaria, gli stimatori tendono ad essere più precisi, diminuiscono

le varianze e le covarianze perché quanto più è largo il campione tanto più sarà accurata la stima.

Come vediamo graficamente, nel quadro (b) si evidenzia una stima più accurata e precisa.

Teorema di Gauss – Markov

Sulla base di quanto visto fino ad ora, lo stimatore OLS è, sotto le assunzioni precedentemente fatte tranne quella

della normalità

3

, il predittore lineare più efficiente (con minore varianza possibile). E questo è vero non per le stime (e

quindi i numeri), ma per gli stimatori.

Quindi, noi sappiamo che gli stimatori dei minimi quadrati sono corretti :

./

3

E' vero anche sotto l'ipotesi di normalità, ma non è una condizione necessaria.

Nota di servizio: gli esercizi che troviamo alla fine del libro hanno due parti: una parte teorica ed una parte empirica (che corrisponde a ciò che ci

verrà chiesto all’esame). Dovremo, cioè, fare dimostrazioni teoriche e interpretare dei risultati di alcune stime. Per la parte empirica, c’è bisogno di

un database (lo estraiamo dal sito del libro) e un software (quello più utilizzato dai ricercatori è Stata, ma è costoso; altri software sono Gauss;

E, oltretutto, sono gli stimatori con minore varianza possibile (è preferibile, per uno stimatore corretto, avere una

varianza piccola, e quindi minore di tutti gli altri stimatori lineari possibili, perché ciò implica una maggiore probabilità

di ottenere una stima vicina al vero valore del parametro):

./

l

)

Quindi, possiamo enunciare il Teorema Di Gauss-Markov: sotto le ipotesi che abbiamo visto nel modello di

regressione lineare, tranne, come detto prima, quella della normalità, gli stimatori OLS b 0

e b 1

hanno varianza minima

fra tutti gli stimatori lineari e corretti di 𝛽 !

"

. Quindi, b 0

e b 1

sono i migliori stimatori lineari e corretti (BLUE,

acronimo di Best Linear Unbiased Estimator) di 𝛽 !

"

Consideriamo un qualsiasi stimatore, 𝑏

l

(alla dimostrazione del suo valore atteso e della sua varianza dovremo

procedere da soli):

l

= U 𝐾

Dove 𝐾

è un termine diverso rispetto al precedente 𝑊

, altrimenti 𝑏

l

corrisponderebbe al 𝑏

./

. Quindi, possiamo

immaginare che 𝐾

Allora, si dimostra che il valore atteso di 𝑏

l

, così come nel caso di 𝑏

./

, 𝑠𝑎𝑟à 𝑢𝑔𝑢𝑎𝑙𝑒 𝑎:

l

)=𝛽

Tuttavia, la varianza di 𝑏

l

sarà maggiore della varianza di 𝑏

./

Supponiamo infatti che:

𝑑ove Ci è una costante che può assumere qualunque valore possibile.

Lo stimatore sarà non distorto e avrà varianza minima se e soltanto se 𝐶

= 0. Il problema è che se 𝐶

= 0 allora 𝐾

e, di conseguenza, 𝑏

./

l

.

Le distribuzioni degli stimatori OLS

Quel che ci resta da capire ora è se gli stimatori 𝑏

./

sono distribuiti normalmente oppure no. Se si suppone che gli

errori siano distribuiti normalmente , allora:

1

!

"

)

σ

$

(

2

,

4

,

∑ ((

!

7 (

2 )

,

"

"

4

,

'((

!

7 (

2 )

,

Se, invece, gli errori non si distribuissero come una normale, ma se N fosse sufficientemente grande, potremmo

applicare il Teorema del Limite Centrale , attraverso il quale possiamo approssimare la nostra distribuzione ad una

distribuzione Normale.

Ma come si stima σ

2

e quindi la varianza del termine d’errore?