Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Modelli Lineari Generalizzati - Prof Vittadini, Sintesi del corso di Modelli Stocastici E Analisi Dei Dati

Riassunto di tutto il corso (6 cfu) di "Modelli lineari generalizzati", valido per il corso presente nella laurea magistrale in Biostatistica. Comprende sia la teoria sia le applicazioni in R. E' il secondo modulo di "Modelli Statistici 1"

Tipologia: Sintesi del corso

2021/2022

Caricato il 26/06/2024

lara-giardino
lara-giardino 🇮🇹

3

(1)

2 documenti

1 / 42

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
DOMANDE TEORICHE
Sommario
PARTE A - MODELLO LINEARE CLASSICO..................................................................................................................2
1) MODELLO LINEARE CLASSICO...................................................................................................................2
PARTE B - MODELLO MINIMI QUADRATI GENERALIZZATI........................................................................................ 8
2) VIOLAZIONE DEL MODELLO CLASSICO: ETEROSCHEDASTICITA’...............................................................8
3) METODO DI STIMA NEL CASO DI ETEROSCHEDASTICITA’: WLS (Weighted Least Squares)......................9
4) VIOLAZIONE DEL MODELLO CLASSICO: AUTOCORRELAZIONE................................................................10
5) METODO DI STIMA NEL CASO DI AUTOCORRELAZIONE, GLS (Generalized Least Square)......................12
6) METODO DI STIMA GLS, CASO GENERALE (Generalized Least Square, Minimi Quadrati Generalizzati).14
7) VIOLAZIONE DEL MODELLO CLASSICO: MULTICOLLINEARITA’...............................................................15
8) VIOLAZIONE DEL MODELLO CLASSICO: LINEARITA’................................................................................16
9) VIOLAZIONE DEL MODELLO CLASSICO: NORMALITA’.............................................................................18
10) OUTLIER E VALORI ANOMALI................................................................................................................. 21
PARTE C – MODELLO LINEARE MULTIVARIATO......................................................................................................23
11) MODELLO LINEARE (MULTIVARIATO......................................................................................................23
12) INFERENZA NEL MODELLO MULTIVARIATO: STIME................................................................................25
13) INFERENZA NEL MODELLO MULTIVARIATO: TEST DI WILKS...................................................................26
14) INFERENZA NEL MODELLO MULTIVARIATO: TEST SU ALTRE IPOTESI E ALTRI TEST................................27
15) MODELLO LINEARE MULTIVARIATO GENERALIZZATO............................................................................28
16) MODELLO LINEARE MULTIVARIATO GENERALIZZATO: SOLUZIONI........................................................29
17) MODELLI SEEMINGLY UNCORRELATED REGRESSION EQUATIONS (SURE).............................................30
PARTE D - DATI GERARCHICI: REGRESSIONE E MODELLO MULTILEVEL..................................................................32
18) IL PROBLEMA DEI DATI GERARCHICI.......................................................................................................32
19) REGRESSIONE MULTILEVEL.................................................................................................................... 32
20) REGRESSIONE MULTILEVEL: MODELLO DI CRONBACH...........................................................................33
21) MODELLO MULTILEVEL IN TERMINI DESCRITTIVI: ANALISI DELLA COVARIANZA....................................34
22) MODELLO MULTILEVEL: ANALISI DELLA COVARIANZA A EFFETTI CASUALI............................................35
23) MULTILEVEL MODEL: DEFINIZIONE E PASSAGGI RISOLUTIVI..................................................................36
24) METODI DI STIMA E TEST DI IPOTESI......................................................................................................39
25) UTILIZZO DEL MULTILEVEL NELLE SUE DIVERSE VERSIONI.....................................................................41
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a

Anteprima parziale del testo

Scarica Modelli Lineari Generalizzati - Prof Vittadini e più Sintesi del corso in PDF di Modelli Stocastici E Analisi Dei Dati solo su Docsity!

DOMANDE TEORICHE

  • PARTE A - MODELLO LINEARE CLASSICO.................................................................................................................. Sommario
    1. MODELLO LINEARE CLASSICO...................................................................................................................
  • PARTE B - MODELLO MINIMI QUADRATI GENERALIZZATI........................................................................................
    1. VIOLAZIONE DEL MODELLO CLASSICO: ETEROSCHEDASTICITA’...............................................................
    1. METODO DI STIMA NEL CASO DI ETEROSCHEDASTICITA’: WLS (Weighted Least Squares)......................
    1. VIOLAZIONE DEL MODELLO CLASSICO: AUTOCORRELAZIONE................................................................
    1. METODO DI STIMA NEL CASO DI AUTOCORRELAZIONE, GLS (Generalized Least Square)......................
    1. METODO DI STIMA GLS, CASO GENERALE (Generalized Least Square, Minimi Quadrati Generalizzati).
    1. VIOLAZIONE DEL MODELLO CLASSICO: MULTICOLLINEARITA’...............................................................
    1. VIOLAZIONE DEL MODELLO CLASSICO: LINEARITA’................................................................................
    1. VIOLAZIONE DEL MODELLO CLASSICO: NORMALITA’.............................................................................
    1. OUTLIER E VALORI ANOMALI.................................................................................................................
  • PARTE C – MODELLO LINEARE MULTIVARIATO......................................................................................................
    1. MODELLO LINEARE (MULTIVARIATO......................................................................................................
    1. INFERENZA NEL MODELLO MULTIVARIATO: STIME................................................................................
    1. INFERENZA NEL MODELLO MULTIVARIATO: TEST DI WILKS...................................................................
    1. INFERENZA NEL MODELLO MULTIVARIATO: TEST SU ALTRE IPOTESI E ALTRI TEST................................
    1. MODELLO LINEARE MULTIVARIATO GENERALIZZATO............................................................................
    1. MODELLO LINEARE MULTIVARIATO GENERALIZZATO: SOLUZIONI........................................................
    1. MODELLI SEEMINGLY UNCORRELATED REGRESSION EQUATIONS (SURE).............................................
  • PARTE D - DATI GERARCHICI: REGRESSIONE E MODELLO MULTILEVEL..................................................................
    1. IL PROBLEMA DEI DATI GERARCHICI.......................................................................................................
    1. REGRESSIONE MULTILEVEL....................................................................................................................
    1. REGRESSIONE MULTILEVEL: MODELLO DI CRONBACH...........................................................................
    1. MODELLO MULTILEVEL IN TERMINI DESCRITTIVI: ANALISI DELLA COVARIANZA....................................
    1. MODELLO MULTILEVEL: ANALISI DELLA COVARIANZA A EFFETTI CASUALI............................................
    1. MULTILEVEL MODEL: DEFINIZIONE E PASSAGGI RISOLUTIVI..................................................................
    1. METODI DI STIMA E TEST DI IPOTESI......................................................................................................
    1. UTILIZZO DEL MULTILEVEL NELLE SUE DIVERSE VERSIONI.....................................................................

PARTE A - MODELLO LINEARE CLASSICO

1) MODELLO LINEARE CLASSICO

1.1. Costruzione di un modello statistico 1.2. Modello lineare classico 1.3. Proprietà stimatori modello lineare classico 1.4. Test di ipotesi e intervalli di confidenza sui parametri 1.5. Modello lineare con dati qualitativi Costruzione di un modello statistico I modelli permettono di esplicitare la relazione fra variabili, sia matematica che statistica. I modelli così costruiti risultano tuttavia semplificativi poiché vengono costruiti secondo un trade-off tra adattamento e parsimonia nel numero di parametri e ciò, secondo Popper, conduce a modelli intrinsecamente sbagliati. Il modello statistico differisce da quello matematico poiché quest’ultimo è deterministico (approssima in maniera esatta i dati), mentre un modello statistico è caratterizzato dalla presenza di errori nella relazione esplicitata dal modello che sono dipendenti da: variazioni individuali, componenti sistematiche o errori di misura. Si procede alla stima di un modello partendo dalla sua specificazione teorica e dalle ipotesi che deve testare passando poi alla verifica empirica sui dati di quanto ipotizzato. Il modello viene quindi specificato attraverso:

  1. la stima dei parametri
  2. la verifica del modello
  3. l’utilizzo del modello, una procedura che viene iterata modificando il modello fino ad ottenere il miglior modello possibile. Il modello viene specificato attraverso la definizione di:
  4. la variabile dipendente (y), ovvero la variabile dipendente che si vuole spiegare, che deriva da una delle determinazioni possibili della variabile casuale Y
  5. le variabili esplicative (x 1 , …, xn) le variabili esplicative a natura non casuale, che determinano la componente sistematica del modello.
  6. la forma funzionale rappresentata dalla relazione che viene a priori ipotizzata tra la variabile dipendente e le variabili esplicative. In termini matriciali y = βX + ε dove y è vettore di variabili casuali, β il vettore delle variabili esplicative, X la matrice dei coefficienti e ε il vettore di variabili casuali di errore (la misura di quanto non si riesce a spiegare con il modello). Il modello viene poi verificato sulla base di una serie di indicatori descrittivi che indicano la bontà di adattamento del modello ai dati e sulla base di risultati inferenziali a seguito di test statistici che descrivono la significatività di un modello. Se la verifica effettuata conduce al rifiuto dell’ipotesi di validità del modello viene rivista la sua specificazione e viene ritestato, fino ad ottenere un modello statisticamente valido e all’accettazione dello stesso. La specificazione di un modello cambia sia per effetto della variazione della variabile dipendente sia per effetto del cambio delle variabili esplicative, ma anche per effetto del cambiamento della forma funzionale (sia essa una relazione semplice, multipla o multivariata) Occorre stimare il vettore β. Uno degli approcci maggiormente utilizzati è il metodo dei minimi quadrati lineari, dove viene ricercato il vettore β tale che renda minimizzi il vettore degli scarti ε. Dal sistema di equazioni

normali si ottiene la stima per il vettore β tale che b ^=( X ’ X )

− 1

( X

t

) y da una delle osservazioni della variabile

casuale B sul campione (e dipendente dalla variabilità campionaria). Si definisce la devianza totale nel modello lineare generale come TSS= y’y e la devianza spiegata come MSS= y’X(X’X)-1X’y e la devianza residua SSR determinata come differenza tra devianza totale e spiegata. L’indice di bontà di adattamento più noto è sicuramente R^2 e l’R^2 adjusted, che tiene contro della numerosità delle variabili. L’R^2 prende il nome di coefficiente di correlazione multipla o di determinazione e rappresenta la frazione di varianza della variabile dipendente spiegata dal modello specificato. L’indice R^2 aumenta sempre quando si aggiunge un regressore ecco perché viene fornita la misura dell’R^2 aggiustato per il numero di repressori. Secondo iI “principio della parsimonia” è corretto scegliere il giusto trade-off tra variabili numerosità delle variabili esplicative e l’aumento dell’R^2 , in quando un modello con un numero eccessivo di variabili esplicative avrebbe una scarsa utilità pratica, ed è quindi preferibile una formulazione con un R^2 leggermente minore ma che rinuncia a qualche variabile esplicativa.

La matrice Var-Cov è di tipo scalare. Il modo più semplice per determinarla visivamente è con un grafico (scatter plot) dei valori residui vs valori fitted (o predetti) del modello. Se i punti non sono equamente distribuiti, e ad esempio la struttura è a “cono”, allora è plausibile sospettare eteroschedasticità. Sempre graficamente, si può anche valutarie in prima approssimazione se i residui sono correlati, ovvero se un’osservazione di un termine di errore può aiutare ad intuire la successiva (correlazione che può essere positiva quando un errore positivo è probabilmente seguito da un altro errore positivo, viceversa correlazione negativa). Questa problematica prende il nome di correlazione seriale o autocorrelazione, ed è tipa, ad esempio delle serie temporali (ad andamento ciclico) o di osservazioni spaziali. In questo caso può essere necessario aggiungere al modello una variabile indipendente che elimini l’effetto ”lag”. Sia l’eteroschedastocità che la correlazione seriale riducono la precisione delle stime della regressione lineare OLS.

  1. Non stocasticità delle variabili esplicative , le variabili dipendenti sono incorrelate con il termine di errore. Se fossero correlate sarebbe necessario che tali informazioni vengano incorporate nel modello stesso. La violazione di questa ipotesi può verificarsi ad esempio per via della simultaneità tra le variabili indipendenti e dipendenti, la violazione di questa ipotesi condiziona la stima del coefficiente.
  2. Non collinearità delle variabili esplicative , la correlazione perfetta tra due variabili esplicative, o tra una variabile esplicativa ed una combinazione di variabili esplicative, si configura quando il coefficiente di correlazione di Pearson assume valore pari ad 1 o -1. In questo caso, l’informazione che esse forniscono potrebbe essere sintetizzate da solo una di esse. Non è possibile una stima OLS, perché non si riesce a distinguere tra le due variabili. La matrice X’X che compare nel sistema di equazioni normali che conduce alla stima del vettore β non è più a rango pieno se non viene soddisfatta la non collinearità tra le variabili esplicative, ed è dunque singolare e non invertibile, e la stima di β così non è quindi possibile. La matrice X è assunta a rango pieno pari a p+1, dato da p covariate più 1 per la costante, Rank(X)=p+1. Se X non è a rango pieno, è “singolare” e non esiste la sua inversa. Non è quindi possibile una stima OLS.
  3. una adeguata numerosità della popolazione osservata. Affinché esista una soluzione che sia unica, deve esistere sempre una matrice inversa per la matrice X delle variabili esplicative, che deve quindi essere a rango pieno, e la numerosità “n” delle osservazioni (righe della matrice), dev’essere maggiore al numero “p” dei parametri del modello +1 (𝑛>𝑝+1). Se il rango di una matrice è inferiore all’ordine di una matrice, questa è singolare e non invertibile. Questa assunzione e la precedente garantiscono l’unicità delle soluzioni. Alle assunzioni elencate ve ne si aggiunge una utile in termini inferenziali che permette la costruzione di test ed intervalli di confidenza, ovvero
  4. la normalità degli errori che si distribuiscono dunque come una normale di media zero e varianza σ^2. Gli errori sono distribuiti normalmente, nel caso delle estrazioni, le Y 1 ,…,Yi, …, Yn variabili casuali sono IID (indipendenti ed identicamente distribuite). L’ipotesi è necessaria per eseguire test di ipotesi statistici inferenziali e d avere intervalli di confidenza affidabili, non per la stima con i minimi quadrati ordinari. La normalità dei residui può essere testata facilmente attraverso il QQPlot, che confronta i quantili teorici di una normale con i quantili empirici. Se i punti si collocano sulla bisettrice allora i residui seguono una distribuzione normale, poiché equivalgono ai valori dei quantili teorici della normale. Per numerosità alte (almeno 25) il teorema del limite centrale permette di affermare che la distribuzione di εi tende alla normalità. E’ necessaria per applicare il metodo di massima verosimiglianza. Proprietà stimatori: Correttezza, Efficienza, Consistenza. Quando non è possibile osservare l’intera popolazione e dunque i veri valori dei parametri è possibile utilizzare i dati relativi ad un campione di n individui della popolazione e d applicare il modello lineare appena descritto ai dati campionari. Considerando quindi l’estrazione di un campione di numerosità n, è possibile ottenere n osservazioni sulla variabile dipendente Y e sulle variabili esplicative x 1 , …, xk. Tale che: Y: sia un vettore n dimensionale della n osservazioni campionarie della variabile casuale dipendente X: sia una matrice n*p dimensionale dei coefficienti del vettore di p parametri B: vettore dei parametri campionari E: vettore casuale n dimensionale degli errori campionari. Se si effettuasse una regressione sull’intera popolazione si otterrebbe dalle stime dei minimi quadrati una soluzione di tipo deterministico per i parametri, mentre avendo a sola disposizione i dati campionari si

ottengono con le stime OLS vettori di parametri ^ B differenti da quelli della popolazione. Le stime OLS saranno

diverse per ogni campione. Viene dunque posto come interrogativo quale sia la differenza che intercorre tra la stima dei parametri sulla popolazione e su dati campionari. L’estrazione di campioni di uguale ampiezza dalla

popolazione viene ripetuto un numero N di volte e le stime OLS, come soluzione del sistema di equazioni

normali ( ^ B = X’X)-1^ X’y ), effettuate su dati campionari diversi sono diverse. Viene poi ad aggiungersi un elemento

stocastico agli errori dovuto alla variazione del campione

Il modello campionario delineato è y=X^ B + ε ^, dove ^ B è la stima dei parametri della popolazione, ε ^ gli errori

ricavati a partire da tale stima. Al variare del campione si genera così la distribuzione stocastica campionaria

dello stimatore ^ B del parametro ignoto b. (Gli n ^ B tendono al B “reale”). Avendo a disposizione solo le stime di b

sono fondamentali le proprietà dello stimatore perché la sua distribuzione deve avere legami ragionevoli con l’ignoto parametro b oggetto di stima. Lo stimatore gode delle seguenti proprietà:

  1. Correttezza, ovvero il valore atteso della variabile casuale dalla quale provengono le stime sui campioni di B è uguale al parametro che intende stimare b, che è il vero parametro nella popolazione. La differenza tra il valore atteso del parametro stimato e il valore reale è nulla. E[B]=b → e[B]-b=0. B è da intendersi come vettore qualora ci siano più parametri.
  2. Efficienza poiché ha varianza minima (minimizza l’errore quadratico medio), uno stimatore corretto è relativamente più efficiente rispetto ad un altro stimatore corretto se la sua varianza è più piccola. Parlare di efficienza con stimatori distorti non sarebbe possibile. E[B-b]^2 = E[B-E[B]+E[B]- b]^2 → E[(B-E[B])-(E[B]–b)] = 0 Inoltre, dato che V[B] = E[B-E(B)]^2 si ottiene E[B-b]^2 = V[B] + [E[B] - b]^2 Se lo stimatore fosse distorto il secondo termine non sarebbe pari a zero (per la proprietà di correttezza). Quando invece è corretto si ha: E[B-b]^2 ≡ V[B]
  3. Consistenza, lo stimatore è detto consistente se la probabilità che il valore atteso della v.c Bn per n che tende ad infinito è pari al vero vettore b della popolazione ( (^) n lim → ∞^ E^ (^ Bn^ )= b ). Al crescere dell’ampiezza campionaria la probabilità che il vero valore sia compreso in un IC del valore stimato tende a 1 (evento certo).
  4. È anche il BLUE, best linear unbiased estimator ovvero è il miglior stimatore corretto a varianza minima.

Correttezza degli stimatori OLS: E[^ B ] = E[(X’X)-1^ X’y ] = (X’X)-1^ XE(y) = (X’X)-1X’E(Xb+e)=(X’X)-1X’XE(b)=b

La varianza minima viene dimostrata attraverso il teorema di Gauss Markov.

Var^ B = E[(^ B -b)(^ B -b)’]=E[(X’X)-1X’e e’X(X’X)-1]= (X’X)-1X’ E(ee’) X (X’X)-1^ = σ^2 (X’X)-1X’ X (X’X)-1= σ^2 (X’X)-

Dato un generico stimatore lineare B=My e M = K +(X’X) -1^ X’ (assunto corretto) → B= (X’X)-1X’y E( B* ) = E( My ) = Ky +( X’X ) -1X’y = b Vedere se è il caso di tenere E( MY )= K E( Xb + e ) +( X’X )-1 X’ E( X b + e ) = KXE(b)+KE(e)+(X’X)-1^ X’X E(b)+E(e) = b Ricordando che: E( e )= 0 → KXE(b)+E(b) = b La matrice Var-Cov di B=My* sarà: Var( B* )=Var( My )=E( My-b )( My-b )’= E(( K+(X’X)-1^ X’ ) yb )(( K +( X’X)-1X ’) y –b ))’ = E(( K +( X’X)-1X ’)( Xb+e )– b )(( K +( X’X)-1X ’)( Xb + e ))’ Per l’ipotesi di sfericità degli errori: Var ( B* )=E(( K +( X’X)-1X ’) e )(( K +( X’X)-1X ’) e )’= (( K + X’X )-1 X’) E( ee ’)( K +( X’X)-1X’) ’ = σ^2 (( K + X’X )-1^ X ’)( K +( X’X )-^1 X’ )’ = σ^2 KK’ + σ^2 (X’X)- σ^2 (X’X)-1^ è la matrice di varianza dei minimi quadrati.

Poiché σ^2 è positivo e KK’ è semidefinita positiva ( w KK’w’ >0), allora var ( B* ) ≥ Var (^ B ) e quindi ^ B è lo stimatore

a minima varianza (efficiente) fra gli stimatori lineari. È possibile dimostrare che lo stimatore è consistente Test di ipotesi e intervalli di confidenza sui parametri Dopo aver identificato le relazioni tra variabile dipendente e i regressori, va saggiata l’ipotesi che le relazioni siano significative dal punto di vista statistico e la bontà di adattamento del modello ai dati. La distribuzione di un parametro studiata sotto l’ipotesi nulla (H 0 :bJ=0), del j esimo parametro e composta da due aree sottese dalla funzione di densità: un’ area di accettazione ed un’area di rifiuto definita sulla base di una quantità pivotale. Se il parametro stimato a livello campionario per bj cade in una delle due code (zona di rifiuto) della distribuzione allora o l’ipotesi H 0 è vera e si è verificato un evento raro (con probabilità α) o H 0 è falsa; se invece il parametro cade nell’intervallo centrale tra del due code allora si accetta l’ipotesi H 0 legata alla stima del valore nel campione. L’ipotesi nulla testata è che non vi siano legami tra il/i regressore/i e la variabile dipendente, ovvero H 0 : nullità del parametro di una determinata variabile del modello. Per non rifiutare l’ipotesi

La stima di massima verosimiglianza dei parametri è quella che rende il campione estratto il più probabile possibile (massimizza la funzione di verosimiglianza), data una distribuzione normale. Spesso viene utilizzato un accorgimento che consiste nel massimizzare la trasformata logaritmica della funzione di verosimiglianza, soluzione che permette di non alterare il valore dei parametri sui punti stazionari della funzione di verosimiglianza: l ( β , σ 2 ) = logL ( β , σ 2 )=

− n

log ( 2 π )−¿

n

log ( σ 2 ) −

2 (^ y − Xβ^ )^ '^ (^ y^ − Xβ^ )^ ¿

Per procedere alla massimizzazione si pone la derivata in σ^2 e la derivata in β della log-verosimiglianza. Da cui si procede alla determinazione della stima della varianza e di β di maximum likelihood (ML):

^ σ ML^2 =

n

( y − Xβ )

'

( y − Xβ )

Lo stimatore di massima verosimiglianza si distribuisce come una normale con valore atteso pari a β e varianza pari alla varianza della popolazione al quadrato moltiplicato per (X’X)-

^ β

ML N^ ¿^ ¿

Che ha la proprietà di essere uno stima corretta, consistente ed efficiente per β. Quindi in questo caso, ovvero nel modello lineare generale lo stimatore per β di massima verosimiglianza coincide con lo stimatore dei minimi quadrati. Per il teorema di Cramer-Rao si può dimostrare che gli stimatori OLS ottenuti con metodo di stima della massima verosimiglianza sono stimatori corretti a minima varianza tra tutti gli stimatori VUE, non sono tra gli stimatori lineari corretti. Gli stimatori sono stimatori corretti a minima varianza UMVUE. Modello lineare con dati qualitativi Il modello lineare generale può anche essere utilizzato per variabili esplicative categoriali , siano esse nominali, ordinali o variabili Dummy indicatrici delle categorie. Non sarebbe corretto introdurre queste variabili non numeriche semplicemente come regressori nel modello. La procedura corretta per includerle prevede l’utilizzo delle variabili Dummy che assumono valori dicotomici (0,1). La singola variabile qualitativa possiede r modalità ed entra nel modello di regressione con r-1 regressori dummy, dove la totale uguaglianza a 0 delle r-1 dummy indica la presenza della dummy di riferimento r esima, esclusa dal modello perché esso non risulti ridondante, l’i-esima modalità della variabile presente sull’unità osservata verrà indicata ponendo a 1 il coefficiente specifico della dummy relativa alla variabile. Yj = β 0 + β 1 D 1 + β 2 D 2 + εj per j=1, …, n (n ampiezza campionaria) Supponendo un modello tale per cui: Y = β 0 + femmina*β1 + maschio *β2 + ε essa può assumere la forma di:

Y i =

β 0 + ε i se Di = 0 ( es. Maschio )

β 0 + β 1 + εi se Di = 1 ( es. Femmina )

yi =

β 0 + β 2 xi , Di = 0

( β 0 + β 1 ) +^ β 2 xi , Di =^1 Quindi β 1 rappresenta la variazione sull’intercetta del modello di regressione per Di =1, mentre non si registra un effetto su β 2. La variabile dummy va dunque ad esercitare il proprio effetto sull’intercetta.

PARTE B - MODELLO MINIMI QUADRATI GENERALIZZATI

2) VIOLAZIONE DEL MODELLO CLASSICO: ETEROSCHEDASTICITA’

Il modello classico yi=Xβ+Ꜫi si basa su alcune assunzioni:

  1. Linearità
  2. Non sistematicità degli errori: Valore atteso E(Ꜫi) = 0 per ogni 1 (1=1,… ,n)
  3. Sfericità degli errori: gli errori (parte non spiegata dal modello) sono ipotizzati omoschedastici [Var(Ꜫi) = σ^2 per ogni i (i=1, …, n)] e non correlati [cov(Ꜫi, Ꜫj)=0 per ogni 1 diverso da j]
  4. Non stocasticità delle variabili esplicative
  5. Non collinearità delle variabili esplicative
  6. Numerosità della popolazione adeguata
  7. Normalità degli errori εi ∼ N(0,σ^2 ), per scopi inferenziali Infine, X è una matrice deterministica di rango pieno (se non è a rango pieno si utilizza il modello lineare generale per modelli a rango non pieno). Riscrivendo in forma matriciale: y=Xβ+ Ꜫ, l’omoschedasticità è data da valore atteso E( Ꜫ) = E( ꜪꜪ’)=σ 2 In Siano BOLS^ e BML^ gli stimatori corretti per β, lineari, e BLUE, la stima diviene: BOLS^ = BML=(X’X)-1X’y. La matrice di varianze e covarianze di B è data da V(B)=σ^2 (X’X)-1. L’omoschedasticità è una delle ipotesi sottostanti la definizione del modello lineare generale; è però possibile che nei dati reali si osservi eterogeneità, ovvero differenti varianze dell’errore campionario. La varianza dell’errore in caso di eteroschedasticità (dove gli errori e* vengono distinti da quelli omoschedastici attraverso l’asterisco) è: E(ei^2 )=(σi)^2 , con i=1,…,n, che nella sua forma matriciale diviene E(ee’)= (σi)^2 In, sarà sempre una matrice nn ma avrà sulla sua diagonale diverse varianze per gli errori. La presenza di errori eteroschedastici va ad inficiare sulle proprietà degli stimatori OLS. Il valore atteso degli errori eteroschedastici è nullo E(Ei) = 0, ma la varianza non sarà più unica, ciò è sottolineato dalla presenza del pedice, Var(Ei)= σi^2 con i =1,…,n. La correlazione tra errori eteroschedastici rimane 0. In termini matriciali gli errori omoschedastici ed eteroschedastici si presentano come: Omoschedastici, σ^2 sulla diagonale principale, 0 fuori dalla diagonale. Eteroschedastici, σi^2 (i=1, ..., n) sulla diagonale principale, 0 fuori dalla diagonale. Gli errori eteroschedastici sono spesso relativi ad osservazioni effettuate nel tempo e dipendenti dall’istante di osservazione, ma anche dalla relazione studiata e delle unità sulle quali viene effettuata la rilevazione. Lo stimatore eteroschedastico B* è corretto per il parametro stimato β, poiché il valore atteso degli errori eteroschedastici rimane ancora nullo nonostante la perdita di omoschedasticità e, quindi, la consistenza è ancora valida ed è dimostrabile. E[B] = E[(X’X)-1X’y] = (X’X)-1X’ E(y) = (X’X)-1X’ E(Xb+e) = (X’X)-1X’ = (X’X)-1X’Xβ = β poiché β=(X’X) -1X’y e E(b)=β Non è invece conservata la proprietà di efficienza dello stimatore, che non risulta essere più il migliore stimatore lineare non distorto (BLUE): Var(B)=E(((X’X)-1X’)y-b)((X’X)-1X’)y-b))’ = E(((X’X)-1X’)(Xb+e)-b)((X’X)-1X’)(Xb+e)-b)) = E(((X’X)-1X’)e)((X’X)-1X’)e)’ = (X’X)-1X’)E(ee’)(X’X)-1X’)’ = ((X’X)-1X’)Σe((X’X)-1X’)’

La “sfida” in questo caso è di stimare un modello per la varianza degli errori che (data appunto l’eteroschedasticità) sarà condizionata ai regressori, ovvero per h(i). Le variabili del modello di partenza vengono trasformate in:

^ yi^ ¿=

yi

(√ h ( i ))

, ^ xi^ ¿=

xi

(√ h ( i ))

, ^ ε i^ ¿=

εi

( (^) √ h ( i )) E si ottime il nuovo modello trasformato: y=XB +ε* (che può non avere l’intercetta). Come di consueto, si effettua una regressione OLS per la stima dei parametri regredendo le nuove variabili trasformate ysu XB. La varianza del “nuovo” errore è costante (omoschedastica): σεi =h(i)/(h(i), pari ad una costante. Quindi, quando cade l’assunto di omoschedasticità ma è ancora valida l’incorrelazione, si può comunque ricavare la matrice inversa degli errori che avrà 1⁄(σp^2 ) sulla diagonale principale e 0 al di fuori. Si indica con WLS (weighted least square, minimi quadrati pesati) questo nuovo modello sui dati campionari (che al posto dell’ignota σp^2 presuppone l’uso della varianza campionaria s^2 ). I passaggi appena descritti possono condurre a risultati irrealistici, con stime della varianza degli errori di valore negativo, e per i quali è opportuno l’utilizzo della funzione esponenziale degli errori:

E ( U^2 | x 1 , … , x p )= h ( xi , … , x p )=exp

k = 1 p

γk xk

Dalla quale la relazione in termini lineari per correggere l’eteroschedasticità è: ln ( u ^ i 2

)=ln( h ^ ( xi 1 , … , xip ) )=^ γ 0 +∑

k = 1 p

γ ^ k xik

4) VIOLAZIONE DEL MODELLO CLASSICO: AUTOCORRELAZIONE.

Si consideri il modello classico yi=Xβ+Ꜫi dove: Y (dimensioni: n1): vettore delle n osservazioni della variabile dipendente B (k1): vettore degli ignoti parametri da stimare X(nk) matrice delle n osservazioni delle k variabili indipendenti (esplicative) Ꜫ (n1) (di seguito “ Ꜫ” oppure “e”, per semplicità di notazione): vettore degli errori casuali, non osservabili. Il modello classico yi=Xβ+Ꜫi si basa su alcune assunzioni:

  1. Linearità
  2. Non sistematicità degli errori: Valore atteso E(Ꜫi) = 0 per ogni 1 (1=1,… ,n)
  3. Sfericità degli errori: gli errori sono ipotizzati omoschedastici [Var(Ꜫi) = σ^2 per ogni i (i=1, …, n)] e non correlati [cov(Ꜫi, Ꜫj)=0 per ogni 1 diverso da j]
  4. Non stocasticità delle variabili esplicative
  5. Non collinearità delle variabili esplicative
  6. Numerosità della popolazione adeguata
  7. Normalità degli errori εi ∼ N(0,σ^2 ), per scopi inferenziali Inoltre, X è una matrice deterministica di rango pieno (se non è a rango pieno si utilizza il modello lineare generale per modelli a rango non pieno). Riscrivendo in forma matriciale: y=Xβ+Ꜫ
  8. Valore atteso E(Ꜫ) = E( ꜪꜪ’)=σ 2 In
  9. Omoschedasticità: V( Ꜫ) = σ 2 per ogni i (i=1, …, n) Nel modello classico, quando si parla di sfericità dei residui, si suppone appunto che i residui siano omoschedastici e che siano incorrelati, Cov(Ꜫi, Ꜫj)= E(Ꜫi, Ꜫj) = 0 ∀i≠ j. Quando quest’ultima assunzione viene a cadere, gli errori sono correlati ovvero si è in presenza di correlazione (seriale). I residui, di fatto nella realtà, sono spesso correlati tra loro, specialmente in serie storiche (periodi successivi, correlazione di grado 1 col il periodo precedente o di grado maggiore come ad esempio per i dati stagionali) o

territoriali (aree geografiche contigue) come, ad esempio, modelli longitudinali (autocorrelazione tra osservazioni in periodi successivi, dati panel), modelli spaziali, modelli di scelte nel consumo ecc. La matrice di correlazione degli errori, in caso di omoschedasticità e correlazione avrà: σ^2 sulla diagonale principale (non varia per l’ipotesi di omoschedasticità tutt’ora valida) ρij al di fuori della diagonale principale, perché i residui adesso sono correlati a coppie. Si indichino gli errori correlati con ei#=ρei-1#+ηi con ηi IID~(0,ση), per distinguerli dagli errori sferici e (in violazione all’unto di incorrelazione del modello lineare classico che presuppone sfericità degli errori).

Nel caso di serie storiche e ^ i

¿

è definito come un processo autoregressivo, dove ogni errore e ^ i

¿ è legato al suo

valore precedente e ^ i − 1

¿ (‘ritardato’ di 1 periodo, ma può essere ritardato anche di più di un periodo, che viene

definito “grado”: correlazione di 1° grado, di 2° grado…): ^ ei

¿

= ρ ^ ei − 1

¿

+ ηi (dove e ^ i

¿ sono gli errori correlati, non sferici, ηi sono IID indipendenti e identicamente distribuiti in modo normale (0, ση). Si dice che c’è autocorrelazione se, al variare di X, il valore di Y “fluttua”, oltre un certo intervallo di confidenza, intorno ai valori con lo stesso segno (→ correlazione positiva) o con segno opposto (→ correlazione negativa) In altri termini, abbiamo autocorrelazione positiva quando residui consecutivi tendono ad avere lo stesso segno e valore simile, mentre abbiamo autocorrelazione negativa quandi residui consecutivi tendono ad avere segno

differente. L’autocorrelazione può essere di grado superiore al primo ( ^ ei

¿

= ρ e ^ i − s

¿

  • ηi, correlazione s-esimo grado).

La i-esima osservazione campionaria del modello lineare si può scrivere come: yi = Xi B ^+ ε ^ i.

Dove le soluzioni per ^ B sono ottenute con le stime OLS.

Per ogni individuo j, sui k campioni, si ottengono gli errori: ^ Ꜫ 11

¿

,… ^ Ꜫ 1 k

¿

; ^ Ꜫ j 1

¿

, … ^ Ꜫjk

¿ ; che, al divergere di k, possono essere considerati manifestazioni delle n variabili casuali E 1 , E 2 ,…, Ei,…En identicamente distribuite. Vale ancora l’ipotesi di non sistematicità degli errori: valore atteso = 0 (E(Ei) =0 e quindi: [E(EIX)=0 → E(y|X) = Xb, E(y) = E(Xb+ε) = E(Xb) + E(E)=Xb], se questo non fosse valido, allora il modello distorcerebbe le osservazioni in modo prevedibile, perché gli errori conterrebbero informazioni sul modello e che quindi dovrebbero essere inserite nel modello stesso (non sarebbero quindi casuali). Ma, come anticipato, è sull’ipotesi di sfericità degli errori che incorriamo in alcuni problemi. Vale l’ipotesi di omoschedasticità, la varianza è pari a: σ^2 y= b’𝚺Xb +σ^2 con σ^2 =ε’ε (dim: 1*1). Se cov=0, allora anche la la correlazione ρij=0. Si può parlare di sfericità degli errori se sono incorrelati e omoschedastici). Ma in questo esempio non vale più l’incorrelazione. Cade l’ipotesi incorrelazione dei residui prevista dal modello lineare classico (Incorrelazione: cov(εi; εj)=E(εiεj)=0 per ogni i≠j. Con n campioni si ricavano le n varianze Var(Ei) e le n^2 -n correlazioni tra le coppie (Ei,Ej). Quando si studiano fenomeni reali, come nel caso di zone geografiche limitrofe o misurazioni panel ripetute nel tempo sugli stessi individui, ad esempio le abitudini di consumo delle famiglie) gli errori sono correlati (autocorrelazione seriale nelle serie storiche).

In caso di errori correlati: yi = xi B ^

¿

+ ε ^ j

¿

, ovvero la coppia di errori ^ E j

¿ ^

Ek

¿

è correlata, Cor ¿

o In caso di omoschedasticità, la matrice var-cov dei residui ΣE (dim: n^2 *n^2 ) è una matrice diagonale caratterizzata dalla varianza Var (Ei) = E(Ei^2 ) = σi^2 sulla diagonale principale. o In caso di eteroschedasticità avremo σi^2 diverse tra loro. o Se vale l’incorrelazione, avremo 0 al di fuori della digonale principale. o Se non vale l’incorrelazione tra i residui, non avremo più gli 0 al di fuori della diagonale principale ma gli ρjk riferiti ad agni coppia di errore, che possono essere anche tutti diversi (ρjk=ρ per ogni coppia j e k se sono tutte uguali, nel solo caso più semplice). Al di fuori della diagonale principale avremo le correlazioni Cor(Ej,Ek)=(EjEk’)/n=ρjk (in caso di incorrelazione, gli ρjk sarebbero uguali a zero). Modello campionario errori correlati omoschedastici

Y j = x j ^ B

¿

+ ε ^ j

¿ E (^) ( E ^ (^) j ¿ )=^0 Var (^) ( ^ E (^) j ¿ )= E^ ( Ej 2 ¿ ¿)= σ 2

Cor ( ^ E j

¿

, ^ Ek

¿

)= 1 / n (^ Ej

¿ ^

Ek

¿

)= ρ jk

(E(εi#)^2 +E(εi- 1 #)^2 -2E(εi#, εi-1#))/E(εi#)^2 per l’omoschedasticità dei residui: E(εi-1#) =var (εi-1#) =E(εi#) = var(εi#)= σ^2 i= σ^2 e E(εi#,εi-1#) =E(ρεi-1#+ wi, εi-1#)= ρσ^2 + E(ηi ,εi-1#)=ρσ^2 Dato E(ηi, εi-1#)=0, DW= (2σ^2 -2ρσ^2 )/σ^2 =2(1-ρ) I casi da considerare sono 3, ovvero la correlazione positiva perfetta con 𝜌=1, l’incorrelazione con 𝜌=0 e la correlazione negativa perfetta con 𝜌=− Per 𝜌 = 1⇒𝐷𝑊 = 0, DW∈(0;1)  autocorrelazione positiva (DW tende a 0) Per 𝜌 = 0⇒𝐷𝑊 = 2, DW∈(1;3)  incorrelazione DW (distribuzione campionaria DW centrata su 2) Per 𝜌 = −1⇒𝐷𝑊 = 4, DW ∈(3;4)  autocorrelazione negativa (DW tende a 4) Test di ipotesi: in generale, per convenzione, se dl e du non sono specificati, se d<1 si assume autocorrelazione positiva, se d>3 si assume autocorrelazione negativa, se 1<d<3 non c’è sufficiente evidenza per dimostrare autocorrelazione. **PROSEGUE CON:

  1. METODO DI STIMA NEL CASO DI AUTOCORRELAZIONE, GLS (Generalized Least Square).** Il modello lineare classico Yi=β 0 + Σβjxij+ εi si basa su alcune ipotesi. Due di queste riguardano gli errori degli stimatori OLS e la loro matrice di varianze e covarianze. Si assume la sfericità degli errori: gli errori sono ipotizzati omoschedastici e non correlati. L’omoschedasticità degli errori viene a identificarsi come l’uguaglianza di tutte le V(ei), ovvero la varianza degli errori è costante per tutte le osservazioni. La non correlazione tra errori implica l’assenza di legami stocastici, per ogni i e j definiti tra 1 ed n, la Cor(ei,ej)=0. Non vi è correlazione tra la componente non spiegata dalle variabili esplicative di una estrazione e le altre estrazioni. Quindi vale: V(ε) = E[εε’] = σ^2 In matrice di dimensione nxn di varianze-covarianze di ε. Quando E[εε’] non è diagonale, non vale l’ipotesi di incorrelazione degli errori e, al contrario, si ha correlazione seriale. Se continua a valere l’omoschedasticità, ma in presenza di correlazione, la matrice E[εε’] = Σε avrà sempre σ^2 sulla diagonale principale, ma al di fuori della diagonale principale non avrà più tutti 0 ma le correlazioni ρ 12 … ρ1p… ρ2p. Questa correlazione, per semplificare il modello, si può ipotizzare pari a ρ per tutte le coppie di osservazioni. Abbiamo a disposizione due possibili soluzioni a questo problema, per poter comunque stimare i parametri in caso di autocorrelazione seriale:
  2. Approccio 1, Durbin Watson : ipotizziamo che viene a cadere l’assunto di non correlazione degli errori, ma non quello di omoschedasticità dei residui. DW è una metodologia che avviene in 2 step.

Partendo dal modello lineare semplice yi = β 0 + β 1 xi + ⋯ + βk xk + ϵi

¿ per il quale è violato l’assunto di correlazione tra gli errori (che si possono anche indicare con εi#, ma per semplicità di seguito non sempre sono indicati): a. Stima dell coefficiente di autocorrelazione del primo ordine (ρ) eseguendo una regressione di y sulle var

esplicative x per ottenere i residui ε i

¿

. Si spiega così spiega ε i

¿ in funzione delle variabili esplicative del modello

iniziale e dei residui ritardati ε^ i − 1

¿ .

ε#i= a 0 + a 1 x 1 + a 2 x 2 +...+ akxk+ ρε#i-1, per cui: yi − 1 = β 0 +^ β 1 xi − 1 +^ ⋯ +^ βk xk − 1 + ϵi − 1

¿ Si ricava una stima per il coefficiente ρ di autocorrelazione del primo ordine. In altre parole, si costruisce il

modello di regressione che spiega ε#t in funzione dei residui ritardati ε#t-1, ossia: ε^ i

¿

= ρ εi − 1

¿

. Il coefficiente di regressione di questo modello rappresenta appunto una stima per il coefficiente ρ di autocorrelazione del 1° ordine. b. Stime GLS. Si moltiplica l’equazione “ritardata” per ρ stimato, quindi: ρyi-1= ρβ 0 + ρβ 0 xi-1+ρε#i-1 e la si sottrae all’equazione iniziale y#i=β 0 +β 1 xi+ε#i. Si ha quindi: yi-ρyi-1= β 0 (1-ρ)+β 1 (xi-ρxi-1)+wi (equazione OLS classica con errori incorrelati) → yi= ρyi-1+β 0 (1-ρ)+β 1 (xi-ρxi-1)+wi. Dove wi=ε#i-ρε#i-1, e sostituendo y#i=yi-ρyi-1, β# 0 =(1-ρ)β 0 #, xi#=(xi-ρxi-1). L’equazione del modello diventa: yi#= β 0 #+β 1 xi#+wi. Si “decorrela” dall’osservazione precedente, si elimina dalla stima di yi la parte relativa all’osservazione precedente.

I residui saranno adesso incorrelati: E(wi)=E(ε#i-ρε#i-1)=E(ε#i)-ρE(ε#i-1)= 0 e Cov (wi,wi-1)=0. Si possono così stimare i parametri con il metodo OLS con errori incorrelati, infatti dato che i wi hanno anche essi valore atteso pari a 0, si ha quindi che cov(wi, wi-1)=0. Incorrelazione dei residui: Cov[𝑤𝑖;𝑤𝑖−1]=E[𝑤𝑖𝑤𝑖−1]=E[(𝜀#𝑖−𝜌#𝜀𝑖−1)(𝜀#𝑖−1−𝜌𝜀#𝑖−2)]= E[𝜀#𝑖𝜀#𝑖−1−𝜌𝜀#𝑖𝜀#𝑖−2−𝜌(𝜀#𝑖−1)^2 +𝜌^2 𝜀#𝑖−1𝜀#𝑖−2] → Cov[𝜀#𝑖𝜀#𝑖−1]−𝜌Cov[𝜀#𝑖𝜀#𝑖−2]−𝜌Cov[𝜀#𝑖−1𝜀#𝑖−1]+𝜌^2 Cov[𝜀#𝑖−1𝜀#𝑖−2] = 𝜌−𝜌^3 −𝜌+𝜌^3 = In termini descrittivi, si elimina dalla stima dell’osservazione “corrente” la parte relativa alla precedente alla quale è correlata, rendendo così le stime e i residui incorrelati. La procedura per ottenere le stime GLS (Generalised Least Squares) o di tipo moltiplicativo di Cochrane-Orcutt

omette la prima osservazione per ricostruire le variabili trasformate yi

¿

e xi

¿ . Un altro metodo di stima è detto procedura di Prais-Winsten ed include anche la prima osservazione

trasformata y 1

¿

2

1 / 2

y 1 ed x 1

¿

2

1 / 2

x 1.

2) Approccio 2, Modello Autoregressivo. Dall’equazione con errori correlati, nel caso di modello autoregressivo di ordine 1 si introduce il termine (o i termini) di errore ritardato AR1 tra le variabili esplicative, in modo da considerare appunto l’autocorrelazione di primo ordine (o di ordine maggiore, a seconda della struttura di correlazione).

L’equazione, nel caso di correlazione di primo ordine, diventa: yi = β 0 + β 1 xi +^ AR^1 i +^ εi = β 0 +^ β 1 xi +^ vi ( 1 ), con

vi ( 1 )= AR 1 i + εi tale per cui E ( vi ( 1 ) , vi − 1 ( 1 ))= 0. In altri termini, si modificano quelli che erano i residui

dell’equazione classica. Con questo approccio non sono le variabili ad essere trasformate, ma i residui, in modo che non sia più presente la correlazione di ordine “i”. Ad esempio, nel caso di modello autoregressivo di ordine 2 si introduce, sempre tra le variabili esplicative, anche il termine di errore ritardato AR2 che tiene conto dell’autocorrelazione di secondo ordine:

yi = β 0 + β 1 xi + AR 1 i + AR 2 i + εi = β 0 + β 1 xi + vi ( 2 ), con vi ( 2 )= AR 1 i + AR 2 i + εi in modo che E ( vi ( 2 ) , vi − 1 ( 2 ))= 0.

Si procede allo stesso modo per tutte le autocorrelazioni di ordine k=1, 2, …, p per autocorrelazione con diverso lag temporale. 6) METODO DI STIMA GLS, CASO GENERALE (Generalized Least Square, Minimi Quadrati Generalizzati) Si consideri il modello classico yi=Xβ+Ꜫi dove: Y (dimensioni: n1): vettore delle n osservazioni della variabile dipendente B (k1): vettore degli ignoti parametri da stimare X(nk) matrice delle n osservazioni delle k variabili indipendenti (esplicative) Ꜫ (n1) (di seguito “ Ꜫ” oppure “e”, per semplicità di notazione): vettore degli errori casuali, non osservabili. Il modello classico yi=Xβ+Ꜫi si basa su alcune assunzioni:

  1. Linearità
  2. Non sistematicità degli errori: Valore atteso E(Ꜫi) = 0 per ogni 1 (1=1,… ,n)
  3. Sfericità degli errori: gli errori sono ipotizzati omoschedastici [Var(Ꜫi) = σ^2 per ogni i (i=1, …, n)] e non correlati [cov(Ꜫi, Ꜫj)=0 per ogni 1 diverso da j]
  4. Non stocasticità delle variabili esplicative
  5. Non collinearità delle variabili esplicative
  6. Numerosità della popolazione adeguata
  7. Normalità degli errori εi ∼ N(0,σ^2 ), per scopi inferenziali Se non vale l’ipotesi di sfericità degli errori, e si hanno dunque errori eteroschedastici e correlati, la loro matrice

di varianza-covarianza avrà sulla diagonale principale σ i

2

, con i = 1 , …, p ( si

2

per il modello campionario ) e i

coefficienti di correlazione ρij al di fuori della diagonale principale. Si possono ancora utilizzare gli stimatori GLS (minimi quadrati generalizzati) come gli stimatori OLS nel modello classico, ma dopo aver trasformato le variabili → y=XB^0 +e^0.

In questo caso la matrice di var-cov degli errori diventa: Σe 0 =1/n(e^0 eo’).

Esiste una matrice V non singolare tale per cui ( Σ ¿¿ e^0 )= σ^2 VV ' ¿

combinazioni di coefficienti tutte plausibili. In generale è dovuta ad un errore nella specificazione del modello, in particolare nella definizione dei regressori. Imperfetta se 2 o più regressori sono fortemente correlati. In questo caso il determinante della matrice dei coefficienti tende a 0 e ci sarà un problema di precisione nella stima dei coefficienti di regressione. La varianza dello stimatore OLS sarà sovrastimata e gli errori standard esageratamente elevati. Avremo:

  • Elevata varianza delle stime dei coefficienti. Var(BOLS)=σ^2 (X’X)-1. L’inversa di X’X, (X’X)-1^ è pari a (1/det(X’X)) cofattori (X’X). Se det tende a zero, gli elementi dell’inversa tendono a ∞.
  • Aumenta quindi la varianza delle stime dei coefficienti, al variare del campione e il risultato campionario non è più affidabile. Nel test t di Student a denominatore c’è l’errore standard, che se aumenta fa aumentare anche aumenta la regione di accettazione di H 0 e rende quindi più probabile che un parametro statisticamente significativo non sia invece considerato come pari a 0. Idem per il test F, essendo F=t^2.
  • Se consideriamo invece il coefficiente di determinazione R^2 , quando due variabili sono fortemente correlate, aggiungendo al modello la seconda variabile l’incremento di R^2 sarà modesto rispetto all’incremento che si avrebbe aggiungendo una variabile esplicativa non correlata o debolmente correlata. La seconda variabile (correlata alla prima) non può spiegare molto che non sia già stato spiegato dalla precedente. E paradossalmente questo si verifica anche quando la seconda variabile avrebbe teoricamente un potere esplicativo maggiore. Ma siccome le due variabili hanno molta varianza in comune, è difficile stabilire quale delle due sia più influente a spiegare la variabile dipendente. Vi sono diverse strategie per individuare la multicollinearità:
  1. Matrice di correlazione: dalla matrice (semplice output dei principali software) si può vedere le relazioni tra coppie di variabili. Se il coefficiente di correlazione è superiore a 0,9 si può considerare eccessivamente elevato. È come se le due variabili fossero interscambiabili e può essere opportuno eliminarne una.
  2. Indice di tolleranza, Tol: 0<Tol<1 , anch’esso è una misura di relazione tra le variabili data da: Tol(zj)=1-R^2 (xj/x 1 ,…,xj-1,xj+1,…,xp). Tol=1 → incorrelazione tra le variabili. Tol=0 → almeno una variabile è perfettamente correlata alle altre (multicollinearità). R^2 è il coeff. di determinazione della regressione della variabile in funzione delle altre variabili del modello.
  3. Varianza multifattoriale, Vif: Vif=1/Tol=1/(1-R^2 ). Vif>10 fanno sospettare multicollinearità. In presenza di multicollinearità Vif tende a infinito. Vif (zj) → 1 = incorrelazione, Vif (zj) → infinito = multicollinearità.
  4. Condition Index (CI) o indice di collinearità: dagli autovalori e autovettori della matrice X’X. Il CI è dato dalla radice del rapporto tra il massimo autovalore massimo di X’X e ciascun autovalore. Se CI è maggiore o uguale di 10 → collinearità. Inoltre, per CI elevati, se la quota di varianza associata ad ogni variabile è elevata (per ciascun autovalore e CI), si possono sospettare problemi di collinearità. 8) VIOLAZIONE DEL MODELLO CLASSICO: LINEARITA’
  1. Si consideri il modello classico yi=Xβ+Ꜫi dove:
  2. Y (dimensioni: n*1): vettore delle n osservazioni della variabile dipendente
  3. B (k*1): vettore degli ignoti parametri da stimare
  4. X(n*k) matrice delle n osservazioni delle k variabili indipendenti (esplicative)
  5. Ꜫ (n*1) (di seguito “ Ꜫ” oppure “e”, per semplicità di notazione): vettore degli errori casuali, non osservabili. Il modello classico yi=Xβ+Ꜫi si basa su alcune assunzioni:
  1. Linearità
  2. Non sistematicità degli errori: Valore atteso E(Ꜫi) = 0 per ogni 1 (1=1,… ,n)
  3. Sfericità degli errori: gli errori sono ipotizzati omoschedastici [Var(Ꜫi) = σ^2 per ogni i (i=1, …, n)] e non correlati [cov(Ꜫi, Ꜫj)=0 per ogni 1 diverso da j]
  4. Non stocasticità delle variabili esplicative
  5. Non collinearità delle variabili esplicative
  6. Numerosità della popolazione
  7. Normalità degli errori εi ∼ N(0,σ^2 ), per scopi inferenziali L’approssimazione lineare può non essere realistica, e non essere una buona approssimazione della realtà.

Ad ogni modo, con il modello di regressione multipla si può effettuare regressioni anche non lineari, in più di una covariata. Le funzioni non lineari possono sovente essere linearizzabili. Se la relazione tra var dipendente e indipendente non è lineare, y=f(x)+e con f funzione non lineare, l’effetto marginale di X su y non è costante, varia al variare delle X. Se la regressione lineare è mal specificata, la forma funzionale è errata e quindi lo stimatore dell’effetto di X su y non è corretto (nemmeno sulla media). La prima cosa da fare è verificare la sfericità degli errori. Una volta validati i dati sotto questo aspetto,per verificare che si tratta effettivamente di non linearità invece si ricorre garficamente a:

  1. Scatterplot: variabile dipendente vs variabile esplicativa
  2. Residui vs valori osservati
  3. Residui vs valori previsti I grafici possono essere affiancati anche ad opportuni indici:
  4. Indice R^2 : se R^2 non è elevato, ma la var esplicativa è significativa, si può sospettare non linearità.
  5. test F e t: non significativi per il singolo parametro quando tutto il modello è invece significativo oppure sarebbe significativo cambiando la formulazione.

Tornando alla funzione di regressione yi=f(x1i,x2i,…,xki)+ εi, con f funzione non lineare, la variazione ∆^ di y per

una variazione unitaria di x 1 , mantenendo x 2 ,…,xk costanti, è data da ∆ y = f (^) ( x 1 + ∆ x 1 , x 2 , … , xk )− f ( x 1 , x 2 , … , xk ). Non sempre però si può isolare la variazione ∆ x 1 rispetto alle altre variabili che invece rimangono costanti. Ci sarà sempre un termine di errore Ꜫ da minimizzare, ^ y^ = f^ ( x 1 + ^ x 1 ,^ x 2 ,^ ^ ,^ xk )− f^ ( x 1 ,^ x 2 ,^ ^ ,^ xk ) + ε.

L’obiettivo è quindi quello di individuare la forma funzionale che minimizzi l’errore ε , tenute costanti le altre

variabili, in numero e in tipologia. Tutto questo senza dimenticare la “Regola Aurea”: il criterio della parsimonia, ovvero è giusto aumentare di numerosità le variabili esplicative solo se hanno veramente una rilevanza statistica in termini di miglioramento di indice R^2. Quando la forma funzionale non è lineare, per poter quantificare la variazione di y al variare di X e per ottenere le stime dei parametri, bisogna verificare se le funzioni (non lineari) siano linearizzabili. I modelli possono essere “intrinsecamente non lineari”, co f funzione “complessa”. In questo caso si deve ricorrere ai minimi quadrati non lineari NLS e non alla canonica stima OLS. Queste funzioni “complesse” non possono essere rese lineari in nessun modo, tramite alcuna trasformazione. Quando si ricorre ai NLS, si può ancora raggiungere ad una minimizzazione, che può avviene, per esempio, tramite algoritmi di software. Un altro caso è invece quello di funzioni non lineari ma che possono essere linearizzate mediante opportune trasformazioni. Una volta linearizzate si può applicare la consueta stima OLS. Si possono presentare due casi:

  1. Il modello è lineare nelle variabili ma non nei coefficienti (nei parametri). Al parametro non lineare si sostituisce uno lineare, e si procede come di consueto con una funzione lineare. Una volta stimati i risultati, si fa il “percorso inverso” e si ricava il parametro reale originario. Ad esempio: y = β 0 +exp^ ( β 1 ) X , si può trasformare

in y = β 0 +^ δ 1 X^ stimare con OLS. Dopodiché si ricava β 1 =ln^ δ 1.

2. Il modello è lineare nei coefficienti, ma non nelle variabili. Ad esempio, per y = β 0 + β 1 X + β 2 X^2 , si può

sostituire W=X^2 e poi stimare con OLS. I 4 i principali tipi di mutamenti da funzioni lineari in non lineari sono 4 ed è più problematico trasformare x che y (grado superiore=polinomio, grado inferiore=logaritmo):

  1. grado superiore per y: es y^2
  2. grado inferiore per y: es log(y)
  3. grado inferiore per x: es log(x)
  4. grado superiore per x: es x^2 La trasformazione in scala logaritmica restringe il campo di variazione di una variabile, e può aiutare in fase di analisi. Trasformazioni polinomiali 1 e 4: Y variabile dipendente viene trasformata in quadratica, cubica o grado più alto. Idem la funzione di regressione nelle X. Trasformazioni logaritmiche 2 e 3: si fa la trasformazione logaritmica delle Y e/o delle X. La trasformazione logaritmica equivale alla variazione percentuale. Sia la stima che l’inferenza avvengono analogamente al modello di regressione lineare multiplo. Caso 1: Polinimiali in X (linearizzabili nelle variabili)

Log-lineare: ln(y+Δy)–ln(y)≅Δy/y rispetto a (x+Δx)–ln(x)=ln(1+ Δx/x)≅Δx/x, cioè Δx/x =1 → Δy/y ≅ β 1 % (Δx = 1%

→ Δy/y ≅ β 1 )

9) VIOLAZIONE DEL MODELLO CLASSICO: NORMALITA’

Il modello classico yi=Xβ+Ꜫi si basa su alcune assunzioni:

  1. Linearità
  2. Non sistematicità degli errori: Valore atteso E(Ꜫi) = 0 per ogni 1 (1=1,… ,n)
  3. Sfericità degli errori: gli errori sono ipotizzati omoschedastici [Var(Ꜫi) = σ^2 per ogni i (i=1, …, n)] e non correlati [cov(Ꜫi, Ꜫj)=0 per ogni 1 diverso da j]
  4. Non stocasticità delle variabili esplicative
  5. Non collinearità delle variabili esplicative
  6. Numerosità della popolazione
  7. Normalità degli errori εi ∼ N(0,σ^2 ), ipotesi “aggiuntiva” per scopi inferenziali

Supponiamo di ricavare dalla popolazione un certo campione ε^ 11 ,^ …^ ,^ ε 21 ,^ …,^ εn 1.

Si supponga di estrarre un numero infinito di campioni (k) tramite campionamento casuale di tipo semplice. Si consideriamo ora i primi elementi di ogni campione ε 11 ,..., ε1i,..., ε1k che, al variare del campione, sono la rappresentazione di una variabile casuale E 1. Analogamente, i secondi elementi di ogni campione ε 21 ,..., ε2i,..., ε2k, sono, al variare del campione, la manifestazione e di una variabile casuale E 2. E 2 si suppone avere la stessa distribuzione di E 1. Quindi, in generale gli n-esimi elementi di ogni campione εn1,..., εni,..., εnk, al variare del campione, sono la manifestazione di una variabile casuale En dalla stessa distribuzione di E 1 e E 2. Si avranno quindi complessivamente n variabili casuali E 1 , E 2 ,…, Ei,…En con identica distribuzione. La settima ipotesi “aggiuntiva” (oltre alle sei tipiche del modello classico) assume che la distribuzione E degli errori ei nella popolazione abbia distribuzione normale N(0,σ^2 ). In altri termini, ognuna delle n variabili casuali campionarie E 1 , E 2 ,…, Ei,…En ha distribuzione che è: identica e normale. Analogamente al caso generale, il fatto che gli errori ei siano identicamente distribuiti N(0,σ^2 ) permette di pervenire ad importanti risultati inferenziali. Grazie a questo si può ottenere la distribuzione degli stimatori, effettuare test statistici, e ricavare gli intervalli di confidenza adeguati. Se gli errori non seguissero una distribuzione normale, ma se i campioni fossero sufficientemente grandi, si potrebbe ancora risolvere il problema della distribuzione degli errori avvalendosi ai risultati del “teorema del limite centrale” (Theil 1978), secondo il quale la distribuzione degli errori tende asintoticamente alla normalità per una numerosità sufficientemente elevata (n>25). Nel caso in cui non si avesse errori distribuiti normalmente, e la numerosità non fosse sufficientemente elevata, non sarebbe possibile calcolare test e intervalli di confidenza perché presuppongono la validità dell’ipotesi di normalità degli errori. Se la normalità degli errori non è verificata:  Anche i parametri b (che sono combinazione lineare degli errori) non sono distribuiti normalmente e di conseguenza anche le loro stime B.  Non sono più attendibili i test per i parametri basati: sulla normale standardizzata, sulla t di Student, sulla F di Snedecor  Allo stesso modo non sono più attendibili i test per la bontà di adattamento del modello ai dati, basati sulla F di Snedecor.  Non sono più calcolabili gli intervalli di confidenza per la stima dei parametri, anch’essi basati sulla normale standardizzata (quando si conosce la varianza della popolazione) e sulla t di Student.  Le stime OLS (minimi quadrati) e le stime ML (massima verosimiglianza) non coincidono, come invece avverrebbe se fosse verificata l’ipotesi di normalità.  Le stime dei principali pacchetti statistici si basano sulla verosimiglianza, e in caso di non normalità si rischia di incorrere in problemi computazionali.  Dato che, come anticipato, gli stimatori OLS non equivalgono agli stimatori di massima verosimiglianza, non vale più nemmeno il teorema di Cramer-Rao. Fra tutti gli stimatori corretti, gli stimatori OLS non sono più stimatori corretti a minima varianza. Gli stimatori OLS sono comunque stimatori corretti.

E[^ B ] = E(X’X)-1X’y = (X’X)-1XE(y) = (X’X)-1X’E(Xβ+ε) = (X’X)-1X’XE(β)= b

Per individuare e riconoscere la normalità si possono utilizzare indici descrittivi della distribuzione normale, principalmente l’asimmetria e la curtosi. L’indice S di simmetria è calcolato come S=(E(X-μ)^3 )^2 /(E(X-μ)^2 )^3 → Se vale l’ipotesi di normalità, S ha valore atteso pari a 0. In una distribuzione simmetrica (come la normale) moda, mediana, media coincidono. Se l’asimmetria è positiva (verso i valori più elevati, coda a destra): media > mediana > moda. Se l’asimmetria è negativa (verso i valori meno elevati, coda a sinistra): moda > mediana > media. In questo caso l’indice K di curtosi calcolato come K=E(X-μ)^4 /(E(X-μ)^2 )^2 → Se vale l’ipotesi di normalità, S ha valore atteso E(K-3)=0. Altri metodi per individuare la normalità sono quelli grafici come il box-plot che evidenzia graficamente le principali statistiche descrittive, in particolare si può notare se media e mediana coincidono. Graficamente si possono anche osservare e sovrapporre alla distribuzione attesa seconda la distribuzione teorica normare: la distribuzione dei residui, la distribuzione cumulata dei residui, il P-P plot (normal probability- probability plot), il Q-Q plot (normal quantile-quantile plot). P-P Plot:

  • in ascissa si riportano le probabilità cumulate dei residui della distribuzione empirica;
  • in ordinata le probabilità cumulate dei residui secondo la distribuzione teorica normale;
  • sulla bisettrice i quantili corrispondenti alle probabilità cumulate dei residui delle due distribuzioni empirica e normale → se i quantili si sovrappongono, ovvero se le distribuzioni di probabilità cumulate dei residui delle distribuzioni empirica e normale sono identici e giacciono perciò entrambi sulla bisettrice del piano, allora si può ritenere che la distribuzione empirica sia normale (equivalenza delle due distribuzioni osservata graficamente). Q-Q plot:
  • in ascissa si riporta la distribuzione dei quantili dei residui secondo la distribuzione empirica;
  • in ordinata si riporta la distribuzione dei quantili dei residui della distribuzione normale;
  • sulla bisettrice le probabilità cumulate corrispondenti ai quantili dei residui delle due distribuzioni empirica e normale → se le probabilità cumulate ai medesimi quantili delle due distribuzioni dei residui empirica e normale sono analoghe e la rappresentazione grafica della distribuzione empirica è una spezzata che giace sulla bisettrice del piano, allora si può ritenere che la distribuzione empirica sia normale. Altre ai metodi grafici sono disponibili gli opportuni test non parametrici. Il termine “non parametrico” (o indipendente dalle distribuzioni) deriva dal fatto che questi test non necessitano di particolari distribuzioni e condizioni per essere applicati. Non ci sono particolari restrizioni sulla numerosità campionaria, o che le grandezze studiate si distribuiscano in modo particolare. La loro utilità non sta, ad esempio, nella stima dei parametri della popolazione, ma alla verifica della distribuzione. Per queste ragioni, sono particolarmente validi in caso di campioni ridotti e/o quando la legge di distribuzione non sia nota.

1) Test di Shapiro-Wilk : W =¿ ¿. Al numeratore riporta una combinazione lineare dei residui, in ordine

crescente ed al denominatore la varianza campionaria.

I pesi βi sono generati da media, varianza e covarianza di una distribuzione normale.

I test è compreso tra 0 e 1 (0<W<1). W=0 → rifiuto e W=0 → all’accettazione dell’ipotesi di normalità. Il test di ipotesi è costruito in questo modo: H 0 : W è compreso nella regione di accettazione e non si respinge l’ipotesi nulla di normalità; H 1 : il p-value corrispondente al valore del test W è superiore al livello di significatività α, e si accetta l’ipotesi alternativa di distribuzione non normale. W è fortemente asimmetrico e sui valori elevati possono condurre al rifiuto dell’ipotesi di normalità.

  1. Test di Kolmogorov Smirnov : si suddivide l’intervallo di variazione in classi di frequenza di uguale ampiezza. Per ciascuna di queste classi si abbinano le frequenze cumulative della distribuzione empirica e della distribuzione normale. Si calcola la differenza fra le frequenze per ciascuna classe e si valuta la differenza maggiore D, in valore assoluto. Se D supera il valore critico tabulato, per un livello di significatività prescelto, si respinge l’ipotesi di normalità perché si ritiene che la differenza fra i campioni sia significativa.
  2. Test della Skewness (test di asimmetria) è un test direzionale basato sul fatto che la distribuzione normale è simmetrica, e si va a misurare lo scostamento appunta dall’asimmetria teorica. Perché il test sia efficace è però necessaria una numerosità campionaria sufficientemente grande.