Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Dispense di Serie Storiche, Dispense di Statica

Dispense di serie storiche

Tipologia: Dispense

2010/2011

Caricato il 25/10/2011

airtore
airtore 🇮🇹

5

(2)

3 documenti

Anteprima parziale del testo

Scarica Dispense di Serie Storiche e più Dispense in PDF di Statica solo su Docsity! Appunti di analisi delle serie storiche Riccardo ‘Jack’ Lucchetti 30 settembre 2011 ii Elenco delle figure 1.1 Variazioni mensili della produzione industriale USA . . . . . . 7 1.2 Variazioni produzione industriale USA – correlogramma . . . . 7 1.3 Inflazione USA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4 Inflazione USA – correlogramma . . . . . . . . . . . . . . . . . . 9 1.5 Indice Nasdaq – rendimenti giornalieri . . . . . . . . . . . . . . 10 1.6 Indice Nasdaq – Correlogramma . . . . . . . . . . . . . . . . . . 11 1.7 Indice Nasdaq – rendimenti giornalieri in valore assoluto . . . 11 1.8 Indice Nasdaq – Correlogramma dei valori assoluti . . . . . . . 11 2.1 MA(1): θ = 0 (white noise) . . . . . . . . . . . . . . . . . . . . . . 19 2.2 MA(1): θ = 0.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3 MA(1): θ = 0.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.4 MA(1): Autocorrelazione di primo ordine in funzione di θ . . . 21 2.5 AR(1): ϕ = 0 (white noise) . . . . . . . . . . . . . . . . . . . . . . . 26 2.6 AR(1): ϕ = 0.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.7 AR(1): ϕ = 0.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.8 AR(2): ϕ1 = 1.8; ϕ2 = −0.9 . . . . . . . . . . . . . . . . . . . . . . 29 2.9 Risposta di impulso per yt = yt−1 − 0.5yt−2 + et + 0.75et−1 . . . 38 2.10 Produzione industriale negli USA (dal 1921) . . . . . . . . . . . 47 2.11 Logaritmo della produzione industriale negli USA (mensile) . . 48 2.12 Variazione percentuale della produzione industriale . . . . . . . 49 2.13 Correlogrammi della produzione industriale . . . . . . . . . . . 49 2.14 Risposte di impulso . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.15 Previsioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.16 Rappresentazione grafica di un numero complesso . . . . . . . 55 3.1 log(PIL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.2 log(PIL) e trend deterministico . . . . . . . . . . . . . . . . . . . 60 3.3 Residui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.4 ∆log(PIL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.5 Random walk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.6 Funzione di densità del test DF . . . . . . . . . . . . . . . . . . . 71 3.7 Funzione di densità del test DF con intercetta . . . . . . . . . . 72 4.1 Autovalori della companion matrix . . . . . . . . . . . . . . . . . . 87 4.2 PIL e Consumi nell’UE . . . . . . . . . . . . . . . . . . . . . . . . 90 v vi ELENCO DELLE FIGURE 4.3 Risposte di impulso non strutturali . . . . . . . . . . . . . . . . . 102 4.4 Risposte di impulso strutturali . . . . . . . . . . . . . . . . . . . 103 5.1 VAR(1) stazionario: serie storiche simulate . . . . . . . . . . . . 112 5.2 VAR(1) stazionario: serie storiche simulate – diagramma XY . . 112 5.3 Random walk: serie storiche simulate . . . . . . . . . . . . . . . . 113 5.4 Random walk: serie storiche simulate – diagramma XY . . . . . . 114 5.5 Processo cointegrato: serie storiche simulate . . . . . . . . . . . 114 5.6 Processo cointegrato: serie storiche simulate – diagramma XY . 115 6.1 Indice Nasdaq – logaritmi . . . . . . . . . . . . . . . . . . . . . . 134 6.2 Indice Nasdaq – rendimenti giornalieri . . . . . . . . . . . . . . 135 6.3 Rendimenti Nasdaq – valori assoluti . . . . . . . . . . . . . . . . 135 6.4 Rendimenti Nasdaq – distribuzione marginale . . . . . . . . . . 136 6.5 Rendimenti Nasdaq – residui e deviazione standard stimata . . 144 6.6 Rendimenti Nasdaq – serie standardizzata . . . . . . . . . . . . 145 6.7 Distribuzioni alternative alla normale . . . . . . . . . . . . . . . 147 Prefazione Questo scritto era nato come dispensa per il mio corso di Econometria. In quanto tale, non mi sono mai posto obiettivi particolarmente ambiziosi né per quanto riguarda il rigore, né per la completezza. L’obiettivo principale era, al contrario, quello di descrivere i concetti facendo perno principalmente sul- l’intuizione del lettore, cercando di motivare nel modo più esplicito possibile l’introduzione delle definizioni e dei risultati principali. Le cose, poi, si sono evolute nel tempo e la dispensa è cresciuta: non la posso più usare come tale nel corso di Econometria di base, ma la uso per cor- si più avanzati. La filosofia di base però è rimasta la stessa: un testo che si può “leggere”, oltreché “studiare”. Di conseguenza, a parte qualche eccezione, fa- rò genericamente riferimento “alla letteratura” per spiegazioni, dimostrazioni e approfondimenti, senza citare fonti specifiche. Questo perché ho ritenuto più utile, dato lo scopo che mi propongo, raggruppare le indicazioni biblio- grafiche in un ultimo capitolo, che avesse anche la funzione di orientare il lettore nel mare magnum dell’econometria delle serie storiche. Negli anni, ho avuto moltissimo feedback da parte di molte persone, che rin- grazio per aver contribuito a migliorare il contenuto. Fra gli amici che fanno il mio stesso mestiere voglio ricordare (senza per questo chiamarli in correo) in particolare Gianni Amisano, Marco Avarucci, Emanuele Bacchiocchi, Nunzio Cappuccio, Francesca Di Iorio, Luca Fanelli, Massimo Franchi, Carlo Favero, Roberto Golinelli, Diego Lubian, Giulio Palomba, Matteo Pelagatti, Eduardo Rossi, Maurizio Serva, Stefano Siviero e Gennaro Zezza. Carlo Giannini meri- ta una menzione a parte, perché senza di lui io probabilmente nella vita avrei fatto tutt’altro e questa dispensa non sarebbe mai esistita; sicuramente io sarei stato una persona peggiore. Un pensiero riconoscente va poi a tutti coloro che si sono visti inflitta questa dispensa come libro di testo e mi hanno indotto ad essere più completo e chiaro (o meno incompleto ed oscuro, a seconda dei punti di vista) quando mi facevano notare, a parole o semplicemente con l’espressione del viso, che non ci si capiva niente. Non vorrei fare nomi perché sono troppi, ma devo fare un’eccezione per Gloria Maceratesi, che non posso non menzionare perché la sua efficienza di correttrice ha avuto del sovrumano. Grazie comunque a tutti quanti. Il fatto poi che questa dispensa sia liberamente disponibile su Internet ha anche indotto molti a scaricarla, e qualcuno mi ha anche scritto una mail con consigli e suggerimenti. Anche in questo caso, nutro grande riconoscenza, se non altro perché ha fatto bene al mio ego. vii 2 CAPITOLO 1. INTRODUZIONE Econometria. Notate che questo tipo di ragionamento è perfettamente appro- priato nella maggior parte dei casi in cui i dati da noi osservati provengano da un esperimento controllato, del tipo di quelli che usano i medici o i biologi. Il caso delle serie storiche, tuttavia, presenta una differenza concettuale di base che richiede una estensione dei concetti probabilistici da utilizzare come metafora dei dati. Questa differenza consiste nel fatto che il tempo ha una direzione, e quindi esiste la storia. In un contesto di serie storiche, infatti, la naturale tendenza di molti feno- meni ad evolversi in modo più o meno regolare porta a pensare che il dato rilevato in un dato istante t sia più simile a quello rilevato all’istante t− 1 piut- tosto che in epoche distanti; si può dire, in un certo senso, che la serie storica che analizziamo ha “memoria di sé”. Questa caratteristica è generalmente indicata col nome di persistenza2, e differenzia profondamente i campioni di serie storiche da quelli cross-section, perché nei primi l’ordine dei dati ha un’importanza fondamentale, mentre nei secondi esso è del tutto irrilevante. Lo strumento che utilizziamo per far fronte all’esigenza di trovare una metafora probabilistica per le serie storiche osservate è il processo stocasti- co. Una definizione di processo stocastico non rigorosa, ma intuitiva e, per le nostre esigenze, sostanzialmente corretta può essere la seguente: un processo stocastico è una sequenza infinitamente lunga di variabili casuali o, se preferite, un vettore aleatorio di dimensione infinita. Un campione di T osservazioni conse- cutive nel tempo non viene quindi pensato tanto come una realizzazione di T variabili casuali distinte, quanto piuttosto come parte di un’unica realizzazio- ne di un processo stocastico, la cui memoria è data dal grado di connessione fra le variabili casuali che lo compongono. 1.2 Caratteristiche dei processi stocastici La definizione appena data (che nasconde astutamente una serie di compli- cazioni tecniche) rende ovvie una serie di proprietà dei processi stocastici piuttosto importanti per il seguito: dato un processo stocastico il cui t-esimo elemento3 indichiamo con xt, • è possibile (concettualmente) definire una funzione di densità per il processo f (. . . , xt−1, xt, xt+1, . . .); • è possibile marginalizzare tale funzione di densità per ogni sottoinsieme delle sue componenti; da questo consegue che sono definite le funzioni di densità marginali per ognuna delle xt, ma anche per ogni coppia di elementi (xt, xt+1) e così via; il fatto poi che le osservazioni non siano indipendenti fra loro fa sì che la densità del campione non si può più rappresentare come una semplice produttoria delle marginali; 2In certi contesti, gli economisti amano anche dire istèresi (o isterèsi) per indicare più o meno la stessa cosa. Un caso tipico è quando si parla di disoccupazione. 3Ad essere pignoli, dovremmo utilizzare due notazioni diverse per il processo stocastico di cui stiamo parlando, e per un suo generico elemento. Se quest’ultimo viene indicato con xt, il pro- cesso a cui appartiene dovrebbe essere scritto {xt}+∞−∞. Considero superflua questa raffinatezza, e userò la stessa notazione sia per un processo che per il suo t-esimo elemento; non dovrebbero sorgere confusioni. 1.2. CARATTERISTICHE DEI PROCESSI STOCASTICI 3 • se le funzioni di densità marginali hanno momenti, è possibile dire, ad esempio, che E(xt) = µt, V(xt) = σ2t , Cov(xt, xt−k) = γk,t e così via; • allo stesso modo, è possibile definire funzioni di densità (coi relativi momenti) condizionali. Le proprietà appena descritte fanno riferimento ai processi stocastici come strutture probabilistiche. Quando però vogliamo utilizzare queste strutture come base per procedure inferenziali, si aprono due problemi: 1. Se quella che osservo (peraltro non nella sua interezza) è una sola rea- lizzazione delle molte possibili, la possibilità logica di fare inferenza sul processo non può essere data per scontata; infatti, non c’è modo di dire quali caratteristiche della serie osservata sono specifiche di quella realizzazione, e quali invece si ripresenterebbero anche osservandone altre. 2. Se anche fosse possibile usare una sola realizzazione per fare inferenza sulle caratteristiche del processo, è necessario che esso sia stabile nel tempo, cioè che i suoi connotati probabilistici permangano invariati, per lo meno all’interno del mio intervallo di osservazione. Queste due questioni conducono alla definizione di due proprietà che i processi stocastici possono avere o non avere: Stazionarietà Si parla di processo stocastico stazionario in due sensi: stazio- narietà forte (anche detta stretta) e stazionarietà debole. Per definire la stazionarietà forte, prendiamo in esame un sottoinsieme qualunque delle variabili casuali che compongono il processo; queste non devono necessariamente essere consecutive, ma per aiutare l’in- tuizione, facciamo finta che lo siano. Consideriamo perciò una ‘fine- stra’ aperta sul processo di ampiezza k, ossia un sottoinsieme del tipo Wkt = (xt, . . . , xt+k−1). Questa è naturalmente una variabile casuale a k dimensioni, con una sua funzione di densità che, in generale, può dipen- dere da t. Se però ciò non accade, allora la distribuzione di Wkt è uguale a quella di Wkt+1,W k t+2 e così via. Siamo in presenza di stazionarietà forte quando questa invarianza vale per qualsiasi k. In altri termini, quando un processo è stazionario in senso forte le caratteristiche distribuzionali di tutte le marginali rimangono costanti al passare del tempo. La stazionarietà debole, invece, riguarda solo finestre di ampiezza 2: si ha stazionarietà debole se tutte le variabili casuali doppie W2t = (xt, xt+1), hanno momenti primi e secondi costanti nel tempo4; da questo discende che esistono anche tutti i momenti secondi incrociati E(xt · xt+k), con k qualunque, e anch’essi non dipendono da t (anche se possono dipendere da k). 4È per questo motivo che la stazionarietà debole viene anche definita stazionarietà in covarianza. 4 CAPITOLO 1. INTRODUZIONE A dispetto dei nomi, una definizione non implica l’altra; ad esempio, un processo può essere stazionario in senso forte ma non possedere mo- menti;5 viceversa, la costanza nel tempo dei momenti non implica che le varie marginali abbiano la stessa distribuzione. In un caso, tutta- via, le due definizioni coincidono: questo caso — che è particolarmente importante per le applicazioni pratiche — è quello in cui il processo è gaussiano, ossia quando la distribuzione congiunta di un qualunque sottoinsieme di elementi del processo è una normale multivariata. Se un processo è gaussiano, stabilire che è stazionario in senso debole equivale a stabilire la stazionarietà stretta. Data la pervasività dei processi gaus- siani nelle applicazioni ai dati, da un punto di vista operativo si adotta generalmente la definizione di stazionarietà debole, e quando si parla di stazionarietà senza aggettivi, è appunto a questa che ci si riferisce. Ergodicità L’ergodicità è una condizione che limita la memoria del processo: un processo non ergodico è un processo che ha caratteristiche di persi- stenza così accentuate da far sì che un segmento del processo, per quanto lungo, sia insufficiente a dire alcunché sulle sue caratteristiche distribu- tive. In un processo ergodico, al contrario, la memoria del processo è debole su lunghi orizzonti e all’aumentare dell’ampiezza del campione aumenta in modo significativo anche l’informazione in nostro possesso. Le condizioni sotto le quali un processo stocastico stazionario è ergodi- co sono troppo complesse per essere descritte qui; per farmi capire, vi sottoporrò ad un’overdose di virgolette: euristicamente, si può dire che un processo è ergodico se eventi “molto” lontani fra loro possono essere considerati “virtualmente” indipendenti; osservando il processo per un lasso di tempo “abbastanza” lungo, è possibile osservare “quasi tutte” le sottosequenze che il processo è in grado di generare. In altri termini, si può dire che, in un sistema ergodico, se qualcosa può succedere allora prima o poi deve succedere. Il fatto che eventi lontani fra loro nel tem- po possano essere considerati indipendenti da un punto di vista pratico è poi spesso sintetizzato nella seguente proprietà dei processi ergodici (che a volte viene usata come definizione di processo ergodico): lim n→∞ 1 n n ∑ k=1 Cov(xt, xt−k) = 0. Di conseguenza, se un processo è ergodico, è possibile (almeno in linea di principio) usare le informazioni contenute nel suo svolgimento nel tempo per inferirne le caratteristiche. Esiste un teorema (detto appunto ‘teorema ergodico’) che dice che, se un processo è ergodico, l’osserva- zione di una sua realizzazione “abbastanza” lunga è equivalente, ai fini inferenziali, all’osservazione di un gran numero di realizzazioni. Se, ad esempio, un processo ergodico xt ha valore atteso µ, allora la sua media aritmetica nel tempo è uno stimatore consistente di µ (in formule, 5Esempio di processo stazionario in senso forte ma non debole: consideriamo una sequenza di variabili casuali yt = 1/xt, dove le xt sono normali standard indipendenti. La sequenza delle yt è una sequenza di variabili casuali identiche, indipendenti e senza momenti. 1.4. QUALCHE ESEMPIO 7 Figura 1.1: Variazioni mensili della produzione industriale USA −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 1985 1990 1995 2000 Figura 1.2: Variazioni produzione industriale USA – correlogramma −1 −0.5 0 0.5 1 0 5 10 15 20 25 8 CAPITOLO 1. INTRODUZIONE Una figura come la 1.2 si chiama correlogramma; il correlogramma è sem- plicemente un istogramma in cui ogni barretta riporta il valore dell’autocorre- lazione ρk in funzione di k, che è in ascissa. In altre parole, il correlogramma si legge così: se indichiamo con yt il dato al tempo t, la correlazione fra yt e yt−1 è il 22%, quella fra yt e yt−2 è il 29.7% eccetera. Volendo fare un discorso propriamente statistico-inferenziale, dovremmo chiederci se queste statistiche sono stimatori di grandezze (le autocorrelazioni del processo) significativa- mente diverse da 0, ma per il momento possiamo accontentarci di considerarle statistiche descrittive, il cui significato è chiaro: osservazioni consecutive sono fortemente correlate, ergo difficilmente possiamo considerarle indipendenti, ergo c’è traccia di una certa persistenza. Allo stesso modo, questa persistenza sembra affievolirsi con l’andare del tempo: si direbbe che, man mano che la distanza fra le osservazioni aumenta, il valore assoluto della loro correlazio- ne (che possiamo, a questo stadio, considerare un indicatore di persistenza) tende a diminuire: a 24 mesi di distanza la correlazione è decisamente più contenuta (-4.5%). Mettendo tutto insieme, si potrebbe dire che da un punto di vista qualitativo questo è quello che ci aspettiamo di vedere in una realiz- zazione di un processo stazionario ed ergodico: una persistenza che influenza sostanzialmente la serie nel breve periodo, ma che tutto sommato rimane un fenomeno “locale”. A questo punto, ci si potrebbe chiedere se la serie storica che stiamo os- servando possa essere modellata statisticamente studiando la sua media con- dizionale così come si fa in un modello di regressione lineare. Se infatti in un modello lineare l’equazione yt = x′tβ + et scinde la variabile esplicativa in una media condizionale più un disturbo, nessuno ci vieta di rendere la media condizionale una funzione del set informativo =t−1, e di stimare con gli OLS un modello come il seguente: yt = β0 + β1yt−1 + β2yt−2 + . . . + et. (1.4) Se lo facessimo, utilizzando ad esempio come set di condizionamento i valori fino a quattro mesi prima, otterremmo i risultati mostrati nella tabella 1.1. Tabella 1.1: Stima OLS dell’equazione (1.4) Coefficiente Stima Errore std. Statistica t p-value β0 0.086 0.038 2.2835 0.0233 β1 0.069 0.066 1.0453 0.2970 β2 0.207 0.065 3.1890 0.0016 β3 0.192 0.064 2.9870 0.0031 β4 0.118 0.065 1.8090 0.0718 Media della variable dipendente 0.224 Dev. std. della var. dipendente 0.511 Somma dei quadrati dei residui 51.296 Errore std dei residui (σ̂) 0.473 R2 0.156 F(4,656) 10.599 Se non vogliamo considerare questa stima come una semplice statistica descrittiva, allora le sue proprietà devono necessariamente essere studiate al- l’interno di un quadro di riferimento inferenziale appropriato. È proprio per 1.4. QUALCHE ESEMPIO 9 questo che abbiamo bisogno di studiare i processi stocastici: per dare un si- gnificato probabilistico, se possibile, a statistiche come quelle che abbiamo ap- pena visto. Nei capitoli successivi farò vedere come e perché la stima appena fatta ha effettivamente senso, e come vada interpretata. Le cose, però, non sempre vanno così lisce: la figura 1.3 riporta la serie storica della variazione percentuale annua dell’indice dei prezzi al consumo, sempre per gli USA. Figura 1.3: Inflazione USA −0.04 −0.02 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 1950 1960 1970 1980 1990 2000 Figura 1.4: Inflazione USA – correlogramma −1 −0.5 0 0.5 1 0 5 10 15 20 25 Siamo sicuri che una serie storica come questa possa essere generata da un processo stazionario? Come si vede, si alternano periodi (anche piuttosto lunghi) di inflazione alta e bassa. È lecito pensare che l’ipotetico processo che genera questa serie abbia una media costante, come richiesto per la stazio- narietà? E per di più, diamo un’occhiata al correlogramma (figura 1.4): in questo caso, considerare la persistenza come un fenomeno di breve periodo è decisamente più temerario. L’autocorrelazione a 24 mesi è pari al 38.9%, e non dà mostra di scendere significativamente. 12 CAPITOLO 1. INTRODUZIONE Qui, si vede bene, di persistenza ce n’è eccome. In questo caso, ciò che interessa è modellare statisticamente non tanto la persistenza della serie di per sé, ma piuttosto della sua volatilità. Naturalmente, il concetto statistico nel quale si traduce la parola “volatili- tà” è la varianza (posto che i momenti secondi esistano). Come si vedrà in se- guito, per analizzare serie di questo tipo si usano processi stocastici di natura particolare, in cui la persistenza eventualmente esistente nella serie si tradu- ce nella dipendenza dal passato della varianza, anziché della media. In altre parole, le caratteristiche di persistenza di questi processi vengono sintetizzate nel fatto che V(xt|xt−1) 6= V(xt). (1.5) Si faccia il confronto con la (1.3): in questi processi, che si chiamano processi condizionalmente eteroschedastici, ciò che fa la differenza fra le distribuzioni marginali e quelle condizionali al set informativo =t−1 è appunto la struttura dei momenti secondi, anziché dei momenti primi. Processi di questo tipo sono oramai di largo uso nella finanza empirica più avanzata. Arrivati fin qui, il senso dell’operazione che ci accingiamo a compiere do- vrebbe essere abbastanza chiaro. Nel capitolo seguente, faremo la conoscenza della classe di processi stocastici che fa da fondamento a tutta l’econometria delle serie storiche, e cioè i processi ARMA. Capitolo 2 I processi ARMA I processi ARMA costituiscono la famiglia di processi stocastici di gran lunga più utilizzati in econometria. Questa scelta ha ragioni teoriche e ragioni pra- tiche, che saranno illustrate nel seguito. Prima di analizzare le caratteristiche principali di tali processi, tuttavia, sono necessarie alcune definizioni di base, che formano l’oggetto dei prossimi paragrafi. 2.1 L’operatore ritardo Tanto i processi stocastici che le serie storiche sono, in buona sostanza, se- quenze di numeri. Capiterà molto spesso di dover manipolare tali sequenze, e lo faremo per mezzo di appositi operatori. L’operatore ritardo viene gene- ralmente indicato con la lettera L nella letteratura econometrica (gli statistici preferiscono la B); è un operatore che si applica a sequenze di numeri, e trasforma una sequenza (stocastica o no) xt in un altra sequenza che ha la curiosa caratteristica di avere gli stessi valori di xt, ma sfalsati di un periodo1. Se applicato ad una costante, la lascia invariata. In formule, Lxt = xt−1 L’applicazione ripetuta n volte di L viene indicata con la scrittura Ln, e quindi si ha Lnxt = xt−n. Per convenzione si pone L0 = 1. L’operatore L è un opera- tore lineare, nel senso che, se a e b sono costanti, si ha L(axt + b) = aLxt + b = axt−1 + b. La caratteristica più divertente dell’operatore L è che le sue proprietà appe- na enunciate permettono, in molte circostanze, di manipolarlo algebricamente come se fosse un numero. Questo avviene soprattutto quando si considerano polinomi nell’operatore L. Facciamo un paio di esempi semplici. Esempio 2.1.1 Una squadra di calcio ha in classifica tanti punti quanti ne aveva alla giornata precedente, più quelli che ha guadagnato nell’ultimo turno. Chiamando 1In certi contesti, si utilizza anche il cosiddetto operatore anticipo, usualmente indicato con la lettera F e definito come l’inverso dell’operatore ritardo (Fxt = xt+1). Noi non lo useremo mai, ma è bello sapere che c’è. 13 14 CAPITOLO 2. I PROCESSI ARMA rispettivamente queste sequenze ct e ut, si avrà ct = ct−1 + ut La stessa cosa si sarebbe potuta scrivere adoperando l’operatore ritardo: ct = Lct + ut→ ct − Lct = (1− L)ct = ∆ct = ut L’operatore ∆, che dovrebbe essere una vecchia conoscenza, è definito come (1− L), ossia un polinomio di primo grado in L. L’espressione precedente non dice altro che la variazione dei punti in classifica è data dai punti guadagnati in ogni giornata. Esempio 2.1.2 Chiamiamo qt il saldo demografico trimestrale per il comune di Rocca Cannuccia. È evidente che il saldo demografico annuale (cioè le nascite degli ultimi 12 mesi meno le morti nello stesso periodo) sono date da at = qt + qt−1 + qt−2 + qt−3 = (1 + L + L2 + L3)qt Poiché (1 + L + L2 + L3)(1− L) = (1− L4) (moltiplicare per credere), “molti- plicando” l’espressione precedente2 per (1− L) si ha ∆at = (1− L4)qt = qt − qt−4 la variazione del saldo demografico annuale tra un trimestre ed il successivo non è che la differenza fra il saldo dell’ultimo trimestre e il corrispondente trimestre dell’anno precedente. Le manipolazioni possono essere anche più complesse; in particolare ci sono due risultati di routine: il primo è che n ∑ i=0 ai = 1− an+1 1− a per a 6= 1. Se poi |a|< 1, si ha che an→ 0 e quindi ∑∞i=0 ai = 11−a . Ponendo a = αL, si può dire che, per |α|< 1, i due operatori (1− αL) e (1+ αL+ α2L2 + · · · ) sono uno l’inverso dell’altro. In pratica, se |a| < 1, vale (1− αL)(1 + αL + α2L2 + · · · ) = 1, da cui l’espressione (che incontreremo spesso) (1− αL)−1 = ∞ ∑ i=0 αiLi. Il secondo risultato riguarda i polinomi. Prendiamo un polinomio di n- esimo grado, e lo chiamiamo P(x). Per definizione, si ha P(x) = n ∑ j=0 pjxj 2Ad essere precisi, si dovrebbe dire: ‘applicando all’espressione precedente l’operatore (1− L)’. 2.2. PROCESSI WHITE NOISE 17 • Nel caso di normalità, una realizzazione di ampiezza N di un white noise può anche essere considerata del tutto legittimamente una realizzazione di N variabili casuali indipendenti ed identiche. In questo senso, un campione cross-section può essere visto come un caso particolare. • Non c’è sostanziale differenza fra le condizioni che definiscono un whi- te noise e le cosiddette “ipotesi classiche” sul termine di disturbo nel modello OLS, eccezion fatta per l’incorrelazione fra regressori e distur- bi; non si sbaglierebbe riassumendo le ipotesi classiche nel modello OLS nella frase ‘il termine di disturbo è un white noise incorrelato coi regressori’. Un processo white noise, quindi, è un processo stocastico che non esibisce per- sistenza. In quanto tale, si potrebbe pensare che sia inadeguato a raggiungere lo scopo che ci eravamo prefissi nella premessa, cioè trovare una struttura probabilistica che possa servire da metafora per campioni di serie storiche che, invece, la persistenza ce l’hanno. Il passo in avanti decisivo, che vedia- mo nel prossimo paragrafo, sta nel considerare cosa succede applicando un polinomio nell’operatore ritardo ad un white noise. Se volessi essere preciso, dovrei fare una di- stinzione fra diversi tipi di processi stocastici “senza memoria”. A rigore, infatti, l’unico tipo di processo senza traccia di persistenza è quel- lo composto da variabili casuali indipendenti. Spesso però si preferisce trattare processi che non siano così vincolanti per quanto riguarda le loro proprietà: ad esempio, la cosiddetta diffe- renza di martingala, che è un concetto impiegato molto comunemente sia in statistica (soprattut- to in teoria asintotica) che in economia (teoria delle aspettative razionali). In una differenza di martingala, la distribuzione è lasciata non specificata; ciò che caratterizza questo tipo di sequenza è la proprietà E(xt|=t−1) = 0. In que- sto contesto, l’unica cosa che interessa è il valor medio condizionale del processo, che non deve dipendere in alcun modo dal passato. Un white noise, invece, è un concetto ancora di- verso: la proprietà di incorrelazione fra elemen- ti diversi assicura soltanto che la media condi- zionale non sia una funzione lineare del passato. Dimostrazione zippata: E(xt|=t−1) = bxt−1 =⇒ E(xtxt−1|=t−1) = bx2t−1 =⇒ E(xtxt−1) = E [E(xtxt−1|=t−1)] = = bE(x2t−1) 6= 0 (ringraziamo la legge dei valori attesi iterati per la gentile collaborazione). Nulla esclude, pe- rò, che la media condizionale possa essere una funzione non lineare diversa da zero. In effet- ti, si possono costruire esempi di processi whi- te noise che non sono differenze di martingala. Peraltro, non tutte le differenze di martinga- la sono dei white noise: la definizione di whi- te noise comporta infatti condizioni ben precise sui momenti secondi, che in una differenza di martingala possono anche non esistere. In pratica, però, questi concetti possono essere sovrapposti in modo abbastanza indolore: un white noise gaussiano, per esempio, è una se- quenza di variabili casuali indipendenti a me- dia 0, per cui è anche una differenza di mar- tingala. Nel prosieguo, sarò molto elastico e considererò un white noise come processo senza memoria tout court. 18 CAPITOLO 2. I PROCESSI ARMA 2.3 Processi MA Un processo MA, o processo a media mobile (MA sta appunto per Moving Average), è una sequenza di variabili casuali che può essere scritta nella forma yt = q ∑ i=0 θiet−i = C(L)et dove C(L) è un polinomio di ordine q nell’operatore ritardo e et è un white noise. Generalmente, e senza perdita di generalità, si pone C(0) = θ0 = 1. Se C(L) è un polinomio di grado q, si dice anche che yt è un processo MA(q), che si legge ‘processo MA di ordine q’. Esaminiamo i suoi momenti: per quanto riguarda il momento primo, si ha E(yt) = E [ q ∑ i=0 θiet−i ] = q ∑ i=0 θiE(et−i) = 0 E quindi un processo MA ha media 0. A prima vista, si potrebbe pensare che questa caratteristica limiti fortemente l’applicabilità di processi MA a si- tuazioni reali, visto che, in genere, non è detto che le serie storiche osservate oscillino intorno al valore 0. Tuttavia, la limitazione è più apparente che reale, visto che per ogni processo xt per cui E(xt) = µt si può sempre definire un nuovo processo yt = xt − µt a media nulla4. Se yt è stazionario in covarianza, allora basta studiare yt e poi ri-aggiungere la media per avere xt. Per quanto riguarda la varianza, il fatto che il momento primo sia nullo ci consente di scriverla come il momento secondo, ossia V(yt) = E(y2t ) = E ( q∑ i=0 θiet−i )2 Sviluppando il quadrato5, possiamo scomporre la somma in due parti distinte:( q ∑ i=0 θiet−i )2 = q ∑ i=0 θ2i e 2 t−i + q ∑ i=0 ∑ j 6=i θiθjet−iet−j Dovrebbe essere ovvio, dalla proprietà del white noise, che il valore atteso della seconda sommatoria è nullo, cosicché E(y2t ) = E [ q ∑ i=0 θ2i e 2 t−i ] = q ∑ i=0 θ2i E(e 2 t−i) = q ∑ i=0 θ2i σ 2 = σ2 q ∑ i=0 θ2i (2.5) che ha valore finito se ∑ q i=0 θ 2 i < ∞, cosa sempre vera se q è finito. 4Faccio notare en passant che in questo semplice esempio il processo xt non è stazionario, secondo la definizione che ci siamo dati, ma il processo yt sì. 5Attenzione: riprendo brevemente l’argomento di qualche pagina fa per far notare che [C(L)et] 2 è diverso da C(L)2e2t . Pensate al semplice caso C(L) = L e ve ne convincerete immediatamente. 2.3. PROCESSI MA 19 Infine, con un ragionamento del tutto analogo perveniamo al calcolo delle autocovarianze: l’autocovarianza di ordine k è data da E(ytyt+k) = E [( q ∑ i=0 θiet−i )( q ∑ j=0 θjet−j+k )] = q ∑ i=0 θi ( q ∑ j=0 θjE(et−iet−j+k) ) (2.6) Sfruttando ancora le proprietà del white noise, si ha che E(et−iet−j+k) = σ2 per j = i + k e 0 in tutti gli altri casi, cosicché l’espressione precedente si riduce a: γk = E(ytyt+k) = σ2 q ∑ i=0 θiθi+k dove si intende che θi = 0 per i > q. Si noti che: • L’espressione per la varianza è un caso particolare della formula prece- dente, ponendo k = 0; • per k > q, le autocovarianze sono nulle. Un processo MA(q), quindi, è un processo ottenuto come combinazione di diversi elementi di uno stesso white noise che presenta delle caratteristiche di persistenza tanto più pronunciate quanto più alto è il suo ordine. Quest’ulti- mo può anche essere infinito; in questo caso, tuttavia, l’esistenza dei momenti secondi (e quindi la stazionarietà) è garantita solo nel caso in cui ∑ q i=0 θ 2 i < ∞. Figura 2.1: MA(1): θ = 0 (white noise) -3 -2 -1 0 1 2 3 0 20 40 60 80 100 120 140 160 180 200 Esempio 2.3.1 Consideriamo un processo MA(1) xt = et + θet−1 e calcoliamo le sua autocovarianze: la sua varianza è data da E(x2t ) = E (et + θet−1) 2 = E(e2t ) + θ 2E(e2t−1) + 2θE(etet−1) = (1 + θ 2)σ2 22 CAPITOLO 2. I PROCESSI ARMA utilizzare le statistiche calcolabili sulla serie per ricavare delle stime dei pa- rametri del processo (in questo caso, il parametro θ)? Naturalmente, questo procedimento sarebbe sostenibile solo nel caso in cui la nostra serie aves- se un correlogramma empirico con valori moderati per l’autocorrelazione di primo ordine e trascurabili per le altre. Se così fosse, potremmo anche fare un ragionamento del tipo: se il processo che ha generato i dati è effettiva- mente un MA(1), allora è stazionario ed ergodico, per cui l’autocorrelazione campionaria converge in probabilità a quella teorica. In formule: ρ̂1 p−→ θ 1 + θ2 ; poiché questa è una funzione continua di θ, posso invertirla e trovare uno stimatore consistente di θ col metodo dei momenti, ossia trovare quel valore θ̂ che soddisfa l’equazione ρ̂1 = θ̂ 1 + θ̂2 ; (2.7) Si vede facilmente che la soluzione della (2.7) è6 θ̂ = 1 2ρ̂1 ( 1− √ 1− 4ρ̂21 ) . Si noti che, per l’esistenza dello stimatore, è necessario che |ρ̂1| ≤ 0.5, ma in questo caso non c’è problema, perché stiamo appunto supponendo di avere a che fare con una serie in cui l’autocorrelazione di primo ordine non è troppo pronunciata. In pratica, potremmo dire: visto che l’autocorrelazione campionaria è di — poniamo — 0.4, se sono convinto che il processo che ha generato i dati sia un MA(1), allora scelgo quel valore di θ tale per cui l’autocorrelazione teorica è anch’essa 0.4, ossia θ̂ = 0.5. Naturalmente, questa strategia è perfettamente giustificata nella misura in cui la serie abbia effettivamente le caratteristiche di covarianza richieste, ossia una autocorrelazione di ordine 1 non troppo grande e autocorrelazioni successive trascurabili. Ora, noi sappiamo che le cose non stanno sempre così: basta dare un’oc- chiata alle figure 1.2 a pagina 7 e 1.4 a pagina 9. È però vero che un processo MA di ordine superiore ha autocovarianze più articolate, e quindi si può con- getturare che la stessa strategia potrebbe essere percorribile, almeno in teoria, a condizione di specificare un ordine del polinomio C(L) abbastanza alto. Facendo un passo più in là, ci si potrebbe chiedere se la congettura vale per qualunque struttura di autocovarianze. La risposta è nel mai abbastanza cele- brato teorema di rappresentazione di Wold, di cui fornisco solo l’enunciato. Teorema 1 (Teorema di rappresentazione di Wold) Dato un qualunque proces- so stocastico yt, stazionario in covarianza e a media 0, è sempre possibile trovare una 6In effetti di valori ce ne sono due, perché la soluzione vera e propria sarebbe θ̂ = 1± √ 1−4ρ̂21 2ρ̂1 (attenzione al simbolo ±), ma per seguire l’argomento diamoci la regola di scegliere la soluzione interna all’intervallo [−1,1], cioè quella riportata nel testo. 2.4. PROCESSI AR 23 successione (non necessariamente finita) di coefficienti θi tali per cui yt = ∞ ∑ i=0 θiet−i dove et è un white noise. In altri termini, qualunque processo stocastico, purché stazionario, possiede una struttura di autocovarianze che è replicabile con una processo a media mobile. Questo risultato è di importanza enorme: esso ci dice, in sostan- za, che qualunque sia la forma ‘vera’ di un processo stocastico stazionario, possiamo sempre rappresentarlo come un processo MA (al limite di ordine infinito). È per questo che, studiando i processi MA, stiamo di fatto studian- do tutti i processi stazionari possibili, per lo meno per quanto riguarda le loro caratteristiche di media e di covarianza. Il resoconto che ho appena dato del teorema di Wold non è proprio esatto: se guardate i li- bri seri, vi accorgete che il teorema in realtà si applica a una classe di processi più ampia. Me- glio, che il teorema non dice esattamente quello che trovate scritto sopra. Per essere precisi, bi- sognerebbe dire che ogni processo stazionario di secondo ordine può essre scomposto in una parte “deterministica” (cioè perfettamente pre- vedibile dato il passato) più una parte a media mobile. La definizione che ho dato io non pre- vede l’esistenza della parte deterministica, ma il messaggio rimane lo stesso. 2.4 Processi AR Un’altra importante classe di processi è data dai processi AR (AutoRegressi- vi). Questi processi forniscono, in un certo senso, una rappresentazione più intuitiva di una serie persistente di quella dei processi MA, poiché l’idea è che il livello della serie al tempo t sia una funzione lineare dei propri valori passati, più un white noise. Il nome deriva appunto dal fatto che un modello AR somiglia molto ad un modello di regressione in cui le variabili esplicative sono i valori passati della variabile dipendente. yt = ϕ1yt−1 + · · ·+ ϕpyt−p + et (2.8) Non è ozioso notare che, in questo contesto, il white noise et può essere inter- pretato in modo analogo al disturbo di un modello di regressione, cioè come la differenza fra yt e la sua media condizionale; in questo caso, le variabili casuali che costituiscono l’insieme di condizionamento sono semplicemente il passato di yt. I processi AR sono in un certo senso speculari ai processi MA perché, se un processo MA è un processo definito dall’applicazione di un polinomio nell’operatore L ad un white noise, un processo AR è definito come un processo l’applicazione al quale di un polinomio nell’operatore L produce un white noise. In simboli A(L)yt = et, dove A(L) è il solito polinomio in L (di grado p) con A(0) = 1 e ai = −ϕi. 24 CAPITOLO 2. I PROCESSI ARMA Per familiarizzarci con questo tipo di processi, iniziamo col considerare il caso più semplice: quello in cui p = 1 e il processo può essere scritto yt = ϕyt−1 + et −→ (1− ϕL)yt = et Quali sono le caratteristiche di questo processo? Tanto per cominciare, vedia- mo come sono fatti i suoi momenti. I momenti di un processo AR(1) possono essere ricavati in diversi modi: uno piuttosto intuitivo è quello di supporre la stazionarietà del processo, e poi derivare le conseguenze di questa ipote- si. Supponiamo quindi che il processo abbia media costante µ. Quest’ipotesi implica µ = E(yt) = ϕE(yt−1) + E(et) = ϕµ L’espressione precedente può essere vera in due casi: o µ = 0, nel qual caso è vera per qualsiasi valore di ϕ, oppure nel caso ϕ = 1, e allora l’espressione è vera per qualsiasi valore di µ, e la media del processo è indeterminata. In questo secondo caso si dice che il processo presenta una radice unitaria, perché il valore di z per cui A(z) = 0 è appunto 1; l’analisi di questa situazione, in cui accadono cose bizzarre, ha occupato pesantemente le menti dei migliori econometrici e le pagine delle riviste scientifiche negli ultimi vent’anni del XX secolo, e per molto tempo è stato considerato dagli economisti applicati un terreno impervio su cui è meglio non avventurarsi se non con una guida indigena. Noi ne parleremo nei capitoli 3 e 5. Per il momento, escludiamo dall’indagine i polinomi per cui A(1) = 0. Ne consegue che — nei casi che analizziamo qui — il processo ha media 0. Un altro modo di derivare E(yt) è quello di rappresentare yt come un processo a media mobile. Per farlo, utilizziamo i risultati riportati sopra sulla manipolazione dei polinomi. Se ci limitiamo ai casi in cui |ϕ| < 1 (condizione che chiaramente esclude la radice unitaria), si avrà che A(L)−1 = (1− ϕL)−1 = 1 + ϕL + ϕ2L2 + · · · = C(L) e quindi la rappresentazione MA di yt sarà yt = ( 1 + ϕL + ϕ2L2 + · · · ) et = C(L)et cioè un processo MA con θi = ϕi, che ha media zero7; quindi, E(yt) = 0. Per quanto riguarda i momenti secondi, procediamo come sopra; suppo- niamo che il white noise et abbia varianza pari a σ2. Se indichiamo con V la varianza di yt, e supponiamo che essa esista e sia costante nel tempo, avremo che V = E(y2t ) = E [ (ϕyt−1 + et) 2 ] = ϕ2V + σ2 + 2ϕE(yt−1et) L’ultimo elemento della somma è 0, poiché yt−1 =C(L)et−1, e quindi E(yt−1et) è una combinazione lineare di autocovarianze di un white noise (tutte nulle per 7La rappresentazione in media mobile di un processo AR(1) può anche essere ricavata col cosiddetto metodo delle “sostituzioni successive”, che è più casareccio e meno elegante. Consi- deriamo che, se yt = ϕyt−1 + et, allora si avrà anche yt−1 = ϕyt−2 + et−1; sostituiamo la seconda espressione nella prima e procediamo iterativamente. 2.4. PROCESSI AR 27 Figura 2.6: AR(1): ϕ = 0.5 -4 -3 -2 -1 0 1 2 3 0 20 40 60 80 100 120 140 160 180 200 Figura 2.7: AR(1): ϕ = 0.9 -6 -4 -2 0 2 4 6 0 20 40 60 80 100 120 140 160 180 200 dall’inversione di un polinomio di grado p-esimo. In pratica, si ha C(L) = A(L)−1 = p ∏ j=1 (1− λjL)−1 dove le λj sono i reciproci delle radici di A(L). D’altro canto, tale generaliz- zazione non porta grandi vantaggi alla comprensione intuitiva delle caratte- ristiche salienti di questi processi. Il punto fondamentale è che un processo 28 CAPITOLO 2. I PROCESSI ARMA AR(p) è stazionario solo se |λj| < 1 per ogni j. Mi astengo dal dimostrarlo ri- gorosamente, ma il lettore curioso sappia che, tutto sommato, basta applicare la (2.1). Nel caso in cui λj sia un numero complesso, ricordo qui che il suo valore assoluto è dato dalla formula |a + bi| = √ a2 + b2. Se poi siete totalmente digiuni sull’argomento, magari potreste darvi una letta all’appendice a questo capitolo, che sta a pagina 54. Altri fatti interessanti (non dimostro neanche questi) sono che un processo AR(p) • ha memoria infinita, ma le autocorrelazioni decrescono al crescere di k in progressione geometrica; • nel caso di “intercetta” diversa da 0, ha valore atteso µA(1) , dove A(1) è appunto il polinomio A(z) valutato in z = 1 anziché in z = L come al solito; in pratica, A(1) = ∑ p i=0 ai. L’unico aspetto che vale la pena di sottolineare del caso in cui l’ordine del processo autoregressivo p sia maggiore di 1 è che processi AR(p) possono avere andamenti ciclici: questo avviene se e solo se fra le radici del polinomio A(z) c’è una coppia di numeri complessi coniugati. In questo caso, il processo assume un’andamento ciclico in cui l’ampiezza delle oscillazioni varia attorno ad un valore medio. Dovrebbe essere evidente che i processi di questo tipo sono i candidati naturali a modellare fenomeni economici caratterizzati da fasi cicliche. Il motivo per cui esiste un legame fra numeri complessi ed andamenti ci- clici sarebbe bellissimo da spiegare, ma purtroppo non posso farlo qui perché lo studente medio di una facoltà di Economia considera i numeri complessi e le funzioni trigonometriche una arcana stregoneria. Per gli stravaganti a cui piacciono queste cose, ho messo un’appendice a fondo capitolo cosicché i più non vengano disturbati. Diamo un’occhiata ad un esempio: prendiamo il white noise di figura 2.5 ed utilizziamolo per costruire un processo AR(2) in cui il polinomio A(z) non ha radici reali. Nella fattispecie, yt = 1.8yt−1 − 0.9yt−2 + et e le radici sono λ = 1.8± √ 3.24− 3.6 1.8 = 1± i 3 , ambedue maggiori di 1 in valore assoluto (sono “uno più qualcosa”). Come si nota nella figura 2.8, c’è un’alternanza più o meno regolare di ‘picchi’ e di ‘pozzi’. 2.5 Processi ARMA La classe dei processi ARMA comprende sia i processi AR che i processi MA come caso particolare. Un processo ARMA(p,q) è infatti definito da 2.5. PROCESSI ARMA 29 Figura 2.8: AR(2): ϕ1 = 1.8; ϕ2 = −0.9 -20 -15 -10 -5 0 5 10 15 0 20 40 60 80 100 120 140 160 180 200 A(L)yt = C(L)et (2.9) dove p è l’ordine del polinomio A(L) e q è l’ordine del polinomio C(L). En- trambi sono numeri finiti. I processi AR o MA sono quindi casi particolari (q = 0 e p = 0 rispettivamente). Se il polinomio A(L) ha tutte le sue radici maggiori di 1 in modulo, allora yt può anche essere rappresentato in forma MA yt = A(L)−1C(L)et = C∗(L)et dove C∗(L) è un polinomio di ordine infinito se p > 0. Tale condizione su A(L) è necessaria e sufficiente affinché il processo sia stazionario. Allo stesso modo, se il polinomio C(L) è invertibile, allora yt ammette una rappresentazione autoregressiva (di ordine infinito se q > 0) C(L)−1 A(L)yt = A∗(L)yt = et In questo caso, si dice anche che il processo è invertibile. Le caratteristiche dei momenti di un processo ARMA(p,q) possono essere ricavate in modo concettualmente semplice (ma algebricamente esasperante) dalla sua rappresentazione in media mobile, e non le riporto qui. L’unica ca- ratteristica che mi pare degna di menzione è che se aggiungiamo un’intercetta, si dimostra facilmente8 che la media del processo è ancora µA(1) . La cosa, poi, si può ulteriormente generalizzare (e, in parecchi casi, rendere più aderente 8Dimostrazione lampo: A(L)yt = µ + C(L)et =⇒ E [A(L)yt] = µ + E [C(L)et]. Per la linearità degli operatori E e L, si ha che A(L)E [yt] = µ + C(L)E [et] = µ. Ma se yt è stazionario E [yt] esiste finito e costante, per cui A(L)E [yt] = A(1)E [yt], da cui E [yt] = µ A(1) . 32 CAPITOLO 2. I PROCESSI ARMA che contiene, appunto, le parti stagionali autoregressiva B(Ls) e a media mo- bile D(Ls). Se l’ordine dei polinomi B(·) e D(·) è zero, si ricade nel caso ARMA puro e semplice. 2.6 Uso dei modelli ARMA Se i parametri di un processo ARMA sono noti, il modello può essere usato per due scopi: previsione dell’andamento futuro della serie e/o analisi delle sue caratteristiche dinamiche. 2.6.1 Previsione Per quanto riguarda il primo punto, la miglior previsione per i valori futuri di yt si può calcolare sulla base di questo ragionamento: definiamo come previ- sore di yt una qualche funzione delle variabili contenute nel set informativo =T−1. Un previsore, cioè, è una qualche regola che determina la previsione che facciamo su yt dati i suoi valori precedenti, che supponiamo di conoscere. Chiamiamo questo valore ŷt = f (yt−1,yt−2, . . .). Naturalmente, questa rego- la ce la inventiamo noi, e si pone il problema di inventarcela in modo che funzioni “bene”. Se yt è un processo ARMA (o rappresentabile come tale), una volta che abbiamo il modello nella forma A(L)yt = C(L)et, un’ipotesi sulla distribuzio- ne di et ci mette in condizione, almeno in linea di principio, di determinare la distribuzione della variabile casuale yt|=T−1. È evidente che questo ci met- te in grado anche di determinare la distribuzione condizionale dell’errore di previsione, cioè della variabile et = yt − ŷt. La distribuzione di et|=T−1 diventa rilevante se dobbiamo scegliere quale funzione usare come previsore. A rigore, una scelta ottimale dovrebbe essere fatta secondo questo criterio: 1. in primo luogo, scegliamo una funzione c(et) (cosiddetta di perdita), che associa un costo all’errore di previsione. In generale, si ha che c(0) = 0 (il costo di una previsione perfetta è 0) e c(et) ≥ 0 per et 6= 0. 2. Definiamo a questo punto la perdita attesa come c∗ = E [c(et)|=T−1] = E [c(yt − ŷt)|=T−1] ; la grandezza c∗ è il costo che in media ci tocca sostenere a causa delle previsioni sbagliate. Naturalmente vogliamo che essa sia più piccola possibile. 3. Siccome c∗ è una funzione di ŷt, scegliamo ŷt in modo tale da minimiz- zare c∗, ossia definiamo ŷt come quella funzione che minimizza il costo atteso dell’errore di previsione. 2.6. USO DEI MODELLI ARMA 33 Dovrebbe essere chiaro a questo punto che quale sia il miglior previsore dipende dalle caratteristiche della funzione di perdita e per ogni problema pratico il previsore ottimo può essere diverso. L’esempio che faccio sempre è la prenotazione di un ristorante: poiché in questo caso la funzione di perdita è asimmetrica (meglio avere sedie vuote che gente in piedi), conviene sem- pre prenotare per un numero di persone leggermente superiore di quello che realmente si pensa. Per fortuna, però, la faccenda diventa molto meno intricata se la funzione di perdita è quadratica, cioè se C(et) = κe2t per κ positivo qualunque. In questo caso (che spesso può essere preso come approssimazione soddisfacente della funzione di costo più appropriata) si può dimostrare che ŷt coincide con il valore atteso condizionale: C(et) = κe2t =⇒ ŷT+1 = E(yT+1|=T). Questa proprietà è così comoda che nella stragrande maggioranza dei casi si prende la media condizionale come previsore senza neanche giustificare la scelta. Dato un insieme di osservazioni che vanno da 1 a T, ammettiamo perciò che il miglior previsore di yT+1 sia la sua media condizionale al set informa- tivo di cui disponiamo, ossia ŷT+1 = E(yT+1|=T). (2.10) Nel caso di un modello AR puro, la soluzione è banale, poiché tutti i valori di y fino al tempo T sono noti, e quindi E(yt−k|=T) = yt−k per qualunque k ≥ 0: E(yT+1|=T) = ϕ1yT + · · ·+ ϕpyT−p+1 + E(eT+1|=T) ma il valore di E(eT+1|=T) è evidentemente 0, poiché l’assenza di memoria del white noise garantisce10 che non ci sia informazione disponibile al presente sul futuro di e; di conseguenza, E(eT+1|=T) = E(eT+1) = 0. La previsione di yT+1 è quindi ŷT+1 = ϕ1yT + · · ·+ ϕpyT−p+1 (2.11) Visto che ancora stiamo sul teorico, qui stiamo assumendo che il set infor- mativo a nostra disposizione si estenda infinitamente all’indietro nel passato, cosa che ci semplifica molto le cose, perché significa che ŷT+1 è facilmente calcolabile tramite la (2.11). Se il nostro set informativo (come accade nella realtà) si interrompe ad una qualche data iniziale, il meccanismo vale ancora per processi stazionari, anche se in modo approssimato. Per la previsione a due periodi in avanti, ripetiamo il ragionamento prece- dente partendo dall’espressione: ŷT+2 = E(yT+2|=T) = ϕ1E(yT+1|=T) + · · ·+ ϕpyT−p+2 + E(eT+2|=T) che si dimostra facilmente essere pari a ŷT+2 = ϕ1ŷT+1 + · · ·+ ϕpyT−p+2 10Il lettore pignolo farà rimarcare che qui sto implicitamente assumendo che et sia una dif- ferenza di martingala, che non necessariamente coincide con un white noise. Ebbene sì, lo sto assumendo. 34 CAPITOLO 2. I PROCESSI ARMA e più in generale ŷT+k = ϕ1ŷT+k−1 + · · ·+ ϕpŷT+k−p, dove naturalmente ŷT+k = yT+k per k ≤ 0. Si noti l’intrigante parallelismo fra A(L)yt = et e A(L)ŷt = 0, a cui si arriva facilmente considerando il valore atteso (condizionale a =t−1) della prima delle due espressioni. Esempio 2.6.1 Dato un processo AR(2) così parametrizzato yt = 0.9yt−1 − 0.5yt−2 + et, supponiamo di osservarne una realizzazione, e che le ultime due osservazioni siano pari a: yT−1 = 2 e yT = 1. La miglior previsione per yT+1 è quindi ŷT+1 = 0.9× 1− 0.5× 2 = −0.1 per la previsione di yT+2 risulta ŷT+2 = 0.9× (−0.1)− 0.5× 1 = −0.59 e si può continuare; per la cronaca, i cinque valori seguenti sono -0.481, -0.1379, 0.11639, 0.173701, 0.098136 Naturalmente, la valutazione della media condizionale dà un valore puntuale, ma non dice nulla sull’attendibilità della previsione, cioè sulla dispersione dell’errore che ci attendiamo di commettere. In termini più statistici, è necessario valutare anche la varianza dell’errore di previsione. Questo non è un argomento su cui vorrei intrattenermi più di tanto. Al lettore interessato mi limito a suggerire, oltre ai soliti riferimenti bibliografici che trova in fondo, che un utile esercizio può essere quello di provare che, nel caso di un AR(1), V(ŷT+k) = σ2 1− ϕ2k 1− ϕ2 Può essere interessante notare che la varianza dell’errore di previsione è sempre minore della varianza non condizionale di yt: questo significa che sfruttare le caratteristiche di persistenza della serie storica permette di ren- dere meno incerto il suo comportamento futuro. Peraltro, per k→ ∞, le due varianze tendono a coincidere, e questo avviene perché nei processi AR(1) stazionari la persistenza ha sempre un carattere di breve periodo. La cono- scenza dello stato del sistema oggi non è informativa sul futuro remoto del sistema stesso più di quanto non lo sia la sua distribuzione non condizionale: per k abbastanza grande, yt e yt+k sono virtualmente incorrelate (e quindi, se gaussiane, virtualmente indipendenti). In pratica, poi, le cose sono un tantino più com- plicate. Intanto perché qui stiamo ipotizzan- do di conoscere i veri parametri del processo, quando in realtà di solito lavoriamo con delle stime, e quindi la varianza dell’errore di previ- sione dipende non solo dalla variabilità intrin- 2.6. USO DEI MODELLI ARMA 37 Il valore di yt può quindi essere interpretato come la somma di due com- ponenti: una (ŷt) che, almeno in linea di principio, è perfettamente prevedibile dato il passato; l’altra (et) assolutamente imprevedibile. In altri termini, si può pensare che il valore di yt dipenda da una componente di persistenza a cui si somma un disturbo, o, come si usa dire, shock casuale che riassume tutto ciò che è successo al tempo t che non poteva essere previsto. L’effetto di que- sta componente, tuttavia, si riverbera anche nel futuro della serie yt attraverso l’effetto persistenza. È per questo che, sovente, il white noise et viene chiamato, in forma più neutra, errore di previsione ad un passo o innovazione. L’idea, a questo punto, è la seguente: se scriviamo il processo in forma MA yt = A(L)−1C(L)et = B(L)et si può pensare all’i-esimo coefficiente del polinomio B(L) come all’effetto che lo shock avvenuto i periodi addietro ha sul valore attuale di y, o, equivalente- mente, all’impatto che gli avvenimenti di oggi avranno sulla serie studiata fra i periodi. bi = ∂yt ∂et−i = ∂yt+i ∂et La funzione di risposta di impulso, insomma, è data semplicemente dai coef- ficienti della rappresentazione MA del processo, e viene generalmente esami- nata con un grafico che ha in ascissa i valori di i ed in ordinata i valori di bi. Per calcolarsi la rappresentazione di Wold di un processo ARMA di cui siano noti i parametri, quindi, bisogna calcolarsi il polinomio inverso di A(L). Questo può essere piuttosto noioso, specie se l’ordine della parte autoregres- siva è alto. Un algoritmo di calcolo decisamente più semplice, che può essere implementato anche su un comune foglio elettronico, è il seguente: 1. Definite una serie et che contiene tutti zeri fuorché per un periodo, in cui vale 1. Detto in un altro modo, definite una et per cui e0 = 1, e et = 0 per t 6= 0. 2. Definite una serie it, che imponete uguale a 0 per t < 0; per t≥ 0, invece, valga A(L)it = C(L)et. I valori che otterrete per la serie it sono esattamente i valori della funzione di risposta di impulso. Esempio 2.6.2 Prendiamo ad esempio un processo ARMA(2,1) così fatto: yt = yt−1 − 0.5yt−2 + et + 0.75et−1 e diciamo che, al tempo t, si è verificato un “evento imprevedibile” pari a 1 (ossia et = 1). Che effetto ha questo sui valori di y dal tempo t in poi? Ragioniamo con calma. Al tempo t, evidentemente, l’effetto è 1, poiché et agisce direttamente su yt e non influenza le sue altre componenti. Al tempo t + 1, avremo che yt+1 = yt − 0.5yt−1 + et+1 + 0.75et, 38 CAPITOLO 2. I PROCESSI ARMA Figura 2.9: Risposta di impulso per yt = yt−1 − 0.5yt−2 + et + 0.75et−1 -0.5 0 0.5 1 1.5 2 0 5 10 15 20 e l’effetto di et su yt+1 sarà duplice: da una parte, esso compare direttamente, associato ad un coefficiente di 0.75; dall’altra, bisogna tenere conto del fatto che l’effetto di et è anche contenuto in yt, a cui è associato un coefficiente pari a 1: l’effetto totale sarà perciò di 1.75. Andando avanti ancora di un periodo, l’effetto diretto scompare e rimane soltanto quello generato dai valori ritardati della y. Facendo un po’ di conti, si ha che l’effetto di et su yt+2 è 1.25. La seguente tabellina forse aiuta: t et it -2 0 0 -1 0 0 0 1 i−1 − 0.5i−2 + e0 + 0.75e−1 = 1 1 0 i0 − 0.5i−1 + e1 + 0.75e0 = 1.75 2 0 i1 − 0.5i0 + e2 + 0.75e1 = 1.25 3 0 i2 − 0.5i1 + e3 + 0.75e2 = 0.375 ... ... ... Chi ha la pazienza di andare avanti fino a 20 periodi potrà costruirsi un grafichetto come quello mostrato in figura 2.9, da cui si vede abbastanza chiaramente che la funzione, dopo 8 periodi, riproduce (in modo ovviamente attenuato) più o meno la stessa dinamica. Di conseguenza, sarà lecito aspettarsi che una realizzazione di questo processo evidenzierà degli andamenti ciclici di ampiezza 8 periodi (circa). Da quanto abbiamo detto fin qui, uno potrebbe essere indotto a pensare che la rappresentazione di Wold e la funzione di risposta di impulso siano la stessa cosa. Non è proprio vero: la funzione di risposta di impulso si può calcolare sempre, anche se il processo non fosse stazionario in covarianza. Se però lo è, allora la funzione di risposta di impulso coincide coi coefficienti della rappresentazione di Wold. 2.7. STIMA DEI MODELLI ARMA 39 2.7 Stima dei modelli ARMA Fino ad ora abbiamo fatto finta che il processo stocastico che sovrapponiamo ai dati per interpretarli fosse governato da parametri noti. Se questi ultimi noti non sono (e non lo sono mai), si possono utilizzare delle loro stime. La tecnica di base per la stima dei parametri di un processo ARMA è la massima verosimiglianza. Di solito si assume che il processo sia normale, cosicché la forma della funzione di densità delle osservazioni è nota e trattabile. Può essere utile richiamare brevemente cosa si intende per funzione di verosimiglianza. La verosimiglianza è la funzione di densità del campione, calcolata nel punto corrispondente al campione osservato. Essa dipenderà da un vettore ψ di parametri incogniti, che ne determinano la forma. Per questo la scriviamo L(ψ). Massimizzando questa funzione rispetto a ψ si ottiene la stima di massima verosimiglianza. Esempio 2.7.1 Se lanciamo una moneta, e otteniamo “testa”, abbiamo una realizza- zione di una variabile casuale che assume valore 1 (testa) con probabilità p e 0 con probabilità 1− p; in questo caso, la verosimiglianza è la probabilità di osservare il campione che si è effettivamente osservato, dato il parametro p ∈ [0,1], vale a dire L(p) = p; la stima di massima verosimiglianza in questo esempio è 1. Se avessimo ot- tenuto “croce”, la verosimiglianza avrebbe assunto la forma L(p) = 1− p, e la stima di massima verosimiglianza sarebbe stata 0. Se lanciamo 2 monete, avremmo i seguenti possibili esiti: Campione L(p) Punto di massimo TT p2 1 TC p(1− p) 0.5 CT (1− p)p 0.5 CC (1− p)2 0 eccetera. Quando osserviamo una realizzazione di un processo stocastico (o, per meglio dire, una serie storica che possiamo pensare come tale) x1, . . . , xT , la funzione di verosimiglianza non è altro che la funzione di densità congiun- ta della parte di processo osservata, ossia la funzione di densità marginale del vettore aleatorio (x1, . . . , xT), calcolata nei valori osservati; nel caso di un processo ARMA del tipo A(L)xt = µ + C(L)et essa dipenderà dal vettore di parametri ψ = {µ; ϕ1 . . . ϕp;θ1 . . . θq;σ2}. Se supponiamo (come generalmente si fa) che il processo sia gaussiano, la funzione di verosimiglianza non è che la funzione di densità di una normale multivariata: L(ψ) = f (x;ψ) = (2π)− T 2 |Σ|− 1 2 exp { −1 2 (x− k)′Σ−1(x− k) } dove x è il vettore (x1, . . . , xT) delle T osservazioni; k e Σ sono i suoi momenti primi e secondi, che dipendono da ψ. Ad esempio, l’elemento ij della matrice 42 CAPITOLO 2. I PROCESSI ARMA L’idea che, sotto le ipotesi di ergodicità e stazionarietà, le autocorrelazioni campionarie siano stimatori consistenti di quelle teoriche può essere sfruttata anche in modo più generale. Come abbiamo già visto, infatti, ci sono delle relazioni ben precise fra ordine dei polinomi e autocorrelazioni. Dall’esame delle autocorrelazioni campionarie si può fare un’ipotesi di partenza sugli or- dini dei polinomi. Se, ad esempio, si nota che le autocorrelazioni campionarie si interrompono bruscamente al di là di un certo ordine q, si può pensare di usare un modello MA(q), le cui autocorrelazioni teoriche hanno la stessa caratteristica. Se invece le autocorrelazioni digradano dolcemente, forse è me- glio un processo AR. Questa fase è nota nella letteratura statistica come fase di identificazione. Questo termine genera a volte un po’ di confusione, per- ché normalmente in econometria la parola “identificazione” vuol dire un’altra cosa13. In questa fase, si adoperano a volte anche statistiche note come autocorre- lazioni parziali (le quali, in pratica, non si usano che a questo scopo). Definire le autocorrelazioni parziali rigorosamente è un po’ macchinoso. Si fa prima a dire come si calcolano: l’autocorrelazione parziale di ordine p si calcola facendo una regressione di yt su una costante e yt−1 . . . yt−p. Il coefficiente associato a yt−p che risulta è l’autocorrelazione parziale di ordine p. Que- ste grandezze si interrompono bruscamente nel caso di modelli AR puri, e scendono gradualmente nel caso di modelli MA puri. Mi permetto una piccola tirata polemica: an- cora oggi, chi insegna queste cose è portato ad ammorbare i propri studenti con queste tecni- che un po’ da rimedio della nonna per scegliere p e q facendo elaborate considerazioni sulla for- ma delle funzione di autocorrelazione e tacen- do pudicamente il fatto che nella maggioranza dei casi che si incontrano in pratica o uno ha un occhio molto allenato oppure non ci si capisce niente. Il fatto è che queste tecniche sono state inventate in un epoca in cui un computer era una rarità da scienziati, e fare una stima di un ARMA era difficile e costoso, per cui tante pro- ve non si potevano fare ed era essenziale avere un’idea il più possibile precisa di possibili va- lori di p e q prima di tentare la stima. Oggi sti- mare un modello ARMA è ridicolmente facile, e l’arte dell’interpretazione dei correlogrammi la lasciamo agli appassionati del genere vintage. Una volta fatta la stima, si controlla se i ‘residui’ sono white noise, quasi sempre col test di Ljung-Box o con statistiche equivalenti. Un’altra classe di statistiche che si usano in questo contesto sono i cosiddetti criteri di informazio- ne, come ad esempio quello di Akaike (spesso abbreviato in AIC) o quello di Schwartz (spesso abbreviato in BIC); l’uso di queste statistiche è motivato con concetti presi dalla teoria dell’informazione, ma mi contento di rinviare alla letteratura per i dettagli. Qui mi basta dire che fra due modelli, quello “mi- gliore” dovrebbe avere un indice AIC o BIC più basso, in quanto tutti questi 13Ricordo brevemente cosa si intende per identificazione di un modello nell’accezione comune in econometria: un modello econometrico si dice sotto-identificato se esiste più di una rappre- sentazione dei dati coerente con ciò che si osserva. In pratica, non è possibile decidere sulla base dei dati se sia più giusta la rappresentazione A o la rappresentazione B; in questi casi, si usa l’espressione “equivalenza osservazionale”. Se il modello è parametrico (come nella maggior parte dei casi), esso è identificato se la funzione di verosimiglianza ha un solo massimo assoluto; di conseguenza, una condizione necessaria per l’identificazione è la non singolarità dell’Hessiano nel punto di massimo. L’identificazione è, chiaramente, a sua volta condizione necessaria per l’esistenza di uno stimatore consistente. 2.7. STIMA DEI MODELLI ARMA 43 criteri possono essere scritti nella forma C = −2L(θ) + c(k, T) dove k è il numero di parametri stimati e T è l’ampiezza campionaria; la funzione c(k, T) è crescente in k, per cui a parità di verosimiglianza viene scelto il modello più parsimonioso. Ad esempio, per il criterio di Schwartz, c(k, T) = k log(T). In questa fase, è importante non scegliere degli ordini dei polinomi trop- po alti, per il cosiddetto problema dei fattori comuni: dato un processo ARMA(p,q) della forma A(L)xt = C(L)et è chiaro che, applicando l’operatore (1− βL) ad entrambi i lati dell’uguaglian- za, la relazione continua ad essere vera. Chiamiamo Aβ(L) = (1− βL)A(L) e Cβ(L) = (1− βL)C(L) e quindi Aβ(L)xt = Cβ(L)et. (2.13) Si noti che la rappresentazione di Wold basata sul modello ARMA(p + 1,q + 1) è assolutamente la stessa di quella basata sul modello ARMA(p,q), perché i fattori (1− βL) si semplificano. Il processo xt, quindi, ha una rap- presentazione ARMA(p + 1,q + 1) del tutto equivalente. Poiché questo è vero per qualunque valore di β, è ovvio che il modello non è identificato (nel senso econometrico; vedi nota 13), perché ogni valore di β è equivalente dal punto di vista osservazionale e quindi non è stimabile (il valore della funzione di verosimiglianza è lo stesso per qualunque β, e quindi non c’è un massimo unico: di massimi ce ne sono infiniti, uno per ogni valore di β.). Detta in un altro modo, esistono infiniti polinomi Aβ(L) e Cβ(L) che con- ducono alla stessa rappresentazione di Wold, e quindi alla stessa funzione di autocovarianza. L’equivalenza osservazionale nasce esattamente dal fatto che le autocovarianze campionarie non ci pemettono di discriminare fra valori diversi di β. Faccio un esempio che forse è meglio: che tipo di processo è yt = 0.5yt−1 + et − 0.5et−1? Facile, direte: è un ARMA(1,1). Giusto. Però è anche un white noise; infatti yt = 1− 0.5L 1− 0.5L et = et. In pratica abbiamo scritto un white noise come un ARMA(1,1). Quest’ultima rappresentazione è ridondante, ma non sbagliata. La cosa importante da notare è che il numero 0.5 è del tutto irrilevante: avrei potuto usare 0.7, 0.1 o che so io. Di rappresentazioni “non sbagliate” ce ne sono infinite. 44 CAPITOLO 2. I PROCESSI ARMA Da un punto di vista pratico, modellare un ARMA(p,q) con un ARMA(p + 1,q + 1) porta ogni sorta di problemi. Intanto, perché l’algoritmo numerico fa fatica a convergere (e non sorprende, visto che non c’è un massimo unico). In secondo luogo, perché (anche ammesso che la convergenza alla fine avvenga), il punto di massimo che troviamo è solo una delle infinite rappresentazioni possibili del modello14. Di solito, ci si accorge di questa situazione dal fatto che gli errori standard stimati dei coefficienti esplodono; questo succede perché, tentando di stimare un modello non identificato, la matrice di informazione che viene stimata ten- de ad una matrice singolare. Invertendola, vengono fuori numeri giganteschi per la matrice varianze-covarianze dei coefficienti. 2.7.3 Calcolo della verosimiglianza Il terzo problema è più intrigante: bisogna, in sostanza, scrivere la funzione di verosimiglianza con un’espressione alternativa che non richieda il calcolo di matrici di dimensione sproporzionata. Questo argomento è stato studiato a fondo, ed è bene rinviare alla letteratura per una discussione esauriente, ma in questa sede voglio illustrare una tecnica piuttosto interessante, che va sotto il nome di fattorizzazione sequenziale. Per illustrare questa tecnica, sarà utile partire dalla definizione di probabi- lità condizionata, che è P(A|B) = P(A ∩ B) P(B) da cui P(A ∩ B) = P(A|B)P(B) = P(B|A)P(A) Se applichiamo questa regola alla funzione di densità di una variabile casuale doppia, otteniamo f (x,y) = f (y|x) f (x) = f (x|y) f (y) (2.14) Il giochino può essere ripetuto anche con una variabile casuale tripla, ottenen- do f (x,y,z) = f (x|y,z) f (y,z) = f (y|x,z) f (x,z) = f (z|x,y) f (x,y) (2.15) Mettendo assieme le due relazioni (2.14) e (2.15), è chiaro che si può scrivere, ad esempio, f (x,y,z) = f (z|x,y) f (x,y) = f (z|x,y) f (y|x) f (x) e quindi una funzione di densità congiunta di n variabili casuali può essere scritta f (x1, . . . , xn) = n ∏ i=1 f (xi|x1, . . . , xi−1) 14È vero che tutte queste rappresentazioni hanno la stessa rappresentazione di Wold, per cui le previsioni a cui portano e le risposte di impulso che generano sono identiche, ma abbiamo il problema che qualunque tipo di test in questo caso ci è precluso. Infatti, il punto di massimo che troviamo è soltanto uno degli infiniti possibili, e quindi l’Hessiano della funzione di verosi- miglianza è singolare. Poiché tutte le statistiche test sono basate in qualche modo sulla curvatura della funzione di verosimiglianza, è chiaro che i test non si possono fare 2.8. IN PRATICA 47 Figura 2.10: Indice destagionalizzato della produzione industriale negli USA (mensile dal 1921) 0 20 40 60 80 100 120 1920 1930 1940 1950 1960 1970 1980 1990 2000 2010 notati durante la nostra finestra di osservazione. Nell’arco di tempo descritto dai nostri dati ci sono il delitto Matteotti, l’invenzione della penna biro, i film di Totò, Voodoo Chile e Google. Risulta un po’ ardito postulare l’esistenza di una rappresentazione dei dati che attraversa indenne tutto questo ed è buo- na tanto allora quanto oggi. Nei termini del primo capitolo, potremmo dire con una certa tranquillità che il “vero” processo stocastico che ha generato i dati non è stazionario. Se proprio vogliamo ingabbiare la serie in un processo stazionario, conviene accorciare il campione. In questo caso, gli economisti amano dire che escludiamo i cosiddetti break strutturali17; si noti che questo ragionamento si può fare senza neanche guardare i dati. Con procedura del tutto arbitraria (tanto è un esempio), decido che il mon- do in cui viviamo oggi è cominciato nel gennaio 1984. Già che ci siamo, deci- diamo di lavorare non sul numero indice vero e proprio, ma sul suo logaritmo. Questa è una procedura molto diffusa, e serve a far sì che si possa dare un’in- terpretazione più naturale ai numeri di cui è composta la serie, visto che le sue differenze prime sono più o meno variazioni percentuali18. Un’altra cosa che vale la pena di fare è escludere dalle nostre considerazioni per il momento le ultime tre osservazioni; vedremo poi il perché. Il risultato è la serie in figura 2.11, che è abbastanza lunga da consentirci di dire qualcosa di interessante (294 osservazioni), ma al contempo ci racconta una storia ragionevolmente omogenea. Possiamo, a questo punto, sostenere di osservare una realizzazione di un processo stazionario? Di nuovo, la risposta è “probabilmente no”. In questo caso, però, il problema non nasce dalla disomogeneità del campione, ma dal 17È peraltro vero che esistono metodi di lavorare con serie storiche con break strutturali al loro interno, ma questi metodi sono ancora troppo esoterici per parlarne in questa dispensa. 18Ricordo che log(yt)− log(yt−1) = log(1 + ∆ytyt−1 ) ' ∆yt yt−1 48 CAPITOLO 2. I PROCESSI ARMA Figura 2.11: Logaritmo della produzione industriale negli USA (mensile) 4 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 1985 1990 1995 2000 2005 fatto che la serie in figura 2.11 presenta un chiaro trend crescente, che eviden- temente ci preclude di pensare che il processo sia stazionario. Si può pensare a un processo stazionario intorno a un trend deterministico, ossia ad una cosa del tipo Yt = (a + b · t) + ut, dove ut è un qualche processo ARMA. Oltretut- to, questa non sarebbe nemmeno un’idea irragionevole, perché il parametro b potrebbe essere interpretato come il tasso esogeno di progresso tecnico di lungo periodo. Tuttavia, questa idea non regge, per motivi che spiegherò nel capitolo 3 (scusate). Anticipo soltanto che il problema fondamentale sta nel fatto che, anche togliendo via un trend deterministico, questa serie è troppo persistente per poter dire che il processo che l’ha generata è stazionario. Una possibilità alternativa è quella di trasformare la serie in modo tale da poterla ancora interpretare, ma nel frattempo eliminare il problema. In questo caso, ci caviamo d’impaccio con una differenziazione e cosideriamo yt = 100 · ∆Yt, che potete ammirare in figura 2.12 ed è, come ho accennato prima, più o meno il tasso di variazione percentuale della produzione industriale rispetto al mese precedente. La figura 2.13, invece, mostra i correlogrammi totale e parziale. Le due lineette tratteggiate orizzontali che circondano il correlogramma vero e pro- prio rappresentano la costante ±1.96/ √ T, dove T è l’ampiezza campionaria: visto che abbiamo 294 osservazioni, la costante è circa 0.11. Queste lineette vengono spesso inserite nei correlogrammi per rendere immediato il seguente ragionamento: le autocorrelazioni campionarie ρ̂k sono stimatori consistenti delle vere autocorrelazioni ρk. Se per ρk = 0, allora si può dimostrare che√ Tρ̂k d−→ N(0,1). Di conseguenza, l’intervallo ±1.96/ √ T è l’intervallo di ac- cettazione al 95% del test per l’ipotesi ρk = 0; in pratica, le autocorrelazioni fuori banda sono “statisticamente significative”. Non possiamo fare a meno di osservare che di autocorrelazioni significative ce ne sono almeno cinque o sei, per cui possiamo ragionevolmente escludere l’ipotesi che yt non abbia 2.8. IN PRATICA 49 Figura 2.12: Variazione percentuale della produzione industriale -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 1985 1990 1995 2000 2005 Figura 2.13: Variazione percentuale della produzione industriale – correlogramma parziale e totale -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0 5 10 15 20 25 ritardo ACF -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0 5 10 15 20 25 ritardo PACF 52 CAPITOLO 2. I PROCESSI ARMA Tabella 2.3: Modello ARMA(3,4) Coefficient Std. Error z-stat p-value const 0.2258 0.0564 4.0051 0.0001 φ1 −0.3520 0.0954 −3.6895 0.0002 φ2 −0.0763 0.1097 −0.6953 0.4869 φ3 0.7950 0.0954 8.3306 0.0000 θ1 0.4101 0.1075 3.8163 0.0001 θ2 0.2785 0.1438 1.9369 0.0528 θ3 −0.5627 0.1358 −4.1448 0.0000 θ4 0.1691 0.0676 2.5015 0.0124 Mean dependent var 0.221113 S.D. dependent var 0.514050 Mean of innovations −0.005004 S.D. of innovations 0.477041 Log-likelihood −201.8311 Akaike criterion 421.6622 Schwarz criterion 454.8144 Hannan–Quinn 434.9386 Real Imaginary Modulus Frequency AR Root 1 −0.5780 0.8189 1.0023 0.3478 Root 2 −0.5780 −0.8189 1.0023 −0.3478 Root 3 1.2520 0.0000 1.2520 0.0000 MA Root 1 −0.5854 −0.8107 1.0000 −0.3495 Root 2 −0.5854 0.8107 1.0000 0.3495 Root 3 2.2492 −0.9246 2.4319 −0.0621 Root 4 2.2492 0.9246 2.4319 0.0621 ci abitua, purtroppo, a fare) vedrebbe che in maggioranza sembrano essere statisticamente diversi da 0; peraltro, la dispersione degli errori di previsione si riduce un tantino (0.477), anche se non c’è da fare salti di gioia. Tuttavia, ci si può rendere conto che questa stima è un po’ farlocca guardando le radici dei polinomi A(L) e C(L) stimati. Fra le radici di A(L) c’è la coppia di numeri complessi −0.5780 ± 0.8189i (che tra l’altro è sospettosamente vicina a 1 in modulo) cui fa da contraltare la coppia di numeri complessi −0.5854± 0.8107i fra le radici di C(L). È chiaro che qui siamo in presenza di fattori comuni (cosa siano i fattori comuni lo trovate a pag. 43). Cioè, la stima nella tabella 2.3 è una stima gonfiata con parametri che non servono a nulla. Tant’è che, se andate a vedere le altre radici dei due polinomi, vi accorgete che sono praticamente le stesse del modello ARMA(1,2); in altre parole, quello che vedete nella tabella 2.3 è lo stesso modello della tabella 2.2 sotto mentite spoglie. Queste considerazioni vengono corroborate in modo abbastanza palese os- servando la figura 2.14, che contiene, per i tre modelli esaminati qui, la funzio- ne di risposta di impulso fino a 24 passi, ossia una rappresentazione grafica dei primi 24 coefficienti del polinomi C(L)A(L) . Notate come le risposte di impul- so per i modelli ARMA(1,2) e ARMA(3,4) siano praticamente indistinguibili. Ciò implica che, in pratica, questi due modelli sono due possibilità alternative per sintetizzare un modo di persistenza della serie che è sempre lo stesso e le ragioni per cui la rappresentazione ARMA(3,4) sia da ritenersi ridondante sono ovvie. 2.8. IN PRATICA 53 Figura 2.14: Risposte di impulso -0.2 0 0.2 0.4 0.6 0.8 1 0 5 10 15 20 25 ARMA(3,4) ARMA(1,2) Figura 2.15: Previsioni 54 CAPITOLO 2. I PROCESSI ARMA Un altro modo di vedere la sostanziale equivalenza dei due modelli è quel- lo di considerare cosa succede utilizzandoli come modelli previsivi: la figura 2.15 mostra le previsioni fino a settembre fatta con i nostri due modelli. Vi ricordo che ci eravamo tenuti nel cassetto le ultime tre osservazioni: i dati da luglio a settembre 2008 non erano stati usati per la stima. Per cui, quelle che vedete nell’area non ombreggiata sono le previsioni di yt basate su =t−1. Quelle nell’area ombreggiata, invece, sono basate sul set informativo che si ferma a giugno. Qui ci sono alcune osservazioni interessanti da fare: in primo luogo, finché stiamo dentro il campione le previsioni non sono grossolanamente sbagliate, ma non sono nemmeno un gran che. Il fatto che la persistenza della serie sia, pur non trascurabile, poco informativa emerge dal fatto che i modelli forni- scono previsioni che non si discostano mai molto dalla media aritmetica della serie (la quale a sua volta potrebbe essere vista come un previsore basato sulla distribuzione non condizionata). Fra l’altro, i due modelli danno previsioni quasi identiche. Questo non deve sorprenderci, avendo appurato che le due rappresentazioni di Wold sono, appunto, quasi identiche. Dove i due modelli fanno una pessima figura è piuttosto nelle previsioni fuori campione. Come si vede, la produzione industriale subisce un vero e proprio tracollo, assolutamente non previsto dai nostri due modellini. Perché? Il motivo è semplice. A parte il fatto che in generale i modelli di questo tipo prevedono decentemente solo a pochi passi in avanti, c’è una ragione ben più cogente: la crisi economica mondiale. E la crisi economica mondiale è una cosa che entro certi limiti si poteva prevedere, ma sicuramente non solo col set informativo fornito dalla storia della produzione industriale america- na. Ci sarebbe stato bisogno di sapere cose sui mutui subprime, sul prezzo del petrolio, sulla bilancia commerciale americana, sulla struttura finanziaria islandese e così via. E magari di aver letto Minsky. Tutto questo, nel nostro set informativo, non c’è (o ce ne sono appena dei pallidi riflessi). Morale: in economia, un modello ARMA può servire, tutt’al più, a fare previsioni a breve in periodi tranquilli. Ma se davvero volete fare gli aruspici, usate gli ARMA, ma leggete anche i giornali. Appendice: L’ABC sui numeri complessi Me l’hanno chiesto in tanti, non potevo esimermi. In questa appendice ci sono alcune brevissime e lacunosissime nozioni su come funzionano i numeri complessi e, in particolare, il motivo per cui radici complesse in un polinomio autoregressivo danno luogo a fenomeni ciclici.19 Iniziamo da i, che è definito dalla proprietà i2 = −1. Il numero i viene chiamato unità immaginaria, largamente per ragioni storiche. Un suo qualun- que multiplo reale si chiama numero immaginario. Per esempio, 3i è un numero il cui quadrato è −9. 19Chi volesse approfondire, trova facilmente tutto il necessario in rete; per esempio, su Wikipedia. 2.8. IN PRATICA 57 e più in generale, se scriviamo A(L)−1 = 1 + θ1L + θ2L2 + · · · si ha che θk = k ∑ j=0 zj z̄k−j Il risultato che ci interessa si può trovare notando che θk+1 = zk+1 + z̄θk = z̄k+1 + zθk, da cui zk+1 − z̄k+1 = (z− z̄)θk; usando la (2.17) si ottiene θk = ρ k sin[ω(k + 1)] sinω In pratica, la funzione di risposta di impulso è il prodotto fra due funzio- ni: sin[ω(k+1)]sinω , che è una funzione periodica in k di periodo 2π/ω (e quindi, tanto più piccolo è ω, tanto più è lungo il ciclo). L’altra, ρk, che smorza le fluttuazioni al crescere di k visto che, per ipotesi, |ρ|< 1, e quindi ovviamente ρk→ 0. 58 CAPITOLO 2. I PROCESSI ARMA Capitolo 3 Processi integrati 3.1 Caratteristiche delle serie macroeconomiche Tutto l’apparato descritto nei capitoli precedenti presuppone che le serie sto- riche economiche possano essere modellate come realizzazioni di processi stocastici stazionari. Questa, disgraziatamente, non è la situazione standard quando ci si occupa di serie storiche macroeconomiche. Osserviamo, tanto per fare un esempio, l’andamento nel tempo del logaritmo del Pil italiano trimestrale a prezzi 1990 (destagionalizzato), che è mostrato in figura 3.1. Figura 3.1: log(PIL) 11.7 11.8 11.9 12 12.1 12.2 12.3 12.4 12.5 12.6 1970 1975 1980 1985 1990 1995 2000 Come si vede, la serie esibisce un chiaro andamento crescente nel tempo, cosa che di per sé preclude la possibilità di modellarla con un processo sta- zionario, in quanto sarebbe opportuno usare un processo la cui media cambi nel tempo. Si potrebbe pensare, però, di modellare la serie in questo modo: 59 62 CAPITOLO 3. PROCESSI INTEGRATI Figura 3.4: ∆log(PIL) −0.03 −0.02 −0.01 0 0.01 0.02 0.03 0.04 1970 1975 1980 1985 1990 1995 2000 aderendo a questa convenzione si può dire che ∆ut è I(−1). Come tutte le convenzioni, è buona nella mi- sura in cui è utile. Io personalmente non ho ancora deciso al riguardo, ma è giusto che ve lo dica. Per apprezzare adeguatamente le differenti conseguenze che scaturiscono dalla scelta di modellare una serie come un processo TS o come un processo DS è necessario analizzare nel dettaglio la caratteristiche dei processi a radice unitaria, ciò che rappresenta l’oggetto dei prossimi paragrafi. 3.2 Processi a radice unitaria Come ho appena detto, un processo I(1) è un processo che non è stazionario, ma è stazionaria la sua differenza prima. Più in generale, si definisce come processo I(d) un processo la cui differenza d-esima è stazionaria. Per quel che ci riguarda, noi ci occuperemo solo dei casi in cui d è 0 oppure 1, anche se non manca una copiosa mole di letteratura dedicata a casi più esotici. Il primo processo I(1) di cui analizziamo le proprietà è il cosiddetto random walk. La definizione è semplice: yt è un random walk se ∆yt è un white noise. Una cosa che va notata immediatamente è che per questo processo vale la relazione yt = yt−1 + et; di conseguenza, sostituendo ripetutamente i valori passati di yt−1 si ha yt = yt−n + n−1 ∑ i=0 et−i Quali sono le caratteristiche di un processo come questo? Tanto per comin- ciare, rendiamo le cose più semplici: supponiamo che il processo abbia avuto 3.2. PROCESSI A RADICE UNITARIA 63 inizio ad un tempo remoto, che chiamiamo tempo 0, e che a quella data il valore di yt fosse 0. In questo caso, l’espressione precedente si riduce a yt = t ∑ i=1 ei (3.1) Si noti che questa espressione può essere considerata una specie di rappresen- tazione a media mobile di yt, in cui tutti i coefficienti sono pari a 1. È chiaro che, ad ogni istante t, la media del processo è 0. Se fosse solo per la media, quindi, il processo sarebbe stazionario. La varianza, però, non è costante, in quanto yt è la somma di t v.c. indipendenti ed identiche con varianza (dicia- mo) σ2; ne consegue che la varianza di yt è tσ2, e quindi cresce nel tempo. Da qui, e dal fatto che Cov(yt,ys) = σ2 min(t, s) (dimostrarlo è un utile esercizio), consegue che yt non è stazionario. Per molti aspetti, conviene considerare un random walk come un caso li- mite di un AR(1) in cui le caratteristiche di persistenza sono così esasperate da modificare il processo nelle sue caratteristiche qualitative. In particola- re, un random walk è, come abbiamo già detto, non stazionario. In più, si può considerare la funzione di risposta d’impulso ad esso associata: sebbene la rappresentazione di Wold non esista, la funzione di risposta di impulso è perfettamente definita come IRFk = ∂yt+k ∂et . In questo caso, essa vale 1 per ogni valore di k, per cui è piatta e non decade esponenzialmente come nel caso stazionario: ciò significa che l’effetto di uno shock al tempo t permane indefinitamente nel futuro. Quest’ultima caratteristica fa anche sì che i random walk non condividano con i processi stazionari la caratteristica di essere mean-reverting. Se un pro- cesso è mean-reverting, esso presenta la tendenza a muoversi preferenzialmente verso il suo valore atteso; per un processo a media 0, significa che il grafico del processo interseca ‘frequentemente’ l’asse delle ascisse. Più formalmente, la locuzione è di solito impiegata per descrivere un processo la cui funzione di risposta di impulso tende asintoticamente a 0. Tabella 3.1: AR(1) stazionario versus random walk yt = ϕyt−1 + et |ϕ| < 1 ϕ = 1 Varianza Finita Illimitata Autocorrelazioni ρi = ϕi ρi = √ 1− it mean-reverting Sì No Memoria Temporanea Permanente La tabella 3.1 (rubata a Banerjee et al. (1993)) evidenzia le differenze fra un AR(1) stazionario e un random walk. 64 CAPITOLO 3. PROCESSI INTEGRATI Appare qui evidente che la scelta fra un pro- cesso TS e un processo DS per la modellazione di una variabile come, che so, il PIL comporta delle conseguenze notevoli per l’analisi dell’an- damento di tale variabile nel lungo periodo. Se il PIL fosse rappresentabile come realizzazione di un processo TS, nel lungo periodo ciò che conta per la crescita economica è l’andamento del trend esogeno (tecnologia o che altro); una crisi congiunturale può avere un effetto depres- sivo, ma questo è solo temporaneo: il sistema ha una sua tendenza intrinseca a ritornare sul trend di lungo periodo. Viceversa, se la metafora più appropriata per la serie storica del PIL fosse un processo DS, dovremmo concludere che esistono shock per- manenti che non verranno mai riassorbiti: le colpe (o i meriti) dei padri ricadranno sui figli dei figli dei figli, e anche più in là. Questa sarà anche una visione inquietante, ma in certi casi può essere del tutto appropriata: chi ha detto che la tecnologia marci ad un tas- so esogeno e fisso? L’Alto Medioevo è dura- to parecchio, ma il progresso tecnologico ha lasciato un po’ a desiderare. E poi, una vol- ta che una cosa è stata inventata, non si può dis-inventarla (a meno di invasioni barbariche o guerre nucleari): una volta che il progresso tecnologico c’è stato, c’è anche per tutti quelli che vengono dopo. Il dibattito sull’argomento è ricco e fiorente, ma io mi contento di aver dato un’idea. Figura 3.5: Random walk -14 -12 -10 -8 -6 -4 -2 0 2 0 20 40 60 80 100 120 140 160 180 200 Che aspetto ha ‘a occhio’ un random walk? Riportiamo alla mente la figura 2.7 a pag. 27 e confrontiamola con la figura 3.5. Come quelle volpi dei miei lettori avranno già intuito, in figura 3.5 è rappresentato un random walk i cui incrementi (le et) non sono altro che il white noise usato per generare la serie mostrata in figura 2.7. In pratica, l’unica differenza fra la figura 2.7 e la figura 3.5 è il coefficiente dell’autoregressivo, che è pari a 0.9 nel primo caso e pari a 1 nel secondo. Si noti l’aumento di persistenza della serie indotto dalla radice unitaria. Un aspetto caratteristico dei random walk è quello per cui l’assenza di mean reversion provoca periodi — anche molto lunghi — in cui la serie presenta un andamento crescente o decrescente piuttosto marcato. Ad esempio, chi non sapesse che la serie disegnata in figura 3.5 è frutto del puro caso, potrebbe 3.3. LA SCOMPOSIZIONE DI BEVERIDGE E NELSON 67 La dimostrazione non è difficile: naturalmente, D(z) = C(z) − C(1) è ancora un polinomio di ordine q, poiché C(1) è una costante (la somma dei coefficienti di C(z)). Tuttavia, segue dalla definizione che D(1) = 0, e quindi 1 è una radice del polinomio D(z). Esso, allora, può anche essere scritto D(z) = C∗(z)(1− z), dove C∗(z) è un polinomio di gra- do q − 1. In altri termini, il polinomio C∗(z) risulta definito da C∗(z) = C(z)− C(1) 1− z , da cui l’espressione nel testo. Non ho voglia di spiegare il perché, ma dimostrare che c∗i = − q ∑ j=i+1 cj può essere un simpatico esercizio. Prendiamo ora un processo I(1) arbitrario, e chiamiamolo yt. Il processo ∆yt è di conseguenza un I(0), e quindi deve avere una rappresentazione di Wold che possiamo scrivere in questo modo: ∆yt = C(L)et Applicando a C(L) la scomposizione polinomiale appena illustrata, pos- siamo anche scrivere ∆yt = [C(1) + C∗(L)(1− L)]et = C(1)et + C∗(L)∆et (3.3) Se definiamo un processo µt tale per cui valga ∆µt = et (ossia un random walk i cui incrementi siano dati da et), si arriva a yt = C(1)µt + C∗(L)et = Pt + Tt (3.4) dove Pt = C(1)µt è un random walk che chiamiamo componente permanente e Tt = C∗(L)et è un processo I(0) che chiamiamo componente transitoria. Esempio 3.3.1 (Semplice) Prendiamo un processo integrato di ordine 1 yt per cui valga ∆yt = et + 0.5et−1 = (1 + 0.5L)et = C(L)et dove et è un white noise. Poiché C(1) = 1.5 C∗(L) = −0.5 si ha yt = 1.5µt − 0.5et Esempio 3.3.2 (Più complicato) Supponiamo che ∆yt sia rappresentabile come un ARMA(1,1) (1− ϕL)∆yt = (1 + θL)et e quindi C(L) = 1+θL1−ϕL . C(1) è facile da calcolare, ed è uguale a 1+θ1−ϕ . Il calcolo di C ∗(L) è un po’ più lungo ma non più difficile; si arriva a dimostrare che C∗(L) = − ϕ + θ 1− ϕ (1− ϕL) −1 68 CAPITOLO 3. PROCESSI INTEGRATI Il risultato finale è yt = Pt + Tt Pt = 1 + θ 1− ϕ µt Tt = − ϕ + θ 1− ϕ (1− ϕL) −1et Si noti che Tt è un processo autoregressivo di ordine 1, tanto più persistente quanto maggiore è |ϕ|. Di conseguenza, yt può essere rappresentato come un random walk più un processo AR(1) stazionario che gli fluttua attorno. Un’interpretazione interessante della grandezza C(1) è quella di misura della persistenza di un dato processo, poiché misura la frazione dello shock che permane nel processo dopo un tempo ‘infinito’. È possibile controllare che, applicando la scomposizione qui descritta ad un processo stazionario, C(1) = 0, mentre C(1) 6= 0 nel caso di processi I(1). Intuitivamente, questa in- terpretazione può anche essere motivata osservando che C(1) è un coefficiente che determina il peso del random walk sul processo. Nel caso del processo I(1) esaminato alla fine della sezione precedente, che somigliava tanto ad un white noise, il coefficiente C(1) risulta essere appena 0.00001. L’utilità della scomposizione BN è duplice: da un punto di vista pratico, è uno strumento che viene spesso utilizzato in macroeconometria quando si tratta di separare trend e ciclo in una serie storica. In poche parole, data una serie storica che ci interessa scomporre in trend e ciclo, si stima un modello ARMA sulle differenze prime, dopodiché si applica la scomposizione BN a partire dai parametri stimati. La scomposizione BN non è l’unico strumento per raggiungere lo scopo, e non è immune da critiche2, ma su questo, come al solito, rinvio alla letteratura specializzata. L’altro uso che si fa della scomposizione BN è teorico. Con un nome diver- so (scomposizione in martingala), gioca un ruolo fondamentale nella letteratura probabilistica sui processi stocastici quando si devono analizzare certe pro- prietà asintotiche. Questo a noi non interessa, ma della scomposizione BN faremo sistematico uso nell’analisi dei sistemi cointegrati, di cui parleremo più avanti. 3.4 Test di radice unitaria I processi integrati, così come visti finora, hanno delle caratteristiche che li rendono molto interessanti, sia da un punto di vista formale (perché rap- presentano un esempio di processi non stazionari), che da un punto di vista pratico (perché le loro realizzazioni somigliano in modo spiccato alle serie storiche che siamo abituati ad incontrare in macroeconomia). Non abbiamo, però, ancora esaminato le conseguenze della non staziona- rietà dei processi di questo tipo per la possibilità di fare inferenza sulle loro 2Una, ad esempio è: dove sta scritto che la componente di lungo periodo debba essere per forza un random walk, anziché un qualche altro tipo di processo I(1)? 3.4. TEST DI RADICE UNITARIA 69 realizzazioni. Ricordo che, fino ad ora, abbiamo sempre supposto la staziona- rietà dei processi per cui ci interessava fare inferenza. Nel caso dei processi I(1), le cose si fanno più complesse. Cominciamo con una banalità: se yt è I(1), allora ∆yt è I(0) per definizio- ne, e quindi tutto il bagaglio di conoscenze fin qui accumulato sulla stima dei parametri che caratterizzano i processi stazionari può essere riciclato senza problemi stimando un modello del tipo A(L)∆yt = C(L)et e quindi modelleremo un tasso di crescita anziché il (logaritmo del) PIL, il tasso d’inflazione anziché (il logaritmo del) l’indice dei prezzi, e così via. È comune riferirsi a questo tipo di modelli come a modelli ARIMA, cioè ARMA integrati, nella letteratura statistica (che al proposito è sconfinata). Una strategia di questo tipo, però, presuppone che si sappia esattamente se una serie è integrata o stazionaria3. A meno di rivelazioni soprannaturali, di solito questa è una cosa che non si sa; o per meglio dire, non è quasi mai possibile stabilire a priori se una certa serie può essere rappresentata meglio con un processo I(0) oppure I(1). Questa decisione, però, può essere presa sulla base dei dati stessi. Una prima idea potrebbe essere semplicemente quella di osservare il grafico del- l’andamento nella serie nel tempo. Se un processo è stazionario, non può presentare un andamento regolare crescente o decrescente, e quindi si potreb- be pensare di considerare stazionario un processo che oscilla attorno ad un valore costante, e non stazionario altrimenti. Tale regola, che con un po’ di occhio e di esperienza non è del tutto da buttar via, risulta però troppo semplicistica, e questo per almeno tre motivi: in primo luogo, perché un giudizio del genere è piuttosto soggettivo e scar- samente formalizzabile; in secondo luogo, perché può benissimo darsi che un processo sia stazionario attorno ad un trend deterministico (come si è visto qualche pagina fa); infine, perché esiste anche la possibilità che un processo effettivamente I(1) dia luogo a realizzazioni che non presentano una tenden- za particolarmente marcata a salire o a scendere. Per tutte queste ragioni, è necessaria una regola di decisione meno arbitraria e più affidabile. Regole di decisione di questo tipo sono note come test di radice unitaria. Di test di radice unitaria ce n’è più d’uno4. Quelli più usati discendono però da un’impostazione comune, che illustrerò per sommi capi. Partiamo da 3Questa è una semplificazione piuttosto grossolana: a parte il fatto che, usando concetti appena più complessi di quelli di cui parlo qui, si possono dare esempi di processi che non sono né I(0) né I(1), ricordo che l’integrazione non è una caratteristica della serie storica, ma del processo stocastico che adottiamo per darne una rappresentazione statistica. A voler essere rigorosi, dovremmo dire “. . . che si sappia esattamente se la serie storica osserva- ta è rappresentata meglio da un processo stocastico stazionario o integrato di ordine 1”, e la que- stione, a questo punto, potrebbe spostarsi sul significato di “meglio”. Sottigliezze di questo tipo sono peraltro completamente ignorate dalla quasi totalità della macroeconomia contemporanea, e quindi non vale la pena di perderci il sonno. 4Pallido eufemismo. Ce n’è una marea. Anzi, c’è chi ha detto che di test di radice unitaria ce ne sono addirittura troppi. Chi fosse particolarmente interessato a questo argomento non può sottrarsi ad un esame della letteratura rilevante, che è vasta e complessa. 72 CAPITOLO 3. PROCESSI INTEGRATI Se il valore scelto di p è abbastanza alto, e quindi la correzione è efficace, la distribuzione del test ADF è la stessa del test DF. Cosa vuol dire “abbastanza alto”? Vuol dire semplicemente che ut deve essere, per lo meno ai fini pratici, un white noise. In pratica, spesso si usano gli stessi criteri di selezione di p che si usano per il problema analogo in ambito stazionario, di cui ho parlato nella sezione 2.7, e cioè si sceglie p in modo da minimizzare criteri del tipo Akaike o Schwartz. Un modo affine di risolvere questo problema è stato proposto da Phillips e Perron, e il cosiddetto test di Phillips e Perron (chiamato familiarmente test PP) si affianca oramai al test ADF in parecchi pacchetti. 3.4.3 Nucleo deterministico Infine, va menzionato il fatto che la distribuzione del test (sia del tipo ADF che del tipo PP) non è invariante al nucleo deterministico che si inserisce nella regressione. Finora abbiamo esaminato il caso di un random walk senza drift. Nel caso in cui un drift sia effettivamente presente nel processo che ha generato la serie in esame, esso va incluso anche nella regressione usata per calcolare il test. Ma come si fa a sapere se il drift c’è oppure no? Il problema è che non si sa. Di conseguenza, la cosa migliore è quella di mettercelo, e quindi stimare una regressione del tipo ∆yt = µ + ρyt−1 + ϕ1∆yt−1 + · · ·+ ϕp∆yt−p + ut (3.10) in cui, tutt’al più, µ varrà 0 nel caso in cui il drift non ci sia. Figura 3.7: Funzione di densità del test DF con intercetta 0 0.1 0.2 0.3 0.4 0.5 0.6 -6 -5 -4 -3 -2 -1 0 1 2 3 Disgraziatamente, è possibile dimostrare che in questo caso la distribuzio- ne asintotica del test di azzeramento è diversa da quella vista in precedenza. Come se non bastasse, in realtà le distribuzioni rilevanti sono due: una — nonstandard, anch’essa tabulata, e mostrata nella figura 3.7 — nel caso in cui 3.4. TEST DI RADICE UNITARIA 73 il vero valore di µ sia 0; nel caso in cui µ 6= 0, invece, viene fuori che la distri- buzione asintotica del test è (forse sorprendentemente) normale, anche se la dimensione campionaria deve essere molto grande perché l’approssimazione sia soddisfacente. Come si vede, la cosa diventa un tantino ingarbugliata già a questo sta- dio; se poi si analizza il caso in cui nella (3.10) si aggiunge anche un trend deterministico lineare, si ha un’altra distribuzione ancora. Questa moltepli- cità di situazioni è forse uno degli aspetti che lascia più perplessi quando ci si accosta ai test di radice unitaria. In realtà se ne viene fuori, ma con molta pazienza e facendo una serie di distinguo per i quali, però, rinvio alla lettera- tura specializzata, ritenendo esaurito il compito di introduzione divulgativa che mi propongo qui; un problema molto simile tornerà nel capitolo 5, ma ne parleremo a tempo debito. 3.4.4 Test alternativi Il test ADF assume come ipotesi nulla l’esistenza della radice unitaria, e così le sue varianti tipo il test Phillips-Perron; ci sono invece test che partono dalla nulla di stazionarietà. Il più noto di questi ultimi è il cosiddetto test KPSS, di cui spiego l’intuizione base. Se yt fosse stazionario attorno ad un trend deterministico, allora una regressione del tipo yt = β0 + β1 · t + ut dovrebbe produrre dei residui I(0). Fatta la regressione, si prendono i residui OLS e si cumulano, producendo una nuova serie St = 1T ∑ t s=1 ûs; sotto la nulla, questa serie è pensabile (per campioni molto grandi) come una realizzazio- ne di un processo un po’ strano7, perché per costruzione si ha non solo che S0 = 0, ma anche che ST = 0. In questo caso, si può dimostrare che la somma dei quadrati di St (opportunamente normalizzata) converge in distribuzione ad una variabile casuale che è sempre la stessa per qualunque processo sta- zionario. Se invece yt non è stazionario, la statistica diverge. Di conseguenza, l’intervallo di accettazione va da 0 ad un certo valore critico che, anche in questo caso, è stato tabulato. L’espressione “opportunamente normalizzata” che ho usato al capoverso precedente è volu- tamente un po’ vaga: infatti, si può mostrare che l’ingrediente essenziale di questa norma- lizzazione è la varianza di lungo periodo di ût: quest’ultima è definita come la somma di tutte le sue autocovarianze (da meno a più infinito). Spesso, questa quantità viene stimata in modo non parametrico tramite la statistica ω̂2, che è definita come ω̂2(m) = T−1 T−m ∑ t=m [ m ∑ i=−m wi ût ût−i ] , dove m è noto come window size e i termini wi sono i cosiddetti pesi di Bartlett, definiti da wi = 1− |i|m+1 . Si dimostra che, per m abbastan- za grande, ω̂2(m) fornisce una stima consisten- te della varianza di lungo periodo. Il problema principale è la scelta di m, e qui regole precise non esistono: la teoria asintotica dice solo che m deve essere proporzionale a T1/3, il che in pratica equivale a una licenza di fare come a uno gli pare. Il consiglio che dò io è di provare vari valori di m e vedere quando la statistica si stabilizza. 7Si chiama un ponte browniano, curiosoni. 74 CAPITOLO 3. PROCESSI INTEGRATI Il test si può fare anche senza un trend, cosicché le ûs sono semplicemente gli scarti di yt dalla sua media. Evidentemente, in questo caso l’ipotesi nulla è che il processo sia stazionario tout court. I valori critici cambiano, ma anche questi sono stati tabulati. Secondo me, è sempre buona norma provare a testare l’ordine di integra- zione di una serie in tutti e due i modi. Di solito, le indicazioni coincidono, nel senso che se il KPSS accetta l’ADF rifiuta e viceversa. Tuttavia, non è raro che questi test non diano indicazioni coerenti; capita sovente, cioè, che rifiutino (o accettino) la rispettiva nulla sia il test ADF che il test KPSS. Infine, menziono il fatto che alcuni ritengono ormai superata l’idea stessa di fare test di ipotesi sull’ordine di integrazione in un contesto multivariato. Se abbiamo a che fare con più di una serie, si può procedere ad una batteria di test ADF o simili su ognuna di esse, naturalmente. Però forse è più intelligente partire direttamente da una rappresentazione multivariata (di cui parlerò nel capitolo 4), ciò che conduce al cosiddetto test di Johansen (di cui parlerò nel capitolo 5). 3.4.5 Usare il cervello Una parola di commento sui test di radice unitaria: accade molto spesso che applicando un test di radice unitaria ad una serie storica la quale, ragionevol- mente, dovrebbe fluttuare all’interno di una banda più o meno ampia, non sia possibile rifiutare l’ipotesi di radice unitaria. Questo avviene, ad esempio, quasi sempre con tassi di disoccupazione, tassi di inflazione, o tassi di interes- se (reali o nominali). È comune, a questo punto, che qualcuno alzi la mano e dica: “Come è possibile che il tasso sui BOT sia I(1)? Era già al 12% al tempo dei babilonesi!” Si possono dare, a questa obiezione, due risposte. Una è quella di di- mostrare la propria adesione dogmatica al culto del p-value dicendo: “Il test viene così! Che ci posso fare?”; un’altra, che secondo me è più intelligente, è di far notare che nel campione a nostra disposizione il tasso sui BOT ha eviden- temente un grado di persistenza tale per cui è meglio, da un punto di vista di aderenza ai dati, pensarlo come una realizzazione di un processo I(1) che I(0). Non diciamo che la serie sia I(1): in realtà, ammesso e concesso che abbia senso pensare la nostra serie storica dei tassi di interesse come realizzazione di un qualche processo stocastico, lo sa il diavolo che processo è; noi stiamo solo scegliendo all’interno di una classe limitata di processi (gli ARIMA) la parametrizzazione più appropriata per descrivere i dati. Se poi avessimo os- servazioni su migliaia di anni, sospetto che il processo più adeguato a rappre- sentare l’andamento nel tempo dei tassi di interesse da Hammurabi in avanti sarebbe un I(0), ma non credo che saremo mai nelle condizioni di stabilirlo. È un problema di rappresentazione dei dati: con un test di radice unitaria non stiamo veramente decidendo se il processo è I(1) oppure I(0). Stiamo soltanto decidendo se è più conveniente rappresentare i dati che abbiamo con un processo stazionario o integrato. 3.5. REGRESSIONE SPURIA 77 Se si tentasse di analizzare l’eventuale presenza di relazioni fra xt e yt impostando un modello di regressione lineare, si finirebbe con lo stimare un’equazione del tipo yt = α + βxt + ut. (3.12) A prima vista, si potrebbe pensare che l’assenza di relazioni fra yt e xt comporti 1. che l’indice R2 sia “basso”; 2. che lo stimatore OLS di β converga in probabilità a 0; 3. che un test t di azzeramento di β, perlomeno in grandi campioni, rientri nella banda di accettazione dell’ipotesi nulla data dalle tavole della nor- male standardizzata; detto in parole povere, che la statistica t relativa al coefficiente β sia compresa fra -2 e 2 in 19 casi su 20. Ebbene, nessuna di queste tre cose avviene nel caso in esame; al contrario: 1. l’indice R2 converge in distribuzione ad una variabile casuale non dege- nere; 2. lo stimatore OLS di β converge in distribuzione ad una variabile casuale; 3. un test t di azzeramento di β porta, usando i valori critici della norma- le standardizzata, al rifiuto dell’ipotesi nulla, tanto più frequentemente quanto più grande è il campione (!). È evidente che, sulla base di una regressione così, un ricercatore incauto, il quale non si ponga il problema dell’ordine di integrazione delle variabili, po- trebbe “scoprire” relazioni fra variabili assolutamente inesistenti nella realtà: da qui l’espressione ‘regressione spuria’8. Tabella 3.2: regressione spuria: Esperimento di Monte Carlo Ampiezza campionaria Percentuale di rifiuti 20 47.7% 50 66.4% 100 75.9% 200 83.5% 1000 92.5% 40000 simulazioni per ogni ampiezza campionaria Per capire meglio la cosa, date un’occhiata alla tabella 3.2, in cui è evi- denziato il risultato di un piccolo esperimento di Monte Carlo: ho simulato un sistema uguale a quello presentato dalla (3.11), con E(e2t ) = E(η 2 t ) = 1 per 8Il fenomeno era già stato osservato negli anni Venti. È solo con gli anni Settanta e Ottanta, però, che viene portato all’attenzione generale (per merito di Granger e Newbold) ed analizzato in profondità (per merito di P. C. B. Phillips). 78 CAPITOLO 3. PROCESSI INTEGRATI diverse ampiezze campionarie. Fatta una regressione di yt su una costante e su xt (come quella presentata nella (3.12)), ho calcolato il valore del test t di azzeramento di β confrontandolo poi con il valore critico della t di Student al 95%. Seguendo questa procedura, si arriva ad una percentuale di rifiuti che, come si vede, non solo è abbastanza alta da essere imbarazzante, ma cresce al crescere dell’ampiezza campionaria. Questi risultati, ad un esame più attento, non dovrebbero però sorprendere più di tanto. Per β = 0, infatti, l’espressione (3.12) si riduce a yt = α + ut; se yt è I(1), delle due l’una: o ut è I(0), ma in questo caso l’equazione è contraddittoria, o ut è anch’esso I(1), e allora tutti i teoremi limite vanno a farsi benedire. In altri termini, non c’è un valore di β che renda la (3.12) una descrizione corretta dei dati; il valore β = 0 non è più giusto né più sbagliato che β = 1 o β = −1; il β “vero” non esiste. Un esame dell’equazione, infatti, rivela che che non esiste alcun meccanismo che renda conto della persistenza di yt; di quest’ultima deve — necessariamente — farsi carico il termine di disturbo. In pratica, questo stato di cose diventa evidente osservando che la stima della (3.12) con il metodo OLS scarica tutta la persistenza di yt sui residui ût, che risultano fortemente autocorrelati. Anzi, è possibile dimostrare che, in presenza di questo fenomeno, la statistica Durbin-Watson9 converge in pro- babilità a 0. Dirò di più: una regola rozza ma efficace per segnalare se una regressione è spuria o no è quella di confrontare l’indice R2 col valore della statistica DW. Se il primo è maggiore della seconda, c’è di che insospettir- si (anche se, va detto, questo non va preso come un test a tutti gli effetti; è semplicemente un suggerimento euristico contenuto nell’articolo originale di Granger e Newbold). Ora, se la regressione è uno strumento che può dare risultati fuorvianti se usato con realizzazioni di processi I(1), a cui tipicamente le serie stori- che macroeconomiche somigliano molto, vuol dire che non si può usare la regressione sulle serie storiche macro? Non è detto. Innanzitutto, va detto che una gran parte degli aspetti apparentemente paradossali appena tratteggiati va imputata al fatto che non c’è nessun valore di β compatibile con una corretta descrizione dei dati, come ho detto poco fa. Se avessimo stimato una cosa del tipo yt = α + ϕyt−1 + β0xt + β1xt−1 + ut avremmo avuto che  ϕ̂β̂0 β̂1  p−→  10 0  cioè le stime OLS convergono ai valori ‘veri’ dei parametri. Una corretta spe- cificazione dinamica (una specificazione, cioè, che permetta ai disturbi di so- migliare ad un white noise) è un bel passo avanti. Parleremo meglio di questo 9Ricordo che la statistica Durbin-Watson è una venerabile statistica escogitata nella preistoria dell’econometria per controllare se ci fosse autocorrelazione di ordine 1 nei residui di un OLS. Tale statistica veniva anche, spesso, usata temerariamente come statistica test. Oggi siamo nel ven- tunesimo secolo e abbiamo strumenti più sofisticati per fare meglio la stessa cosa, ma i pacchetti ancora la riportano. 3.5. REGRESSIONE SPURIA 79 risultato, e di altri, nella sezione 4.4. La cosa più importante da dire, però, è che una regressione fra variabili integrate può avere un senso, ed anzi in de- terminate circostanze rappresenta un modo sbrigativo ma efficace di misurare relazioni statistiche a cui è possibile attribuire un significato ben preciso dal punto di vista della teoria economica che sovraintende al modello stimato. Questo accade quando le variabili a destra e a sinistra del segno di uguale sono cointegrate. Cosa sia la cointegrazione, lo vedremo nel capitolo 5. 82 CAPITOLO 4. PROCESSI VAR per k 6= 0, l’elemento ij di Γk rappresenta la covarianza fra l’i-esimo elemento di yt ed il j-esimo elemento di yt−k. La matrice di autocovarianze è definita in modo tale che Γk = Γ′−k e quindi, in generale, Γk 6= Γ−k. Si noti che, per n = 1, queste definizioni coincidono con quelle date in precedenza per processi univariati. Del pari, la definizione di un white noise multivariato è piuttosto semplice: chiamiamo in questo modo un processo et tale per cui E(et) = 0 Γk = E (etet−k) = { Σ per k = 0 0 per k 6= 0 La definizione di white noise multivariato è quindi molto simile a quella di white noise univariato (del resto, la seconda è un caso particolare della prima). Va notato, peraltro, che Σ è una matrice di varianze e covarianze generica, e pertanto simmetrica e semidefinita positiva, ma non necessariamente diago- nale. Di conseguenza, il fatto che un processo multivariato sia un white noise esclude la correlazione fra ogni elemento del processo e la storia passata di tutto il processo, ma non esclude che possa esserci correlazione fra elementi contemporanei. Anche l’operatore L può essere applicato in modo del tutto analogo: Lxt = xt−1 anche nel caso in cui xt sia un vettore. Le cose si fanno più articolate se consideriamo espressioni del tipo xt + Axt−1 = (I + AL)xt dove A è una matrice quadrata. In questo caso l’espressione (I + AL) è un operatore — funzione dell’operatore L — matriciale. Esso può essere visto in due modi equivalenti: Polinomio matriciale L’operatore (I + AL) è la somma di due matrici, ognu- na delle quali “moltiplica” l’operatore L per una potenza diversa. Si può pensare a (I + AL) come ad un polinomio di ordine 1 nell’operatore L in cui il primo coefficiente è la matrice identità ed il secondo è la matrice A. Matrice di polinomi L’operatore (I + AL) è una matrice i cui elementi sono polinomi di ordine 1; ad esempio, l’elemento ij di (I + AL) è δij + aijL, dove δij è il cosiddetto ‘delta di Kronecker’, che è uguale a 1 per i = j e 0 altrimenti. La generalizzazione al caso di polinomi di ordine p dovrebbe essere immedia- ta, così che un’espressione del tipo C(L)xt = C0xt + C1xt−1 + · · ·+ Cpxt−p non dovrebbe destare alcuno stupore. Il fatto di poter interpretare un operatore tipo C(L) come una matrice di polinomi comporta anche che l’inversione di tali operatori segue le normali regole di inversioni di matrici, cosa che può tornare comoda in più di un caso. 4.2. I PROCESSI VAR 83 4.2 I processi VAR I processi VAR costituiscono la generalizzazione multivariata del processi AR. Un processo VAR di ordine p, infatti, può essere scritto in questo modo: A(L)yt = et→ yt = A1yt−1 + · · ·+ Apyt−p + et dove A(L) è un polinomio matriciale di ordine p e et è un white noise vettoria- le. Questi processi fanno parte della più ampia famiglia dei processi VARMA, che hanno una struttura ARMA vettoriale (A(L)yt = C(L)et); questi ultimi, però, sono molto complicati da stimare quando il polinomio C(L) ha un or- dine maggiore di 0, e quindi la stragrande maggioranza delle applicazioni empiriche fa uso dei modelli VAR, che come vedremo possono essere stimati in modo semplice e consistente con gli OLS, piuttosto che dei VARMA. Molte delle considerazioni che abbiamo fatto in precedenza a proposito dei modelli AR si estendono in modo piuttosto banale ai modelli VAR. Il fatto che però in un modello multivariato abbiamo a che fare con dei poli- nomi matriciali anziché scalari impone una serie di considerazioni aggiunti- ve. Tanto per cominciare, possiamo chiederci se è possibile, come nel caso univariato, esprimere un processo VAR in forma di processo a media mobile multivariato (VMA). La risposta è evidentemente legata all’invertibilità dell’o- peratore A(L), il che ci porta a valutare sotto quali condizioni A(L) possieda un’inversa. Nel caso di processi univariati, avevamo visto a suo tempo che bisogna- va vedere se i valori assoluti delle radici di A(L) erano tutte maggiori di 1. Consideriamo allora un VAR di ordine 1: yt = Ayt−1 + et (4.1) In questo caso A(L) = I − AL è un polinomio matriciale di primo grado in L. Poiché yt−1 = Ayt−2 + et−1, posso sostituire questa espressione nella (4.1), ottenendo yt = A2yt−2 + et + Aet−1 dove A2 = A · A; ripetendo questo procedimento n volte si ha yt = An+1yt−n−1 + et + Aet−1 + · · ·+ Anet−n Al crescere di n, il primo addendo ‘scompare’ se limn→∞ An = 0; questo accade se tutti gli autovalori di A (ossia i valori di λ che rendono vera l’espres- sione |A − λI| = 0) sono minori di 1 in valore assoluto1. Si può dimostrare che questa condizione sugli autovalori di A è necessaria e sufficiente perché il processo sia stazionario in covarianza. Essa può anche essere espressa in modo equivalente dicendo che il processo è stazionario se |A(z)| = 0 non ha soluzioni per |z| ≤ 1 (provarlo può essere un buon esercizio)2. In questo caso, 1Si noti il parallelismo con un processo AR(1), in cui la rappresentazione in media mobile è ben definita se |α| < 1. 2Particolare curioso: a differenza del caso univariato, non è detto che invertendo un polinomio matriciale di ordine finito se ne ottenga uno di ordine infinito. Chi vuole fare la prova, consideri 84 CAPITOLO 4. PROCESSI VAR è possibile definire la rappresentazione VMA di yt come: yt = et + Aet−1 + · · · = ∞ ∑ i=0 Aiet−i. Sebbene le condizioni di stazionarietà possano essere derivate in modo abbastanza semplice anche per un VAR di ordine p, in generale lavorare con modelli VAR(p) è molto più noioso dal punto di vista algebrico che farlo con dei VAR(1). Fortunatamente, esiste un modo per scrivere un VAR di ordine p qualunque come un VAR(1), che va sotto il nome di rappresentazione in companion form.3 Consideriamo ad esempio un processo VAR di ordine 3 yt = A1yt−1 + A2yt−2 + A3yt−3 + et Aggiungendo a questa equazione le due identità yt−1 = yt−1 yt−2 = yt−2 otteniamo un sistema di tre equazioni che è possibile scrivere in forma matri- ciale come segue: ytyt−1 yt−2  =  A1 A2 A3I 0 0 0 I 0  yt−1yt−2 yt−3 +  et0 0  (4.2) o, in forma più abbreviata, xt = Ãxt−1 + ηt. L’espressione precedente definisce un VAR(1) in cui il processo autoregressivo vettoriale non è più yt, bensì xt, che risulta dall’accostamento verticale di yt, yt−1 e yt−2. Se A è quadrata di ordine n, la matrice à è quadrata di ordine 3n, e ηt è un white noise multivariato la cui matrice di varianze-covarianze è sì singolare, ma continua ad essere simmetrica e semidefinita positiva. La condizione di stazionarietà, a questo punto, è una condizione imposta sui 3n autovalori di A. La generalizzazione al caso di un VAR di ordine p dovrebbe essere banale: in questo caso la matrice companion è fatta così: à =  A1 A2 · · · Ap I 0 · · · 0 0 I · · · 0 ... ... . . .  , il seguente sistema: yt = θxt−1 + e1,t xt = e2,t. Bizzarro, eh? 3Quando posso, io parlo in italiano, ma qui non ce la faccio. La locuzione ‘forma compagna’, che qualcuno usa, a me evoca barbuti in eskimo che parlano attraverso un megafono. Ma che ne sapete voi, sbarbatelli? 4.2. I PROCESSI VAR 87 Le quantità di nostro interesse sono innanzitutto i suoi autovalori: calcolarli a mano è duretta assai, ma con l’aiuto dei nostri amici elaboratori ci vuole relativamente poco ad appurare che sono pari a λ = [0.80481,−0.27953,0.23736± 0.54705i] Questi possono essere rappresentati graficamente come punti sul piano complesso (vedi fig. 4.1). Si noti che tutti sono compresi all’interno del cerchio unitario, per cui il VAR è stazionario. Figura 4.1: Autovalori della companion matrix Calcoliamo ora le matrici della rappresentazione in media mobile. Le prime potenze della matrice companion sono: Ã0 = I =  1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1  Ã1 = à =  0.8 −0.6 0.1 0.3 0.2 0.2 0.2 −0.2 1 0 0 0 0 1 0 0  Ã2 = à · à =  0.62 −0.3 −0.04 0.36 0.4 −0.28 0.06 0.02 0.8 −0.6 0.1 0.3 0.2 0.2 0.2 −0.2  Ã3 = à · à · à =  0.396 −0.072 0.002 0.24600 0.324 −0.276 −0.016 0.176 0.62 −0.3 −0.04 0.36 0.4 −0.28 0.06 0.02  88 CAPITOLO 4. PROCESSI VAR Vedete? Poiché in basso a sinistra la matrice companion ha una matrice identità, le righe scorrono verso il basso man mano che si itera. Prendendo i rispettivi blocchi 2× 2 in alto a sinistra, otteniamo le matrici della rappresentzione MA: C0 = I C1 = [ 0.8 −0.6 0.2 0.2 ] C2 = [ 0.62 −0.3 0.4 −0.28 ] C3 = [ 0.396 −0.072 0.324 −0.276 ] Dovrebbe essere evidente che questa procedura è il classico caso in cui i conti sono brutti e noiosi da fare a mano, ma molto facili da far fare a un elaboratore. 4.3 Stima dei VAR Comincio dalla fine: i parametri di un VAR si possono stimare in modo con- sistente con una serie di regressioni OLS. Vediamo perché. Un VAR n-variato di ordine p può essere considerato un sistema di n equazioni dalla forma yit = p ∑ j=1 ( ai1jy1t−j + · · ·+ ainjynt−j ) + eit (4.3) Per n = 2 e p = 1, si avrebbe ad esempio y1t = a11y1t−1 + a12y2t−1 + e1t y2t = a21y1t−1 + a22y2t−1 + e2t Il fatto che normalmente p non è noto può essere affrontato con metodi sostanzialmente non differenti da quelli di cui ho parlato nel paragrafo 2.7: in due parole, si fanno dei test preliminari che ci consentono di porre un limite al numero di ritardi necessario perché un VAR riesca a dar conto della persistenza presente nei dati. D’ora in poi, facciamo finta che l’ordine del VAR sia noto. A questo punto, ognuna delle n equazioni che compongono la (4.3) potreb- be essere vista come un modello di regressione dinamica (vedi la discussione alla fine del sottoparagrafo 2.7.3); in questo caso, si può dimostrare che l’ap- plicazione degli OLS produce stime consistenti e asintoticamente normali di tutti i parametri aij. Da un punto di vista econometrico, la stima di un VAR è un’operazione che può essere interpretata come la stima della forma ridotta di un modello ad equazioni simultanee. A differenza di quest’ultimo, però, un VAR non contiene restrizioni di identificazione, in quanto lo scopo di chi stima un VAR (come più in generale di chi usa modelli di analisi delle serie storiche) non è quello di spiegare il perché e il percome delle cose di questo mondo, ma solo di trovare una descrizione statisticamente accurata delle ca- ratteristiche di persistenza di un insieme di serie. È per questo motivo che, al tempo della loro comparsa sulla scena, i modelli VAR vennero etichettati come modelli “a-teorici”. 4.3. STIMA DEI VAR 89 Purtroppo, i sistemi di equazioni simultanee sono considerati irrimediabilmente démodé, per cui non tutti li hanno studiati; vi dò un rapido promemoria. Un sistema di equazioni simultanee si può rap- presentare in due modi: nella forma strutturale il sistema può essere rappresentato come Γyt = Bxt + ut, in cui il vettore yt contiene n variabili endo- gene, il vettore xt contiene k esogene e ut è un vettore di disturbi. Le matrici Γ e B contengono parametri comportamentali, a cui ci piace da- re un’interpretazione economica, e sono quelli che vorremmo poter stimare. Il problema è che i parametri contenuti in queste matrici, però, non si possono stimare consistentemente con gli OLS, ciò che conduce a definire la forma ridotta del sistema: yt = Πxt + wt. Nella forma ridotta, si ha semplicemente Π = Γ−1B e wt = Γ−1ut. A differenza della for- ma strutturale, la forma ridotta si può stimare usando il metodo OLS per ognuna delle equa- zioni del sistema, ma i coefficienti contenuti nella matrice Π non hanno un’interpretazione economica. Una volta però ottenuta una stima consistente di Π (chiamiamola Π̂) potremmo definire in modo implicito degli stimatori con- sistenti di Γ e B (chiamiamoli Γ̂ e B̂) come quelle statistiche che soddisfano la relazione Γ̂Π̂ = B̂. Tuttavia, il numero di elementi della matrice Π è minore del numero di parametri contenuti in Γ e B, e quindi è impossibile definire queste statistiche in modo univoco, a meno che non si pongano dei vincoli sulle matrici Γ e B. Le co- siddette “condizioni di identificazione” non so- no altro che l’imposizione a 0 per un certo nu- mero dei elementi di Γ e B. Ma forse è meglio che vi prendiate un testo (serio) di econometria. L’eventuale presenza di regressori aggiuntivi di norma non costituisce un problema, nella misura in cui può essere fatta ricadere nelle fattispecie coper- te dai teoremi asintotici che riguardano le regressioni dinamiche. È pertanto possibile (e si fa pressoché sempre) aggiungere parti deterministiche che ten- gano conto di alcune caratteristiche dei dati, come ad esempio una costante se le yit hanno media non nulla, o un trend, o variabili dummy per segnalare eventi eccezionali o effetti stagionali. Per quanto riguarda la stima della matrice Σ, anche in questo caso le co- se sono piuttosto agevoli. Infatti, l’applicazione del metodo OLS a tutte le equazioni produce n serie di residui ê1, . . . , ên; si può mostrare che 1 T ê′i êj p−→ Σij e quindi la covarianza campionaria fra i residui è uno stimatore consistente dell’elemento ij della matrice varianze-covarianze di et. Esempio 4.3.1 Prendiamo i dati su reddito e consumo per l’Unione Europea dal pri- mo trimestre 1991 al terzo trimestre 2003 (la fonte è la BCE, i dati sono a prezzi costanti e destagionalizzati). Le serie sono mostrate nella figura 4.2. Passiamo i dati in logaritmo, e decidiamo tanto per fare un esempio che una rap- presentazione statisticamente appropriata dei dati sia un VAR di ordine 1, il cui nucleo deterministico contiene una costante ed un trend4. In pratica, supporremo che i nostri dati siano una realizzazione del seguente processo stocastico:[ ct yt ] = [ µ0c + µ1c · t µ0y + µ1y · t ] + A [ ct−1 yt−1 ] + [ e1t e2t ] , 4Chi sa già queste cose adesso mi salterà alla gola, perché non ho tenuto conto di questo e di quello; in particolare, tutti i problemi di cui ho parlato nel capitolo 3 e di cui mi accingo a parlare nel capitolo 5 sono bellamente ignorati. Risposta: lo so. Mi serve un esempio maneggevole.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved