Scarica Analisi Statistica: Raccolta, Elaborazione e Misure di Dispersione e più Sintesi del corso in PDF di Statistica Per L'impresa solo su Docsity!
STATISTICA
Origini della Statistica
La statistica rimanda al concetto di “Stato”. Essa nasce quando ci si è posti il problema di misurare i fenomeni di carattere sociale. In epoca moderna i primi studiosi di statistica l’hanno intesa come una scienza assiomatica. Tali studiosi sono legati al 1600, che in Spagna è il secolo d’oro. Una questione cara agli spagnoli era la misura del grado di povertà dei poveri -> los aritmeticos politicos si occupavano di conti. La statistica nasce anche come metodo per misurare la ricchezza della popolazione. Essa viene alla luce inizialmente come necessità concreta, ad es. per imporre tasse, poi si è sviluppata come scienza assiomatica. come distinguere un’affermazione scientifica da un’affermazione non scientifica? ad es. quando si può fare una proposizione falsificabile , ossia una proposizione che sotto un profilo logico contiene elementi di contraddittorietà (può essere contemporaneamente A e non A ), allora non si è davanti ad una teoria scientifica; in certe circostanze l’affermazione non deve essere rigettata dai fatti: l’ipotesi alternativa è falsa ad un certo livello di probabilità --> non si può provare che un’ipotesi sia assolutamente vera, ma che l’ipotesi alternativa sia falsa ad un alto livello di probabilità --> fondamento della scienza moderna. probabilità: non c’è una definizione unitaria, ma molteplici accezioni --> una di queste riguarda il rapporto tra casi favorevoli e casi possibili. Il compito della statistica è la misura dei fenomeni per dare la risposta se una teoria è falsa oppure no.
Elementi dell’indagine statistica
C’è un’idea della teoria e dei risultati della teoria.
- prima fase -> raccolta dei dati: bisogna capire quali siano i dati utili e quali siano i dati non utili (i dati non devono essere raccolti “a caso”). Il metodo di raccolta dei dati può essere contestabile.
- seconda fase -> elaborazione dei dati : i dati raccolti vanno analizzati ed elaborati in base a ciò che si vuole ottenere, ma bisogna tenere conto dell’ errore (es. nel prendere le misure si ottengono risultati diversi perché si commettono inevitabilmente errori) --> i dati li conosciamo con errore ed in alcuni casi il suo margine è alto, in altri è basso.
- terza fase -> interpretazione dei dati: è una fase estremamente complessa e delicata perché richiede un ragionamento fatto sui dati.
Indicatori statistici
indicatore statistico: rapporto statistico che sintetizza un determinato fenomeno e che va riferito alla raccolta dei dati. Tanto più l’indicatore statistico è ben costruito, tanto più si può confidare sui risultati che si desidera ottenere. classificazione dei dati: i dati possono essere:
- quantitativi -> possono essere a loro volta organizzati in due modi:
- serie storiche: dati organizzati nel tempo
- dati crossezionali (da “crossection” in inglese): dati riferiti ad un singolo istante di tempo
- qualitativi I dati quantitativi e qualitativi possono avere il medesimo trattamento. indicatori statistici rilevanti: modificazioni fatte sui dati in modo da dare una rappresentazione sintetica di un fenomeno (es. media, percentuale). trappola della percentuale: quando si parla della percentuale ( % ) si presuppone che il campione sia pari a 100 casi perché se non fosse pari a 100 casi, la % oscillerebbe da valori bassi a valori alti e viceversa.
1) NUMERO INDICE
Il numero indice esprime il variare dell’intensità del fenomeno in circostanze diverse. I numeri indice si distinguono in:
- semplici -> rapporto tra due numeri
- complessi -> numeri aggregati che utilizzano medie ponderate per il loro calcolo I numeri indice permettono di dare la visione di un fenomeno, ossia di vedere l’andamento di una variabile nel tempo e nello spazio in maniera intuitiva ed immediata e di vedere i dati in termini percentuali. I numeri indice semplici sono divisi in indici:
- a base fissa -> indicano un mutamento in un periodo
- a base mobile -> indicano un mutamento istante per istante il criterio distintivo è dato dalla natura del problema da trattare costruzione dell’indice a base fissa: es. a) supponiamo di visualizzare un dato economico: il prezzo del pane nel 1600 anno 00 -> 8 soldi anno 01 -> 7 soldi anno 02 -> 16 soldi anno 03 -> 10 soldi
- che cos’è la base? l’anno o il periodo di riferimento
- quale si sceglie? dipende dalle circostanze, il ragionamento è dettato dal buon senso nessuna regola matematica ci dice quale anno di riferimento scegliere, ma la scelta è dettata dal buon senso, dunque si può scegliere qualsiasi anno in base a come si vuole vedere la cosa
- quale base numerica si sceglie? non c’è una regola, ma è consuetudine scegliere il 100 perché è più facile da trattare primo passaggio: anno 00 -> 8 soldi
(spostamento della base nel periodo successivo) numeri indice più utilizzati in campo economico: i più usati sono:
- indice dell’andamento della borsa -> si fissa un anno base e si prende l’andamento medio di tutti i titoli
- indice dei prezzi del consumo
- indice della produzione industriale contrasto tra gli statistici e gli economisti nella ricostruzione dei dati: per avere una serie storica affidabile occorre un campione lungo nel tempo. -problema: ciò va bene per lo statistico cui occorre solo un campione omogeneo, ma non per l’economista -risoluzione del contrasto: riduzione della cadenza temporale -> i dati hanno base annuale o trimestrale, mensile o giornaliera oppure ancora oraria
2) CLASSE
classe: raggruppamento di dati che servono a sintetizzare un fenomeno e a descrivere meglio la realtà --> la classe è un indicatore di sintesi dimensione ottimale delle classi: l’algoritmo ottimale per calcolare le classi non c’è, ma il ragionamento è dettato dal buon senso. Le classi si classificano in:
- continue -> classi in cui il limite superiore di una classe coincide con il limite inferiore di una classe contigua
- discrete calcolo dell’ampiezza delle classi: è dato dal numero degli elementi presenti nelle classi ->
- calcolo della differenza
- aggiunta di + 1 (es. nei numeri da 0 a 9, si fa 9+1)
Momenti di primo ordine
1) MEDIE
medie: misure di sintesi di un insieme di dati -> sono molteplici, si calcolano in maniera diversa ed hanno funzioni diverse. Una prima classificazione distingue le medie in:
- ferme -> prendono in considerazione tutti i dati
- lasche (da “lascare” = rilasciare) -> non prendono in considerazione tutti i dati Un’ulteriore classificazione distingue le medie lasche in:
- moda -> il caso più frequente (corrispondenza tra linguaggio comune e linguaggio scientifico)
- mediana -> valore centrale di una successione ordinata di numeri da calcolare eseguendo un’operazione sulla successione medesima es. di mediana: sia dato un insieme di dati: 2,1,4,6,8 e si trovi il valore centrale. primo passaggio -> ordine dei dati: 1,2,4,6, secondo passaggio -> si ricava il valore centrale: 4
Poiché la successione ordinata di numeri è dispari è facile ricavare il valore centrale perché è il valore nel mezzo della successione es. di mediana: sia dato un insieme di dati: 2,4,1,6,9,8 e si trovi il valore centrale. primo passaggio -> ordine dei dati: 1,2,4,6,8, secondo passaggio -> si ricavano i valori centrali: 4, La successione ordinata di numeri è pari, quindi: terzo passaggio -> semisomma dei valori centrali: (la mediana bipartisce esattamente la successione ordinata di numeri) Teoremi sulle medie:
- primo teorema: la somma degli scarti dalla media è sempre uguale a 0
- secondo teorema: la media è sempre compresa tra il valore minimo ed il valore massimo dei numeri che si intendono sintetizzare es. sia dato un insieme di dati: 2, la loro media è data da: (è un valore compreso tra 2 e 4 --> se fosse inferiore al valore più piccolo o superiore al più grande, la media sarebbe errata) gli scarti dalla media sono: 3-4 = -1 (primo scarto); 3-2 = -1 (secondo scarto) --> 1-1 = 0 Modi di calcolo della media:
- media aritmetica ->
- (^) media ponderata -> media in cui vengono dati pesi diversi ai singoli dati attribuendo a priori più importanza ad un dato rispetto ad un altro (es. media dei voti degli esami universitari in relazione ai CFU) funzione generatrice delle medie: funzione che permette di ricavare le formule delle medie. La media è quel numero che mantiene inalterata la seguente funzione: F(x 1 ,x 2 ,x 3 … x (^) n)= F(M,M,M) N termini La funzione degli elementi singoli è uguale alla funzione delle singole medie degli elementi stessi es. (xr 1 +x r 2 +x r 3 +… x rn ) = (Mr 1 + Mr 2 + M r 3 +… Mrn) --> Σxr^ = NM r primo passaggio --> si ricava Mr: Mr^ = secondo passaggio --> si ricava Mr : -> definizione generale di media ipotesi: si consideri r = 1 M 1 = -> formula della media aritmetica (= formula della media di indice 1) ipotesi: si consideri r = 2 M 2 = -> formula della media quadratica (poco utilizzata) La r forma una gerarchia delle medie. ipotesi: si consideri r = - M-1 = = -> formula della media armonica (formula della media di indice -1) es. sia dato un insieme di dati: 4, la loro media aritmetica è data da: la loro media armonica è data da: (rapporto tra numero dei dati e la sommatoria dell’inverso dei dati) La media aritmetica e la media armonica non coincidono anche se i dati sono uguali.
si tratta delle medie mobili: medie utilizzate quando si trattano le serie temporali, ossia le serie di dati nel tempo. L’utilizzo pratico delle medie mobili si ha nei fenomeni di stagionalità in cui i dati mutano (in un linguaggio tecnico: sono viziati) per questioni stagionali (es. dati della vendita dei costumi da bagno)
Momenti di secondo ordine
1) MISURE DI DISPERSIONE
misure di dispersione: misure che vengono affiancate alla media quando essa non è sufficiente per dare la descrizione di un fenomeno --> sono medie con un altro indice e derivanti da altre medie. La prima misura di dispersione semplice e relativamente utile è il campo di variazione (ingl. range ), ossia la differenza tra il dato massimo e il dato minimo. es. data la profondità di un fiume di 5 m nel punto A, 6 m nel punto B, 8 m nel punto C, 1 m nel punto D, si calcoli il campo di variazione (o range). Il campo di variazione è dato dalla differenza tra valore massimo e valore minimo della profondità: (8-1) m = 7 m (dislivello tra punto di profondità massimo e punto di profondità minimo) Il campo di variazione dà l’idea dell’oscillazione dei dati e non si calcola come una media. L’unità di misura del campo di variazione è la stessa dei dati che vengono manipolati. In un sistema di assi cartesiani ( grafico B ) la distanza di un dato dalla media (rappresentata dalla retta) indica quanto un dato si discosta dalla media (in un linguaggio tecnico: scarta rispetto alla media). es. sia dato un insieme di dati: 2,4,6, primo passaggio --> media aritmetica dei dati: secondo passaggio --> scarti dei dati dalla media (media - dato): 5-2 = 3 (primo scarto); 5-6 = -1 (secondo scarto); 5-8 = -3 (terzo scarto); 5- = 1 (quarto scarto) terzo passaggio --> manipolazione degli scarti per ricavare il movimento degli scarti attorno alla media : è una media di secondo ordine perché si fa una media tra gli scarti. Tuttavia, per il teorema degli scarti, la somma degli scarti dalla media è sempre uguale a 0. Ci sono, però, eccezioni al teorema.
- primo modo per calcolare la media -> si prendono gli scarti dalla media in valore assoluto, ossia togliendo il segno davanti: l 3 l + l 1 l
- l 3 l + l 1 l = 8 -> scarto semplice medio (SSM) questa misura non è utilizzata perché dal valore assoluto non si riesce a capire l’unità di misura in cui espressa
- (^) secondo modo per calcolare la media -> si prendono gli scarti dalla media e si elevano al quadrato in modo da far sparire il segno (qualsiasi numero elevato al quadrato dà come risultato un numero positivo): (3)^2 (-1)^2 (-3)^2 (1) 2 = 9 1 9 1 la media degli scarti elevata al quadrato è data da: -> varianza (σ 2 ) -
seconda misura di dispersione
problemi legati all’uso della varianza: la varianza è espressa in dati elevati al quadrato. Riguardo a una grandezza lineare (es. metri, nodi) si crea un problema di unità di misura perché si ha una misura di superficie --> nei casi in cui si vogliono parametrizzare , ossia rapportare, le varianze rispetto ad una media si avrà una media di dati lineare ed una media di dati di superficie che non sono tra loro confrontabili. risoluzione: ci sarà una terza misura di dispersione -> standard error (SE) , ossia la radice quadrata della varianza (). E’ la misura di dispersione più utilizzata in statistica perché facilmente parametrizzabile sulla media. coefficiente di variazione (CV): -> misura di dispersione sintetica che descrive bene fenomeni indipendentemente dalla loro unità di misura in quanto si tratta di un numero puro -> quarta misura di dispersione
2) MISURE DI CONCENTRAZIONE
misure di concentrazione: misure usate in statistica ed in economia che permettono di visualizzare come un fenomeno si concentra. Uno strumento semplice è l’ indice di Gini. differenza media: misura di come un dato differisce dagli altri dati del sistema. es. sia dato un insieme di dati: 2,4,8. Come si differenzia ciascun dato da tutti gli altri (ossia come si differenzia 2 da 4 ed 8; 4 da 2 ed 8; 8 da 4 e 2)? Un ramo della matematica, l’ algebra lineare , studia gli spazi lineari, le equazioni lineari, i vettori e gli spazi vettoriali ed utilizza le matrici. E’ una scienza nata prima di capire la sua utilità: all’inizio serviva per risolvere equazioni lineari ed è alla base della geometria. Bisogna disporre i numeri per righe e per colonne, quindi: 2 4 8 2 4 8 Organizzando i numeri per righe e per colonne si forma una matrice. Se il numero delle colonne è uguale a quello delle righe si ha una matrice quadrata. Se il numero delle colonne è diverso da quello delle righe si ha una matrice rettangolare Per definizione, la diagonale di una matrice che va dall’angolo in alto a sinistra all’angolo in basso a destra è detta diagonale principale.
es.
moltiplicando una matrice quadrata per un’altra che è l’inverso dei numeri della prima si ottiene la matrice unitaria (si ottiene sempre 1)
es.
Con la matrice si ottiene quanto un numero differisce dagli altri e da sé stesso.
∆s = = 6,
indice di Gini:
I due indici di Gini (0,426 e 0,713) sono diversi, quindi c’è stata una ridistribuzione della ricchezza --> effettuando una politica economica di ridistribuzione del reddito si può vedere se essa realizza una ridistribuzione della ricchezza. L’indice di Gini è utilizzato nella storia economica.
Serie temporale
Serie temporale: organizzazione di dati nel tempo con una cadenza precisa. I dati nel tempo possono essere:
- qualitativi -> le variabili qualitative assumono valore 0 quando il fenomeno non c’è, valore 1 quando il fenomeno c’è --> variabile dati (dummy) sono variabili numeriche
- quantitativi c ome può essere la cadenza? es. trimestrale, ma non tutti i dati sono raccolti con questa cadenza, annuale, reale (es. dati finanziari). perché si cerca di raccogliere i dati in cadenza ravvicinata? più il campione è ampio, più la serie storica è ampia. I dati possono essere rilevati:
- direttamente -> es. misura del tasso di cambio €/$
- indirettamente -> es. serie storica sulle scorte (o discrepanze statistiche) delle imprese quale modello ha generato la serie dei dati? es. lo stock di capitale iniziale ha problemi ad essere rilevato: ci sono diversi fattori che rendono difficile la rilevabilità e che variano nel tempo. I dati nel tempo si muovono: il movimento dei dati nel tempo ha interessato gli statisti perché si sono chiesti se ciò sia possibile ( grafico B ) Bisogna stare attenti a trarre conclusioni senza specificare il periodo di osservazione e le motivazioni per le quali si è deciso di limitare un fenomeno in un certo periodo, detto periodo campione ( grafico C ) La semplice osservazione ci dà un suggerimento sul movimento della variabile nel tempo. Per convenzione tali movimenti sono classificabili in quattro tipologie:
- movimento ciclico -> movimento in cui le oscillazioni della variabile si ripetono sistematicamente anche se è possibile che abbiano ampiezze ed intensità diverse
- movimento trend -> tendenza di una variabile a muoversi sistematicamente nel tempo (c’è coincidenza tra il linguaggio comune perché il termine “trendy” indica una moda)
- stagionalità -> ripetizione di un fenomeno sistematicamente nel tempo con cadenza fissa (es. vendita dei costumi da bagno, il cui andamento è stagionale)
- casualità/occasionalità -> verificarsi di un fenomeno in un’occasione particolare. Gli statisti hanno individuato delle leggi all’interno del movimento delle serie temporali per capire il movimento stesso: ciò per vedere se c’è in una serie un “rumore tipico” di quella variabile. Lo studio dell’andamento nel tempo di una variabile ha utilità pratica.
1) movimento ciclico - il ciclo
ciclo : movimento in cui le oscillazioni della variabile si ripetono sistematicamente, pur essendo possibile che abbiano ampiezze ed intensità diverse. in un ciclo si può misurare:
- altezza
- ampiezza ( grafico D ) Si distinguono tre tipi di cicli:
- natura convergente
- natura divergente o esplosiva
- natura costante ( grafico E ) Il ciclo è caratterizzato da:
- fase ascendente
- fase discendente il punto in cui il ciclo passa dalla fase ascendente alla fase discendente e viceversa è detto punto di svolta. Lo studio del ciclo è stata una delle prime analisi empiriche degli economisti. Già nell’800 gli economisti hanno iniziato a studiarlo in relazione al ciclo economico ed erano interessati, ad es., alle oscillazioni dei prezzi dei prodotti agricoli nel tempo che fanno di conseguenza oscillare i redditi degli agricoltori. Il primo ciclo studiato dagli economisti è il ciclo della produzione dei maiali : gli economisti hanno osservato i casi in cui i prezzi del maiale oscillavano bruscamente, casi in cui erano costanti, casi in cui oscillavano costantemente. ( grafico F ) Il prezzo del maiale oggi determina la domanda, ma l’offerta del maiale è data dal prezzo ieri perché per “fare” un maiale occorre tempo --> domanda ed offerta si muovono con dei ritardi Quindi se il prezzo del maiale è troppo basso c’è un eccesso di domanda --> i contadini decidono di “fare” i maiali abbandonando la produzione di altri animali --> eccesso di offerta --> il prezzo del maiale scende --> si smette di “fare” i maiali e si comincia a produrre altri animali --> fenomeno ragnatela Un ciclo può ripetersi continuamente all’infinito. capacità previsiva del ciclo: ipotesi dell’andamento di una variabile fuori dal periodo campione
- metodo delle variabili dummies
- metodo che permette di eliminare gli effetti della stagionalità -> filtro della serie storica. come destagionalizzare? ci sono vari sistemi:
- applicazione delle medie mobili es. 2009 -> I trim. 9; II trim. 10; III trim. 12; IV trim. 18 2010 -> I trim. 5; II trim. 4; III trim. 3; IV trim. 12 2011 -> I trim. 3; II trim. 2; III trim. 1; IV trim. 8 questi sono i dati grezzi questi dati vengono trasformati togliendo l’effetto della stagionalità e “spalmati” su tutti i dati. Nell’es. primo passaggio -> si prendono i primi 4 dati del 2009, si fa la media e si crea una nuova serie storica: (dato con cui inizia la nuova serie storica) Si fa “pesare di meno” il dato del IV trim. secondo passaggio -> si prendono 10,12,18,5 e si fa la media:
terzo passaggio -> si prendono 12,18,5,4 e si fa la media: … e così via La serie storica nuova (12,25; 11,25; 9,75 etc…) elimina il picco della stagionalità e la ripartisce su tutto l’anno. svantaggi: si basa su dati non veri, ma inventati --> bisogna specificare il criterio di destagionalizzazione per fare un ragionamento scientifico
- utilizzo delle medie ponderate -> il peso viene dato in base al ragionamento di buon senso (i primi due metodi sono i più utilizzati)
- utilizzo delle variabili dummies -> si possono creare variabili che assumono valore 0 quando il fenomeno non c’è, valore 1 quando il fenomeno c’è; sono usate per introdurre e studiare gli effetti delle variabili qualitative
4) movimento casuale/occasionale
movimento casuale/occasionale: si ha quando un fenomeno si verifica casualmente, cioè in maniera non sistematica. es. n° delle ore di lavoro in uno stabilimento ( grafico N ). Da cosa è determinato il dato anomalo? da un evento casuale (non ci sono certezze per prevedere un evento casuale) sistemi di trattamento dei fenomeni occasionali: la trattazione avviene ex post, ossia dopo il loro verificarsi.
- riferimento alla stagionalità
- utilizzo delle medie ponderate (si dà un peso molto basso al dato anomalo)
- si dà valore 1 alla variabile nel caso in cui si verifica il fenomeno casuale, valore 0 nel caso in cui non si verifica
Le teorie
come si prova che una teoria è vera oppure falsa: non si può provare che una teoria sia vera, ma si può provare che l’ipotesi alternativa è falsa ad un certo livello di probabilità attraverso un esperimento. primo passaggio -> formulazione della teoria: bisogna formulare una teoria falsificabile e verificarla con un ragionamento scientifico: es. “gli incidenti stradali sono provocati dall’alta velocità” -> non si può fare un esperimento perché avrebbe un costo per il quale esso non sarebbe fattibile non bisogna violare il principio di non contraddizione (la proposizione non può essere contemporaneamente A e non A ), ma occorre controllare la coerenza interna della teoria distinguendo una causa ed un effetto. I = a + a 1 V -> gli incidenti sono una funzione lineare di V: se si conoscono a e a 1 , quindi si dovrebbero conoscere I. Ciò non è così perché occorre considerare un margine di errore (U) in quanto ci possono essere altre cause. L’equazione, dunque, diventa: I = a + a 1 V + U Se a 1 = 0, allora la teoria è falsa. Bisogna capire se i parametri tenuti in considerazione siano significativi. secondo passaggio -> stabilire se la teoria sia vera o falsa: bisogna supporre che I = a + a 1 V e che negli ultimi anni siano avvenuti una serie di incidenti in cui V sia stata rilevata --> si hanno dati veri rilevati statisticamente es. 1970-2000 -> 2300 incidenti con V nota. Conoscendo V, a e a 1 è possibile ricostruire il n° degli incidenti. es. a = 5; a 1 = 0,8; V = 100 km/h --> 5 + 0,8 x 100 = 85 terzo passaggio -> confronto dei dati della realtà con il risultato della teoria: conoscendo a e a 1 e trovando I, la teoria genererà una serie di dati nuovi, i quali vanno confrontati con quelli reali. problemi:
- non si conoscono a e a 1 , ma sono soltanto supposizioni che generano dati riferiti al passato es. data la teoria “consumo = f lineare(reddito)”, come si prova che è vera? si ha il reddito dal 1970 al 2011, quindi: C (^) t 1970 = x 1 R (^) t 1970 = y (^1) C (^) t 1971 = x 2 etc… R (^) t 1971 = y 2 etc… I dati della serie storica ottenuta (C e R) assumono che a e a 1 siano costanti problema: a e a 1 non sono veri, ma con qualche metodo statistico è possibile ottenere una supposizione sul loro valore numerico (â e â 1 ). Se si ottiene una stima di a e a 1 (â e â 1 ) e si conosce R vero, C è un valore stimato (Ĉ): â e â 1 , R vero --> Ĉ La serie dei risultati generata è dunque stimata. Es. con â = 10 e â 1 = 0,8 ed R (^) t = 100, Ĉ (^) t = 10 + 0,8 x 100 = 90 (consumo che la teoria predice, ma per il passato perché R è quello passato); con â = 10 e â 1 = 0,8 ed R (^) t = 110, Ĉ (^) t = 10 + 0,8 x 110 = 98
Gli OLSQ consistono nel calcolare una retta ( retta di regressione ) che minimizza il quadrato degli scarti dalla retta, cioè nel far passare una retta tra le variabili nel tempo tale per cui renda minima la distanza della retta da ogni singola osservazione ( grafico P ). Essi permettono di stimare un ipotesi su Ĉ, che, confrontato con C storico, permette di avere C vero. La retta di regressione permette di verificare la teoria sottoponendola a verifica empirica. N.B. a e a 1 non sono veri, ma sono valori stimati. La stima ha un margine di errore --> Ĉ è stimato con un margine di errore. Quando i gradi di libertà sono inferiori a 20, allora maggiore è il margine di errore. Per convenzione statistica si vuole che la teoria sia verificata e non rigettata dai dati al 95/99 %. distribuzione della variabilità di errore: gli errori si influenzano tra loro.
- correlazione -> implica l’associazione statistica delle due variabili. Quando la variabile x è correlata con la variabile y, ciò significa che x e y si muovono insieme, dunque che il loro andamento è congiunto. Ciò non implica causalità tra i due fenomeni. es. da un muro esce una carriola spinta da un uomo. Si correlano le uscite della carriola con le uscite dell’uomo. La carriola causa il movimento dell’uomo o viceversa? non si può dire perché la correlazione implica semplicemente compresenza di due fenomeni. La correlazione statistica si basa sulla misura dell’errore, ma ciò non toglie che sia utile.
- Tutti gli indicatori statistici sono basati su una manipolazione algebrica dell’errore di stima: bisogna trovare un indicatore che misuri la validità della teoria (es. Ct = a + a 1 Y (^) t ). Il più utile indicatore statistico è il coefficiente di correlazione lineare (R o R 2 ) : esso misura la variabilità spiegata sulla variabilità totale della variabile in questione ed è compresa tra 0 e 1 --> R^2 = 0 ‹ R^2 ‹ 1 R^2 deriva, infatti, da una manipolazione algebrica della differenza tra valore stimato e valore reale che genera un errore di stima --> R 2 è misurato con errore es. data la teoria Ĉ = a + a 1 Y, si costruisca la teoria Ĉ = â + â 1 Y e si confronti Ĉ con C vero. Si otterrà U = C - Ĉ. Manipolando il residuo, si ottiene un indicatore statistico che dà la bontà della stima. es. R^2 = 0,78 -> il 78 % dei movimenti della variabile “vendita del panettone” è spiegato dalla pubblicità --> più il coefficiente è vicino ad 1, più c’è forte correlazione tra le variabili e più la “bontà” della stima è elevata. es. si immagini di avere due teorie, A e B. Le due teorie devono essere analizzate con il medesimo trattamento (ceteris paribus). Si guardi il coefficiente di correlazione lineare e si concluda che più è alto il coefficiente di correlazione lineare, più la stima è buona. La teoria si verifica sul passato: il modello viene testato sui dati del passato. problema di R 2 :
- se la correlazione tra le due variabili non fosse lineare, il coefficiente sarebbe R^2 = 0 pur essendoci causalità tra le due variabili e ciò non serve.
- quando si effettua una misurazione, non si conosce mai l’esatta misura, ma, misurando più volte, le misure saranno diverse per una serie di fattori --> i dati veri sono misurati con errore perché tutte le misure hanno un errore. E’ meglio che R^2 venga usato corretto con i gradi di libertà. Per i gradi di libertà una regola matematica dice che più aggiungo variabili esplicative, più R^2 cresce per definizione e matematicamente, ma ciò non significa che la stima è più buona, ma che le variabili esplicative sono aumentate. problema: se si viola la regola del ceteris paribus? ad es. se si aggiungono variabili esplicative R 2 sarà più alto --> confronto con R 2 corretti che eliminano questi problemi e per l’analisi di teorie poste su piani diversi. effetto dei dati misurati con errore: anche U è misurato con errore. Se l’errore è distribuito simmetricamente attorno al valore medio, la problematica dell’errore non ha effetti così devastanti, in caso contrario esso costituirebbe un problema. Probabilità: numero degli eventi favorevoli sugli eventi possibili -> C’è però un problema nella definizione: bisogna fare un esperimento a priori Ci può essere:
- concetto di probabilità legato alla conoscenza di un fenomeno (es. vedendo un fulmine, si può pensare che esso sia seguito da un colpo di tuono)
- probabilità soggettiva: l’agente assegna all’evento la probabilità che esso si verifichi (es. “domani c’è il sole” perché è da una settimana che c’è il sole)
- causa-effetto: ad una causa è associato probabilmente un effetto. Quando n° dei casi è elevato, tutti i fenomeni sono distribuiti lungo la Campana di Gauss ( grafico Q ). Ciò vuol dire che quando il campione è molto ampio le probabilità di commettere più o meno errori sono simmetriche. Dunque tutti i fenomeni del mondo sono inseriti lungo la Campana di Gauss se il fenomeno è ampio. problema: il campione deve avere almeno 20 osservazioni, però non sono sufficienti per muoversi lungo la Curva di Gauss, che ne richiede almeno 100. es. 9,10,11 --> 9 ed 11 hanno la stessa probabilità di avvicinarsi a 10 BIAS (o distorsione): se il campione è diverso da 100 o qualche fenomeno storta la distribuzione, ciò significa che le probabilità non sono simmetriche ( grafico R ) Esistono tecniche statistiche che consentono di osservare il problema della distorsione: es. a = 100 -> â (100 può essere ad es. 110,90 perché è misurato con errore) a 1 = 0,8 -> â (0,8 può essere ad es. 0,75 oppure 0,815 perché è misurato con errore)
- ci sono eventi prevedibili ed altri difficilmente prevedibili (non c’è sicurezza sui dati perché alcuni sono attendibili, altri no)
- se si confrontano i dati della teoria formulata con i dati del passato, ma si deve pensare al futuro, bisogna pensare che può cambiare la struttura --> come si prevede il futuro? si assume passato = futuro (es. per sapere il C domani, bisogna sapere quanto Y aumenta oppure costruire un nuovo modello) variabili esogene: variabili spiegate non all’interno del modello --> problema in fase di previsione Per prevedere una variabile esogena si può:
- usare un modello che la preveda
- usare tecniche previsive -> quali sono? sono basate sulla storia passata dell’esogena stessa che viene studiata e manipolata quando ci sono tecniche matematiche e si estrapola quello che è il cd. rumore della variabile al di là dei fenomeni casuali
- filtri spettrali
- metodi autoregressivi In altre parole si prendono i dati della variabile nel tempo, si fanno passare dentro un filtro matematico e si ottiene il rumore della variabile per cui si è in grado di conoscere il coefficiente di previsione e lo si proietta nel futuro --
questa è l’ equazione di La Place , che può funzionare o no e che si usa per formulare previsioni in assenza di un modello. L’equazione è utile per l’analisi dei fenomeni fisici, meccanici etc… comunque fenomeni con grande ripetitività. Queste tecniche sono impotenti di fronte al caso e all’andamento casuale dei fenomeni (cd. cammino dell’ubriaco ) Se R^2 dà la bontà dell’intero modello, la bontà dei singoli coefficienti è data dal test di Student, che si calcola considerando il coefficiente stimato, diviso per SE. Se il risultato è maggiore di 2, allora quel coefficiente ha il 95%-99% di essere significativamente diverso da 0, quindi di essere buono. In conclusione, si può dire che un teoria si verifica ad un certo livello di probabilità. i modelli econometrici permettono di fare passi avanti nella conoscenza dei fenomeni? Per la previsione di eventi nel breve periodo sì, no per la previsione di eventi nel lungo periodo --> se ci si spinge nel breve periodo, allora le previsioni saranno attendibili; non attendibili nel lungo periodo (si tengano presenti anche le numerose variabili esogene).