









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
bla bla bla forfooprfjopdporefprmfropeidweopdie
Tipologia: Appunti
1 / 17
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










Definizione di econometria: l’econometria è uno strumento di analisi attraverso il quale si studia il modo migliore per “stimare” parametri economici sulla base dei dati numerici a disposizione. Per dirlo diversamente: l’econometria studia come combinare teoria e dati di natura economica, aziendale o provenienti da altre scienze sociali, utilizzando strumenti statistici, per rispondere a domande quantitative, del tipo “di quanto varia… al variare di…?” Es. ATM deve cambiare prezzo per i biglietti della metro… Di quanto aumentare il prezzo? Elasticità della domanda al prezzo : esprime la reattività della quantità domandata rispetto alle variazioni di prezzo. Regressione lineare semplice e multipla : metodo matematico per quantificare quanto la variazione di una variabile influenzi un’altra variabile lasciando invariato (ovvero tenendo costante) tutto il resto. 7/10/ Tipologia di dati: i dati possono rientrare in categorie differenti e possono essere raccolti a livelli di aggregazioni differenti: a livello micro e a livello macro. Micro: dati raccolti per unità economiche individuali (persone, famiglie, imprese) Macro: dati derivanti dall’unione o dall’aggregazione fra individui, famiglie o imprese, a livello locale o regionale o sub-nazionale o nazionale. I dati possono essere inoltre di flusso o di stock: -Flusso: una grandezza che si riferisce ad un periodo di tempo (per esempio il PIL dell’Italia nel 2010) -Stock: una grandezza che può essere misurata in un particolare periodo di tempo. (da completare) Inoltre, i dati possono essere di natura qualitativa e quantitativa. Qualitativi: grandezze che si riferiscono ad una scelta operata fra un numero discreto di alternative (per esempio il genere di un individuo) Quantitativi: grandezze che possono essere espresse in termini numerici (es. prezzi reali) 3 Differenti categorie di variabili: Nominale, Ordinale, Cardinale Es. Variabile nominale: Genere (variabile binaria); Credo religioso (variabile non binaria): 1: cattolico; 2= protestante; 3= musulmano
Es. Variabile ordinale: Livello di istruzione (variabile discreta): 1=scuole elementari; 2= scuola superiore; 3= università; 4=dottorato dietro questo ordine ci sono capacità diverse quindi le mie categorie individuano soggetti che possono essere differenziati. Es. Variabili cardinali: Età (variabile discreta), altezza (variabile continua), rapporto studenti/insegnanti (variabile continua). Queste variabili sono numeri scalari. Variabili nominali derivano da un’operazione di classificazione degli stati della proprietà, delle caratteristiche osservate. I numeri associati non hanno un significato numerico, ma sono solo denominazioni. Es. Genere: 1= maschio; 2= femmina Variabili ordinali derivano da un’operazione di ordinamento degli stati della proprietà, delle caratteristiche osservate. I numeri associati conservano le proprietà ordinali dei numeri. Es. Gradimento: 1= molto soddisfatto; 2= poco soddisfatto [..] Le relazioni che si possono analizzare tra le modalità (declinazioni osservate) di una variabile ordinale, oltre a relazioni di eguaglianza o di disuguaglianza sono anche relazioni di ordine, maggiore o minore. Variabili cardinali derivano da un’operazione di misurazione (o conteggio) degli stati della proprietà, delle caratteristiche osservate. I numeri associati sono associati al loro significato numerico. Le relazioni che si possono analizzare tra le modalità (declinazioni osservate) di una variabile cardinale, oltre a relazioni di eguaglianza o di disuguaglianza, relazioni di ordine, sono anche tutte le operazioni che si possono svolgere con le 4 operazioni matematiche. Sia i dati sperimentali che quelli non sperimentali si dividono in 3 principali:
Frequenza cumulata come somma di frequenze corrispondenti ad un valore e a quelle inferiori 8/10/ Grafico a barre rappresentazione grafica che sintetizza le informazioni di una tabella di frequenza. La composizione delle famiglie è una variabile nominale. Bell- shaped Distribution is called also “normal distribution” and is the most desirable distribution due to its own characteristics. La campana è simmetrica rispetto al centro, laddove nel centro mi aspetto di trovare il valore medio, la media e la moda. Il centro di questa distribuzione casca perfettamente con questi valori di tendenza centrale. Empirical Rule guarda slide 3 indici di tendenza centrale:
Ordinare la nostra serie di dati, in caso contrario non si riesce a calcolare La mediana divide in due il campione ordinato in maniera crescente (o decrescente)Ordinare le modalità Osservazioni cumulate e frequenza cumulata (guarda slide) Valore medio non posso calcolarlo se si tratta di variabili qualitative Es. NON posso fare 153x Centro-sinistra Perché 3 misure di tendenza centrale? è perché la media è la più sensibile alla presenza degli outlier The pth percentile Box plot rappresentazione grafica The box contains the central 50% of the distribution. For a symmetric distribution, the box plot is also symmetric. Nel caso in cui si presenti asimmetria le misure di tendenza centrale non coincidono! Come faccio ad identificare gli outlier? C’è una regola Q1- (IQR x 1.5) lower boundary (potential outliers are below)
Lo scattogramma è descrittivo, non possono trarre alcuna conseguenza rispetto alla relazione di causalità tra due variabili. Indice di Pearson ( valore compreso tra -1; +1; 0 ) valori negativi indicano una correlazione di tipo negativa (al variare di una variabile l’altra si muove in senso opposto) e valori positivi indicano una correlazione di tipo positiva. (al variare di una variabile l’altra variabile si muove nella stessa direzione). 15/10/ Ed una volta calcolato il valore del coefficiente di correlazione? Test di significatività (es. t-test) fatto sull’ipotesi nulla di assenza di correlazione versus l’ipotesi alternativa di presenza di correlazione. Indice statisticamente significativo valore trovato per puro caso oppure ha una validità che va oltre al campione che sto esaminando, quindi è estendibile a tutti i casi? Ipotesi nulla tale per cui il valore che sto testando sia pari a 0. Effetto nullo. Correlazione=0. Ipotesi alternativa presenza di qualche effetto. Correlazione diversa da 0. Vedremo come leggere p-value. P-value : un numero unico con il quale è possibile decidere se accettare, o meno, un’ipotesi nulla, qualsiasi sia il livello di significatività fissato. Si tratta di un livello minimo Alfa per rifiutare l’ipotesi nulla (data l’ipotesi nulla vera). Se il p-value risulta più piccolo del livello Alfa prescelto, allora si rifiuta l’ipotesi nulla. Premessa incertezza dei risultati
Percentuali condizionate di riga e di colonna guarda grafico del rapporto tra felicità e reddito.
Tabella di contingenza (tabella a doppia entrata): è una tabella nella quale sulle righe si dispone una variabile e sulle colonne si dispone un’altra variabile. Vengono utilizzate per verificare l’esistenza o meno di una relazione tra le due variabili. Le celle, che definiscono l’intersezione di righe e colonne, riportano le modalità delle variabili. (numero di osservazioni che si registrano per ogni combinazione di caratteristiche. Se il campione è sufficientemente grande (n>100), è possibile utilizzare le tabelle di contingenza per comprendere se due fenomeni sono indipendenti (o meno) e verificare il test statistico chi quadrato (x^2). Passi per il test statistico del chi-quadrato (x^2)
Retta di regressione. Due rette di regressione (una verde e una rossa) ma qual è la differenza tra le due? La pendenza, l’intercetta sull’asse delle Y ma soprattutto la distanza tra i nostri punti reali. La retta rossa sta minimizzando gli errori, la verde minimizza gli errori ma con un impatto inferiore. I miei errori sono più grandi. dietro questa procedura c’è il metodo OLS. Stimare i parametri Beta 0 e Beta1 al fine di minimizzare i nostri errori. Quindi voglio che la mia retta sia la migliore possibile, proprio per minimizzare gli errori. Come trovo i valori stimati dei parametri ignoti? Devo trovare la retta che meglio interpoli i punti che rappresentano i dati osservati.
Dunque, lo stimatore OLS sceglie i coefficienti di regressione in modo tale che la retta di regressione stimata sia il più possibile vicina ai dati osservati, dove la vicinanza è misurata dalla somma dei quadrati degli errori commessi nel predire Y utilizzando l’informazione X. Retta di regressione campionaria. Stimatori OLS, valori predetti e residui formule da imparare!!! Perché uno stimatore è migliore di un altro? Caratteristiche desiderabili:
Assunzione dei minimi quadrati n. Gli outlier sono rari Un outlier è un valore estremo di Xi o Yi, osservazioni molto lontane dalla maggior parte dove si distribuiscono i dati (esempio grafico di seguito) A livello tecnico, se Xi e Yi sono limitate, allora hanno momenti quarti finiti, cioè hanno la curtosi finita (dove la curtosi indica quanto della varianza di Y- o di X – deriva dai valori estremi). La sostanza di questa assunzione è che un outlier può influenzare fortemente i risultati, perciò dobbiamo escludere i valori estremi. Quale misura di tendenza centrale non è resistente alla presenza di outliers? La media!
Verifica delle ipotesi: prevede 5 passi è volta a comprendere se il nostro coefficiente stimato è statisticamente diverso da 0. Per poterlo fare dobbiamo definire l’ipotesi nulla e l’ipotesi alternativa.
Statistica T=T act = (stimatore- valore ipotizzato nella H0) / errore standard dello stimatore Obiettivo: di definire le regioni di rifiuto o meno. L’insieme dei valori della statistica t per i quali il test rifiuta l’ipotesi nulla si definisce regione di rifiuto. α) probabilità prefissata di rifiutare l’ipotesi nulla, quando questa è vera. Errore di tipo I è una cosa sbagliata e voglio farlo con la minore probabilità possibile- α) generalmente è pari a 0,01- 1% oppure 0,05-5%, oppure 0,10-10% 1-α) è la probabilità prefissata di fare bene. Tutti i valori che sono sopra il 10% di probabilità di sbagliare non li prendo. Per N ∞ (e maggiore di 120) i valori critici (T crit) corrispondenti a diversi livelli di significatività (α)) e tali per cui l’ipotesi nulla passa dalla regione di “non rifiuto” alla regione di “rifiuto” sono: T crit =1,64 α) = 0,10 (10%) T crit= 1,96 α) = 0,05 (5%) T crit= 2,58 α) = 0,01 (1%) P-Value a differenza della statistica T (che volevo il più grande possibile), lo voglio il più piccolo possibile. Un valore piccolo di p-value significa che i dati osservati dovrebbero essere considerati come insoliti se H0 fosse vera. Quanto più piccolo è p-value, tanto più forte è l’evidenza statistica contro H0 (e si accetta l’alternativa). Es. P= 0,078 è più piccolo di 0,1. Quindi c’è già un segnale di significatività. Devo vedere a quale categoria appartiene. 0,078 sta tra 0,05 e 0,1 evidenza sfavorevole all’ipotesi nulla quindi rifiuto con un livello di significatività del 10%. N.B. T statistica la voglio più grande possibile P-value la voglio più piccolo possibile. Per indicare la significatività di un coefficiente basandosi sul p-value generalmente si indica con il metodo della stellina * Sia con il t critico che con il P value arriviamo allo stesso risultato stesso numero di stelle * Perché si verifica mancanza di significatività
Variabili dummy: trasformazioni quantitative della nostra variabile qualitativa. Le variabili dummy possono essere di tre tipologie:
sempre aggiustare l’eteroschedasticità. Es. erogazione del mutuo: ci sono discriminazioni razziali tra “black” e “non black”. Ma attenzione alle variabili omesse. 2 modelli nella definizione dei modelli non lineari: Logic e Probit. Funzione di ripartizione, ha una forma non lineare, es. probabilità che il tempo di percorrenza sia minore o uguale a 15 min. Questa funzione serve per fare la rappresentazione grafica del modello Logic e Probit. Calcolare una sorta di Z score che mi consentirà di calcolare la probabilità legata ad un determinato valori di X. Per trovare la soluzione di un modello Probit dovrei avere a disposizione le tavole di funzione di ripartizione normale standard). Effetti marginali: modo sofisticato di dire che β^ è la variazione di y sulla variazione di x tenendo costante tutto il resto. Domanda: un aumento della vostra variabile X fa aumentare del 5,6% la vostra Y. SBAGLIATO. Questi modelli sono diversi perché dietro c’è la funzione di ripartizione che è diversa dalla retta di regressione, la quale cercava di minimizzare gli errori. Per ogni X devo interpretare la probabilità associata (con la funzione di ripartizione). Domanda di ricerca: ci sono discriminazione nell’erogazione del mutuo? Variabile dipendente: deny. Variabili indipendenti: P-ratio; black; non black. Tavola normale standardizzata: mappa le probabilità associate ai miei differenti Zscore. Zeta è il mio valore della variabile osservata cui sottraggo il valore medio e divido per la deviazione standard.
ma è una funzione di ripartizione logistica standard. Quindi non uso la tavola normale standardizzata. Applichiamo invece la formuletta. Logit e probit sono comunque molto simili, anche nei risultati finali. È indipendente quale vogliamo usare. A nostro piacimento. Se il mio pratio aumenta la probabilità che mi venga negato il mutuo aumenta. Dimentica il 5. (nell’esame mette la tabella uguale a quella delle slide). Non è vero che aumenta di 5,37 non cadere nell’inganno, non posso interpretare il valore in termini marginali. Slide 18/19 pagina 24. PER ESAME. 3/12/ Come calcolare gli effetti marginali nei probit e nei logit? Con Stata. Che consente di farlo in diversi modi, ma noi usiamo il metodo “Marginal Effects at the Means” (MEM). Metodo di Stima (ML): è dato dai valori dei coefficienti che “massimizzano” la funzione di verosomiglianza. Sceglie il valore dei parametri con lo scopo di massimizzare la probabilità di estrarre i dati effettivamente osservati. Non si può usare R^2 ma si deve usare lo pseudo R^2. Questo misura l’adattamento del modello usando una funzione di verosomiglianza. Slide pag. 44 ultima lezione (lezione 18-19) la chiede all’esame.