

























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Slide integrate con appunti presi a lezione
Tipologia: Dispense
1 / 33
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


























Rappresenta il punto centrale della distribuzione della serie. Data una serie, è necessario ordinare le osservazioni prima di identificare l’elemento che lascia a destra e a sinistra il 50% delle osservazioni.
Una distribuzione ha tre quartili che la suddividono in quattro parti, ognuna delle quali contiene il 25% delle osservazioni:
È una tabella dove in corrispondenza delle modalità viene riportato il numero di volte che quelle stesse modalità si sono verificate (frequenza). L’osservazione che appare con maggiore frequenza si dice moda.
La media semplice è calcolata sommando tutte le osservazioni di una serie e dividendola per il numero delle osservazioni stesse. Indica il valore atteso della distribuzione. La varianza rappresenta una misura di quanto le osservazioni "si muovono” attorno alla media della serie che stiamo studiando. È espressa nell’unità di misura al quadrato della variabile che stiamo osservando.
A seconda dei campi di analisi può assumere un significato economico con accezioni differenti: nella finanza per esempio la varianza dei rendimenti rappresenta la rischiosità (volatilità) insita nell’investimento stesso. = Lo scarto quadratico medio (deviazione standard) è la radice quadrata della varianza ed è espressa nell’unità di misura della variabile che stiamo misurando.
La covarianza tra due variabili x e y rappresenta quanto la loro variabilità è correlata. E’ alla base del calcolo dell’indice di correlazione e dei coefficienti della retta di regressione con il metodo dei minimi quadrati. Come la varianza, ha come unità di misura il quadrato di quella delle osservazioni di partenza. =
Tra i conti nazionali ricordiamo:
Sono stati creati dei processi di controllo per come vengono generati i dati utili alla presa di decisioni. Qualsiasi sia la fonte dati che si va ad utilizzare è bene tenere presente i sei criteri guida dei sistemi statistici (individuati da Eurostat), anche indicati come dimensione della qualità:
Quando le statistiche disponibili non sono adeguate l’impresa può decidere di svolgere un’indagine ad hoc. In genere è difficile e costoso acquisire le informazioni necessarie su tutte le unità che compongono la popolazione che intendo osservare, dunque si osserva una parte di essa: un campione. Il processo di realizzazione di un’indagine campionaria attraversa alcune fasi:
Le popolazioni oggetto di analisi possono avere dimensioni finite (es. residenti) o infinite (i pezzi di un prodotto che esce da un processo produttivo per valutarne la qualità). Per definire la popolazione obiettivo occorre stabilire le unità da osservare (es. le famiglie), ma anche le coordinate temporali (sentiment dopo un evento per esempio) e spaziali (totale Italia vs Nord, Centro e Sud, ..). Stabilita la popolazione obiettivo è necessario reperire la lista di campionamento delle unità che ne fanno parte. Si ottiene così la popolazione di selezione sulla quale si effettua l’indagine.
Svolta l’indagine, si ottiene la popolazione di indagine che è quella su cui posso generalizzare le informazioni raccolte sul campione. Attenzione che potrebbe essere diversa da quella obiettivo: in tal caso e informazioni raccolte non possono essere generalizzate a quest’ultima! Questo può succedere quando:
osservare i maggiori di 14 anni, usando le liste elettorali che hanno solo i maggiorenni)
soddisfazione dei miei punti vendita sul territorio, alcuni dei quali, magari tutti appartenenti ad un’area territoriale, non mi hanno mandato i risultati)
L’obiettivo di un’indagine campionaria è quello di stimare alcuni parametri della popolazione obiettivo. Si ottiene così una stima del parametro che vogliamo conoscere. La differenza tra parametro vero della popolazione e la sua stima è l’ errore campionario che può essere stimato (errore statistico) se il campione stato selezionato con un metodo casuale (campione probabilistico). CAMPIONI PROBABILISTICI
Sia Y una variabile che rappresenta il carattere di interesse nella popolazione di N unità. Estraiamo casualmente il campione: e definiamo Per il campionamento casuale semplice (CCS) ogni singola unità ha la stessa probabilità di essere estratta. Si parla allora di probabilità di inclusione, che è pari alla frazione di campionamento: La procedura di selezione del campione è analoga all’estrazione di pallina da un’urna, con o senza reimmissione. Per il campionamento sistematico invece, come nel caso precedente, ogni unità ha la stessa probabilità di essere estratta. Operativamente seleziono casualmente un numero j compreso tra 1 e k , dove k = int ( N/n ), si dice anche il passo di campionamento. Per esempio: ho 250 indirizzi (N=250). Ad ognuno è associato un numero progressivo da 1 a 250. Voglio selezionare un campione in modo sistematico di numerosità 20 (n=20). Genero un numero casuale intero tra 1 e k, che in questo esempio è k=10 (N/n ovvero 250/25). Ottengo per esempio 7. Estraggo il 7° indirizzo dalla lista di campionamento. Poi aggiungo alla prima osservazione (7) il valore di k che era 10. La seconda osservazione sarà allora la 17 (7+10). Proseguo fino ad aver selezionato 20 indirizzi Con un campionamento stratificato , usualmente è possibile più precisi nelle stime, a parità di numerosità campionaria, oppure a ridurre le dimensioni del campione per raggiungere il livello di precisione desiderato (con conseguente risparmio di costi per la rilevazione). Voglio che il campione che vado ad estrarre casualmente presenti delle caratteristiche simili a quelle della popolazione obiettivo (es. proporzione uomini e donne, distribuzione Nord, Centro, Sud e Isole). Le caratteristiche che voglio «preservare» sono gli strati: per esempio la percentuale di donne è il 60%, quella degli uomini del 40% a livello di popolazione obiettivo. Voglio che anche il campione che andrò ad estrarre abbia le medesime caratteristiche.
La stima è il valore assunto dallo stimatore in corrispondenza del campione osservato. —> t = f (y1, y2, …., yn) dove n è la numerosità campionaria Uno stimatore è corretto se la media di tutte le possibili stime di Θ è uguale al parametro da stimare: E(T) = Θ MEDIA E VARIANZA CAMPIONARIA: La media campionaria è uno stimatore corretto della media della popolazione. Dunque se calcoliamo le medie di tutti i possibili campioni estraibili dalla popolazione e di queste facciamo la media, otteniamo il parametro vero della popolazione. Se la media dello stimatore non è uguale al parametro vero della popolazione, si dice che è distorto. La varianza campionaria è uno stimatore distorto della varianza della popolazione, che sottostima la variabilità. Si usa allora la seguente formula, che costituisce uno stimatore corretto della varianza della popolazione. ERRORE STANDARD: L’errore standard della media campionaria (nel caso di CCS senza ripetizione) è pari a: (1-f) è il fattore di correzione per popolazione finite (trascurabile per popolazione «infinite») Più piccolo è l’errore standard, maggiore è la precisione (efficienza) dello stimatore:
maggior parte dei casi) questo fattore è trascurabile: infatti f tende a 0 e (1-f) tende a 1
standard) LA PROPORZIONE: Spesso nelle indagine campionarie è utile conoscere quanta parte della popolazione che sto osservando presenta un certo carattere, con il fine ad esempio di indirizzare un’azione di marketing, ESEMPIO Immaginiamo di avere solo 10 clienti: La proporzione di clienti con figli è uguale a quella senza figli (50- 50). Dunque chi ha figli non ha una particolare propensione all’acquisto del mio prodotto, però ci sono molti nomi di donne….
Ripetiamo allora l’esempio dando il numero 1 alle donne e 0 agli uomini. Sto usando una variabile dicotomica di valore 0 e 1. Per tale variabile, la media è la proporzione con cui il carattere 1 si presenta nella popolazione, che abbiamo chiamato π, mentre la varianza è il prodotto di π (1- π). Nel 70% (π espresso in %) dei casi i miei clienti sono donne, dunque meglio concentrare gli investimenti in marketing verso questo segmento perché ha u n ’ a l t a p r o p e n s i o n e dall’acquisto.
La proporzione π = Nk / N individui che nella popolazione presentano la caratteristica k può essere stimata attraverso l’equivalente proporzione nel campione (p = nk/n), questo perché sappiamo che la media campionaria è uno stimatore corretto della media della popolazione. Posta Z la variabile dicotomica che vale 1 se è presenta la caratteristica k, oppure 0 in caso contrario, gli stimatori corretti rispettivamente della proporzione e della varianza della proporzione sono: L’errore standard della proporzione campionaria, stimatore corretto della proporzione nella popolazione, (nel caso di CCS senza ripetizione) con 𝜋 incognita, è pari a: Non si sa quanto sia π nella popolazione, dunque si può:
proporzione: dunque vogliamo essere prudenti
Lo stimatore della media campionaria sarà dunque la media ponderata degli stimatori ottenuti per ciascun strato: L’errore standard dello stimatore della media sarà: STIMA DELLA PROPORZIONE: L’errore standard della proporzione campionaria sarà:
Il questionario può suddividersi in: a) Domande chiuse (costringono l’intervistato a scegliere tra modalità predefinite; facili da processare ma limitanti per l’espressione del pensiero dell’intervistato) b) Domande aperte (permettono all’intervistato di esprimere compiutamente il proprio pensiero; richiedono tempi lunghi di elaborazione e digitalizzazione) c) Domande filtro (domande chiuse che hanno la funzione di indirizzare l’intervistato verso una o l’altra sezione successiva del questionario) La misurazione delle modalità di risposta è un aspetto cruciale dell’indagine. In alcuni casi le risposte sono già espresse in unità di misura (kg, anni, metri,..). Per percezioni, atteggiamenti, opinioni e caratteri qualitativi (maschio/femmina) la misurazione può avvenire con l’ausilio di scale ad hoc:
(maschio/femmina, castano/biondo, …) senza che si possa alcun ordinamento
Ferrari>Fiat, …), ma non si possono calcolare differenze, distanze e valori medi. Si possono però calcolare indici di posizione (mediana e quartili)
ad esempio in 1=molto negativo, 2=negativo, 3=neutro, 4=positivo e 5=molto positivo L’indagine perfetta sarebbe affetta esclusivamente da errore campionario, dipendente dalla natura esaustiva dell’indagine stessa. Imperfezioni nel processo danno luogo ad errori di diverso tipo, detti errori non campionari. Questi vengono distinti in:
veritieri
L’obiettivo di questi indicatori è evidenziare nel tempo o nello spazio le differenze di intensità (es. il fatturato) o frequenza (es. il numero di pezzi venduti) di un certo fenomeno X. Sia t il tempo e xt le osservazioni sul fenomeno X: La variazione (differenza) assoluta sarà, espressa nell’unità di misura «originaria»: La variazione (differenza) relativa sarà, numero puro:
Utili per la rappresentazione dei fenomeni sono le tabelle a doppia entrata, che rappresentano la distribuzione congiunta di due variabili. ESEMPIO Pongo in una tabella a doppia entrata la distribuzione dei dipendenti per classe di età e qualifica. Le somme di riga e di colonna rappresentano le distribuzioni marginali di ciascuna caratteristica. Ottenuta la tabella posso essere interessato a sintetizzarne le caratteristiche attraverso rapporti di composizione : a) distribuzione per età b) distribuzione per età per qualifica professionale c) distribuzione per qualifica professionale nelle diverse classi di età
I rapporti di coesistenza servono confrontare due grandezze «collegate» evidenziando eventuali squilibri. Per esempio:
troppo da 1
indebitamente di un’impresa, evidenziandone la capacità o meno di fare fronte agli impegni che maturano nel corso del tempo I rapporti di densità servono quando si vogliono confrontare caratteristiche che appartengono a popolazioni di «dimensioni» diverse, per standardizzare e rendere comparabili i dati. Si tratta per esempio dei rapporti cosiddetti pro capite (prodotto interno lordo diviso la popolazione). I rapporti di derivazione servono quando i dati che si vogliono analizzare sono il risultato di un fenomeno che ne è il presupposto. Viene rapportato un dato di flusso al nominatore, con un dato di consistenza (stock) al denominatore. I quozienti demografici sono gli esempi classici di derivazione.
I rapporti di composizione sono facilmente aggregabili o scomponibili per somma/sottrazione (il denominatore è lo stesso). I rapporti generici di densità e di derivazione, che si ottengono come somma dei rapporti specifici, non sono facilmente interpretabili e scomponibili. Possono essere interpretabili come media ponderata dei rapporti specifici.
Il cambio di base (per esempio da h a k ) per un indice in base fissa avviene dividendo ogni termine della (^) hIt della serie per l’indice del periodo «nuova base»: (^) hIk. Infatti: Basta dividere ogni elemento dell’indice nella vecchia base per il valore che lo stesso assume in corrispondenza della nuova base, chiamato coefficiente di conversione. Il passaggio da base fissa a base mobile avviene dividendo ogni termine (tranne il primo che non è definito) per l’indice in base fissa relativo al periodo precedente: ES 2020: 100,0% / 108,4% Il passaggio da base mobile ad un base fissa k per un qualsiasi indice (^) t-1It in un indice a base fissa 0 It, (dove 0 è il primo termine della serie considerata) avviene moltiplicando l’indice per tutti i precedenti indici a base mobile da k a t. A partire da questa serie possiamo poi passare a serie espresse in una base diversa da 0 dividendo per il coefficiente di conversione. ES 2020: 100,0% * 101,8% * fissa-mobile
Quando confrontiamo un fenomeno nel tempo può essere utile misurare la sua variazione complessiva nel periodo considerato o quella media, se l’intervallo temporale copre più unità di tempo. Data una serie storica x0, x1, x2, …., xn :
con riferimento al calcolo delle variazioni in generale:
«capitalizzazione» delle variazioni annue (seguiamo l’approccio della matematica finanziaria). Il tasso medio semplice sarà: Il tasso medio composto sarà:
Un indice sintetico sintetizza la variazione di un aggregato anziché un valore elementare A seconda della scelta del sistema di pesi (cioè delle quantità) si ottengono (es prezzi al consumo):
Oltre alle proprietà dei numeri indici sopra citate, si aggiungono: VI. Proporzionalità: se i prezzi dei k prodotti variano di un fattore a, anche l’indice deve variare in proporzione VII. Determinatezza: l’indice sintetico non deve tendere a infinito o diventare indeterminato se si annulla un termine compreso nella formula Gli indici di Paasche e Laspeyres non soddisfano la proprietà della transitività e della scomposizione delle cause! Le proprietà sono invece soddisfatte dall’indice sintetico di Fisher : Indici sintetici possono peraltro catturare anche la variazione di valore , inteso come prodotto tra prezzi e quantità nei due differenti momenti di osservazione (es fatturato). Sarà allora: Potrei essere interessato anche ad un indice sintetico che rappresenta la variazione delle quantità in un periodo. In questo caso variano le quantità, mentre rimane fisso il riferimento dei prezzi correnti (es promozione industriale): Può essere utile scomporre gli indici sintetici in sub-indici. L’indice generale può essere ottenuto anche media ponderata dei sub-indici.
Preso un fenomeno misurato con cadenza infrannuale, tale per cui nell’anno ci sono k periodi (per esempio per i dati trimestrali k=4, mensili k=12, …) si parla di variazione:
Nel caso di dati trimestrali ci confrontiamo con xt-
Un aggregato monetario (misurato dunque in valore) può variare, sia per effetto di variazioni nel volume dei beni e servizi sottostanti, sia per effetto di una variazione nei prezzi. Dato un generico aggregato, si indica con:
Spesso ci troviamo a dovere calcolare valori e variazioni a prezzi costanti, senza conoscere i valori dei prezzi e delle quantità degli aggregati sottostanti. Quello che tipicamente si conosce è l’aggregato a valori correnti nel tempo ed un indice dei prezzi (l’ISTAT pubblica mensilmente delle tavole per le rivalutazioni monetarie). Per ottenere gli aggregati espressi ad un medesimo livello dei prezzi:
reali
Nella gestione operativa di un’impresa capita spesso, prima di prendere determinate decisioni, di voler verificare l’esistenza e l’intensità delle relazioni tra le variabili di interesse. Per esempio due ambiti rilevanti sono l’analisi e dunque la comprensione delle dinamiche dei costi di produzione da un lato e delle vendite dall’altro.
La correlazione tra due variabili può essere in prima battuta analizzata graficamente. Si tratta di visualizzare i dati delle due variabili attraverso un diagramma di dispersione ( scatterplot ), dove ogni punto rappresenta nel piano il punto definito dalle coordinate xi e yi, che corrispondono alle osservazioni nella popolazione di due caratteristiche X e Y
potrebbe essere l’età dei clienti dell’azienda, mentre Y il volume di vendite dell’impresa a quel cliente
potrebbe essere il prezzo del prodotto in diversi momenti, mentre Y il volume di vendite
volumi delle vendite di creme per il viso e giornali Per avere una misura dell’intensità della relazione tra le due variabili di interesse, si calcola l’ indice parametrico di correlazione di Pearson : È n numero puro (senza dimensioni), compreso tra -1 e 1:
Quando l’indice di correlazione viene calcolato su dati provenienti da un campione, piuttosto che da un’intera popolazione obiettivo, occorre disporre di uno stimatore campionario e su di esso fare inferenza con un test di ipotesi sulla significatività del suo valore. L'inferenza statistica è il procedimento per cui si deducono le caratteristiche di una popolazione dall'osservazione di una parte di essa (detta "campione"), selezionata solitamente mediante un esperimento casuale (aleatorio). Quando abbiamo di fronte un campione di osservazioni, la correlazione può essere stimata con il seguente stimatore campionario corretto (per n-1): Se in cui ρxy = 0, l’errore standard della variabile aleatoria correlazione campionaria rxy:
Se X e Y sono normalmente distribuite e sotto l’ipotesi che l’indice di correlazione di Pearson della popolazione sia zero (H0 : ρxy = 0), la statistica t-test che useremo è la seguente:
La verifica (test) delle ipotesi statistiche consiste nel: a) formulare un’ipotesi su uno o più parametri (incogniti) della popolazione b) estrarre opportunamente un campione da questa popolazione c) verificare se l’ipotesi di partenza è supportata dai dati osservati Si specificano le ipotesi da sottoporre a verifica. Saranno:
La verifica di coerenza tra ipotesi di partenza ed evidenza campionaria si basa sulla distribuzione di probabilità che assume la statistica test τ nel caso in cui H0 sia vera. Data questa statistica test, fisso un livello di confidenza 1-α del test. α è il livello di errore probabile tollerabile. Si tratta di una «probabilità» ragionevolmente «piccola», spesso α=5% Sulla base della distribuzione della statistica test τ, si calcolano i valori critici (i confini) per:
vero della popolazione
una probabilità molto «piccola» (α) Si estrae il campione, si calcola il valore della statistica test τ e lo confronto con i valori critici visti sopra: a) Se il valore campionario cade nella regione di accettazione, allora non si rifiuta l’ipotesi H b) Se il valore campionario cade nella regione di rifiuto, allora si rifiuta l’ipotesi H I valori critici dipendono ovviamente dalla forma della distribuzione della statistica
Nella pratica la statistica test viene standardizzata: si sottrae il valore atteso che corrisponde all’ipotesi nulla (sub H0), in modo da centrare la distribuzione sullo 0. Inoltre, si si divide per l’errore standard (stimato in modo di ottenere una varianza pari a 1). Si ottiene così una statistica nota come t – test. Se è vera l’ipotesi H0: μ = m*: Conoscendo la distribuzione della t-test posso individuare i valori critici entro i quali si distribuirà al livello 1-α la distribuzione della statistica. Confronto poi il valore della statistica corrispondente a H0.Se per questo valore la statistica test finisce fuori dall’area di accettazione rifiuto l’ipotesi, altrimenti «non rifiuto» H0. ESEMPIO Consideriamo un caso in cui non siano note media e varianza della popolazione, ma il campione sia«sufficientemente grande» (es. n=100), con media 175 ed errore standard 3 Voglio verificare, sulla base del campione estratto, H0: μ = 180, con un livello di confidenza del 95% (1-α). Utilizziamo la statistica t-test, che per campioni sufficientemente grandi si distribuisce come una normale di media zero e varianza uno. Posso calcolare i valori critici del test al 95%, risulterà tcrit = 1, Calcolo adesso il valore della statistica t-test in corrispondenza della media e dell’errore standard campionari: t’ = (175-180) / 3 = - 1, Confronto il valore di t’ con i valori critici e vedo che esso cade all’interno della regione di accettazione, dunque «non rifiuto» l’ipotesi H0.
Siamo interessati alla bontà di adattamento del nostro modello ai dati, dunque la misura di precisione della stima. Per valutarla usiamo un’altra statistica: il cosiddetto R^2 La variabilità di yt attorno alla sua media y (devianza) è la somma dei quadrati totali, o total sum of squares (TSS). Tale devianza può essere divisa in due parti: la devianza spiegata (ESS) e quella residua (RSS). Si deriva dunque: È compreso tra 0 e 1
corretti; questo risultato prende il nome di Teorema di Gauss–Markov. PROPRIETÀ:
Come abbiamo già visto, per fare inferenza sui coefficienti della regressione (test di ipotesi/calcolo intervalli di confidenza) è necessario che gli errori si distribuiscano come una normale di media 0 e varianza costante σ^2 , ovvero: Ut ∼ N(0, σ^2 ) Se ipotesi di partenza è vera, allora anche gli stimatori dei coefficienti di regressione si distribuiscono come una normale (essendo riconducibili a somme di variabili Normali). Se non vale l’ipotesi della normalità dei residui, i parametri si distribuiranno come una normale solo se valgono la ipotesi da 1 a 4 ed il campione è sufficientemente grande. Da β0 e β1 posso costruire le variabili normali standard, che a loro volta si distribuiranno come una normale standard, di media 0 e varianza 1. Le varianze dei degli stimatori dei coefficienti non sono note, perciò si usano le stime ES(β0) e ES(β1) e si ottiene: Soddisfatte tali condizioni, possiamo testare l’ipotesi statistica H0 : β = β* con β* una costante (che potrebbe essere 0 o un’ipotesi economica di interesse). Si calcola dunque la statistica test che si distribuisce come una t di Student con T-2 gradi di libertà (dove T è la dimensione del campione). Si sceglie poi un livello di significatività α e si ottengono i valori critici che delimitano le regioni di rifiuto. Se la statistica test finisce nella regione di accettazione allora non si rifiuta H0 (vedi sotto), altrimenti non la si rifiuta.
Nei software statistici è disponibile un’amplia diagnostica per verificare le caratteristiche dei residui, al fine di poter fare inferenza sui dati campionari. Per verificare la normalità dei residui si può guardare il grafico q-q normal plot (che confronta i quantili della distribuzione empirica dei residui standardizzati con quelli di una normale standard). Se le distribuzioni sono simili la condizione di normalità è rispettata. Un altro modo per verificare la normalità della distribuzione empirica dei residui è porre i residui standardizzati su un grafico. Dobbiamo aspettarci si distribuiscano in modo casuale attorno allo zero, compresi tra -/+ 1,96 * errore standard dei residui. Se i residui dovessero distribuirsi in modo non casuale (per esempio più grande è il valore della variabile dipendente, maggiore è l’errore standardizzato), allora siamo probabilmente in presenza di eteroschedasticità, che «viola» la condizioni di errori con varianza costante.