Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica per l'impresa, Dispense di Statistica Per L'impresa

Slide integrate con appunti presi a lezione

Tipologia: Dispense

2025/2026

Caricato il 07/06/2026

vittoriabarina
vittoriabarina 🇮🇹

6 documenti

1 / 33

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
RICHIAMI DI STATISTICA DESCRITTIVA
MEDIANA
Rappresenta il punto centrale della distribuzione della serie.
Data una serie, è necessario ordinare le osservazioni prima di identificare l’elemento che lascia a
destra e a sinistra il 50% delle osservazioni.
QUARTILI
Una distribuzione ha tre quartili che la suddividono in quattro parti, ognuna delle quali contiene il
25% delle osservazioni:
1. ha alla sua «sinistra» il 25% delle osservazioni e alla sua destra il 75%
2. ha alla sua «sinistra» il 50% delle osservazioni e alla sua destra il 50% (la mediana)
3. ha alla sua «sinistra» il 75% delle osservazioni e alla sua destra il 25%
Anche in questo caso è necessario che le osservazioni siano ordinate.
I quartili sono dei particolari quantili. Data una distribuzione, il quantile di ordine p (con p
compreso tra 0 e 1) è il valore della distribuzione che ha la proprietà di dividerla in due parti che
contengono rispettivamente p e 1-p valori. Il primo quartile è il quantile di ordine 0,25.
DISTRIBUZIONE DI FREQUENZA E MODA
È una tabella dove in corrispondenza delle modalità viene riportato il numero di volte che quelle
stesse modalità si sono verificate (frequenza).
L’osservazione che appare con maggiore frequenza si dice moda.
MEDIA, VARIANZA E SCARTO QUADRATICO MEDIO
La media semplice è calcolata sommando tutte le osservazioni di una serie e dividendola per il
numero delle osservazioni stesse. Indica il valore atteso della distribuzione.
La varianza rappresenta una misura di quanto le osservazioni "si muovono” attorno alla media
della serie che stiamo studiando. È espressa nell’unità di misura al quadrato della variabile che
stiamo osservando.
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21

Anteprima parziale del testo

Scarica Statistica per l'impresa e più Dispense in PDF di Statistica Per L'impresa solo su Docsity!

RICHIAMI DI STATISTICA DESCRITTIVA

MEDIANA

Rappresenta il punto centrale della distribuzione della serie. Data una serie, è necessario ordinare le osservazioni prima di identificare l’elemento che lascia a destra e a sinistra il 50% delle osservazioni.

QUARTILI

Una distribuzione ha tre quartili che la suddividono in quattro parti, ognuna delle quali contiene il 25% delle osservazioni:

  1. ha alla sua «sinistra» il 25% delle osservazioni e alla sua destra il 75%
  2. ha alla sua «sinistra» il 50% delle osservazioni e alla sua destra il 50% (la mediana)
  3. ha alla sua «sinistra» il 75% delle osservazioni e alla sua destra il 25% Anche in questo caso è necessario che le osservazioni siano ordinate. I quartili sono dei particolari quantili. Data una distribuzione, il quantile di ordine p (con p compreso tra 0 e 1) è il valore della distribuzione che ha la proprietà di dividerla in due parti che contengono rispettivamente p e 1-p valori. Il primo quartile è il quantile di ordine 0,25.

DISTRIBUZIONE DI FREQUENZA E MODA

È una tabella dove in corrispondenza delle modalità viene riportato il numero di volte che quelle stesse modalità si sono verificate (frequenza). L’osservazione che appare con maggiore frequenza si dice moda.

MEDIA, VARIANZA E SCARTO QUADRATICO MEDIO

La media semplice è calcolata sommando tutte le osservazioni di una serie e dividendola per il numero delle osservazioni stesse. Indica il valore atteso della distribuzione. La varianza rappresenta una misura di quanto le osservazioni "si muovono” attorno alla media della serie che stiamo studiando. È espressa nell’unità di misura al quadrato della variabile che stiamo osservando.

A seconda dei campi di analisi può assumere un significato economico con accezioni differenti: nella finanza per esempio la varianza dei rendimenti rappresenta la rischiosità (volatilità) insita nell’investimento stesso. = Lo scarto quadratico medio (deviazione standard) è la radice quadrata della varianza ed è espressa nell’unità di misura della variabile che stiamo misurando.

COVARIANZA

La covarianza tra due variabili x e y rappresenta quanto la loro variabilità è correlata. E’ alla base del calcolo dell’indice di correlazione e dei coefficienti della retta di regressione con il metodo dei minimi quadrati. Come la varianza, ha come unità di misura il quadrato di quella delle osservazioni di partenza. =

Tra i conti nazionali ricordiamo:

  • Conto delle risorse e degli impieghi, che descrive le operazioni di scambio che avvengono sul mercato, bilanciando offerta (PIL + Importazioni) e domanda (Consumi + Investimenti + Esportazioni)
  • Conti per settore istituzionale: analizzano il comportamento economico di gruppi di operatori omogenei, divisi in cinque settori (Società non finanziarie, Società finanziarie, Amministrazioni pubbliche, Famiglie e Istituzioni senza scopo di lucro) Le fonti sulle imprese riguardano le caratteristiche struttali delle imprese quali il settore, la dimensione e il territorio. I risultati economici delle imprese sono indagini ISTAT e banche dati di bilanci aziendali.

LA QUALITÀ DELLE INFO STATISTICHE

Sono stati creati dei processi di controllo per come vengono generati i dati utili alla presa di decisioni. Qualsiasi sia la fonte dati che si va ad utilizzare è bene tenere presente i sei criteri guida dei sistemi statistici (individuati da Eurostat), anche indicati come dimensione della qualità:

  1. Rilevanza: capacità del sistema statistico di rispondere alle esigenze degli utilizzatori
  2. Accuratezza: statisticamente è la vicinanza tra la stima ed il valore vero di una caratteristica misurata (es. differenziale tra dati preliminari e definitivi)
  3. Puntualità e tempestività: la puntualità fa riferimento alla corrispondenza tra l’effettiva data di diffusione delle statistiche e quella prevista, mentre la tempestività fa riferimento al tempo che intercorre tra la data di diffusione ed il periodo a cui fanno riferimento
  4. Accessibilità e chiarezza: la prima è la capacità del sistema di rendere chiare e semplici le procedure per l’acquisizione dei dati, la seconda la capacità di rendere comprensibili e correttamente interpretabili le statistiche fornite
  5. Comparabilità: molte analisi confrontano l’evoluzione nel tempo o nello spazio di fenomeni. E’ importante che le differenze che si ravvisano dipendano da veri fenomeni economici e non cambi di metodologia statistica
  6. Coerenza: quando il complesso delle informazioni desumibile dalle diverse statistiche disponibili fornisce un quadro in sé coerente e non contraddittorio

L’INDAGINE CAMPIONARIA

Quando le statistiche disponibili non sono adeguate l’impresa può decidere di svolgere un’indagine ad hoc. In genere è difficile e costoso acquisire le informazioni necessarie su tutte le unità che compongono la popolazione che intendo osservare, dunque si osserva una parte di essa: un campione. Il processo di realizzazione di un’indagine campionaria attraversa alcune fasi:

  • definizione degli obiettivi
  • identificazione della popolazione di riferimento
  • scelta dei criteri di selezione del campione (piano di campionamento)
  • scelta della metodologia di stima
  • scelta della modalità di raccolta dati
  • messa a punto del questionario
  • organizzazione della fase di rilevazione dei dati
  • valutazione dei costi di realizzazione dell’intera indagine vs il margine di errore tollerabile

POPOLAZIONE

Le popolazioni oggetto di analisi possono avere dimensioni finite (es. residenti) o infinite (i pezzi di un prodotto che esce da un processo produttivo per valutarne la qualità). Per definire la popolazione obiettivo occorre stabilire le unità da osservare (es. le famiglie), ma anche le coordinate temporali (sentiment dopo un evento per esempio) e spaziali (totale Italia vs Nord, Centro e Sud, ..). Stabilita la popolazione obiettivo è necessario reperire la lista di campionamento delle unità che ne fanno parte. Si ottiene così la popolazione di selezione sulla quale si effettua l’indagine.

Svolta l’indagine, si ottiene la popolazione di indagine che è quella su cui posso generalizzare le informazioni raccolte sul campione. Attenzione che potrebbe essere diversa da quella obiettivo: in tal caso e informazioni raccolte non possono essere generalizzate a quest’ultima! Questo può succedere quando:

- manca perfetta corrispondenza tra popolazione di selezione e popolazione obiettivo (es. voglio

osservare i maggiori di 14 anni, usando le liste elettorali che hanno solo i maggiorenni)

- mancata risposta per drop out, rifiuto o risposte contraddittorie (es. questionario di

soddisfazione dei miei punti vendita sul territorio, alcuni dei quali, magari tutti appartenenti ad un’area territoriale, non mi hanno mandato i risultati)

PIANO DI CAMPIONAMENTO

L’obiettivo di un’indagine campionaria è quello di stimare alcuni parametri della popolazione obiettivo. Si ottiene così una stima del parametro che vogliamo conoscere. La differenza tra parametro vero della popolazione e la sua stima è l’ errore campionario che può essere stimato (errore statistico) se il campione stato selezionato con un metodo casuale (campione probabilistico). CAMPIONI PROBABILISTICI

• Sono stati selezionati con un meccanismo casuale

• Tutte le unità hanno una probabilità nota di essere estratte

Sia Y una variabile che rappresenta il carattere di interesse nella popolazione di N unità. Estraiamo casualmente il campione: e definiamo Per il campionamento casuale semplice (CCS) ogni singola unità ha la stessa probabilità di essere estratta. Si parla allora di probabilità di inclusione, che è pari alla frazione di campionamento: La procedura di selezione del campione è analoga all’estrazione di pallina da un’urna, con o senza reimmissione. Per il campionamento sistematico invece, come nel caso precedente, ogni unità ha la stessa probabilità di essere estratta. Operativamente seleziono casualmente un numero j compreso tra 1 e k , dove k = int ( N/n ), si dice anche il passo di campionamento. Per esempio: ho 250 indirizzi (N=250). Ad ognuno è associato un numero progressivo da 1 a 250. Voglio selezionare un campione in modo sistematico di numerosità 20 (n=20). Genero un numero casuale intero tra 1 e k, che in questo esempio è k=10 (N/n ovvero 250/25). Ottengo per esempio 7. Estraggo il 7° indirizzo dalla lista di campionamento. Poi aggiungo alla prima osservazione (7) il valore di k che era 10. La seconda osservazione sarà allora la 17 (7+10). Proseguo fino ad aver selezionato 20 indirizzi Con un campionamento stratificato , usualmente è possibile più precisi nelle stime, a parità di numerosità campionaria, oppure a ridurre le dimensioni del campione per raggiungere il livello di precisione desiderato (con conseguente risparmio di costi per la rilevazione). Voglio che il campione che vado ad estrarre casualmente presenti delle caratteristiche simili a quelle della popolazione obiettivo (es. proporzione uomini e donne, distribuzione Nord, Centro, Sud e Isole). Le caratteristiche che voglio «preservare» sono gli strati: per esempio la percentuale di donne è il 60%, quella degli uomini del 40% a livello di popolazione obiettivo. Voglio che anche il campione che andrò ad estrarre abbia le medesime caratteristiche.

La stima è il valore assunto dallo stimatore in corrispondenza del campione osservato. —> t = f (y1, y2, …., yn) dove n è la numerosità campionaria Uno stimatore è corretto se la media di tutte le possibili stime di Θ è uguale al parametro da stimare: E(T) = Θ MEDIA E VARIANZA CAMPIONARIA: La media campionaria è uno stimatore corretto della media della popolazione. Dunque se calcoliamo le medie di tutti i possibili campioni estraibili dalla popolazione e di queste facciamo la media, otteniamo il parametro vero della popolazione. Se la media dello stimatore non è uguale al parametro vero della popolazione, si dice che è distorto. La varianza campionaria è uno stimatore distorto della varianza della popolazione, che sottostima la variabilità. Si usa allora la seguente formula, che costituisce uno stimatore corretto della varianza della popolazione. ERRORE STANDARD: L’errore standard della media campionaria (nel caso di CCS senza ripetizione) è pari a: (1-f) è il fattore di correzione per popolazione finite (trascurabile per popolazione «infinite») Più piccolo è l’errore standard, maggiore è la precisione (efficienza) dello stimatore:

• Aumenta all’aumentare di^ f^ (che al max può essere 1). Per piccole frazioni di campionamento (la

maggior parte dei casi) questo fattore è trascurabile: infatti f tende a 0 e (1-f) tende a 1

• Aumenta al diminuire della varianza^ σ^2 della popolazione e del suo stimatore corretto S^2 Y

• Aumenta al crescere di^ n^ (maggiore è la numerosità campionaria, ceteris paribus, minore l’errore

standard) LA PROPORZIONE: Spesso nelle indagine campionarie è utile conoscere quanta parte della popolazione che sto osservando presenta un certo carattere, con il fine ad esempio di indirizzare un’azione di marketing, ESEMPIO Immaginiamo di avere solo 10 clienti: La proporzione di clienti con figli è uguale a quella senza figli (50- 50). Dunque chi ha figli non ha una particolare propensione all’acquisto del mio prodotto, però ci sono molti nomi di donne….

Ripetiamo allora l’esempio dando il numero 1 alle donne e 0 agli uomini. Sto usando una variabile dicotomica di valore 0 e 1. Per tale variabile, la media è la proporzione con cui il carattere 1 si presenta nella popolazione, che abbiamo chiamato π, mentre la varianza è il prodotto di π (1- π). Nel 70% (π espresso in %) dei casi i miei clienti sono donne, dunque meglio concentrare gli investimenti in marketing verso questo segmento perché ha u n ’ a l t a p r o p e n s i o n e dall’acquisto.

La proporzione π = Nk / N individui che nella popolazione presentano la caratteristica k può essere stimata attraverso l’equivalente proporzione nel campione (p = nk/n), questo perché sappiamo che la media campionaria è uno stimatore corretto della media della popolazione. Posta Z la variabile dicotomica che vale 1 se è presenta la caratteristica k, oppure 0 in caso contrario, gli stimatori corretti rispettivamente della proporzione e della varianza della proporzione sono: L’errore standard della proporzione campionaria, stimatore corretto della proporzione nella popolazione, (nel caso di CCS senza ripetizione) con 𝜋 incognita, è pari a: Non si sa quanto sia π nella popolazione, dunque si può:

- porre π=p dove p è la proporzione campionaria

- porre π=0,5 perchè si può dimostrare che è la situazione che massimizza l’errore standard della

proporzione: dunque vogliamo essere prudenti

CAMPIONAMENTO STRATIFICATO

STIMA DELLA MEDIA:

Lo stimatore della media campionaria sarà dunque la media ponderata degli stimatori ottenuti per ciascun strato: L’errore standard dello stimatore della media sarà: STIMA DELLA PROPORZIONE: L’errore standard della proporzione campionaria sarà:

Il questionario può suddividersi in: a) Domande chiuse (costringono l’intervistato a scegliere tra modalità predefinite; facili da processare ma limitanti per l’espressione del pensiero dell’intervistato) b) Domande aperte (permettono all’intervistato di esprimere compiutamente il proprio pensiero; richiedono tempi lunghi di elaborazione e digitalizzazione) c) Domande filtro (domande chiuse che hanno la funzione di indirizzare l’intervistato verso una o l’altra sezione successiva del questionario) La misurazione delle modalità di risposta è un aspetto cruciale dell’indagine. In alcuni casi le risposte sono già espresse in unità di misura (kg, anni, metri,..). Per percezioni, atteggiamenti, opinioni e caratteri qualitativi (maschio/femmina) la misurazione può avvenire con l’ausilio di scale ad hoc:

- La scala nominale si limita ad attribuire un codice a caratteri qualitativi non ordinabili

(maschio/femmina, castano/biondo, …) senza che si possa alcun ordinamento

- La scala ordinale attribuisce dei codici che sono tra loro ordinabili (es. buono>cattivo,

Ferrari>Fiat, …), ma non si possono calcolare differenze, distanze e valori medi. Si possono però calcolare indici di posizione (mediana e quartili)

- La scala a intervallo permette di definire sia l’ordine, sia una distanza tra modalità diverse, come

ad esempio in 1=molto negativo, 2=negativo, 3=neutro, 4=positivo e 5=molto positivo L’indagine perfetta sarebbe affetta esclusivamente da errore campionario, dipendente dalla natura esaustiva dell’indagine stessa. Imperfezioni nel processo danno luogo ad errori di diverso tipo, detti errori non campionari. Questi vengono distinti in:

- Errori di copertura: causati da difetti della lista di campionamento

- Errori da mancata risposta: dovuti all’impossibilità di osservare parte delle unità campionarie

- Errori di misurazione: domande non chiara o volontà dell’intervistato di non dare risposte

veritieri

3. INTERPRETAZIONE E COMPARAZIONE DEI DATI

DIFFERENZE ASSOLUTE E RELATIVE

L’obiettivo di questi indicatori è evidenziare nel tempo o nello spazio le differenze di intensità (es. il fatturato) o frequenza (es. il numero di pezzi venduti) di un certo fenomeno X. Sia t il tempo e xt le osservazioni sul fenomeno X: La variazione (differenza) assoluta sarà, espressa nell’unità di misura «originaria»: La variazione (differenza) relativa sarà, numero puro:

TABELLA A DOPPIA ENTRATA E RAPPORTI

Utili per la rappresentazione dei fenomeni sono le tabelle a doppia entrata, che rappresentano la distribuzione congiunta di due variabili. ESEMPIO Pongo in una tabella a doppia entrata la distribuzione dei dipendenti per classe di età e qualifica. Le somme di riga e di colonna rappresentano le distribuzioni marginali di ciascuna caratteristica. Ottenuta la tabella posso essere interessato a sintetizzarne le caratteristiche attraverso rapporti di composizione : a) distribuzione per età b) distribuzione per età per qualifica professionale c) distribuzione per qualifica professionale nelle diverse classi di età

I rapporti di coesistenza servono confrontare due grandezze «collegate» evidenziando eventuali squilibri. Per esempio:

- Il rapporto tra importazioni ed esportazioni indica un’evoluzione equilibrata se non si discosta

troppo da 1

- Il leverage ratio (rapporto tra ammontare dei debiti ed capitale proprio) confronta il livello di

indebitamente di un’impresa, evidenziandone la capacità o meno di fare fronte agli impegni che maturano nel corso del tempo I rapporti di densità servono quando si vogliono confrontare caratteristiche che appartengono a popolazioni di «dimensioni» diverse, per standardizzare e rendere comparabili i dati. Si tratta per esempio dei rapporti cosiddetti pro capite (prodotto interno lordo diviso la popolazione). I rapporti di derivazione servono quando i dati che si vogliono analizzare sono il risultato di un fenomeno che ne è il presupposto. Viene rapportato un dato di flusso al nominatore, con un dato di consistenza (stock) al denominatore. I quozienti demografici sono gli esempi classici di derivazione.

CONFRONTO TRA RAPPORTI GENERICI

I rapporti di composizione sono facilmente aggregabili o scomponibili per somma/sottrazione (il denominatore è lo stesso). I rapporti generici di densità e di derivazione, che si ottengono come somma dei rapporti specifici, non sono facilmente interpretabili e scomponibili. Possono essere interpretabili come media ponderata dei rapporti specifici.

CAMBIAMENTO DI BASE

Il cambio di base (per esempio da h a k ) per un indice in base fissa avviene dividendo ogni termine della (^) hIt della serie per l’indice del periodo «nuova base»: (^) hIk. Infatti: Basta dividere ogni elemento dell’indice nella vecchia base per il valore che lo stesso assume in corrispondenza della nuova base, chiamato coefficiente di conversione. Il passaggio da base fissa a base mobile avviene dividendo ogni termine (tranne il primo che non è definito) per l’indice in base fissa relativo al periodo precedente: ES 2020: 100,0% / 108,4% Il passaggio da base mobile ad un base fissa k per un qualsiasi indice (^) t-1It in un indice a base fissa 0 It, (dove 0 è il primo termine della serie considerata) avviene moltiplicando l’indice per tutti i precedenti indici a base mobile da k a t. A partire da questa serie possiamo poi passare a serie espresse in una base diversa da 0 dividendo per il coefficiente di conversione. ES 2020: 100,0% * 101,8% * fissa-mobile

TASSI MEDI DI VARIAZIONE

Quando confrontiamo un fenomeno nel tempo può essere utile misurare la sua variazione complessiva nel periodo considerato o quella media, se l’intervallo temporale copre più unità di tempo. Data una serie storica x0, x1, x2, …., xn :

• La^ variazione relativa complessiva^ nell’arco temporale^ ic sarà quella che abbiamo già visto

con riferimento al calcolo delle variazioni in generale:

• La variazione relativa media annua dipenderà da come si assume funzioni il meccanismo della

«capitalizzazione» delle variazioni annue (seguiamo l’approccio della matematica finanziaria). Il tasso medio semplice sarà: Il tasso medio composto sarà:

NUMERI INDICE SINTETICI

Un indice sintetico sintetizza la variazione di un aggregato anziché un valore elementare A seconda della scelta del sistema di pesi (cioè delle quantità) si ottengono (es prezzi al consumo):

• L’ Indice di^ Laspeyres^ se le quantità vengono fissate al tempo base 0

• L’ Indice di^ Paasche^ se le quantità vengono fissate al tempo corrente t

CAGR

Oltre alle proprietà dei numeri indici sopra citate, si aggiungono: VI. Proporzionalità: se i prezzi dei k prodotti variano di un fattore a, anche l’indice deve variare in proporzione VII. Determinatezza: l’indice sintetico non deve tendere a infinito o diventare indeterminato se si annulla un termine compreso nella formula Gli indici di Paasche e Laspeyres non soddisfano la proprietà della transitività e della scomposizione delle cause! Le proprietà sono invece soddisfatte dall’indice sintetico di Fisher : Indici sintetici possono peraltro catturare anche la variazione di valore , inteso come prodotto tra prezzi e quantità nei due differenti momenti di osservazione (es fatturato). Sarà allora: Potrei essere interessato anche ad un indice sintetico che rappresenta la variazione delle quantità in un periodo. In questo caso variano le quantità, mentre rimane fisso il riferimento dei prezzi correnti (es promozione industriale): Può essere utile scomporre gli indici sintetici in sub-indici. L’indice generale può essere ottenuto anche media ponderata dei sub-indici.

VARIAZIONI TENDENZIALI E CONGIUNTURALI

Preso un fenomeno misurato con cadenza infrannuale, tale per cui nell’anno ci sono k periodi (per esempio per i dati trimestrali k=4, mensili k=12, …) si parla di variazione:

• Congiunturale quando si rapporta il dato corrente xt al dato precedente xt-

• Tendenziale quando si rapporta il dato corrente xt al dato corrispondente dell’anno precedente.

Nel caso di dati trimestrali ci confrontiamo con xt-

VARIAZIONI NOMINALI E REALI

Un aggregato monetario (misurato dunque in valore) può variare, sia per effetto di variazioni nel volume dei beni e servizi sottostanti, sia per effetto di una variazione nei prezzi. Dato un generico aggregato, si indica con:

• Variazione a prezzi correnti, la crescita in valore di A tra il tempo t e il tempo 0:

• Variazione a prezzi costanti, la variazione in quantità dell’aggregato:

Spesso ci troviamo a dovere calcolare valori e variazioni a prezzi costanti, senza conoscere i valori dei prezzi e delle quantità degli aggregati sottostanti. Quello che tipicamente si conosce è l’aggregato a valori correnti nel tempo ed un indice dei prezzi (l’ISTAT pubblica mensilmente delle tavole per le rivalutazioni monetarie). Per ottenere gli aggregati espressi ad un medesimo livello dei prezzi:

- Deflazioniamo l’aggregato a valori correnti dividendolo per l’indice dei prezzi in %

- Otteniamo così i ricavi di vendita a prezzi costanti

- La variazione 23/22 relativa dei ricavi a prezzi costanti, corrisponde alla variazione in termini

reali

6. MISURA DELLE RELAZIONI TRA VARIABILI PER LE DECISIONI

AZIENDALI

Nella gestione operativa di un’impresa capita spesso, prima di prendere determinate decisioni, di voler verificare l’esistenza e l’intensità delle relazioni tra le variabili di interesse. Per esempio due ambiti rilevanti sono l’analisi e dunque la comprensione delle dinamiche dei costi di produzione da un lato e delle vendite dall’altro.

ANALISI DELLA CORRELAZIONE

La correlazione tra due variabili può essere in prima battuta analizzata graficamente. Si tratta di visualizzare i dati delle due variabili attraverso un diagramma di dispersione ( scatterplot ), dove ogni punto rappresenta nel piano il punto definito dalle coordinate xi e yi, che corrispondono alle osservazioni nella popolazione di due caratteristiche X e Y

• Potremmo avere una correlazione positiva tra X e Y: se cresce X cresce anche Y. Per esempio X

potrebbe essere l’età dei clienti dell’azienda, mentre Y il volume di vendite dell’impresa a quel cliente

• Potremmo avere una correlazione negativa tra X e Y: se cresce X diminuisce Y. Per esempio X

potrebbe essere il prezzo del prodotto in diversi momenti, mentre Y il volume di vendite

• Potremmo avere una correlazione assente tra X e Y: le due caratteristiche sono indipendenti:

volumi delle vendite di creme per il viso e giornali Per avere una misura dell’intensità della relazione tra le due variabili di interesse, si calcola l’ indice parametrico di correlazione di Pearson : È n numero puro (senza dimensioni), compreso tra -1 e 1:

- ρxy = 1 c’è una correlazione lineare positiva «perfetta» tra x e y

- ρxy = -1 c’è una correlazione lineare negativa «perfetta» tra x e y

- ρxy = 0 non c’è correlazione

Quando l’indice di correlazione viene calcolato su dati provenienti da un campione, piuttosto che da un’intera popolazione obiettivo, occorre disporre di uno stimatore campionario e su di esso fare inferenza con un test di ipotesi sulla significatività del suo valore. L'inferenza statistica è il procedimento per cui si deducono le caratteristiche di una popolazione dall'osservazione di una parte di essa (detta "campione"), selezionata solitamente mediante un esperimento casuale (aleatorio). Quando abbiamo di fronte un campione di osservazioni, la correlazione può essere stimata con il seguente stimatore campionario corretto (per n-1): Se in cui ρxy = 0, l’errore standard della variabile aleatoria correlazione campionaria rxy:

Se X e Y sono normalmente distribuite e sotto l’ipotesi che l’indice di correlazione di Pearson della popolazione sia zero (H0 : ρxy = 0), la statistica t-test che useremo è la seguente:

VERIFICA DELLE IPOTESI

La verifica (test) delle ipotesi statistiche consiste nel: a) formulare un’ipotesi su uno o più parametri (incogniti) della popolazione b) estrarre opportunamente un campione da questa popolazione c) verificare se l’ipotesi di partenza è supportata dai dati osservati Si specificano le ipotesi da sottoporre a verifica. Saranno:

• H0 ipotesi di interesse (detta ipotesi nulla)

• HA ipotesi alternativa

La verifica di coerenza tra ipotesi di partenza ed evidenza campionaria si basa sulla distribuzione di probabilità che assume la statistica test τ nel caso in cui H0 sia vera. Data questa statistica test, fisso un livello di confidenza 1-α del test. α è il livello di errore probabile tollerabile. Si tratta di una «probabilità» ragionevolmente «piccola», spesso α=5% Sulla base della distribuzione della statistica test τ, si calcolano i valori critici (i confini) per:

- Regione di accettazione: dove sotto l’ipotesi che sia vera H0 cade con probabilità 1-α il valore

vero della popolazione

- Regione di rifiuto: dove sotto l’ipotesi che sia vera H0, il valore vero della popolazione cade con

una probabilità molto «piccola» (α) Si estrae il campione, si calcola il valore della statistica test τ e lo confronto con i valori critici visti sopra: a) Se il valore campionario cade nella regione di accettazione, allora non si rifiuta l’ipotesi H b) Se il valore campionario cade nella regione di rifiuto, allora si rifiuta l’ipotesi H I valori critici dipendono ovviamente dalla forma della distribuzione della statistica

TEST T

Nella pratica la statistica test viene standardizzata: si sottrae il valore atteso che corrisponde all’ipotesi nulla (sub H0), in modo da centrare la distribuzione sullo 0. Inoltre, si si divide per l’errore standard (stimato in modo di ottenere una varianza pari a 1). Si ottiene così una statistica nota come t – test. Se è vera l’ipotesi H0: μ = m*: Conoscendo la distribuzione della t-test posso individuare i valori critici entro i quali si distribuirà al livello 1-α la distribuzione della statistica. Confronto poi il valore della statistica corrispondente a H0.Se per questo valore la statistica test finisce fuori dall’area di accettazione rifiuto l’ipotesi, altrimenti «non rifiuto» H0. ESEMPIO Consideriamo un caso in cui non siano note media e varianza della popolazione, ma il campione sia«sufficientemente grande» (es. n=100), con media 175 ed errore standard 3 Voglio verificare, sulla base del campione estratto, H0: μ = 180, con un livello di confidenza del 95% (1-α). Utilizziamo la statistica t-test, che per campioni sufficientemente grandi si distribuisce come una normale di media zero e varianza uno. Posso calcolare i valori critici del test al 95%, risulterà tcrit = 1, Calcolo adesso il valore della statistica t-test in corrispondenza della media e dell’errore standard campionari: t’ = (175-180) / 3 = - 1, Confronto il valore di t’ con i valori critici e vedo che esso cade all’interno della regione di accettazione, dunque «non rifiuto» l’ipotesi H0.

Siamo interessati alla bontà di adattamento del nostro modello ai dati, dunque la misura di precisione della stima. Per valutarla usiamo un’altra statistica: il cosiddetto R^2 La variabilità di yt attorno alla sua media y (devianza) è la somma dei quadrati totali, o total sum of squares (TSS). Tale devianza può essere divisa in due parti: la devianza spiegata (ESS) e quella residua (RSS). Si deriva dunque: È compreso tra 0 e 1

  • R^2 = 0^ →^ ESS = 0^ →^ RSS = TSS
  • R^2 = 1^ →^ RSS = 0^ →^ ESS = TSS IPOTESI: Sotto le ipotesi da (1) a (4), gli stimatori OLS sono detti BLUE (Best Linear Unbiased Estimators):

• Linear: sono funzioni lineari (dei dati del campione)

• Unbiased: i valori attesi sono uguali ai parametri «veri» valori

• Best: significa che lo stimatore OLS ha varianza minima nella classe degli stimatori lineari

corretti; questo risultato prende il nome di Teorema di Gauss–Markov. PROPRIETÀ:

  1. Consistenza : Gli stimatori dei minimi quadrati β0^ e β1^ sono consistenti, ovvero le stime convergeranno ai veri valori dei parametri al divergere a infinito della dimensione del campione (T). Servono le ipotesi Cov(ut; xt) = 0 e Var(ut) = σ^2 per dimostrarlo
  2. Correttezza : Gli stimatori dei minimi quadrati β0^ e β1^ sono corretti, ovvero E(β0^) = β0 e E(β1^) = β1. Pertanto, in media le stime saranno uguali ai veri valori. Serve che E(ut) = 0
  3. Efficienza: Uno stimatore β^ del parametro β è detto efficiente se è corretto ed ha varianza minima tra gli stimatori corretti. Il teorema di Gauss-Markov ci dice che gli stimatori dei minimi quadrati sono i più efficienti tra gli stimatori corretti se E(ut) = 0 (stimatore corretto), Cov(ui; uj) = 0 (errori incorrelati) e Var(ut) = σ^2 (errori omoschedastici) Quando applichiamo una regressione lineare su dati campionari per fare inferenza, ricavando un modello lineare semplice, usiamo una gamma di stimatori che sono necessari per stime puntuali ed intervallari. Per costruire la statistica t-test su cui basare la verifica delle ipotesi e costruire degli intervalli di confidenza, ci servono stimatori e relativi errori standard. Servirà una misura dell’affidabilità/precisione, ossia gli errori standard degli stimatori : L’ errore standard dello stimatore degli errori (residui) di previsione è dato dalla radice quadrata della somma dei quadrati dei residui, diviso la dimensione T del campione ridotto per il numero dei regressori (2 nella regressione semplice):

TEST DI IPOTESI SUI COEFFICIENTI DI REGRESSIONE

Come abbiamo già visto, per fare inferenza sui coefficienti della regressione (test di ipotesi/calcolo intervalli di confidenza) è necessario che gli errori si distribuiscano come una normale di media 0 e varianza costante σ^2 , ovvero: Ut ∼ N(0, σ^2 ) Se ipotesi di partenza è vera, allora anche gli stimatori dei coefficienti di regressione si distribuiscono come una normale (essendo riconducibili a somme di variabili Normali). Se non vale l’ipotesi della normalità dei residui, i parametri si distribuiranno come una normale solo se valgono la ipotesi da 1 a 4 ed il campione è sufficientemente grande. Da β0 e β1 posso costruire le variabili normali standard, che a loro volta si distribuiranno come una normale standard, di media 0 e varianza 1. Le varianze dei degli stimatori dei coefficienti non sono note, perciò si usano le stime ES(β0) e ES(β1) e si ottiene: Soddisfatte tali condizioni, possiamo testare l’ipotesi statistica H0 : β = β* con β* una costante (che potrebbe essere 0 o un’ipotesi economica di interesse). Si calcola dunque la statistica test che si distribuisce come una t di Student con T-2 gradi di libertà (dove T è la dimensione del campione). Si sceglie poi un livello di significatività α e si ottengono i valori critici che delimitano le regioni di rifiuto. Se la statistica test finisce nella regione di accettazione allora non si rifiuta H0 (vedi sotto), altrimenti non la si rifiuta.

ANALISI GRAFICA DEI RESIDUI

Nei software statistici è disponibile un’amplia diagnostica per verificare le caratteristiche dei residui, al fine di poter fare inferenza sui dati campionari. Per verificare la normalità dei residui si può guardare il grafico q-q normal plot (che confronta i quantili della distribuzione empirica dei residui standardizzati con quelli di una normale standard). Se le distribuzioni sono simili la condizione di normalità è rispettata. Un altro modo per verificare la normalità della distribuzione empirica dei residui è porre i residui standardizzati su un grafico. Dobbiamo aspettarci si distribuiscano in modo casuale attorno allo zero, compresi tra -/+ 1,96 * errore standard dei residui. Se i residui dovessero distribuirsi in modo non casuale (per esempio più grande è il valore della variabile dipendente, maggiore è l’errore standardizzato), allora siamo probabilmente in presenza di eteroschedasticità, che «viola» la condizioni di errori con varianza costante.