Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Data Analysis Della Beffa, Dispense di Statistica

Dispense corso della beffa per laurea magistrale in iulm in marketing

Tipologia: Dispense

2022/2023

Caricato il 05/02/2023

GiuseppeScibilia
GiuseppeScibilia 🇮🇹

5 documenti

1 / 17

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
IULM Analisi bivariata 1
IULM
Analisi bivariata
1. Elementi di probabilità ................................................................................................................................. 1
1.1. Probabilità........................................................................................................................................ 1
1.2. Distribuzioni di frequenza ............................................................................................................... 2
1.3. Distribuzioni di probabilità .............................................................................................................. 2
1.4. Distribuzione normale ..................................................................................................................... 3
2. Livelli di analisi ............................................................................................................................................ 4
3. Relazione tra due variabili numeriche .......................................................................................................... 5
4. Relazione tra una variabile categorica e una numerica ............................................................................... 6
5. Correlazione e differenza in media............................................................................................................... 7
6. Relazione tra due variabili categoriche ........................................................................................................ 8
7. Statistica inferenziale ................................................................................................................................... 9
7.1. Stima puntuale e stima intervallare ............................................................................................... 10
7.2. Verifica di ipotesi: generalità ........................................................................................................ 11
7.3. Errore di I e di II tipo ..................................................................................................................... 11
8. Analisi della varianza ................................................................................................................................. 12
8.1. Anova a una via ............................................................................................................................. 13
8.2. Assunzioni del modello ................................................................................................................. 15
8.3. Output standard dell’Anova........................................................................................................... 15
9. Test chi-quadrato ........................................................................................................................................ 15
9.1. Output standard del test chi-quadrato ............................................................................................ 16
1. Elementi di probabilità
1.1. Probabilità
La probabilità è una misura della possibilità che un evento si verifichi. La probabilità di ottenere testa
lanciando una moneta è del 50%, cioè ½, come si può giustificare intuitivamente pensando che le facce sono
due e che il risultato può essere indifferentemente una delle due. Un po’ più precisamente si può pensare a
questa probabilità come proporzione di teste ottenuta in un grande numero di lanci:
𝑝 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑡𝑒𝑠𝑡𝑒
𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑙𝑎𝑛𝑐𝑖
Dopo 10 lanci ci si aspetta che il numero di teste sia circa 5, con una certa approssimazione; dopo 100 lanci
ci si aspetta che sia 50, con un’approssimazione migliore, e così via, con l’approssimazione che migliora al
crescere del numero di lanci. Più in generale si può dire che la probabilità è il limite cui tende il rapporto
𝑝 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑐𝑎𝑠𝑖 𝑓𝑎𝑣𝑜𝑟𝑒𝑣𝑜𝑙𝑖
𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑝𝑟𝑜𝑣𝑒
quando il numero di prove tende all’infinito
1
.
La probabilità è quindi un numero compreso tra zero e 1:
- 0 𝑝 1
- 𝑝 = 1 è la probabilità dell’evento certo;
2
- 𝑝 = 0 è la probabilità dell’evento impossibile;
3
- la somma delle probabilità di tutti gli eventi possibili è 1.
4
1
È la definizione frequentista della probabilità.
2
Tutti i casi sono favorevoli, es. che lanciando una moneta esca o testa o croce.
3
Nessun caso è favorevole, es. che lanciando una moneta non esca testa croce.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica Data Analysis Della Beffa e più Dispense in PDF di Statistica solo su Docsity!

IULM

Analisi bivariata

  1. Elementi di probabilità ................................................................................................................................. 1 1.1. Probabilità........................................................................................................................................ 1 1.2. Distribuzioni di frequenza ............................................................................................................... 2 1.3. Distribuzioni di probabilità.............................................................................................................. 2 1.4. Distribuzione normale ..................................................................................................................... 3
  2. Livelli di analisi ............................................................................................................................................ 4
  3. Relazione tra due variabili numeriche .......................................................................................................... 5
  4. Relazione tra una variabile categorica e una numerica ............................................................................... 6
  5. Correlazione e differenza in media............................................................................................................... 7
  6. Relazione tra due variabili categoriche ........................................................................................................ 8
  7. Statistica inferenziale ................................................................................................................................... 9 7.1. Stima puntuale e stima intervallare ............................................................................................... 10 7.2. Verifica di ipotesi: generalità ........................................................................................................ 11 7.3. Errore di I e di II tipo ..................................................................................................................... 11
  8. Analisi della varianza ................................................................................................................................. 12 8.1. Anova a una via ............................................................................................................................. 13 8.2. Assunzioni del modello ................................................................................................................. 15 8.3. Output standard dell’Anova........................................................................................................... 15
  9. Test chi-quadrato ........................................................................................................................................ 15 9.1. Output standard del test chi-quadrato ............................................................................................ 16

1. Elementi di probabilità

1.1. Probabilità

La probabilità è una misura della possibilità che un evento si verifichi. La probabilità di ottenere testa lanciando una moneta è del 50%, cioè ½, come si può giustificare intuitivamente pensando che le facce sono due e che il risultato può essere indifferentemente una delle due. Un po’ più precisamente si può pensare a questa probabilità come proporzione di teste ottenuta in un grande numero di lanci: 𝑝 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑡𝑒𝑠𝑡𝑒 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑙𝑎𝑛𝑐𝑖 Dopo 10 lanci ci si aspetta che il numero di teste sia circa 5, con una certa approssimazione; dopo 100 lanci ci si aspetta che sia 50, con un’approssimazione migliore, e così via, con l’approssimazione che migliora al crescere del numero di lanci. Più in generale si può dire che la probabilità è il limite cui tende il rapporto 𝑝 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑐𝑎𝑠𝑖 𝑓𝑎𝑣𝑜𝑟𝑒𝑣𝑜𝑙𝑖 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑝𝑟𝑜𝑣𝑒 quando il numero di prove tende all’infinito^1. La probabilità è quindi un numero compreso tra zero e 1:

  • 0 ≤ 𝑝 ≤ 1
  • 𝑝 = 1 è la probabilità dell’evento certo ;^2
  • 𝑝 = 0 è la probabilità dell’evento impossibile ;^3
  • la somma delle probabilità di tutti gli eventi possibili è 1.^4 (^1) È la definizione frequentista della probabilità. (^2) Tutti i casi sono favorevoli, es. che lanciando una moneta esca o testa o croce. (^3) Nessun caso è favorevole, es. che lanciando una moneta non esca testa croce.

1.2. Distribuzioni di frequenza

Le distribuzioni di frequenza sono lo strumento più generale per descrivere un fenomeno casuale. Consistono nell’associare a ogni possibile valore di una variabile casuale la frequenza con cui esso si presenta. Si possono esprimere in termini di frequenze assolute o relative (fig. 1a) e possono essere rappresentate graficamente con istogrammi oppure diagrammi a barre (fig. 1b). La distribuzione di frequenza si può calcolare per qualunque tipo di variabile, sia categorica (es. forma di pagamento, fig. 1a e 1b), sia numerica. Le variabili numeriche continue – o semplicemente con molti valori – vengono raggruppate in classi (es. età, fig. 2). frequenza assoluta frequenza relativa Cash 460 54% Bancomat 336 40% Carta credito (^54) 6% 850 100% Fig. 1a Distribuzione di frequenza Fig. 1b Diagramma a barre (variabile categorica) La rappresentazione grafica da utilizzare nei due casi è diversa: per variabili categoriche si usano grafici a barre (fig. 1b), per variabili numeriche si usano istogrammi (fig. 2 ). La differenza tra le due figure sta nell’asse orizzontale, categorico per variabili categoriche e numerico per variabili numeriche. Nel primo caso i valori sull’asse possono essere riordinati a piacere, nel secondo caso hanno un preciso ordinamento numerico. L’asse verticale rappresenta in ogni caso la frequenza, assoluta o relativa.^5 Fig. 2 Istogramma della stessa variabile numerica (età) con raggruppamenti in classi di ampiezza diversa

1.3. Distribuzioni di probabilità

Le distribuzioni di frequenza sono in genere costruite in base a dati osservati, perlopiù campionari. Le distribuzioni di probabilità sono i corrispondenti modelli teorici di riferimento. Ne esistono moltissime, con forme diverse, per modellare fenomeni diversi. La distribuzione di probabilità di fig. 3a è un buon modello teorico per la distribuzione del peso degli uomini adulti (e per molti altri parametri, biologici e no); il peso è rappresentato sull’asse orizzontale: i valori centrali sono quelli cui corrisponde la probabilità più alta, man mano che ci si allontana dal centro la probabilità diminuisce. La distribuzione di fig. 3b è un buon modello (^4) Es. 𝑃𝑟𝑜𝑏(𝑐𝑟𝑜𝑐𝑒) + 𝑃𝑟𝑜𝑏(𝑡𝑒𝑠𝑡𝑎) = 0 , 5 + 0 , 5 = 1 (^5) Istogrammi e grafici a barre possono in realtà avere orientamento sia orizzontale che verticale, scambiando semplicemente il ruolo degli assi. Alcune applicazioni (es. Excel) utilizzano nomi diversi per grafici a barre (orizzontali) e grafici a colonne (verticali), ma si tratta concettualmente della stessa rappresentazione con orientamento diverso. 0% 10% 20% 30% 40% 50% 60% 0 100 200 300 400 500 Cash Bancomat Carta credito frequenza assoluta^ frequenza relativa

parametri che rappresentano la media (𝜇) e la varianza (𝜎^2 ) della distribuzione e si indica con 𝑁(𝜇, 𝜎^2 ). Media, moda e mediana coincidono, la probabilità diminuisce allontanandosi dal centro di simmetria^11. La media indica la posizione rispetto all’asse orizzontale: una distribuzione con media più alta è spostata più a destra (curva rossa in fig. 5a); la varianza indica se la distribuzione è più o meno appuntita: una distribuzione con varianza più alta è più schiacciata (curva rossa in fig. 5b). Fig. 5a Distribuzioni normali con medie diverse Fig. 5b Distribuzioni normali con varianze diverse La particolare distribuzione normale per cui 𝜇 = 0 e 𝜎 = 1 prende il nome di normale standard 𝑁( 0 , 1 ). Rispetto ad essa sono definiti alcuni valori notevoli di frequente utilizzo, ad esempio: la percentuale di valori compresi tra − 1 e + 1 è circa il 68% 12 , il 95% dei valori è compreso approssimativamente tra − 2 e + 2 13. La distribuzione normale deve il suo nome alla sua diffusione: è quella che meglio rappresenta molti parametri biologici e naturali^14 , è la distribuzione di probabilità degli errori casuali^15 e di molte statistiche campionarie, è la forma limite di numerose altre distribuzioni. Esistono tuttavia innumerevoli fenomeni la cui distribuzione di probabilità non è normale^16.

2. Livelli di analisi I metodi della statistica si possono schematizzare in tre categorie principali: 1. analisi univariata , che tratta una variabile alla volta; i suoi strumenti sono quelli della statistica descrittiva: distribuzioni di frequenza, indici di posizione (es. media, mediana, percentili) e indici di dispersione (es. varianza, scarto interquartile); le distribuzioni di frequenza e la moda si possono calcolare per qualunque tipo di variabile − numerica o categorica, e per le variabili categoriche (es. la marca) costituiscono gli unici strumenti disponibili −; indici come la media e la varianza si possono calcolare solo per variabili numeriche (es. età, reddito); indici come la mediana si possono calcolare anche per variabili ordinali (es. classi di reddito, livello di istruzione); 2. analisi bivariata , il cui oggetto è la relazione tra due variabili; si danno tre casi diversi secondo il tipo di variabili coinvolte: - relazione tra due variabili numeriche, - relazione tra una variabile numerica e una categorica, - relazione tra due variabili categoriche; l’analisi bivariata è l’oggetto di questa dispensa; 3. analisi multivariata , che studia le relazioni simultanee tra più di due variabili e comprende tutti i modelli il cui scopo è riassumere, schematizzare e rappresentare i fenomeni reali; sono esempi di analisi multivariate i modelli di regressione, la cluster analysis, gli strumenti di mapping e molti altri; anche gli strumenti sviluppati nell’ambito del data mining e del machine learning sono multivariati, nel senso che in genere analizzano molte variabili contemporaneamente, però non sono tutti modelli statistici in senso classico perché si basano su ipotesi diverse e spesso si prefiggono obiettivi diversi^17. (^11) La funzione di densità della distribuzione normale è 𝑓(𝑥) = exp (− (𝑥−𝜇)^2 2 𝜎^2 )^ √^2 𝜋𝜎 ⁄^2 (^12) Ovvero: l’area sotto la curva normale standard compresa tra − 1 e + 1 è circa 0,68. (^13) Precisamente tra − 1 , 96 e + 1 , 96. (^14) Es. altezza delle donne adulte, peso alla nascita, pressione sanguigna, millimetri di pioggia annui a Milano. (^15) Es. lo scarto dei pezzi prodotti da una macchina rispetto al valore (peso, dimensione) medio. (^16) Es. il reddito, il numero di follower, i tempi di attesa, il consumo giornaliero di alcol. (^17) Nel caso del data mining e del machine learning si parla piuttosto di statistica o di metodi computazionali.

3. Relazione tra due variabili numeriche Lo studio della relazione tra due variabili numeriche ha come oggetto l’ andamento relativo , o associazione , di una variabile rispetto a un'altra, cioè il fatto che al crescere di una variabile l’altra tendenzialmente cresca, o decresca, oppure oscilli senza una direzione precisa. Un esempio di associazione positiva tra due quantità è

  • almeno teoricamente − quello tra reddito e consumi, poiché in generale i consumi aumentano all’aumentare del reddito; viceversa tra prezzo unitario e numero di pezzi venduti c’è una associazione negativa, perché quando il prezzo aumenta le vendite in generale diminuiscono. Un modo intuitivo per visualizzare la relazione tra due variabili numeriche è di rappresentarle su un piano cartesiano, del quale le due variabili sono gli assi. Nell’esempio di fig. 6 sono rappresentate le vendite di biglietti di diversi concerti in funzione dell’investimento pubblicitario: ogni punto rappresenta un concerto, l’asse orizzontale indica l’investimento pubblicitario (in migliaia di annunci su radio e tv), l’asse verticale indica le vendite di biglietti (in migliaia di dollari). L’andamento ascendente dei punti nel grafico mostra che in generale – e nonostante differenze e oscillazioni individuali – a investimenti maggiori corrispondono maggiori vendite. Fig. 6 Grafico a dispersione Lo strumento più diffuso per misurare la relazione tra due variabili numeriche è il coefficiente di correlazione di Bravais-Pearson^18 , che misura l’intensità della relazione lineare tra due variabili; si indica con la lettera r e assume valori tra − 1 e + 1 19 : − 1 ≤ 𝑟 ≤ + 1 I valori del coefficiente di correlazione hanno il significato seguente (vedi anche fig. 7 ): 𝑟 > 0 : correlazione positiva, diretta: al crescere di una variabile anche l’altra cresce; 𝑟 < 0 : correlazione negativa, inversa: al crescere di una variabile l’altra decresce; 𝑟 = 0 : le due variabili sono incorrelate ; 𝑟 = ± 1 : le due variabili sono perfettamente correlate, i punti sono allineati su una retta. Fig. 7 Valori del coefficiente di correlazioni per diverse configurazioni di punti (^18) Auguste Bravais, 1811-1863; Karl Pearson, 1857- 1936 (^19) Il coefficiente di correlazione tra due variabili X e Y è la covarianza tra le due variabili normalizzata, cioè ricondotta all’intervallo [− 1 , + 1 ] con la trasformazione: 𝑟 = 𝑐𝑜𝑣(𝑋, 𝑌) ⁄(^ 𝜎𝑋 ∙ 𝜎𝑌)dove 𝑐𝑜𝑣(𝑋, 𝑌) è la covarianza di X e Y , e 𝜎𝑋 e 𝜎𝑌 sono le deviazioni standard di X e Y rispettivamente. $ $ $1. $1. $2. 0 10 20 30 40 50 60 70 80 Sales ($1000) Thousands of Radio&TV ads Concert Sales

N media devstd min max Cash 460 40,8 32,2 13 324 Bancomat 336 51,8 37,5 14 266 Carta credito 54 64,6 71,8 18 446 Totale 850 46,7 38,5 13 446 Fig. 9 Differenza in media: importo dello scontrino per modalità di pagamento Nell’esempio le medie sono evidentemente diverse: i pagamenti cash hanno media più bassa e quelli con carta di credito hanno media più alta. Il problema è che nella pratica le medie nei gruppi non sono mai identiche, a prescindere dall’esistenza o no di una relazione, a causa delle oscillazioni casuali dei dati, che normalmente provengono da un campione e variano per esempio da un giorno all’altro. Il problema diventa quindi quello di stabilire se le differenze tra le medie sono abbastanza piccole da poter essere attribuite al caso o se sono tanto grandi da indicare con ragionevole certezza l’esistenza di una relazione. Una risposta rigorosa a questo problema è oggetto del paragrafo 8 (analisi della varianza). L’analisi della differenza in media si può presentare anche come analisi delle differenze tra variabili. In genere si tratta solo di una riorganizzazione dei dati, nella quale ogni valore della variabile categorica – cioè ogni gruppo – dà luogo a una variabile distinta. Nel nostro caso l’indicazione del tipo di pagamento si tradurrebbe in tre variabili – cash, bancomat, carta di credito – o addirittura in tre dataset distinti.

5. Correlazione e differenza in media Correlazione e differenza in media misurano relazioni diverse e rappresentano concetti indipendenti e distinti: la correlazione misura l’ andamento di una variabile rispetto all’altra, cioè se al crescere dell’una l’altra cresce o decresce con sufficiente regolarità; la differenza in media confronta il valore di una variabile in gruppi diversi, oppure il valore di variabili diverse. Negli esempi di fig. 10 .1 e 10 .2 si confrontano le correlazioni di tre coppie di variabili – d1 e d2, d1 e d3, d1 e d4 – e le rispettive differenze in media: x d1 d2 d3 d 0 1 2 8 1 1 2 1 9 9 2 1 2 8 1 3 2 1 9 9 4 1 2 8 1 5 2 1 9 9 media 1,5 1,5 8,5 5 correlazione con d 1 – 1 1 1 Fig. 10 .1 Confronto tra correlazione e differenza in media

  • d1 e d2 hanno la stessa media ma correlazione – 1: a valori più alti di d1 corrispondono con perfetta regolarità valori più bassi di d2;
  • d1 e d3 hanno medie diverse ma correlazione +1: a valori più alti di d1 corrispondono con perfetta regolarità valori più alti di d3;
  • d1 e d4 hanno ancora medie diverse e correlazione +1: ad aumenti (o diminuzioni) uguali di d corrispondono aumenti uguali di d4, anche se l’entità degli aumenti è diversa per d1 e per d4. Fig. 10 .2 Correlazione e differenza in media tra coppie di variabili 40, 51, 64, Cash Bancomat CartaCred 0 5 10 0 1 2 3 4 5 d1 d 0 5 10 0 1 2 3 4 5 d1 d 0 5 10 0 1 2 3 4 5 d1 d

6. Relazione tra due variabili categoriche L'analisi della relazione tra due variabili categoriche si basa sulle frequenze congiunte delle due variabili, che si possono rappresentare in tabelle a doppia entrata (o tavole di incrocio). Una tipica domanda di marketing è se la proporzione di maschi che preferiscono certe marche differisce dalla proporzione di femmine, o no. Sia il genere sia la marca sono variabili categoriche. I dati delle preferenze sono riassunti e rappresentati nella tavola e doppia entrata di fig. 11 : le femmine sono in tutto 37 su 100, di queste 9 preferiscono la marca A, 6 la B, e così via. I valori nella riga e nella colonna dei totali ( distribuzioni marginali ) sono semplicemente le distribuzioni di frequenza delle due variabili prese singolarmente; i valori interni alla tabella (da 9 a 21) sono le frequenze congiunte osservate. Marca A Marca B Marca C Totale Femmine 9 6 22 37 Maschi 25 17 21 63 Totale 34 23 43 100 Fig. 11 Tabella a doppia entrata Genere × Marca: frequenze osservate Analizzare la relazione ( associazione ) tra le due variabili corrisponde a chiedersi se le due variabili sono indipendenti o no: se le preferenze di genere e di marca sono indipendenti, ci si aspetta che la proporzione di femmine che preferisce la marca A (9 su 37) sia approssimativamente uguale a quella dei maschi (25 su 63), e anche approssimativamente uguale alla proporzione totale della marca A (34 su 100); e così per tutte le marche. In altri termini: se le due variabili sono indipendenti le distribuzioni relative delle preferenze su tutte le righe sono approssimativamente uguali tra loro e anche alla distribuzione marginale, cioè in definitiva la distribuzione delle preferenze non dipende dalla riga. L’indipendenza tra due variabili è una relazione simmetrica: se la marca è indipendente dal genere, anche il genere è indipendente dalla marca, quindi le considerazioni precedenti valgono indifferentemente per colonna o per riga^22. L'indipendenza tra due variabili categoriche significa dunque che le frequenze congiunte dipendono solo dalle frequenze marginali. Questo permette di calcolare le frequenze teoriche (o attese ) di ogni cella in caso di indipendenza. Per la generica cella all’incrocio della riga i - esima con la colonna j - esima vale la formula: 𝑓𝑟𝑒𝑞 𝑡𝑒𝑜𝑟𝑖𝑐𝑎 (^) 𝑖𝑗 = (𝑡𝑜𝑡𝑎𝑙𝑒 𝑟𝑖𝑔𝑎 𝑖) ∙ (𝑡𝑜𝑡𝑎𝑙𝑒 𝑐𝑜𝑙𝑜𝑛𝑛𝑎 𝑗) 𝑛𝑢𝑚 𝑡𝑜𝑡𝑎𝑙𝑒 𝑢𝑛𝑖𝑡à La frequenza teorica corrispondente alla frequenza osservata 9 è: ( 37 ∙ 34 ) ⁄ 100 = 12 , 6 e in modo analogo si possono calcolare tutte le altre (fig. 12 ). Marca A Marca B Marca C Totale Femmine 12,6 8,5 15,9 37 Maschi 21,4 14,5 27,1 63 Totale 34 23 43 100 Fig. 12 Frequenze teoriche Il concetto di indipendenza può essere riformulato come segue: due variabili categoriche sono indipendenti se e solo se tutte le frequenze osservate sono uguali alle frequenze teoriche. L’indipendenza è perfetta se le frequenze osservate e quelle teoriche sono identiche; quanto maggiori sono le differenze tra di esse, tanto più lontane le due variabili sono dall’indipendenza. Le differenze tra frequenze osservate e teoriche sono però numerose – una per cella – , si pone quindi il problema di condensarle in un unico indicatore. L’indice χ^2 ( chi-quadrato ) risponde a questa esigenza e si può interpretare come una misura sintetica della distanza dall'indipendenza : 𝜒^2 = ∑ (𝑓𝑜 − 𝑓𝑒) 2 𝑓𝑒 con 𝑓𝑜 = frequenze osservate; 𝑓𝑒 = frequenze toriche ( expected ); per l’esempio di fig. 6 e 7: (^22) Basta trasporre la matrice della tavola a doppia entrata per scambiare il ruolo delle righe e delle colonne senza modificare il significato dei dati contenuti nella tavola.

Numerosità alta varianza piccola preciso Numerosità bassa varianza grande non preciso Non distorto media esatta accurato Distorto media errata non accurato Fig. 13 Precisione vs accuratezza

7.1. Stima puntuale e stima intervallare

Il problema di stimare un parametro della popolazione con un campione è complicato dal fatto che la stima ottenuta dal campione ( stima puntuale ) è essa stessa una variabile casuale, perché varia al variare del campione. È quindi necessario ampliare e corredare la stima campionaria puntuale con elementi aggiuntivi. In particolare la stima di parametri della popolazione fornita dalla statistica inferenziale è caratterizzata dal fatto di essere costituita non da un singolo valore ma da un intervallo di confidenza al quale è associato un livello di confidenza. Le stime intervallari hanno la forma seguente: 𝑠𝑡𝑖𝑚𝑎 𝑝𝑢𝑛𝑡𝑢𝑎𝑙𝑒 ± 𝑚𝑎𝑟𝑔𝑖𝑛𝑒 𝑑𝑖 𝑒𝑟𝑟𝑜𝑟𝑒 Supponiamo di voler stimare la media m di una popolazione con un campione e di aver ottenuto per la media del campione il valore 796 : 𝑚 = 796 è la stima puntuale della media della popolazione, ma ad essa si può aggiungere l’informazione sul margine di errore, opportunamente calcolato tenendo conto anche di un livello di confidenza scelto (es. 95%); se l’errore calcolato è uguale a 5,9 la stima intervallare di m è: 796 − 5 , 9 < 𝑚 < 796 + 5 , 9 e si dice che la media della popolazione è compresa nell’intervallo ( 790 , 1 ; 801 , 9 ) con il livello di confidenza del 95%. Il significato del livello di confidenza al 95% è il seguente: al variare dei campioni – e quindi delle stime puntuali – ci si aspetta che per 95 campioni su 100 l’intervallo di confidenza contenga la stima “vera”. I livelli di confidenza sono generalmente fissati in modo convenzionale, ad esempio 95% o 99%. Dal punto di vista tecnico il problema è ovviamente quello di calcolare il margine di errore. I dettagli di tale calcolo dipendono dal parametro che si vuole stimare (es. media, proporzione) ed esulano dagli scopi di questa dispensa. Ai nostri fini basta osservare che l’elemento determinante per il calcolo dell’errore è la conoscenza della distribuzione campionaria del parametro da stimare – cioè la distribuzione di probabilità delle stime puntuali – e che tali distribuzioni sono perfettamente note in tutti i casi di interesse pratico.^24 Intuitivamente, anche se un po’ impropriamente, si può dire che la stima intervallare aggiunge alla stima puntuale una valutazione della precisione (l’ampiezza dell’intervallo di confidenza: ± 5 , 9 ) e una valutazione dell’affidabilità (il livello di confidenza: 95%). L’ideale sarebbe naturalmente avere un intervallo di confidenza di ampiezza minima (grande precisione) con il livello di confidenza più alto possibile (grande affidabilità), tuttavia la relazione tra i due parametri è tale che – a parità di altre condizioni – migliorarne uno peggiora l’altro: al crescere del livello di confidenza (es. da 95% a 99%) l’affidabilità aumente ma aumenta anche l’ampiezza dell’intervallo, e quindi la precisione diminuisce; viceversa per avere un’ampiezza dell’intervallo minore bisogna accettare un livello di confidenza più basso (es. 90%). L’unico modo per migliorare un parametro senza peggiorare l’altro è aumentare la numerosità campionaria, perché al crescere (^24) Ad esempio la distribuzione campionaria della media è – per campioni abbastanza grandi – una distribuzione normale, con la stessa media della popolazione e varianza tanto più piccola quanto più grande è il campione.

della numerosità l’ampiezza dell’intervallo diminuisce. Si noti che aumentare la dimensione del campione significa aumentare la quantità di informazione disponibile, ed è appunto questo aumento che si traduce in miglioramento della stima.

7.2. Verifica di ipotesi: generalità

La verifica di ipotesi è il ramo della statistica inferenziale che si occupa dei metodi razionali per trarre conclusioni su affermazioni contrastanti riferite a caratteristiche della popolazione. Esempi di affermazioni contrastanti tra cui decidere sono quelli che abbiamo lasciato in sospeso nei paragrafi 4 e 6 : l’importo dello scontrino medio (§ 4) differisce tra una modalità di pagamento e l’altra? ovvero: le differenze riscontrate si possono attribuire al caso o c’è una differenza statisticamente significativa? e analogamente: la preferenza di marca e il genere (§ 6 ) sono indipendenti o no? ovvero: 𝜒^2 è “piccolo” o “grande”? La verifica delle ipotesi segue sempre lo schema seguente:

  1. formulazione dell’affermazione da verificare (l’ ipotesi ) insieme all’affermazione contrastante;
  2. raccolta dei dati campionari ( esperimento statistico );
  3. analisi dei dati raccolti per verificare se sono compatibili con l’ipotesi o no. Tipicamente l’ipotesi riguarda un parametro della popolazione; l’affermazione da testare si chiama ipotesi nulla e si indica con 𝐻 0 (es. 𝐻 0 : 𝜒^2 = 0 oppure 𝐻 0 : 𝜇 = 2 , 7 ) e descrive la situazione nota e supposta vera; l’affermazione contrastante si chiama ipotesi alternativa e si indica con 𝐻 1 (rispettivamente 𝐻 1 : 𝜒^2 > 0 oppure 𝐻 1 : 𝜇 ≠ 2 , 7 ). Tutti i test ipotizzano che l’ipotesi nulla sia vera: l’esperimento statistico serve per valutare se l’evidenza campionaria è compatibile con essa o se, al contrario, impone di rifiutarla. L’analisi dei dati campionari consiste nel calcolare una statistica test adatta al problema in oggetto e, come per la stima intervallare, la condizione fondamentale per il test delle ipotesi è la conoscenza della distribuzione di probabilità della statistica test. Ad esempio per testare l’ipotesi di indipendenza tra variabili categoriche la statistica test è 𝜒^2 e la relativa distribuzione di probabilità è nota. La scelta della statistica test dipende dall’ipotesi nulla e può dipendere da ipotesi sulla popolazione (es. se i dati hanno una distribuzione normale o no). Tutte le verifiche di ipotesi di interesse pratico sono perfettamente codificate e la statistica da usare è sempre chiaramente individuata, insieme con la relativa distribuzione di probabilità. Dal punto di vista applicativo il problema consiste nel ricondurre i casi reali agli schemi di verifica noti e documentati. Nei prossimi paragrafi 8 e 9 ne introdurremo due di particolare interesse e di vasta applicabilità. La decisione se respingere o no l’ipotesi nulla dipende da considerazioni probabilistiche, rese possibili – come già detto – dalla conoscenza della distribuzione di probabilità della statistica test. Tale conoscenza permette infatti di calcolare la probabilità associata al valore trovato per la statistica test, quando l’ipotesi nulla è vera. Se tale probabilità è molto piccola la decisione finale è di rifiutare l’ipotesi nulla in favore dell’ipotesi alternativa. Una probabilità molto piccola significa infatti che – se l’ipotesi nulla è vera – il valore della statistica test trovato è altamente improbabile e può quindi difficilmente essere attribuito al caso; appare quindi “più ragionevole” concludere che l’ipotesi nulla non è vera e che conviene invece accettare l’ipotesi alternativa. In pratica è dunque necessario fissare la soglia sotto la quale la probabilità è “abbastanza piccola”. Tale soglia è detta livello di significatività e viene indicata convenzionalmente con la lettera α^25 ; a ogni livello di significatività corrisponde un livello di confidenza uguale a 1 − 𝛼: al livello di significatività 0 , 05 = 5% corrisponde il livello di confidenza del 95%.

7.3. Errore di I e di II tipo

La decisione se rifiutare o no l’ipotesi nulla dipende dai dati campionari e può quindi variare da un campione all’altro. Il livello di significatività α rappresenta la probabilità di rifiutare l’ipotesi nulla quando in realtà è vera, ma non è l’unico errore possibile. Le possibili combinazioni tra risultato del test e situazione reale sono rappresentate in fig. 1 4. (^25) Valori tipici di α sono 0,05 o 0,01 ma altri valori sono possibili.

8.1. Anova a una via

L'analisi della varianza a una via (nel seguito Anova) ha lo scopo di determinare se ci sono differenze statisticamente significative tra le medie di due o più gruppi indipendenti. Per l’esempio dei metodi di pagamento (fig. 9) l’obiettivo del test è stabilire se le differenze osservate tra le medie nei gruppi (40,8; 51,8; 64,6) possano essere attribuite al caso o no. In generale l'ipotesi nulla è: 𝐻 0 : 𝜇 1 = 𝜇 2 = ⋯ = 𝜇𝑔 dove 𝜇𝑖 è la media di ciascun gruppo e g è il numero di gruppi. L'ipotesi alternativa è che almeno una delle medie (ma non necessariamente tutte) sia diversa dalle altre: 𝐻 1 : 𝜇𝑖 ≠ 𝜇𝑗 per qualche i e j Per l’esempio dei metodi di pagamento: 𝐻 0 : 𝜇𝑐𝑎𝑠ℎ = 𝜇𝑏𝑎𝑛𝑐𝑜𝑚𝑎𝑡 = 𝜇𝑐𝑟𝑒𝑑𝑖𝑡_𝑐𝑎𝑟𝑑 Si noti che l'Anova è un test globale, che dice se almeno due medie presentano una differenza statisticamente significativa, ma non dice quali medie differiscono. Questo aspetto deve essere oggetto di una analisi supplementare^28 che ha senso – anzi è di solito opportuna – solo se il risultato del test è significativo. In prima approssimazione, in caso di significatività del test, l’osservazione delle medie può essere sufficiente, come vedremo più avanti. L'Anova è l'estensione a più di due gruppi del test t (di Student) per il confronto di due medie. Se i gruppi sono due, test t e Anova sono equivalenti e forniscono lo stesso livello di significatività.^29 Il nome “analisi della varianza” deriva dal fatto che, per analizzare le differenze tra medie, l'Anova considera la variabilità totale delle osservazioni – cioè di tutte le osservazioni di tutti i gruppi – e valuta quanta parte di essa sia da attribuire a differenze tra le medie dei gruppi ( varianza tra i gruppi ) e quanta alle differenze interne ai gruppi ( varianza nei gruppi ). La statistica test su cui si basa l'Anova è il rapporto tra queste due varianze^30 : 𝐹 = 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑡𝑟𝑎 𝑔𝑟𝑢𝑝𝑝𝑖 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑛𝑒𝑖 𝑔𝑟𝑢𝑝𝑝𝑖 Se l'ipotesi nulla è vera, la statistica F segue la distribuzione di probabilità F di Fisher-Snedecor^31. Se l'ipotesi nulla è vera – cioè se le medie sono uguali – le differenze tra le osservazioni sono dovute solo al caso, quindi le varianze tra gruppi e nei gruppi sono simili e F ha un valore vicino a 1; se invece le medie non sono uguali, la varianza tra i gruppi è maggiore di quella nei gruppi: F assume valori tanto più grandi quanto più grandi sono le differenze tra i gruppi. Per la differenza tra metodi di pagamento la statistica test è: 𝐹 = 20925 , 9 1439 , 7 = 14 , 53 La domanda è: questo valore di F è abbastanza grande da imporre il rifiuto dell’ipotesi nulla? Per rispondere bisogna calcolare il p - value associato al valore di 𝐹. A questo scopo si fa riferimento alla distribuzione di F (fig. 1 5 )^32 : il p - value è l’area sotto la curva a destra del valore trovato (es. a destra di 𝐹 = 14 , 53 ) e misura la probabilità di ottenere un valore uguale o superiore a questo per effetto del caso , quando l’ipotesi nulla è (^28) Analisi post-hoc (^29) Quando i gruppi sono più di due, si potrebbero fare tutti i confronti a coppie con il test t , tuttavia questa pratica può richiedere un numero di confronti elevato e, soprattutto, aumenta la probabilità di respingere l'ipotesi nulla quando in realtà è vera (errore di tipo I); l'Anova garantisce invece il livello di significatività scelto (es. 0,05) con un unico test, a prescindere dal numero di gruppi. (^30) Per varianza si intende qui la media quadratica , cioè la somma dei quadrati divisa per i relativi gradi di libertà (vedi nota seguente). (^31) Ronald Fisher, 1890-1962; George Snedecor, 1881-1974. La distribuzione F ha due parametri ( gradi di libertà ) rispettivamente uguali a 𝑔 − 1 e a 𝑛 − 𝑔, dove 𝑔 è il numero di gruppi e 𝑛 la dimensione del campione. (^32) Da http://www.statdistributions.com/f/

vera. Il valore di p può essere determinato in molti modi, ad esempio online o con Excel. Nel caso in esame il p - value è talmente piccolo da essere riportato in fig. 1 5 come 𝑝 = 0 33 (solo a fini espositivi osserviamo che se il valore della statistica test fosse stato 𝐹 = 1 , 45 l’area sotto la curva alla sua destra sarebbe stata più grande e il corrispondente valore del p - value sarebbe stato 0,237; fig. 1 6 ). Il p - value calcolato è infine confrontato con il livello di significatività α scelto (es. α = 0 , 05 ); si possono avere due casi:

  • p - value > α: (^) il test non è significativo , il valore di 𝐹 non è significativamente maggiore di 1, i dati campionari non giustificano il rifiuto di 𝐻 0 , le medie nei gruppi non sono significativamente diverse al livello di significatività α;
  • p - value < α: il test è significativo , il valore di 𝐹 è significativamente maggiore di 1, si rifiuta 𝐻 0 in favore di 𝐻 1 , almeno due medie di gruppo sono significativamente diverse al livello di significatività scelto α. Fig. 1 5 Distribuzione F : 𝑃𝑟𝑜𝑏(𝐹 ≥ 14 , 53 ) = 0 Fig. 1 6 Distribuzione F: 𝑃𝑟𝑜𝑏(𝐹 ≥ 1 , 45 )^ = 0 , 237 Per la differenza tra metodi di pagamento il p - value è praticamente zero, quindi è minore di qualunque livello di significatività convenzionale α; la conclusione è quindi che il test è statisticamente significativo e l’ipotesi nulla deve essere respinta in favore dell’ipotesi alternativa: gli importi medi dei pagamenti al variare dei metodi di pagamento non sono tutti uguali. Questa è la risposta alla domanda che era rimasta in sospeso al paragrafo 4 , ma per una discussione più completa del risultato del test si veda l’esempio al paragrafo 8.3. (^33) In realtà 𝑝 = 0 , 0000006

che possono essere riformulate come:

  • 𝐻 0 : 𝜒^2 = 0 ;
  • 𝐻 1 : 𝜒^2 > 0. Come nel caso dell’Anova – e di tutti i test di ipotesi – il problema è risolto dalla conoscenza della distribuzione di probabilità della statistica test. La statistica 𝜒^2 segue approssimativamente una distribuzione chi-quadrato con un numero di gradi di libertà che dipende dalla dimensione della tavola a doppia entrata^35. Per ogni valore della statistica test – cioè per il valore di 𝜒^2 trovato, nel nostro caso 𝜒^2 = 6 , 49 – l’esame della distribuzione permette di calcolare il p - value, cioè la probabilità di trovare valori maggiori o uguali di quello per puro effetto del caso , se l’ipotesi nulla è vera. Anche per la distribuzione chi-quadrato i valori di p possono essere determinati in vari modi; come nel caso dell’Anova, se il test è eseguito con del software specializzato, il p - value è fornito direttamente come parte dell’output. Il p - value calcolato è infine confrontato con il livello di significatività α scelto (es. α = 0 , 05 ):
  • p - value > α: il test non è significativo , il valore di 𝜒^2 non è significativamente maggiore di zero, i dati campionari non giustificano il rifiuto di 𝐻 0 al livello di significatività scelto α;
  • p - value < α: il test è significativo , il valore di 𝜒^2 è significativamente maggiore di zero, si rifiuta 𝐻 0 in favore di 𝐻 1 , esiste una associazione statisticamente significativa tra le due variabili al livello di significatività α. Fig. 1 8 Distribuzione chi-quadrato: 𝑃𝑟𝑜𝑏(𝜒^2 > 6 , 49 ) = 0 , 039 Nel nostro caso 𝑝 = 0 , 039 (fig. 1 8 36 ): se il livello di significatività scelto è α = 0 , 05 allora il p - value è minore di α e la conclusione è che il test è significativo e l’ipotesi nulla di indipendenza deve essere respinta: c’è una associazione tra le due variabili. Si noti che se invece si fosse scelto un livello di significatività α = 0 , 01 la conclusione sarebbe stata opposta, perché sarebbe stato p > α. Il test chi-quadrato, a differenza dell’Anova, non richiede assunzioni probabilistiche: è un test non parametrico. L’unica condizione è che il campione sia abbastanza grande; più precisamente la condizione riguarda le frequenze attese : non devono mai essere minori di 1 e non devono essercene più del 20% minori di 5.

9.1. Output standard del test chi-quadrato

I risultati del test 𝜒^2 sono di solito presentati insieme alla tavola di incrocio (la stessa di fig. 11, riportata qui per comodità) e hanno la forma di fig. 19. L’output riporta il valore di 𝜒^2 , i gradi di libertà (GdL) e il p - value, che costituisce il risultato principale e si commenta come già visto: 0,039 è minore di 0,05 quindi al livello di confidenza del 95% l’ipotesi di indipendenza deve essere respinta. Nell’ultima riga dell’output è riportato anche il risultato della verifica (^35) 𝐺𝑑𝐿 = (𝑟 − 1 )(𝑐 − 1 ) dove r e c sono rispettivamente il numero di righe e il numero di colonne della tavola a doppia entrata. (^36) Da \http://www.statdistributions.com/chisquare/

sulle frequenze attese (“conteggio previsto”), che non devono essere troppo piccole: nell’esempio la condizione è soddisfatta e quindi la conclusione è perfettamente corretta. Marca A Marca B Marca C Totale Femmine 9 6 22 37 Maschi 25 17 21 63 Totale 34 23 43 100 Test chi-quadrato Valore GdL p - value Chi-quadrato di Pearson 6,492a^2 , N di casi validi 100 a. 0 celle (0,0%) hanno un conteggio previsto inferiore a 5. Il conteggio previsto minimo è 8,51. Fig. 1 9 Output standard del test chi-quadrato Come per l’Anova, quando il test chi-quadrato è significativo, è opportuno un approfondimento di analisi per individuare le celle in cui le frequenze osservate sono particolarmente alte o, al contrario, molto basse. Lo strumento ideale a tale scopo è dato dai residui standardizzati^37 ; se questi non sono disponibili è di solito possibili ottenere lo stesso risultato confrontando direttamente le distribuzioni per riga o quelle per colonna. Marca A Marca B Marca C Totale Marca A Marca B Marca C Totale Femmine 26% 26% 51% 37 % Femmine 24% 16% 59% 100% Maschi 74% 74% 49% 63 % Maschi 40% 27% 33% 100% Totale 100% 100% 100% 100 % Totale 34 % 23 % 43 % 100% Fig. 20a Distribuzioni per colonna Fig. 20b Distribuzioni per riga Nel caso in esame le distribuzioni (osservate) per colonna sono riportate in fig. 20a e si commentano nel modo seguente: la distribuzione marginale tra femmine e maschi (colonna totale) è 37% contro 63%; rispetto a questa la distribuzione nelle singole marche mostra che i maschi sono più concentrati nelle marche A e B (74% contro 63%) mentre le femmine sono più concentrate nella marca C (51% contro 37%). In altri termini, vista la significatività del test, si può concludere che per la marca C c’è una preferenza relativamente più alta da parte delle femmine, e per le marche A e B c’è una preferenza relativamente più alta da parte dei maschi. Alle stesse conclusioni si può arrivare anche osservando le distribuzioni per riga (fig. 20b): rispetto alla distribuzione marginale (34% 23% 43%) le femmine mostrano una concentrazione più alta per la marca C e i maschi una concentrazione relativamente più alta per le marche A e B. (^37) Si ottengono trasformando i “residui” – cioè le differenze tra frequenze osservate (𝑓𝑜) e frequenze attese (𝑓𝑒 ) – in variabili normali standard con la formula: 𝑟𝑒𝑠𝑖𝑑𝑢𝑖 𝑠𝑡𝑑 = (𝑓𝑜 − 𝑓𝑒 )^ ⁄√^ 𝑓𝑒. Residui standardizzati minori di − 2 indicano celle con un numero di casi significativamente basso; residui standardizzati maggiori di + 2 indicano celle con un numero di casi significativamente alto.