









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Dispense corso della beffa per laurea magistrale in iulm in marketing
Tipologia: Dispense
1 / 17
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










La probabilità è una misura della possibilità che un evento si verifichi. La probabilità di ottenere testa lanciando una moneta è del 50%, cioè ½, come si può giustificare intuitivamente pensando che le facce sono due e che il risultato può essere indifferentemente una delle due. Un po’ più precisamente si può pensare a questa probabilità come proporzione di teste ottenuta in un grande numero di lanci: 𝑝 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑡𝑒𝑠𝑡𝑒 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑙𝑎𝑛𝑐𝑖 Dopo 10 lanci ci si aspetta che il numero di teste sia circa 5, con una certa approssimazione; dopo 100 lanci ci si aspetta che sia 50, con un’approssimazione migliore, e così via, con l’approssimazione che migliora al crescere del numero di lanci. Più in generale si può dire che la probabilità è il limite cui tende il rapporto 𝑝 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑐𝑎𝑠𝑖 𝑓𝑎𝑣𝑜𝑟𝑒𝑣𝑜𝑙𝑖 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑝𝑟𝑜𝑣𝑒 quando il numero di prove tende all’infinito^1. La probabilità è quindi un numero compreso tra zero e 1:
Le distribuzioni di frequenza sono lo strumento più generale per descrivere un fenomeno casuale. Consistono nell’associare a ogni possibile valore di una variabile casuale la frequenza con cui esso si presenta. Si possono esprimere in termini di frequenze assolute o relative (fig. 1a) e possono essere rappresentate graficamente con istogrammi oppure diagrammi a barre (fig. 1b). La distribuzione di frequenza si può calcolare per qualunque tipo di variabile, sia categorica (es. forma di pagamento, fig. 1a e 1b), sia numerica. Le variabili numeriche continue – o semplicemente con molti valori – vengono raggruppate in classi (es. età, fig. 2). frequenza assoluta frequenza relativa Cash 460 54% Bancomat 336 40% Carta credito (^54) 6% 850 100% Fig. 1a Distribuzione di frequenza Fig. 1b Diagramma a barre (variabile categorica) La rappresentazione grafica da utilizzare nei due casi è diversa: per variabili categoriche si usano grafici a barre (fig. 1b), per variabili numeriche si usano istogrammi (fig. 2 ). La differenza tra le due figure sta nell’asse orizzontale, categorico per variabili categoriche e numerico per variabili numeriche. Nel primo caso i valori sull’asse possono essere riordinati a piacere, nel secondo caso hanno un preciso ordinamento numerico. L’asse verticale rappresenta in ogni caso la frequenza, assoluta o relativa.^5 Fig. 2 Istogramma della stessa variabile numerica (età) con raggruppamenti in classi di ampiezza diversa
Le distribuzioni di frequenza sono in genere costruite in base a dati osservati, perlopiù campionari. Le distribuzioni di probabilità sono i corrispondenti modelli teorici di riferimento. Ne esistono moltissime, con forme diverse, per modellare fenomeni diversi. La distribuzione di probabilità di fig. 3a è un buon modello teorico per la distribuzione del peso degli uomini adulti (e per molti altri parametri, biologici e no); il peso è rappresentato sull’asse orizzontale: i valori centrali sono quelli cui corrisponde la probabilità più alta, man mano che ci si allontana dal centro la probabilità diminuisce. La distribuzione di fig. 3b è un buon modello (^4) Es. 𝑃𝑟𝑜𝑏(𝑐𝑟𝑜𝑐𝑒) + 𝑃𝑟𝑜𝑏(𝑡𝑒𝑠𝑡𝑎) = 0 , 5 + 0 , 5 = 1 (^5) Istogrammi e grafici a barre possono in realtà avere orientamento sia orizzontale che verticale, scambiando semplicemente il ruolo degli assi. Alcune applicazioni (es. Excel) utilizzano nomi diversi per grafici a barre (orizzontali) e grafici a colonne (verticali), ma si tratta concettualmente della stessa rappresentazione con orientamento diverso. 0% 10% 20% 30% 40% 50% 60% 0 100 200 300 400 500 Cash Bancomat Carta credito frequenza assoluta^ frequenza relativa
parametri che rappresentano la media (𝜇) e la varianza (𝜎^2 ) della distribuzione e si indica con 𝑁(𝜇, 𝜎^2 ). Media, moda e mediana coincidono, la probabilità diminuisce allontanandosi dal centro di simmetria^11. La media indica la posizione rispetto all’asse orizzontale: una distribuzione con media più alta è spostata più a destra (curva rossa in fig. 5a); la varianza indica se la distribuzione è più o meno appuntita: una distribuzione con varianza più alta è più schiacciata (curva rossa in fig. 5b). Fig. 5a Distribuzioni normali con medie diverse Fig. 5b Distribuzioni normali con varianze diverse La particolare distribuzione normale per cui 𝜇 = 0 e 𝜎 = 1 prende il nome di normale standard 𝑁( 0 , 1 ). Rispetto ad essa sono definiti alcuni valori notevoli di frequente utilizzo, ad esempio: la percentuale di valori compresi tra − 1 e + 1 è circa il 68% 12 , il 95% dei valori è compreso approssimativamente tra − 2 e + 2 13. La distribuzione normale deve il suo nome alla sua diffusione: è quella che meglio rappresenta molti parametri biologici e naturali^14 , è la distribuzione di probabilità degli errori casuali^15 e di molte statistiche campionarie, è la forma limite di numerose altre distribuzioni. Esistono tuttavia innumerevoli fenomeni la cui distribuzione di probabilità non è normale^16.
2. Livelli di analisi I metodi della statistica si possono schematizzare in tre categorie principali: 1. analisi univariata , che tratta una variabile alla volta; i suoi strumenti sono quelli della statistica descrittiva: distribuzioni di frequenza, indici di posizione (es. media, mediana, percentili) e indici di dispersione (es. varianza, scarto interquartile); le distribuzioni di frequenza e la moda si possono calcolare per qualunque tipo di variabile − numerica o categorica, e per le variabili categoriche (es. la marca) costituiscono gli unici strumenti disponibili −; indici come la media e la varianza si possono calcolare solo per variabili numeriche (es. età, reddito); indici come la mediana si possono calcolare anche per variabili ordinali (es. classi di reddito, livello di istruzione); 2. analisi bivariata , il cui oggetto è la relazione tra due variabili; si danno tre casi diversi secondo il tipo di variabili coinvolte: - relazione tra due variabili numeriche, - relazione tra una variabile numerica e una categorica, - relazione tra due variabili categoriche; l’analisi bivariata è l’oggetto di questa dispensa; 3. analisi multivariata , che studia le relazioni simultanee tra più di due variabili e comprende tutti i modelli il cui scopo è riassumere, schematizzare e rappresentare i fenomeni reali; sono esempi di analisi multivariate i modelli di regressione, la cluster analysis, gli strumenti di mapping e molti altri; anche gli strumenti sviluppati nell’ambito del data mining e del machine learning sono multivariati, nel senso che in genere analizzano molte variabili contemporaneamente, però non sono tutti modelli statistici in senso classico perché si basano su ipotesi diverse e spesso si prefiggono obiettivi diversi^17. (^11) La funzione di densità della distribuzione normale è 𝑓(𝑥) = exp (− (𝑥−𝜇)^2 2 𝜎^2 )^ √^2 𝜋𝜎 ⁄^2 (^12) Ovvero: l’area sotto la curva normale standard compresa tra − 1 e + 1 è circa 0,68. (^13) Precisamente tra − 1 , 96 e + 1 , 96. (^14) Es. altezza delle donne adulte, peso alla nascita, pressione sanguigna, millimetri di pioggia annui a Milano. (^15) Es. lo scarto dei pezzi prodotti da una macchina rispetto al valore (peso, dimensione) medio. (^16) Es. il reddito, il numero di follower, i tempi di attesa, il consumo giornaliero di alcol. (^17) Nel caso del data mining e del machine learning si parla piuttosto di statistica o di metodi computazionali.
3. Relazione tra due variabili numeriche Lo studio della relazione tra due variabili numeriche ha come oggetto l’ andamento relativo , o associazione , di una variabile rispetto a un'altra, cioè il fatto che al crescere di una variabile l’altra tendenzialmente cresca, o decresca, oppure oscilli senza una direzione precisa. Un esempio di associazione positiva tra due quantità è
N media devstd min max Cash 460 40,8 32,2 13 324 Bancomat 336 51,8 37,5 14 266 Carta credito 54 64,6 71,8 18 446 Totale 850 46,7 38,5 13 446 Fig. 9 Differenza in media: importo dello scontrino per modalità di pagamento Nell’esempio le medie sono evidentemente diverse: i pagamenti cash hanno media più bassa e quelli con carta di credito hanno media più alta. Il problema è che nella pratica le medie nei gruppi non sono mai identiche, a prescindere dall’esistenza o no di una relazione, a causa delle oscillazioni casuali dei dati, che normalmente provengono da un campione e variano per esempio da un giorno all’altro. Il problema diventa quindi quello di stabilire se le differenze tra le medie sono abbastanza piccole da poter essere attribuite al caso o se sono tanto grandi da indicare con ragionevole certezza l’esistenza di una relazione. Una risposta rigorosa a questo problema è oggetto del paragrafo 8 (analisi della varianza). L’analisi della differenza in media si può presentare anche come analisi delle differenze tra variabili. In genere si tratta solo di una riorganizzazione dei dati, nella quale ogni valore della variabile categorica – cioè ogni gruppo – dà luogo a una variabile distinta. Nel nostro caso l’indicazione del tipo di pagamento si tradurrebbe in tre variabili – cash, bancomat, carta di credito – o addirittura in tre dataset distinti.
5. Correlazione e differenza in media Correlazione e differenza in media misurano relazioni diverse e rappresentano concetti indipendenti e distinti: la correlazione misura l’ andamento di una variabile rispetto all’altra, cioè se al crescere dell’una l’altra cresce o decresce con sufficiente regolarità; la differenza in media confronta il valore di una variabile in gruppi diversi, oppure il valore di variabili diverse. Negli esempi di fig. 10 .1 e 10 .2 si confrontano le correlazioni di tre coppie di variabili – d1 e d2, d1 e d3, d1 e d4 – e le rispettive differenze in media: x d1 d2 d3 d 0 1 2 8 1 1 2 1 9 9 2 1 2 8 1 3 2 1 9 9 4 1 2 8 1 5 2 1 9 9 media 1,5 1,5 8,5 5 correlazione con d 1 – 1 1 1 Fig. 10 .1 Confronto tra correlazione e differenza in media
6. Relazione tra due variabili categoriche L'analisi della relazione tra due variabili categoriche si basa sulle frequenze congiunte delle due variabili, che si possono rappresentare in tabelle a doppia entrata (o tavole di incrocio). Una tipica domanda di marketing è se la proporzione di maschi che preferiscono certe marche differisce dalla proporzione di femmine, o no. Sia il genere sia la marca sono variabili categoriche. I dati delle preferenze sono riassunti e rappresentati nella tavola e doppia entrata di fig. 11 : le femmine sono in tutto 37 su 100, di queste 9 preferiscono la marca A, 6 la B, e così via. I valori nella riga e nella colonna dei totali ( distribuzioni marginali ) sono semplicemente le distribuzioni di frequenza delle due variabili prese singolarmente; i valori interni alla tabella (da 9 a 21) sono le frequenze congiunte osservate. Marca A Marca B Marca C Totale Femmine 9 6 22 37 Maschi 25 17 21 63 Totale 34 23 43 100 Fig. 11 Tabella a doppia entrata Genere × Marca: frequenze osservate Analizzare la relazione ( associazione ) tra le due variabili corrisponde a chiedersi se le due variabili sono indipendenti o no: se le preferenze di genere e di marca sono indipendenti, ci si aspetta che la proporzione di femmine che preferisce la marca A (9 su 37) sia approssimativamente uguale a quella dei maschi (25 su 63), e anche approssimativamente uguale alla proporzione totale della marca A (34 su 100); e così per tutte le marche. In altri termini: se le due variabili sono indipendenti le distribuzioni relative delle preferenze su tutte le righe sono approssimativamente uguali tra loro e anche alla distribuzione marginale, cioè in definitiva la distribuzione delle preferenze non dipende dalla riga. L’indipendenza tra due variabili è una relazione simmetrica: se la marca è indipendente dal genere, anche il genere è indipendente dalla marca, quindi le considerazioni precedenti valgono indifferentemente per colonna o per riga^22. L'indipendenza tra due variabili categoriche significa dunque che le frequenze congiunte dipendono solo dalle frequenze marginali. Questo permette di calcolare le frequenze teoriche (o attese ) di ogni cella in caso di indipendenza. Per la generica cella all’incrocio della riga i - esima con la colonna j - esima vale la formula: 𝑓𝑟𝑒𝑞 𝑡𝑒𝑜𝑟𝑖𝑐𝑎 (^) 𝑖𝑗 = (𝑡𝑜𝑡𝑎𝑙𝑒 𝑟𝑖𝑔𝑎 𝑖) ∙ (𝑡𝑜𝑡𝑎𝑙𝑒 𝑐𝑜𝑙𝑜𝑛𝑛𝑎 𝑗) 𝑛𝑢𝑚 𝑡𝑜𝑡𝑎𝑙𝑒 𝑢𝑛𝑖𝑡à La frequenza teorica corrispondente alla frequenza osservata 9 è: ( 37 ∙ 34 ) ⁄ 100 = 12 , 6 e in modo analogo si possono calcolare tutte le altre (fig. 12 ). Marca A Marca B Marca C Totale Femmine 12,6 8,5 15,9 37 Maschi 21,4 14,5 27,1 63 Totale 34 23 43 100 Fig. 12 Frequenze teoriche Il concetto di indipendenza può essere riformulato come segue: due variabili categoriche sono indipendenti se e solo se tutte le frequenze osservate sono uguali alle frequenze teoriche. L’indipendenza è perfetta se le frequenze osservate e quelle teoriche sono identiche; quanto maggiori sono le differenze tra di esse, tanto più lontane le due variabili sono dall’indipendenza. Le differenze tra frequenze osservate e teoriche sono però numerose – una per cella – , si pone quindi il problema di condensarle in un unico indicatore. L’indice χ^2 ( chi-quadrato ) risponde a questa esigenza e si può interpretare come una misura sintetica della distanza dall'indipendenza : 𝜒^2 = ∑ (𝑓𝑜 − 𝑓𝑒) 2 𝑓𝑒 con 𝑓𝑜 = frequenze osservate; 𝑓𝑒 = frequenze toriche ( expected ); per l’esempio di fig. 6 e 7: (^22) Basta trasporre la matrice della tavola a doppia entrata per scambiare il ruolo delle righe e delle colonne senza modificare il significato dei dati contenuti nella tavola.
Numerosità alta varianza piccola preciso Numerosità bassa varianza grande non preciso Non distorto media esatta accurato Distorto media errata non accurato Fig. 13 Precisione vs accuratezza
Il problema di stimare un parametro della popolazione con un campione è complicato dal fatto che la stima ottenuta dal campione ( stima puntuale ) è essa stessa una variabile casuale, perché varia al variare del campione. È quindi necessario ampliare e corredare la stima campionaria puntuale con elementi aggiuntivi. In particolare la stima di parametri della popolazione fornita dalla statistica inferenziale è caratterizzata dal fatto di essere costituita non da un singolo valore ma da un intervallo di confidenza al quale è associato un livello di confidenza. Le stime intervallari hanno la forma seguente: 𝑠𝑡𝑖𝑚𝑎 𝑝𝑢𝑛𝑡𝑢𝑎𝑙𝑒 ± 𝑚𝑎𝑟𝑔𝑖𝑛𝑒 𝑑𝑖 𝑒𝑟𝑟𝑜𝑟𝑒 Supponiamo di voler stimare la media m di una popolazione con un campione e di aver ottenuto per la media del campione il valore 796 : 𝑚 = 796 è la stima puntuale della media della popolazione, ma ad essa si può aggiungere l’informazione sul margine di errore, opportunamente calcolato tenendo conto anche di un livello di confidenza scelto (es. 95%); se l’errore calcolato è uguale a 5,9 la stima intervallare di m è: 796 − 5 , 9 < 𝑚 < 796 + 5 , 9 e si dice che la media della popolazione è compresa nell’intervallo ( 790 , 1 ; 801 , 9 ) con il livello di confidenza del 95%. Il significato del livello di confidenza al 95% è il seguente: al variare dei campioni – e quindi delle stime puntuali – ci si aspetta che per 95 campioni su 100 l’intervallo di confidenza contenga la stima “vera”. I livelli di confidenza sono generalmente fissati in modo convenzionale, ad esempio 95% o 99%. Dal punto di vista tecnico il problema è ovviamente quello di calcolare il margine di errore. I dettagli di tale calcolo dipendono dal parametro che si vuole stimare (es. media, proporzione) ed esulano dagli scopi di questa dispensa. Ai nostri fini basta osservare che l’elemento determinante per il calcolo dell’errore è la conoscenza della distribuzione campionaria del parametro da stimare – cioè la distribuzione di probabilità delle stime puntuali – e che tali distribuzioni sono perfettamente note in tutti i casi di interesse pratico.^24 Intuitivamente, anche se un po’ impropriamente, si può dire che la stima intervallare aggiunge alla stima puntuale una valutazione della precisione (l’ampiezza dell’intervallo di confidenza: ± 5 , 9 ) e una valutazione dell’affidabilità (il livello di confidenza: 95%). L’ideale sarebbe naturalmente avere un intervallo di confidenza di ampiezza minima (grande precisione) con il livello di confidenza più alto possibile (grande affidabilità), tuttavia la relazione tra i due parametri è tale che – a parità di altre condizioni – migliorarne uno peggiora l’altro: al crescere del livello di confidenza (es. da 95% a 99%) l’affidabilità aumente ma aumenta anche l’ampiezza dell’intervallo, e quindi la precisione diminuisce; viceversa per avere un’ampiezza dell’intervallo minore bisogna accettare un livello di confidenza più basso (es. 90%). L’unico modo per migliorare un parametro senza peggiorare l’altro è aumentare la numerosità campionaria, perché al crescere (^24) Ad esempio la distribuzione campionaria della media è – per campioni abbastanza grandi – una distribuzione normale, con la stessa media della popolazione e varianza tanto più piccola quanto più grande è il campione.
della numerosità l’ampiezza dell’intervallo diminuisce. Si noti che aumentare la dimensione del campione significa aumentare la quantità di informazione disponibile, ed è appunto questo aumento che si traduce in miglioramento della stima.
La verifica di ipotesi è il ramo della statistica inferenziale che si occupa dei metodi razionali per trarre conclusioni su affermazioni contrastanti riferite a caratteristiche della popolazione. Esempi di affermazioni contrastanti tra cui decidere sono quelli che abbiamo lasciato in sospeso nei paragrafi 4 e 6 : l’importo dello scontrino medio (§ 4) differisce tra una modalità di pagamento e l’altra? ovvero: le differenze riscontrate si possono attribuire al caso o c’è una differenza statisticamente significativa? e analogamente: la preferenza di marca e il genere (§ 6 ) sono indipendenti o no? ovvero: 𝜒^2 è “piccolo” o “grande”? La verifica delle ipotesi segue sempre lo schema seguente:
La decisione se rifiutare o no l’ipotesi nulla dipende dai dati campionari e può quindi variare da un campione all’altro. Il livello di significatività α rappresenta la probabilità di rifiutare l’ipotesi nulla quando in realtà è vera, ma non è l’unico errore possibile. Le possibili combinazioni tra risultato del test e situazione reale sono rappresentate in fig. 1 4. (^25) Valori tipici di α sono 0,05 o 0,01 ma altri valori sono possibili.
L'analisi della varianza a una via (nel seguito Anova) ha lo scopo di determinare se ci sono differenze statisticamente significative tra le medie di due o più gruppi indipendenti. Per l’esempio dei metodi di pagamento (fig. 9) l’obiettivo del test è stabilire se le differenze osservate tra le medie nei gruppi (40,8; 51,8; 64,6) possano essere attribuite al caso o no. In generale l'ipotesi nulla è: 𝐻 0 : 𝜇 1 = 𝜇 2 = ⋯ = 𝜇𝑔 dove 𝜇𝑖 è la media di ciascun gruppo e g è il numero di gruppi. L'ipotesi alternativa è che almeno una delle medie (ma non necessariamente tutte) sia diversa dalle altre: 𝐻 1 : 𝜇𝑖 ≠ 𝜇𝑗 per qualche i e j Per l’esempio dei metodi di pagamento: 𝐻 0 : 𝜇𝑐𝑎𝑠ℎ = 𝜇𝑏𝑎𝑛𝑐𝑜𝑚𝑎𝑡 = 𝜇𝑐𝑟𝑒𝑑𝑖𝑡_𝑐𝑎𝑟𝑑 Si noti che l'Anova è un test globale, che dice se almeno due medie presentano una differenza statisticamente significativa, ma non dice quali medie differiscono. Questo aspetto deve essere oggetto di una analisi supplementare^28 che ha senso – anzi è di solito opportuna – solo se il risultato del test è significativo. In prima approssimazione, in caso di significatività del test, l’osservazione delle medie può essere sufficiente, come vedremo più avanti. L'Anova è l'estensione a più di due gruppi del test t (di Student) per il confronto di due medie. Se i gruppi sono due, test t e Anova sono equivalenti e forniscono lo stesso livello di significatività.^29 Il nome “analisi della varianza” deriva dal fatto che, per analizzare le differenze tra medie, l'Anova considera la variabilità totale delle osservazioni – cioè di tutte le osservazioni di tutti i gruppi – e valuta quanta parte di essa sia da attribuire a differenze tra le medie dei gruppi ( varianza tra i gruppi ) e quanta alle differenze interne ai gruppi ( varianza nei gruppi ). La statistica test su cui si basa l'Anova è il rapporto tra queste due varianze^30 : 𝐹 = 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑡𝑟𝑎 𝑔𝑟𝑢𝑝𝑝𝑖 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑛𝑒𝑖 𝑔𝑟𝑢𝑝𝑝𝑖 Se l'ipotesi nulla è vera, la statistica F segue la distribuzione di probabilità F di Fisher-Snedecor^31. Se l'ipotesi nulla è vera – cioè se le medie sono uguali – le differenze tra le osservazioni sono dovute solo al caso, quindi le varianze tra gruppi e nei gruppi sono simili e F ha un valore vicino a 1; se invece le medie non sono uguali, la varianza tra i gruppi è maggiore di quella nei gruppi: F assume valori tanto più grandi quanto più grandi sono le differenze tra i gruppi. Per la differenza tra metodi di pagamento la statistica test è: 𝐹 = 20925 , 9 1439 , 7 = 14 , 53 La domanda è: questo valore di F è abbastanza grande da imporre il rifiuto dell’ipotesi nulla? Per rispondere bisogna calcolare il p - value associato al valore di 𝐹. A questo scopo si fa riferimento alla distribuzione di F (fig. 1 5 )^32 : il p - value è l’area sotto la curva a destra del valore trovato (es. a destra di 𝐹 = 14 , 53 ) e misura la probabilità di ottenere un valore uguale o superiore a questo per effetto del caso , quando l’ipotesi nulla è (^28) Analisi post-hoc (^29) Quando i gruppi sono più di due, si potrebbero fare tutti i confronti a coppie con il test t , tuttavia questa pratica può richiedere un numero di confronti elevato e, soprattutto, aumenta la probabilità di respingere l'ipotesi nulla quando in realtà è vera (errore di tipo I); l'Anova garantisce invece il livello di significatività scelto (es. 0,05) con un unico test, a prescindere dal numero di gruppi. (^30) Per varianza si intende qui la media quadratica , cioè la somma dei quadrati divisa per i relativi gradi di libertà (vedi nota seguente). (^31) Ronald Fisher, 1890-1962; George Snedecor, 1881-1974. La distribuzione F ha due parametri ( gradi di libertà ) rispettivamente uguali a 𝑔 − 1 e a 𝑛 − 𝑔, dove 𝑔 è il numero di gruppi e 𝑛 la dimensione del campione. (^32) Da http://www.statdistributions.com/f/
vera. Il valore di p può essere determinato in molti modi, ad esempio online o con Excel. Nel caso in esame il p - value è talmente piccolo da essere riportato in fig. 1 5 come 𝑝 = 0 33 (solo a fini espositivi osserviamo che se il valore della statistica test fosse stato 𝐹 = 1 , 45 l’area sotto la curva alla sua destra sarebbe stata più grande e il corrispondente valore del p - value sarebbe stato 0,237; fig. 1 6 ). Il p - value calcolato è infine confrontato con il livello di significatività α scelto (es. α = 0 , 05 ); si possono avere due casi:
che possono essere riformulate come:
I risultati del test 𝜒^2 sono di solito presentati insieme alla tavola di incrocio (la stessa di fig. 11, riportata qui per comodità) e hanno la forma di fig. 19. L’output riporta il valore di 𝜒^2 , i gradi di libertà (GdL) e il p - value, che costituisce il risultato principale e si commenta come già visto: 0,039 è minore di 0,05 quindi al livello di confidenza del 95% l’ipotesi di indipendenza deve essere respinta. Nell’ultima riga dell’output è riportato anche il risultato della verifica (^35) 𝐺𝑑𝐿 = (𝑟 − 1 )(𝑐 − 1 ) dove r e c sono rispettivamente il numero di righe e il numero di colonne della tavola a doppia entrata. (^36) Da \http://www.statdistributions.com/chisquare/
sulle frequenze attese (“conteggio previsto”), che non devono essere troppo piccole: nell’esempio la condizione è soddisfatta e quindi la conclusione è perfettamente corretta. Marca A Marca B Marca C Totale Femmine 9 6 22 37 Maschi 25 17 21 63 Totale 34 23 43 100 Test chi-quadrato Valore GdL p - value Chi-quadrato di Pearson 6,492a^2 , N di casi validi 100 a. 0 celle (0,0%) hanno un conteggio previsto inferiore a 5. Il conteggio previsto minimo è 8,51. Fig. 1 9 Output standard del test chi-quadrato Come per l’Anova, quando il test chi-quadrato è significativo, è opportuno un approfondimento di analisi per individuare le celle in cui le frequenze osservate sono particolarmente alte o, al contrario, molto basse. Lo strumento ideale a tale scopo è dato dai residui standardizzati^37 ; se questi non sono disponibili è di solito possibili ottenere lo stesso risultato confrontando direttamente le distribuzioni per riga o quelle per colonna. Marca A Marca B Marca C Totale Marca A Marca B Marca C Totale Femmine 26% 26% 51% 37 % Femmine 24% 16% 59% 100% Maschi 74% 74% 49% 63 % Maschi 40% 27% 33% 100% Totale 100% 100% 100% 100 % Totale 34 % 23 % 43 % 100% Fig. 20a Distribuzioni per colonna Fig. 20b Distribuzioni per riga Nel caso in esame le distribuzioni (osservate) per colonna sono riportate in fig. 20a e si commentano nel modo seguente: la distribuzione marginale tra femmine e maschi (colonna totale) è 37% contro 63%; rispetto a questa la distribuzione nelle singole marche mostra che i maschi sono più concentrati nelle marche A e B (74% contro 63%) mentre le femmine sono più concentrate nella marca C (51% contro 37%). In altri termini, vista la significatività del test, si può concludere che per la marca C c’è una preferenza relativamente più alta da parte delle femmine, e per le marche A e B c’è una preferenza relativamente più alta da parte dei maschi. Alle stesse conclusioni si può arrivare anche osservando le distribuzioni per riga (fig. 20b): rispetto alla distribuzione marginale (34% 23% 43%) le femmine mostrano una concentrazione più alta per la marca C e i maschi una concentrazione relativamente più alta per le marche A e B. (^37) Si ottengono trasformando i “residui” – cioè le differenze tra frequenze osservate (𝑓𝑜) e frequenze attese (𝑓𝑒 ) – in variabili normali standard con la formula: 𝑟𝑒𝑠𝑖𝑑𝑢𝑖 𝑠𝑡𝑑 = (𝑓𝑜 − 𝑓𝑒 )^ ⁄√^ 𝑓𝑒. Residui standardizzati minori di − 2 indicano celle con un numero di casi significativamente basso; residui standardizzati maggiori di + 2 indicano celle con un numero di casi significativamente alto.