Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Business Data Analytics (gestionale), Dispense di Tecniche Di Analisi Dei Dati

La dispensa comprende gli argomenti di entrambe le parti del corso (analisi di dati, inferenza causale e network), sia per quanto riguarda la teoria che per quanto riguarda la parte di codice (sia codice che spiegazione) per Rstudio.

Tipologia: Dispense

2022/2023

In vendita dal 11/02/2024

andrea-bommarito
andrea-bommarito 🇮🇹

3.5

(2)

6 documenti

1 / 219

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Corso di Ingegneria Gestionale
Appunti di:
Business Data Analytics
Andrea Bommarito
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica Business Data Analytics (gestionale) e più Dispense in PDF di Tecniche Di Analisi Dei Dati solo su Docsity!

Corso di Ingegneria Gestionale

Appunti di:

Business Data Analytics

Andrea Bommarito

Indice

  • I Data analytics
  • 1 Introduzione - 1.0.1 Big data e dati complessi - 1.0.2 Dati multivariati - 1.0.3 Rappresentazione dei dati
    • 1.1 Le variabili
      • 1.1.1 Analisi supervisionata
      • 1.1.2 Analisi non supervisionata
  • 2 Analisi univariata
    • 2.1 Statistica descrittiva
      • 2.1.1 Standardizzazione di una variabile
    • 2.2 Statistica inferenziale
      • 2.2.1 Stima puntuale/intervallare
      • 2.2.2 Test d’ipotesi
      • 2.2.3 ANOVA One-way
  • 3 Analisi multivariata
    • 3.1 Indici di sintesi
    • 3.2 Rappresentazioni grafiche
    • 3.3 Curse of dimensionality
  • 4 Analisi non supervisionata
    • 4.1 PCA - Analisi delle componenti principali
      • 4.1.1 Prima componente principale
      • 4.1.2 Seconda componente principale
      • 4.1.3 Interpretazione delle componenti principali
      • 4.1.4 Varianza spiegata
    • 4.2 Clustering
      • 4.2.1 Definizione della metrica
      • 4.2.2 Algoritmo 1: K-means
      • 4.2.3 Algoritmo 2: Clustering gerarchico agglomerativo
  • 5 Analisi supervisionata
    • 5.1 Introduzione
      • 5.1.1 Modello di regressione
      • 5.1.2 Metodo KNN
    • 5.2 Regressione lineare semplice
      • 5.2.1 Stima dei parametri
      • 5.2.2 Inferenza sul modello INDICE ii
      • 5.2.3 Bontà del modello
      • 5.2.4 Intervalli di confidenza e previsione della variabile target Y
    • 5.3 Regressione lineare multipla
      • 5.3.1 Stima dei parametri
      • 5.3.2 Bontà del modello
  • 6 Metodi di ricampionamento
    • 6.1 Introduzione
      • 6.1.1 MSE & Bias-Variance trade-off
      • 6.1.2 Validation Set
    • 6.2 K-Fold Cross Validation
      • 6.2.1 LOOCV - Leave One Out Cross Validation
  • 7 Metodi di shrinkage
    • 7.1 Problema di collinearità
      • 7.1.1 Significato geometrico
      • 7.1.2 Collinearità e possibili soluzioni
    • 7.2 Ridge Regression
      • 7.2.1 Output della Ridge Regression
      • 7.2.2 Vantaggi della Ridge Regression
    • 7.3 LASSO Regression
    • 7.4 Confronto dei due metodi
      • 7.4.1 Scelta del parametro di tuning
  • 8 Altri metodi di classificazione per l’analisi supervisionata
    • 8.1 Classificazione supervisionata con la regressione lineare
      • 8.1.1 Regressione logistica semplice
      • 8.1.2 Regressione logistica multipla
      • 8.1.3 Regressione multinomiale
    • 8.2 KNN: K-Nearest Neighbors
    • 8.3 Classificazione e misure di performance
      • 8.3.1 Matrice di confusione
      • 8.3.2 Curva ROC
      • 8.3.3 Cross-validation per la logistica
  • 9 Three-based methods: alberi di regressione e classificazione
    • 9.1 CaRT
      • 9.1.1 Alberi di regressione
      • 9.1.2 Alberi di classificazione
      • 9.1.3 Alberi e modelli lineari
    • 9.2 Random Forests
      • 9.2.1 Funzionamento algoritmo
      • 9.2.2 Errore OOB
      • 9.2.3 Conclusioni
  • II Inferenza causale e Network
  • 10 DAGs e modello controfattuale
    • 10.1 Introduzione all’inferenza causale iii INDICE
      • 10.1.1 Il do-operator
    • 10.2 DAGs
      • 10.2.1 Costruzione del DAG
      • 10.2.2 Back-door path - BDP
      • 10.2.3 Criterio del front-door
    • 10.3 Modello del controfattuale
      • 10.3.1 Outcome osservabili e inosservabili
      • 10.3.2 Effetti di trattamento
    • 10.4 Processi di randomizzazione
      • 10.4.1 Implementazione della randomizzazione
      • 10.4.2 Variabili di controllo e regressione
      • 10.4.3 Problemi di randomizzazione
  • 11 Variabili strumentali
    • 11.1 Variabili strumentali ed effetto causale
      • 11.1.1 Assunzioni di validità
      • 11.1.2 Stimatore IV
    • 11.2 Argomenti avanzati
  • 12 Disegni con regressione discontinua
    • 12.1 RDD - Regressione a disegno continuo
      • 12.1.1 Analisi locale
    • 12.2 Fuzzy RD
    • 12.3 Applicazioni
  • 13 Introduzione alla teoria dei network
    • 13.1 Caratteristiche di una rete
      • 13.1.1 Densità del network
      • 13.1.2 Grado di un nodo
      • 13.1.3 Matrice di adiacenza
    • 13.2 La distribuzione dei gradi di una rete
      • 13.2.1 Algoritmo per la verifica di non casualità della rete
  • 14 Distanze, connettività e comunità
    • 14.1 Distanza tra due nodi
      • 14.1.1 Calcolo distanza tra due nodi
    • 14.2 Connettività di una rete e comunità
      • 14.2.1 Connettività locale
    • 14.3 Comunità di nodi
      • 14.3.1 Algoritmi di community detection
  • 15 Centralità dei nodi in una rete
    • 15.1 Centralità come connettività tra nodi
    • 15.2 Centralità come distanza tra nodi
    • 15.3 Centralità come relazione tra nodi
    • 15.4 Centralità k−core
  • 16 Assortatività delle reti e struttura core-periphery
    • 16.1 Assortatività
      • 16.1.1 Come distinguere le due tipologie di reti INDICE iv
      • 16.1.2 Assortatività per reti grandi
    • 16.2 Struttura core-periphery
      • 16.2.1 Metodo Borgatti-Everett
  • III Linguaggio e spiegoni
  • 17 Import e analisi base
    • 17.1 Import dataset & introduzione
    • 17.2 Analisi base
      • 17.2.1 Istogramma
      • 17.2.2 Boxplot
      • 17.2.3 Variabili categoriche
      • 17.2.4 Analisi differenziata per classi
  • 18 Esplorazione multivariata
    • 18.1 Distribuzioni
    • 18.2 Esplorazione multivariata
      • 18.2.1 Verifica normalità
      • 18.2.2 Test d’ipotesi sulla media di una singola popolazione: t-test
      • 18.2.3 Popolazione non normale con osservazioni numerose: z-test
      • 18.2.4 Test di confronto tra le medie di popolazioni indipendenti
  • 19 ANOVA
    • 19.1 Identificazione dei gruppi con media diversa
  • 20 PCA
    • 20.1 Interpretazione geometrica
    • 20.2 Esempio PCA: flussi turistici a Milano
      • 20.2.1 PCA con variabili standardizzate
  • 21 Clustering
    • 21.1 K-means
      • 21.1.1 Selezione di K
    • 21.2 Clustering gerarchico
  • 22 Modelli lineari
    • 22.1 Regressione lineare semplice
      • 22.1.1 Verifica assunzioni per fare inferenza
      • 22.1.2 Inferenza sul modello
    • 22.2 Regressione lineare multipla
      • 22.2.1 Verifica assunzioni per fare inferenza
    • 22.3 PCA regression
  • 23 Predittori categorici, variable selection e cross-validazione
    • 23.1 Variabili categoriche
      • 23.1.1 Metodo esplicitando dummy
      • 23.1.2 Metodo veloce
      • 23.1.3 Regressione con più predittori categorici
    • 23.2 Variable selection: stepwise selection v INDICE
    • 23.3 Cross-validazione
  • 24 Collinearità e shrinkage
    • 24.1 Problema di collinearità
    • 24.2 PCA regression
    • 24.3 RIDGE regression
    • 24.4 Lasso regression
    • 24.5 Confronto OLS, RIDGE e Lasso
  • 25 Regressione logistica e kNN
    • 25.1 Regressione logistica
      • 25.1.1 Regressione logistica semplice
      • 25.1.2 Regressione logistica multipla
    • 25.2 Regressione logistica per classificazione
    • 25.3 kNN
  • 26 Alberi, Bagging e Random Forest
    • 26.1 Alberi di regressione
      • 26.1.1 Predizione senza pruning
      • 26.1.2 Pruning e cross-validazione
    • 26.2 Alberi di classificazione
      • 26.2.1 Pruning e cross-validazione
    • 26.3 Bagging e Random Forest
      • 26.3.1 Confronto Albero di regressione, bagging e Random Forest
  • 27 Variabili strumentali
    • 27.1 Data Generation Process (DGP)
    • 27.2 Modello di regressione
    • 27.3 Stima a variabili strumentali
  • 28 Propensity score matching
    • 28.1 Analisi iniziale
    • 28.2 Matching
      • 28.2.1 method = "NULL"
      • 28.2.2 method = "nearest"
      • 28.2.3 method = "full"
    • 28.3 Valutazione qualità
      • 28.3.1 Jitter plot
      • 28.3.2 QQ-plot
      • 28.3.3 Love plot
    • 28.4 Stima effetto di trattamento
  • 29 Disegni con regressione discontinua
    • 29.1 Sharp RDD
      • 29.1.1 Stima modello
      • 29.1.2 Verifica ipotesi
    • 29.2 Fuzzy RDD
      • 29.2.1 Stima modello
      • 29.2.2 Verifica ipotesi
  • 30 Network - Analisi reti sociali INDICE vi
    • 30.1 Studio della costruzione della rete
      • 30.1.1 Inizializzazione e plot-log della rete
      • 30.1.2 Analisi iniziale della rete
    • 30.2 Rappresentazione grafica della rete
    • 30.3 Distribuzione del grado pesato ed evoluzione
      • 30.3.1 Distribuzione grado non pesato
      • 30.3.2 Distribuzione grado pesato
      • 30.3.3 Evoluzione posizione dei nodi
    • 30.4 Poisson e Power Law
      • 30.4.1 Introduzione pacchetto "poweRLaw"
      • 30.4.2 Confronto con una rete casuale
    • 30.5 Centralità
      • 30.5.1 Inizializzazione
      • 30.5.2 Misure di centralità
    • 30.6 Community detection
      • 30.6.1 Inizializzazione
      • 30.6.2 Visualizzazione senza comunità
      • 30.6.3 Divisione tramite betweenness (Newman)
      • 30.6.4 Algoritmo greedy
      • 30.6.5 Algoritmo di Louvain
  • 31 Spiegoni teorici
    • 31.1 Come leggere un boxplot
    • 31.2 Come leggere una scatterplot matrix
    • 31.3 Linkage: ellipsoidal clusters & chain effect

Part I

Data analytics

Capitolo 1

Introduzione

L’idea del corso è quella di trattare temi classici coadiuvandoli a nuovi approcci alla model- listica statistica per l’analisi dei dati, che colmano il divario tra la statistica ed il machine learning e sviluppano strumenti per il trattamento statistico dei big data. L’enfasi sarà posta sull’apprendimento predittivo, in particolare sull’analisi descrittiva ed esplorativa dei dati, nella regressione e nella classificazione degli stessi. In particolare gli argomenti saranno:

  1. Introduzione allo statistical learning:
    • Inferenza (test) per due popolazioni, One-way ANOVA per dati univariati.
    • Analisi multivariata: esplorazione, quantificazione della dipendenza, covarianza e cor- relazione, matrice di varianza e covarianza.
  2. Statistical learning non supervisionato:
    • Riduzione dimensionale: Analisi delle Componenti Principali
    • Classificazione non supervisionata: Clustering gerarchico e K-means
  3. Statistical learning supervisionato:
    • Modelli parametrici di Regressione Lineare e Lineare Generalizzata:
      • Regressione lineare semplice e multipla; stima dei coefficienti, valutazione dell’accuratezza del modello; predittori qualitativi; PRESS
      • Selezione del modello e regolarizzazione: subset selection, metodi di penaliz- zazione, Ridge regression e LASSO
      • Regressione logistica binaria e multinomiale. Sensitività, Specificità, Curva ROC, AUC
    • Regressione e classificazione non parametriche: KNN, CART, Random Forest.

1.0.1 Big data e dati complessi

Viviamo in un mondo in cui vengono generati tantissimi dati in continuazione, il problema principale oggi è quello dell’analisi di questi, qualunque società ha a disposizione enormi quantità che non sanno come trattare, ci sono poche figure in grado di farlo, ciò che distingue i big data sono la complessità oppure la quantità di database amministrativi, sanitari, ecc...

Bisogna sempre ricordare che avere a disposizione grandi qualità di dati non mette a dispo- sizione per forza una grande quantità di informazione. Il nostro obiettivo è proprio quello di prendere i dati, essere in grado di analizzarli per estrarre informazioni, infatti come detto i dati non sono informazioni, siamo noi che li interpretiamo con modelli e ne estraiamo informazioni: dobbiamo capire cosa è dato casuale che apparentemente ha senso e cosa invece ha davvero un valore. «Avere a disposizione big data è come mettere in una stanza milioni di scimmie e metterle a scrivere a macchina, tutte scrivono in modo completamente casuale ma malgrado questo, una alla fine una scriverà “Shakespeare”.» Quello che deve fare un’analisi statistica di big data è cercare di capire se quello “Shakespeare” è lì totalmente a caso o perché è veramente un’informazione: la sfida di oggi non è trovare qualcosa che apparentemente abbia senso senso, ma è essere in grado di dire: “questo effettivamente ha senso”.

1.0.2 Dati multivariati

I dati che analizzeremo saranno sotto forma di una grande matrice, composta da:

  • n = numero di righe, cioè unità statistiche (molte),
  • p = numero di colonne, dimensione dello spazio di osservazione (variabili).

In particolare, una generica matrice di dati ha forma:

X =

x 11 · · · x 1 p .. .

xn 1 · · · xnp

 ∈^ Rn×p

in cui xij è l’osservazione della j-esima variabile nella i-esima unità statistica. La lettura può essere fatta sia per righe, in cui ci si focalizza rispetto a una specifica unità statistica rispetto a tutte le variabili osservate, oppure per colonne, in cui si fa riferimento ad una specifica variabile per tutte le unità statistiche.

1.0.3 Rappresentazione dei dati

I dati possono essere rappresentati come una nuvola di punti nel generico iperpiano Rp, in cui p sono le variabili osservate. Supponiamo per esempio di star osservando due variabili peso e altezza, p = 2, di 100 individui m = 100, è possibile rappresentare graficamente l’insieme di punti in un piano, questi appaiono come una nuvola di punti; ogni riga del dataset mi fornisce una coppia di coordinate (altezza e peso) di una persona, otterremo quindi 100 osservazioni ( punti nel grafico) che faranno riferimento al peso e all’altezza degli individui.

Capitolo 2

Analisi univariata

Nell’analisi univariata abbiamo la matrice dei dati composta da n righe (variabili) e p colonne (osservazioni) e dobbiamo considerarla come una giustapposizione di vettori colonna che rappre- sentano le osservazioni univariate di p variabili, ovvero: considero solamente tutte le osservazioni facendo riferimento solamente a una variabile, ad esempio considero solamente il peso rilevato di una serie di individui. Focalizzandoci su una singola colonna, possiamo fare due tipi di analisi:

  1. Analisi descrittiva: prende un campione di dati e cerca di spiegarli, descrivendoli tramite indici di sintesi (media, moda, mediana) e farne rappresentazioni grafiche (istogrammi, grafici a torta o barre) per facilitarne la comprensione;
  2. Analisi inferenziale: in questo caso partiamo dal fatto che abbiamo dei dati x 1 , ..., xn che sono n osservazioni di una popolazione, la statistica inferenziale vuole generalizzare i dati cercando di dire qualcosa sulla distribuzione F che ha generato i dati rilevati.

La statistica inferenziale fa:

  • Stima puntuale del parametro di interesse, cioè viene associato un singolo valore al parametro; oppure stima intervallare, ovvero si trova un range di valori, che sono funzione dell’osservazione, in cui mi aspetto con una certa confidenza di far ricadere il parametro al suo interno;
  • Test d’ipotesi: prendo una decisione su un’ipotesi, e voglio dimostrarla o confutarla, rac- cogliendo dati sul campione rispetto alla variabile di interesse posso costruire una procedura per stabilire se l’ipotesi si accetta o meno.

2.1 Statistica descrittiva

Vediamo degli indici di sintesi e rappresentazioni grafiche.

Media campionaria

Corrisponde alla media aritmetica delle unità statistiche e si calcola come:

xj =

n

X^ n

i=

xij.

7 CAPITOLO 2. ANALISI UNIVARIATA

In particolare è un indice di sintesi di posizione che indica il baricentro dei dati. Non è sufficiente come indice, infatti dice solamente circa dove si trovano i dati, ma di fatto non dice nulla sulla dispersione della popolazione.

Varianza campionaria

La varianza campionaria è un indice di sintesi di dispersione che mi dice quanto è dispersa la mia popolazione attorno alla media. Per ogni osservazione prendo lo scarto dalla media (campionaria), cioè la distanza, e la elevo al quadrato, sommo tutti questi scarti quadratici e ne calcolo la media dividendo per n, per la generica variabile j si calcola come:

S jj^2 =

n

X^ n

i=

(xij − xj )^2.

Tendenzialmente se ho valori osservati lontani dalla media la varianza sarà elevata. Il caso limite di varianza pari a 0 si ha quando tutti i valori sono uguali, non c’è variabilità, analisi inutile. A volte a denominatore è preferibile usare n − 1 a denominatore per ragioni di non distorsione, in particolare quando facciamo un’analisi descrittiva usiamo n, mentre quando vogliamo dire qualcosa sulla popolazione, e quindi fare una stima puntuale si preferisce usare n − 1. La deviazione standard invece è definita come la radice della varianza:

σj =

q S jj^2 = Sjj.

Disuguaglianza di Chebychev (Čebyšëv)

Ci dice che partendo dalla media e dalla deviazione standard possiamo trarre notevoli infor- mazioni sulla distribuzione dei dati:

P

h xij ∈

h xj − k

p Sjj , xj + k

p Sjj

ii ≥

k^2

, ∀k > 0.

Quello che vuole dire è che dato un valore maggiore di 0 , la probabilità che un’osservazione rientri nell’intervallo simmetrico centrato nella media e che si estende per ±k volte la deviazione

standard è almeno uguale a 1 −

k^2

. Per esempio per k = 2:

La potenza della disuguaglianza di Chebychev è che ci sa dire a prescindere dalla distribuzione dove si trovano i dati, naturalmente se è nota la distribuzione possiamo essere più precisi (nella gaussiana con due deviazioni standard siamo già al 95%).

2.1.1 Standardizzazione di una variabile

Standardizzare una variabile significa descriverla in unità di deviazioni standard, ovvero con- siste nel creare una scala interpretabile e senza unità di misura per capire la variabilità delle osservazioni (infatti i valori standardizzati sono adimensionali):

x∗ j =

(x.j − xj ) p Sjj

9 CAPITOLO 2. ANALISI UNIVARIATA

Varianza puntuale

Lo stimatore puntuale per il calcolo della varianza σ^2 è pari alla varianza campionaria:

S^2 =

n − 1

X^ n

i=

Xi − X

2.2.2 Test d’ipotesi

Lo schema generale per la formulazione di un test d’ipotesi segue i seguenti passaggi:

  1. Formulazione del modello: tendenzialmente si usa il modello gaussiano, osserviamo un campione di media μ e varianza σ^2 , la varianza è nota o incognita e il target è la media;
  2. Formulazione del test: si specificano le ipotesi nulla e alternativa, ciò che vogliamo dimostrare (ad esempio un test bilatero o unilatero sulla media della gaussiana);
  3. Costruzione della statistica test: aiuta a prendere la decisione, tipicamente è legata allo stimatore del target, sulla base della statistica test costruisco la regola di rifiuto;
  4. Regola di rifiuto: basandoci sulla statistica test, fisso un livello α del test e costruisco una regione per cui sotto H 0 con probabilità α trovo la mia statistica test, se è sotto H 0 rifiuto. Alternativamente interpreto il p-value del test, non fisso il livello del test, ma calcolo il p-value, se è alto significa che la media campionaria è vicina a quello che dovrebbe idealmente essere, quindi accetto H 0.

Z-test

Lo Z-test è un test sulla media per campione gaussiano, con varianza nota, oppure un test asintotico sulla media per un campione qualsiasi, con varianza incognita.

Z-test sulla media per campione Gaussiano, varianza nota Abbiamo una popolazione (campione casuale): X 1 , ..., Xn ∼ N iid(μ, σ^2 ),

e consideriamo varianza σ^2 nota. Vogliamo prendere una decisione riguardo alle altezze degli ingegneri gestionali del terzo anno, per farlo raccogliamo un campione casuale di n = 100 studenti e ne misuro l’altezza. A questo punto formuliamo il test bilatero scegliendo il valore da verificare ( 173 cm):

H 0 : μ = μ 0 = 173cm, H 1 : μ ̸= μ 0.

Vogliamo quindi fare inferenza su μ, ovvero prendere una decisione sulla media. Abbiamo lo stimatore X della media campionaria:

X =

n

X^ n

i=

Xi ∼ N

μ,

σ^2 n

ed è un buon stimatore perché non è distorto e se i dati presi sono gaussiani ed iid, allora

anche lo stimatore è gaussiano, ed ha media μ e varianza

σ^2 n

. A questo punto posso fare delle

2.2. STATISTICA INFERENZIALE 10

considerazioni sullo stimatore, quanto è vicino all’ipotesi di H 0? Per farlo bisogna chiedersi a quante deviazioni standard si trova X rispetto a μ 0 , quindi standardizzare lo stimatore*:

Z =

X − μ 0 r σ^2 n

∼ N (0, 1), [sotto H 0 ] σ^2 è la varianza di X.

Se H 0 è vera, mi aspetto di trovare dei valori vicini allo 0. Ad esempio se fissiamo la regola di rifiuto α = 5%, da tabella otteniamo z 1 − α 2 = 1. 96 , quindi rifiutiamo H 0 se X è a più di 1. deviazioni standard da dove ho messo l’ipotesi nulla, la regione critica è data da:

z 0 < −z 1 − α 2 , oppure z 0 > z 1 − α 2.

In alternativa possiamo usare il p-value, che mi dice quanto è probabile, sotto H 0 , di vedere qualcosa che sia a più deviazioni standard dalla media di quello che sto osservando, in sostanza ci aiuta a capire con una certa probabilità se la differenza tra il risultato osservato e quello ipotizzato è statisticamente significativo (semplicemente ci dice la probabilità di osservare qualcosa che è nelle code della gaussiana, ovvero fuori da H 0 ). Considero ad esempio un valore a caso, z = 2. 04 , qual è la probabilità sotto H 0 di vedere qualcosa più distante dalla media di 2.04 deviazioni standard? La probabilità è bassa, quindi il p-value sarà elevato, quindi deciderò di accettare H 0.

Z-test asintotico sulla media per campione qualsiasi, varianza incognita È un caso particolare, se ci sono tanti dati, n molto grande, possiamo non usare la gaussianità e invece sfruttare il teorema centrale del limite per fare test asintotici, anche se abbiamo varianza incog- nita, con n grande possiamo approssimare i dati a una gaussiana N ∼ (0, 1) e usiamo come varianza il suo stimatore S (varianza campionaria) che è un buon stimatore proprio per la mole di dati che abbiamo. In generale non c’è un n limite che permette di sfruttare il teorema centrale del limite, però ad esempio per analisi univariate (p = 1) già 30 osservazioni sono sufficienti.

T-test

Nel caso in cui la varianza σ^2 non sia nota, quando calcoliamo la statistica test bisogna fare una variazione, cioè stimare la varianza con lo stimatore S^2 :

S^2 =

n − 1

X^1

i=

Xi − X

e dunque possiamo costruire la statistica test come una t di student con n − 1 gradi di libertà (che corrispondono al denominatore di S^2 ):

T 0 =

X − μ 0 r S^2 n

∼ t(n − 1).

Per fare il test si procede allo stesso modo, solo che si ha una distribuzione differente, fissato α costruiamo la regione di rifiuto analogamente a quella dello Z-test:

t 0 < −t 1 − α 2 (n − 1), oppure t 0 > t 1 − α 2 (n − 1).

Anche qui possiamo usare il p-value che ha il funzionamento analogo al caso dello Z-test.

2.2. STATISTICA INFERENZIALE 12

dunque θˆ è uno stimatore non distorto per θ. Calcoliamo la varianza dello stimatore θˆ sapendo che sono indipendenti (covarianza nulla):

V ar

h θˆ

i = V ar

Y 1 − Y 2

= V ar

Y 1
  • V ar
Y 2

− 2 Cov

Y 1 Y 2

= V ar

Y 1
  • V ar
Y 2

σ^21 n 1

σ^22 n 2

Per n 1 e n 2 grandi la varianza diventa piccola, quindi è un buon stimatore, in particolare, lo stimatore è distribuito come una gaussiana in quanto combinazione lineare di oggetti gaussiani e indipendenti:

ˆθ ∼ N

μ 1 − μ 2 ,

σ^21 n 1

σ^22 n 2

Formulazione test d’ipotesi (bilatero) Siccome vogliamo prendere una decisione sull’ipotesi sulla differenza delle medie formuliamo un test bilatero che ponga la differenza tra le medie uguale a un valore vicino a zero (o tipicamente proprio zero):

H 0 : μ 1 − μ 2 = δ 0 , H 1 : μ 1 − μ 2 = δ 0.

Statistica test Sotto ipotesi H 0 lo stimatore θˆ possiamo scriverlo come:

θ^ ˆ ∼ N

δ 0 ,

σ 12 n 1

σ^22 n 2

se H 0 è vera, mediamente sappiamo che lo stimatore sta su δ 0 , quindi ci chiediamo a quante deviazioni standard si trova dalla media sotto l’ipotesi, se si trova vicino i dati confermano l’ipotesi, sempre lo stesso ragionamento. A questo punto standardizziamo lo stimatore:

Z 0 =

θˆ − δ 0 s σ^21 n 1

σ^22 n 2

∼ N (0, 1).

Decisione Quindi una volta fissata la regola di rifiuto α possiamo prendere una decisione. CASO 1 In questo primo caso abbiamo varianze delle due popolazioni σ 12 e σ^22 note, quindi possiamo usare come statistica test Z 0 :

Z 0 =

Y 1 − Y 2 − δ 0 s σ^21 n 1

σ^22 n 2

∼ N (0, 1).

Data la regola di rifiuto ci chiediamo se il generico dato z 0 , generato dalla statistica Z 0 , rientri nelle code della gaussiana generate dalla regola di rifiuto. In particolare rifiutiamo H 0 per un liv- ello di significatività α quando il dato si trova lontano dalla media (nelle code), matematicamente rifiutiamo quando: z 0 < −z 1 − α 2 , oppure z 0 > z 1 − α 2.

Similmente con il p-value calcoliamo la probabilità che Z 0 generi un dato più lontano dalla media della gaussiana di z 0 (ovvero che si trovi nelle code oltre z 0 ):

p − value = 2P (Z 0 < | − z 0 |).

13 CAPITOLO 2. ANALISI UNIVARIATA

CASO 2 Nel secondo caso le varianze delle due popolazioni sono incognite, quindi dobbi- amo stimarle con gli stimatori della varianza:

S^21 =

n 1 − 1

X^ n^1

i=

Y 1 ,i − Y (^1)

S^22 =

n 2 − 1

X^ n^2

i=

Y 2 ,i − Y (^2)

a) n 1 e n 2 grandi → Z-test asintotico Nel caso in cui n 1 e n 2 siano sufficientemente grandi, gli stimatori delle varianze possono essere assimilabili alle varianze effettive S^21 ≈ σ^21 e S 22 ≈ σ^22 , e quindi possiamo usare ancora lo Z-test per poi procedere come nel caso 1 con varianze note:

Z 0 =

Y 1 − Y 2 − δ 0 s S^21 n 1

S^22

n 2

∼ N (0, 1).

b) n 1 e n 2 piccoli → T-test esatto In questo caso facciamo un’assunzione stringente, ovvero che le due varianze siano uguali σ 12 = σ^22 = σ^2 , dunque possiamo riscrivere il modello:

popolazione 1: Y 1 , 1 , ..., Y 1 ,n 1 ∼ N iid(μ 1 , σ^2 ),

popolazione 2: Y 2 , 1 , ..., Y 2 ,n 2 ∼ N iid(μ 2 , σ^2 ),

la statistica test sotto H 0 sarebbe con la nuova varianza:

Z 0 =

θˆ − δ 0 s σ^2 n 1

σ^2 n 2

∼ N (0, 1).

Facciamo questo perché almeno dobbiamo stimare solamente un valore anziché due, tenendo conto comunque del differente peso delle due stime campionarie S 12 ed S^22 e facciamo questo con l’Spooled:

Spooled = (n 1 − 1)S 12 + (n 2 − 1)S 22 n 1 + n 2 − 2

ottengo quindi un valore pesato tra le due varianze campionarie, questo mi permette di effettuare il test, nonostante lo stimatore sia meno preciso del caso in cui n 1 ed n 2 siano elevati. La statistica test al netto di Spooled sarà una t di student con gradi di libertà pari al denominatore della varianza campionaria pesata:

T 0 =

Y 1 − Y 2 − δ 0 s S p^2

n 1

n 2

 ∼ T^ (n^1 +^ n^1 −^ 2).

Possiamo quindi effettuare la decisione, rifiutiamo H 0 quando:

t 0 < −t 1 − α 2 (n 1 + n 2 − 2), oppure t 0 > t 1 − α 2 (n 1 + n 2 − 2).