




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
La dispensa comprende gli argomenti di entrambe le parti del corso (analisi di dati, inferenza causale e network), sia per quanto riguarda la teoria che per quanto riguarda la parte di codice (sia codice che spiegazione) per Rstudio.
Tipologia: Dispense
1 / 219
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































L’idea del corso è quella di trattare temi classici coadiuvandoli a nuovi approcci alla model- listica statistica per l’analisi dei dati, che colmano il divario tra la statistica ed il machine learning e sviluppano strumenti per il trattamento statistico dei big data. L’enfasi sarà posta sull’apprendimento predittivo, in particolare sull’analisi descrittiva ed esplorativa dei dati, nella regressione e nella classificazione degli stessi. In particolare gli argomenti saranno:
Viviamo in un mondo in cui vengono generati tantissimi dati in continuazione, il problema principale oggi è quello dell’analisi di questi, qualunque società ha a disposizione enormi quantità che non sanno come trattare, ci sono poche figure in grado di farlo, ciò che distingue i big data sono la complessità oppure la quantità di database amministrativi, sanitari, ecc...
Bisogna sempre ricordare che avere a disposizione grandi qualità di dati non mette a dispo- sizione per forza una grande quantità di informazione. Il nostro obiettivo è proprio quello di prendere i dati, essere in grado di analizzarli per estrarre informazioni, infatti come detto i dati non sono informazioni, siamo noi che li interpretiamo con modelli e ne estraiamo informazioni: dobbiamo capire cosa è dato casuale che apparentemente ha senso e cosa invece ha davvero un valore. «Avere a disposizione big data è come mettere in una stanza milioni di scimmie e metterle a scrivere a macchina, tutte scrivono in modo completamente casuale ma malgrado questo, una alla fine una scriverà “Shakespeare”.» Quello che deve fare un’analisi statistica di big data è cercare di capire se quello “Shakespeare” è lì totalmente a caso o perché è veramente un’informazione: la sfida di oggi non è trovare qualcosa che apparentemente abbia senso senso, ma è essere in grado di dire: “questo effettivamente ha senso”.
I dati che analizzeremo saranno sotto forma di una grande matrice, composta da:
In particolare, una generica matrice di dati ha forma:
x 11 · · · x 1 p .. .
xn 1 · · · xnp
∈^ Rn×p
in cui xij è l’osservazione della j-esima variabile nella i-esima unità statistica. La lettura può essere fatta sia per righe, in cui ci si focalizza rispetto a una specifica unità statistica rispetto a tutte le variabili osservate, oppure per colonne, in cui si fa riferimento ad una specifica variabile per tutte le unità statistiche.
I dati possono essere rappresentati come una nuvola di punti nel generico iperpiano Rp, in cui p sono le variabili osservate. Supponiamo per esempio di star osservando due variabili peso e altezza, p = 2, di 100 individui m = 100, è possibile rappresentare graficamente l’insieme di punti in un piano, questi appaiono come una nuvola di punti; ogni riga del dataset mi fornisce una coppia di coordinate (altezza e peso) di una persona, otterremo quindi 100 osservazioni ( punti nel grafico) che faranno riferimento al peso e all’altezza degli individui.
Nell’analisi univariata abbiamo la matrice dei dati composta da n righe (variabili) e p colonne (osservazioni) e dobbiamo considerarla come una giustapposizione di vettori colonna che rappre- sentano le osservazioni univariate di p variabili, ovvero: considero solamente tutte le osservazioni facendo riferimento solamente a una variabile, ad esempio considero solamente il peso rilevato di una serie di individui. Focalizzandoci su una singola colonna, possiamo fare due tipi di analisi:
La statistica inferenziale fa:
Vediamo degli indici di sintesi e rappresentazioni grafiche.
Media campionaria
Corrisponde alla media aritmetica delle unità statistiche e si calcola come:
xj =
n
X^ n
i=
xij.
In particolare è un indice di sintesi di posizione che indica il baricentro dei dati. Non è sufficiente come indice, infatti dice solamente circa dove si trovano i dati, ma di fatto non dice nulla sulla dispersione della popolazione.
Varianza campionaria
La varianza campionaria è un indice di sintesi di dispersione che mi dice quanto è dispersa la mia popolazione attorno alla media. Per ogni osservazione prendo lo scarto dalla media (campionaria), cioè la distanza, e la elevo al quadrato, sommo tutti questi scarti quadratici e ne calcolo la media dividendo per n, per la generica variabile j si calcola come:
S jj^2 =
n
X^ n
i=
(xij − xj )^2.
Tendenzialmente se ho valori osservati lontani dalla media la varianza sarà elevata. Il caso limite di varianza pari a 0 si ha quando tutti i valori sono uguali, non c’è variabilità, analisi inutile. A volte a denominatore è preferibile usare n − 1 a denominatore per ragioni di non distorsione, in particolare quando facciamo un’analisi descrittiva usiamo n, mentre quando vogliamo dire qualcosa sulla popolazione, e quindi fare una stima puntuale si preferisce usare n − 1. La deviazione standard invece è definita come la radice della varianza:
σj =
q S jj^2 = Sjj.
Disuguaglianza di Chebychev (Čebyšëv)
Ci dice che partendo dalla media e dalla deviazione standard possiamo trarre notevoli infor- mazioni sulla distribuzione dei dati:
P
h xij ∈
h xj − k
p Sjj , xj + k
p Sjj
ii ≥
k^2
, ∀k > 0.
Quello che vuole dire è che dato un valore maggiore di 0 , la probabilità che un’osservazione rientri nell’intervallo simmetrico centrato nella media e che si estende per ±k volte la deviazione
standard è almeno uguale a 1 −
k^2
. Per esempio per k = 2:
La potenza della disuguaglianza di Chebychev è che ci sa dire a prescindere dalla distribuzione dove si trovano i dati, naturalmente se è nota la distribuzione possiamo essere più precisi (nella gaussiana con due deviazioni standard siamo già al 95%).
Standardizzare una variabile significa descriverla in unità di deviazioni standard, ovvero con- siste nel creare una scala interpretabile e senza unità di misura per capire la variabilità delle osservazioni (infatti i valori standardizzati sono adimensionali):
x∗ j =
(x.j − xj ) p Sjj
Varianza puntuale
Lo stimatore puntuale per il calcolo della varianza σ^2 è pari alla varianza campionaria:
n − 1
X^ n
i=
Xi − X
Lo schema generale per la formulazione di un test d’ipotesi segue i seguenti passaggi:
Z-test
Lo Z-test è un test sulla media per campione gaussiano, con varianza nota, oppure un test asintotico sulla media per un campione qualsiasi, con varianza incognita.
Z-test sulla media per campione Gaussiano, varianza nota Abbiamo una popolazione (campione casuale): X 1 , ..., Xn ∼ N iid(μ, σ^2 ),
e consideriamo varianza σ^2 nota. Vogliamo prendere una decisione riguardo alle altezze degli ingegneri gestionali del terzo anno, per farlo raccogliamo un campione casuale di n = 100 studenti e ne misuro l’altezza. A questo punto formuliamo il test bilatero scegliendo il valore da verificare ( 173 cm):
H 0 : μ = μ 0 = 173cm, H 1 : μ ̸= μ 0.
Vogliamo quindi fare inferenza su μ, ovvero prendere una decisione sulla media. Abbiamo lo stimatore X della media campionaria:
n
X^ n
i=
Xi ∼ N
μ,
σ^2 n
ed è un buon stimatore perché non è distorto e se i dati presi sono gaussiani ed iid, allora
anche lo stimatore è gaussiano, ed ha media μ e varianza
σ^2 n
. A questo punto posso fare delle
considerazioni sullo stimatore, quanto è vicino all’ipotesi di H 0? Per farlo bisogna chiedersi a quante deviazioni standard si trova X rispetto a μ 0 , quindi standardizzare lo stimatore*:
X − μ 0 r σ^2 n
∼ N (0, 1), [sotto H 0 ] σ^2 è la varianza di X.
Se H 0 è vera, mi aspetto di trovare dei valori vicini allo 0. Ad esempio se fissiamo la regola di rifiuto α = 5%, da tabella otteniamo z 1 − α 2 = 1. 96 , quindi rifiutiamo H 0 se X è a più di 1. deviazioni standard da dove ho messo l’ipotesi nulla, la regione critica è data da:
z 0 < −z 1 − α 2 , oppure z 0 > z 1 − α 2.
In alternativa possiamo usare il p-value, che mi dice quanto è probabile, sotto H 0 , di vedere qualcosa che sia a più deviazioni standard dalla media di quello che sto osservando, in sostanza ci aiuta a capire con una certa probabilità se la differenza tra il risultato osservato e quello ipotizzato è statisticamente significativo (semplicemente ci dice la probabilità di osservare qualcosa che è nelle code della gaussiana, ovvero fuori da H 0 ). Considero ad esempio un valore a caso, z = 2. 04 , qual è la probabilità sotto H 0 di vedere qualcosa più distante dalla media di 2.04 deviazioni standard? La probabilità è bassa, quindi il p-value sarà elevato, quindi deciderò di accettare H 0.
Z-test asintotico sulla media per campione qualsiasi, varianza incognita È un caso particolare, se ci sono tanti dati, n molto grande, possiamo non usare la gaussianità e invece sfruttare il teorema centrale del limite per fare test asintotici, anche se abbiamo varianza incog- nita, con n grande possiamo approssimare i dati a una gaussiana N ∼ (0, 1) e usiamo come varianza il suo stimatore S (varianza campionaria) che è un buon stimatore proprio per la mole di dati che abbiamo. In generale non c’è un n limite che permette di sfruttare il teorema centrale del limite, però ad esempio per analisi univariate (p = 1) già 30 osservazioni sono sufficienti.
T-test
Nel caso in cui la varianza σ^2 non sia nota, quando calcoliamo la statistica test bisogna fare una variazione, cioè stimare la varianza con lo stimatore S^2 :
n − 1
i=
Xi − X
e dunque possiamo costruire la statistica test come una t di student con n − 1 gradi di libertà (che corrispondono al denominatore di S^2 ):
X − μ 0 r S^2 n
∼ t(n − 1).
Per fare il test si procede allo stesso modo, solo che si ha una distribuzione differente, fissato α costruiamo la regione di rifiuto analogamente a quella dello Z-test:
t 0 < −t 1 − α 2 (n − 1), oppure t 0 > t 1 − α 2 (n − 1).
Anche qui possiamo usare il p-value che ha il funzionamento analogo al caso dello Z-test.
dunque θˆ è uno stimatore non distorto per θ. Calcoliamo la varianza dello stimatore θˆ sapendo che sono indipendenti (covarianza nulla):
V ar
h θˆ
i = V ar
= V ar
− 2 Cov
= V ar
σ^21 n 1
σ^22 n 2
Per n 1 e n 2 grandi la varianza diventa piccola, quindi è un buon stimatore, in particolare, lo stimatore è distribuito come una gaussiana in quanto combinazione lineare di oggetti gaussiani e indipendenti:
ˆθ ∼ N
μ 1 − μ 2 ,
σ^21 n 1
σ^22 n 2
Formulazione test d’ipotesi (bilatero) Siccome vogliamo prendere una decisione sull’ipotesi sulla differenza delle medie formuliamo un test bilatero che ponga la differenza tra le medie uguale a un valore vicino a zero (o tipicamente proprio zero):
H 0 : μ 1 − μ 2 = δ 0 , H 1 : μ 1 − μ 2 = δ 0.
Statistica test Sotto ipotesi H 0 lo stimatore θˆ possiamo scriverlo come:
θ^ ˆ ∼ N
δ 0 ,
σ 12 n 1
σ^22 n 2
se H 0 è vera, mediamente sappiamo che lo stimatore sta su δ 0 , quindi ci chiediamo a quante deviazioni standard si trova dalla media sotto l’ipotesi, se si trova vicino i dati confermano l’ipotesi, sempre lo stesso ragionamento. A questo punto standardizziamo lo stimatore:
θˆ − δ 0 s σ^21 n 1
σ^22 n 2
Decisione Quindi una volta fissata la regola di rifiuto α possiamo prendere una decisione. CASO 1 In questo primo caso abbiamo varianze delle due popolazioni σ 12 e σ^22 note, quindi possiamo usare come statistica test Z 0 :
Y 1 − Y 2 − δ 0 s σ^21 n 1
σ^22 n 2
Data la regola di rifiuto ci chiediamo se il generico dato z 0 , generato dalla statistica Z 0 , rientri nelle code della gaussiana generate dalla regola di rifiuto. In particolare rifiutiamo H 0 per un liv- ello di significatività α quando il dato si trova lontano dalla media (nelle code), matematicamente rifiutiamo quando: z 0 < −z 1 − α 2 , oppure z 0 > z 1 − α 2.
Similmente con il p-value calcoliamo la probabilità che Z 0 generi un dato più lontano dalla media della gaussiana di z 0 (ovvero che si trovi nelle code oltre z 0 ):
p − value = 2P (Z 0 < | − z 0 |).
CASO 2 Nel secondo caso le varianze delle due popolazioni sono incognite, quindi dobbi- amo stimarle con gli stimatori della varianza:
n 1 − 1
X^ n^1
i=
Y 1 ,i − Y (^1)
n 2 − 1
X^ n^2
i=
Y 2 ,i − Y (^2)
a) n 1 e n 2 grandi → Z-test asintotico Nel caso in cui n 1 e n 2 siano sufficientemente grandi, gli stimatori delle varianze possono essere assimilabili alle varianze effettive S^21 ≈ σ^21 e S 22 ≈ σ^22 , e quindi possiamo usare ancora lo Z-test per poi procedere come nel caso 1 con varianze note:
Y 1 − Y 2 − δ 0 s S^21 n 1
n 2
b) n 1 e n 2 piccoli → T-test esatto In questo caso facciamo un’assunzione stringente, ovvero che le due varianze siano uguali σ 12 = σ^22 = σ^2 , dunque possiamo riscrivere il modello:
popolazione 1: Y 1 , 1 , ..., Y 1 ,n 1 ∼ N iid(μ 1 , σ^2 ),
popolazione 2: Y 2 , 1 , ..., Y 2 ,n 2 ∼ N iid(μ 2 , σ^2 ),
la statistica test sotto H 0 sarebbe con la nuova varianza:
θˆ − δ 0 s σ^2 n 1
σ^2 n 2
Facciamo questo perché almeno dobbiamo stimare solamente un valore anziché due, tenendo conto comunque del differente peso delle due stime campionarie S 12 ed S^22 e facciamo questo con l’Spooled:
Spooled = (n 1 − 1)S 12 + (n 2 − 1)S 22 n 1 + n 2 − 2
ottengo quindi un valore pesato tra le due varianze campionarie, questo mi permette di effettuare il test, nonostante lo stimatore sia meno preciso del caso in cui n 1 ed n 2 siano elevati. La statistica test al netto di Spooled sarà una t di student con gradi di libertà pari al denominatore della varianza campionaria pesata:
Y 1 − Y 2 − δ 0 s S p^2
n 1
n 2
∼ T^ (n^1 +^ n^1 −^ 2).
Possiamo quindi effettuare la decisione, rifiutiamo H 0 quando:
t 0 < −t 1 − α 2 (n 1 + n 2 − 2), oppure t 0 > t 1 − α 2 (n 1 + n 2 − 2).