




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
DISPENSA COMPLETA DEL MODULO 1
Tipologia: Dispense
1 / 139
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































La statistica è una disciplina scientifica che si occupa della raccolta, dell'analisi e dell'interpretazione dei dati ottenuti
dall’osservazione di un esperimento. Questa materia ha una struttura coerente basata sulla teoria della probabilità e
comprende molte procedure diverse che contribuiscono alla ricerca e allo sviluppo in tutta la Scienza e la Tecnologia.
Statistica come scienza
● basata sui dati;
● costruita sulla teoria della probabilità;
● transdisciplinare.
Le teorie matematiche alla base della statistica si basano molto sul calcolo differenziale e integrale, sull'algebra
lineare e sulla teoria della probabilità.
Ad oggi, l'oggetto di studio della statistica sta diventando sempre più complesso e ampio →Big Data.
Perciò c’è la necessità di modelli più complessi per trattare i dati e di conseguenza calcolatori più performanti.
Il machine learning è un campo di studi che dà ai computer la capacità di imparare senza essere esplicitamente
programmati. Si tratta, in sostanza, dell’apprendimento automatico: permette ai computer di imparare
dall’esperienza.
Nota: analisi statistiche univariate possono essere svolte sui singoli vettori
. j.
(colonne della matrice dei dati)
Analisi bivariata
Se l’analisi viene effettuata considerando due variabili i dati possono essere rappresentati come una nuvola di punti
in
p
Esempio:
Ogni vettore riga (unità i-esima) rappresenta una coppia di coordinate in
2
Rappresentazione dei dati
In generale, le righe della matrice dei dati sono osservazioni delle unità statistiche lungo p variabili.
p
(nel corso verranno illustrati strumenti
grafici sul software R per rappresentare i dati in p>3 dimensioni).
Quando il numero di variabili supera di molto 1 (
) possono insorgere problemi nella visualizzazione ed
esplorazione dei dati. In questi casi, spesso si ricorre a metodi statistici di riduzione dimensionale (e.g., analisi delle
componenti principali).
Variabile risposta e variabili covariate
All’interno del dataset, è spesso possibile identificare una variabile risposta, ovvero una variabile target per l’analisi.
La variabile risposta Y può essere:
● continua;
● categorica.
Se Y è una variabile categorica, l’obiettivo dell’analisi è tipicamente la classificazione
Nella statistica univariata si analizzano le unità statistiche focalizzandosi su una singola variabile.
Statistica descrittiva
Nella statistica descrittiva si utilizzano:
● indici di sintesi (sintetizzano l’informazione nei dati);
● rappresentazioni grafiche.
Gli indici di sintesi e rappresentazioni grafiche più appropriate vengono determinate in base alla tipologia dei
caratteri:
● qualitativi;
● quantitativi
○ discreti,
○ continui.
Esempio:
Diagnosi principale di 1467 pazienti dell'ospedale Tooting Bec
unità statistica = paziente
campione = numero di pazienti =
variabili = diagnosi
= schizofrenia, disordine affettivo, …
Frequenze assolute →contano le unità statistiche in ogni categoria.
Frequenze relative →si calcolano come le frequenze assolute diviso l’ampiezza campionaria.
Esempio:
Si deve valutare l'efficienza di una linea di produzione in uno stabilimento manifatturiero. A tale scopo vengono
raccolti dati sul numero di pezzi prodotti al giorno da una macchina per 30 giorni.
● verificare se la distribuzione assume una forma interessante;
● verificare se la distribuzione presenta dati anomali.
Indici di sintesi
Gli indici di sintesi si dividono in:
● misure di posizione (o misure di centralità) →qual è quel valore che mi sintetizza bene il fenomeno?
● misure di variabilità (o di dispersione) →come si distribuisce il fenomeno rispetto a questo valore?
● misure di forma →sono più frequenti valori alti o bassi?
→ la distribuzione mostra qualche forma interessante?
Outlier = dato anomalo;
= un dato che è significativamente più grande o più piccolo di altri punti di dati in un set di dati.
● può influenzare il calcolo delle statistiche descrittive;
● può essere causato da:
○ errore sperimentale,
○ errata registrazione dei dati,
○ valori reali;
● è necessario decidere se escluderlo o meno prima di effettuare l'analisi, un outlier dovrebbe essere
escluso se è dovuto a un errore di misurazione o umano.
Indici di locazione
Gli indici di locazione misurano la tendenza centrale dei dati.
Esistono diversi indici con i quali è possibile sintetizzare un insieme di dati (es. il valore più frequente, il valore che
divide equamente la popolazione).
● Media (aritmetica) campionaria
○ si calcola dividendo la somma di tutti i valori per la dimensione del dataset. Siano
1
n
le osservazioni nel campione, allora le media campionaria
è
∑
i = 1
n
i
distribuzione di unità
∑
i = 1
K
i
i
distribuzione di frequenze
○ è la statistica di posizione più comunemente utilizzata;
○ è facile da capire e da calcolare;
○ può essere calcolata su fenomeni quantitativi;
○ funziona bene quando la distribuzione è simmetrica e non ci sono outlier
○ la media aritmetica è:
■ il baricentro della distribuzione,
■ la quantità che annulla la somma degli scostamenti
(
i
) ,
■ la quantità che minimizza la somma degli scostamenti al quadrato
(
i
)
2
○ la media aritmetica non è:
■ non è il punto medio del range;
■ non divide la distribuzione in due parti uguali;
■ non è il valore più frequente.
● Mediana (campionaria)
○ è il valore medio in cui esattamente la metà delle osservazioni ha un valore minore o uguale e
l’altra metà ha un valore maggiore o uguale;
○ è il più piccolo valore di
tale che la frequenza cumulata relativa è maggiore o uguale a 0,5 ;
○ indice meno utilizzato;
○ è una statistica utile per la sua robustezza (riduce l'effetto dei valori anomali);
○ spesso viene utilizzata quando i dati non sono simmetrici;
○ può essere calcolata su dati quantitativi o qualitativi ordinali;
rimuovendo l’outlier la media
varia molto di più della mediana
○ la più semplice misura di variabilità;
○ considera solo 2 osservazioni;
○ può essere fuorviante quando i dati sono distorti o in presenza di valori anomali, anche solo un
outlier fa crescere drasticamente il range.
● Differenza interquartile
○ la IQR (Inter Quartile Range) contiene il 50% centrale dei dati (i.e. Q3-Q1);
○ usata per distribuzioni non simmetriche che si discostano dalla distribuzione normale.
● Varianza campionaria e deviazione standard (o scarto quadratico medio)
○ la varianza campionaria della j-esima variabile è definita come
S
2
n − 1
∑
i
n
(
x
i
− x
)
2
serve per la non-distorsione
○ la deviazione standard campionaria è definita come √
2
■ è una media (non aritmetica) degli scostamenti,
■ ha la stessa unità di misura del carattere che si sta analizzando.
○ varianza e deviazione standard sono sensibili agli outliers,
○ sono impiegate per distribuzioni simmetriche,
○ per distribuzioni non simmetriche →disuguaglianza di Chebychev
i
2
2
2
○ la varianza viene utilizzata per contestualizzare i valori della media
Standardizzazione di una variabile
La deviazione standard viene impiegata come unità di misura per la distanza dalla media.
variabile standardizzata
i
(
i
)
2
nota:
i
non ha unità di misura
Indici di forma
I dati continui possono essere rappresentati con un istogramma per avere un'idea generale della loro forma, o
distribuzione.
La forma può rivelare molte informazioni sui dati; aiuta a identificare la statistica descrittiva più appropriata da
utilizzare in una determinata situazione.
I dati non seguono sempre una distribuzione nota. Le distribuzioni dei dati possono essere simmetriche o non
simmetriche. In una distribuzione simmetrica, i due lati della distribuzione sono l'immagine speculare l'uno dell'altro.
I dati sono rappresentati da un grafico quantitativo discreto.
Esempio:
Livello di vitamina D nel sangue di n= 26 pazienti in salute.
I dati sono rappresentati da un grafico quantitativo continuo (istogramma).
Il modo in cui i dati vengono rappresentati deve facilitarne l’analisi; in riferimento all’esempio precedente:
Il boxplot è un metodo di rappresentazione grafica quantitativa dei dati.
IQR = differenza interquartile (
3
1
Maggiore è la distanza tra
1
e
1
maggiore è la variabilità dei dati (lo stesso vale per la distanza
tra
3
e
3
Il boxplot è utile ed efficace per confrontare un fenomeno in diversi gruppi.
La distribuzione dei dati può essere:
● simmetrica;
● orientata a destra;
● orientata a sinistra.
Test d’ipotesi
Esempi:
Z-test:
● Test sulla media per campione Gaussiano, varianza nota;
● Test asintotico sulla media per campione qualsiasi, varianza incognita;
T-test:
● Test sulla media per campione Gaussiano, varianza incognita;
Test per due popolazioni indipendenti
Si osserva un fenomeno
X e se ne raccoglie un campione casuale di ampiezza
(
1
n
) ⤷= insieme di variabili casuali indipendenti e identicamente
distribuite (i.i.d.).
Si ipotizza che il fenomeno
si comporti con distribuzione normale:
(
2
) .
Caso
2
nota
Si raccoglie un campione casuale per stimare
μ
(
1
n
).
Lo stimatore della media
μ è una variabile campionaria
i = 1
n
i
con distribuzione normale
2
Sul campione casuale si calcola la stima della media
i = 1
n
i
Esempio:
durata nominale delle pile (data dal produttore, da verificare) = 22h
deviazione standard (nota) = 3.5h
Viene estratto un campione di 20 pile con durata media rilevata di 20.7h
è una delle possibili realizzazioni (non la media)
√
0
μ = 22
1
ipotesi unilaterale (in questo caso sinistra)
0
vera
0
falsa
accetto
0
✅ errore di II tipo
rifiuto
0
errore di I tipo ✅
α = Prob ( errore di I tipo ) α ∈ [ 0 , 1 ]
β = Prob ( errore di II tipo ) β ∈ [ 0 , 1 ]