1. Definisci la frequenza relativa e fornisci la sua formula.
La frequenza relativa indica la proporzione di volte che una specifica
modalità appare in un dataset. Si calcola dividendo la frequenza assoluta
(ni) di quella modalità per il numero totale di osservazioni (N). La formula è
fi = ni / N, dove 0 <= fi <= 1 e la somma di tutte le frequenze relative è
sempre uguale a 1.
2. Spiega come calcolare la media aritmetica per dati raggruppati in
classi.
Quando i dati sono raggruppati in classi, si utilizza la formula x
= ∑ (Xi * fi),
dove Xi rappresenta il valore centrale di ciascuna classe e fi è la frequenza
relativa di quella classe. In pratica, si moltiplica il valore centrale di ogni
classe per la sua frequenza relativa, e poi si sommano tutti questi prodotti.
3. Descrivi come identificare gli outlier in un box plot e spiega il
significato dei valori adiacenti.
In un box plot, gli outlier sono i valori che si trovano al di fuori dei 'baffi'. I
'baffi' si estendono fino ai valori adiacenti. Il valore adiacente inferiore è
calcolato come Q1 - 1.5*(Q3-Q1), mentre il valore adiacente superiore è
calcolato come Q3 + 1.5*(Q3-Q1). I valori che superano questi limiti sono
considerati outlier e rappresentati con un asterisco. Gli outlier indicano
valori insolitamente alti o bassi rispetto al resto dei dati.
4. Quando è appropriato utilizzare la formula di Sturges e qual è il
suo scopo?
La formula di Sturges, S = 1 + (10/3) * log(n), viene utilizzata per
determinare il numero ottimale di classi (S) da utilizzare nella costruzione
di una distribuzione di frequenze, dato il numero di osservazioni (n).
L'ampiezza delle classi si calcola poi come (Xmax - Xmin) / S. L'obiettivo è
creare una rappresentazione visiva dei dati che sia informativa e non
eccessivamente dettagliata o troppo aggregata.
5. Spiega la differenza tra devianza e varianza, e indica quale
formula si usa per calcolare la varianza.
La devianza è la somma dei quadrati delle differenze tra ciascun valore e la
media del dataset (Dev(X) = ∑ [(xi - x
)²]). La varianza, invece, è la devianza
divisa per il numero di osservazioni (N) (σ² = Dev(X) / N = ∑ [(xi-x
)²] / N).
La varianza misura la dispersione dei dati attorno alla media. Esiste anche
una formula alternativa più veloce: σ² = ∑ (xi²)/N - x
².
6. Descrivi il coefficiente di variazione (CV) e spiega come
interpretarlo.
Il coefficiente di variazione (CV) è una misura di variabilità relativa,
calcolata come il rapporto tra la deviazione standard (σ) e il valore assoluto
della media (|x
|), moltiplicato per 100%: CV = (σ / |x
|) * 100%. Si utilizza
per confrontare la variabilità tra gruppi diversi con medie diverse. Un CV
basso (inferiore al 20-25%) indica una bassa variabilità, mentre un CV alto
(superiore al 50%) indica un'alta variabilità.