




Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
La variabilità per variabili qualitative e quantitative
Tipologia: Appunti
1 / 8
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





Una misura della posizione non basta...:
Distribuzione della saturazione % in due giacimenti ad olio. In rosso la media.
La variabilità:
Attitudine del fenomeno a manifestarsi in modi diversi:
o Un fenomeno si manifesta diversamente su soggetti diversi;
o Osservazione ripetuta di una stessa grandezza.
Proprietà di un indice di variabilità:
o vale 0 se tutte le modalità sono uguali;
o aumenta al crescere della variabilità;
o non varia per trasformazioni di posizione (traslazioni).
Noi vedremo:
o Scostamenti medi;
o Varianza;
o Intervalli di variazione;
o Indici relativi di variabilità;
o Variabilità per le variabili qualitative.
Scostamenti medi assoluti di ordine s:
Distribuzione disaggregata di X con
μ indice di posizione e s ≠ 0 :
Media potenziata delle differenze tra le modalità con cui si è manifestato il fenomeno X e
μ ;
∀ s e ∀ μ , si ha che S
s
= 0 se e solo se X ha variabilità nulla, ovvero X presenta una e una sola
modalità, coincidente quindi con
μ : distribuzione degenere.
Distribuzione di frequenza assoluta per X con K modalità:
Distribuzione di frequenza relativa:
La varianza:
Scostamenti medio assoluto di ordine 2 dalla media aritmetica, elevato al quadrato:
È il più noto indice di variabilità.
Var (X) > 0
Si indica molto spesso anche come x
σ
2
Assume valore 0 nel caso in cui la variabilità sia assente, cioé tutti i valori osservati siano uguali
tra loro, cioé quando X è degenere.
√Var (X)= SD = σ X
= deviazione standard, vale a dire scostamento medio assoluto di ordine 2
NOTA BENE:
non esiste un limite superiore alla variabilità, quindi non si può stabilire se un fenomeno sia tanto/poco
variabile in assoluto, si potranno però fare confronti di variabilità tra fenomeni.
Formula operativa di calcolo:
...di una trasformazione lineare:
Si consideri Y = a + bX , a , b ∈ IR. Ricordando la media di una trasformazione lineare, si ha che:
La varianza non è un operatore lineare.
Esempio:
X= Temperatura media di acqua minerale alla sorgente 8.5 11.80 12.3 9 9 9.6 10.
Calcolare la varianza di X:
Si scopre che il termometro di rilevazione era tarato a 0.5 gradi di troppo (errore sistematico).
Come cambia la variabilità?
Temperatura corretta Y = X - 0.5. Si tratta di una trasformata di posizione. Allora Var(Y ) = Var(X).
Calcolare la varianza di W = X/
Minima mutabilità: solo un valore f k
Massima mutabilità: f k
k
Indici di mutabilità normalizzati:
Normalizzazione: trasformazione di un indice I con un proprio campo di variazione [ I min
max
] in un
indice definito sull'intervallo [0, 1].
Indice di Gini normalizzato
Entropia di Shannon normalizzata
Esempio:
Standardizzazione:
Strumento per rendere i dati confrontabili tra loro.
Sia X variabile di media
μ e varianza
σ
2
Variabile standardizzata: da cui X =
μ
σ
Media di Z:
Varianza di Z:
Score:
La quantità
detta score misura numero scarti quadratici medi che separano 1osservazione x i
dal valore medio μ.
z i
= k, k > 0: l'osservazione è sopra la media μ di k volte lo scarto quadratico medio;
z i
= k, k < 0: l'osservazione è sotto la media μ di k volte lo scarto quadratico medio;
z i
= k, k = 0: l'osservazione coincide con la media.
Esempio:
Una persona viene sottoposta a delle prove che forniscono la risposta a due test:
Memoria
Punteggio = 50; μ = 60; σ
2
= 25
Intelligenza
Punteggio = 80; μ = 100; σ
2
= 100
Qual é il risultato migliore?
Si risponderebbe "la 2° prova". Serve invece tener conto della media e della variabilità dei risultati.
Standardizziamo le variabili:
Memoria
z i,memoria
= (50 - 60)/5 = -
Intelligenza
z i,intelligenza
= (80 - 100)/10 = - 2
I risultati sono equivalenti: entrambi i risultati sono sotto la media.
Asimmetria e forma:
Ricavi mensili di quattro gruppi di aziende (migliaia di euro): in rosso la media
La direzione dell'asimmetria è data dalla coda più lunga. (rosso media, blu mediana)
Asimmetria a destra (positiva): media > mediana
Asimmetria a sinistra (negativa): media < mediana
Simmetria:
o media = mediana
o primo e terzo quartile hanno la stessa distanza dalla mediana, q 3
= q 2
Indice di curtosi di Pearson
Distribuzione iponormale
Il boxplot:
Box and whiskers plot: diagramma a scatola e baffi
Rappresentazione grafica di variabilità e asimmetria di una distribuzione
Variante comune:
La scatola è costruita sulla base dei tre quartili.
I baffi si estendono fino ai dati più estremi che siano però non più distanti di
k X ∆ q
dalla scatola: non si accettano baffi esageratamente lunghi.
k è una costante arbitraria tipicamente scelta uguale a 1.5.
Le osservazioni estreme ( outliers ) che sono situate oltre i baffi sono disegnate opportunamente sul
grafico, ad esempio usando un pallino.
Esempio:
Livelli (ordinati) di fosfato inorganico (mg/dl) nel plasma di soggetti obesi iperglicemici (OI)
2.3, 3.1, 3.7, 3.8, 3.8, 4.0, 4.1, 4.2, 4.6, 4.6, 5.
q 1
= 3.7, m = 4, q 3
= 4.
scatola ampia da 3.7 a 4.
1.5 * ( q 3 - q 1 ) = 1.5 * 0.9 = 1.
baffo inferiore: fino all'osservazione (osservata) più piccola tra quelle maggiori di q 1
baffo superiore: fino all'osservazione (osservata) più grande tra quelle minori di q 3
outliers : si disegnano le osservazioni + piccole di 2.35 o + grandi di 5.95; in questo caso solo l'osservazione = a 2.
I valori anomali: outliers
Valori che si discostano in modo consistente dall'andamento generale della distribuzione
Possibili cause:
o Errori
o Circostanze eccezionali che hanno influenzato il processo di misurazione/osservazione del
fenomeno. Allora gli outliers potrebbero essere eliminati dall'analisi.
o Contaminazione: le unità anomale provengono da un gruppo specifico disomogeneo rispetto alla
maggior parte della popolazione. Allora andrebbero esaminate a parte.
La media (e medie analitiche in generale) risente fortemente della presenza di valori anomali (molto
grandi o piccoli). La mediana (e medie lasche in generale) no. Si dice che la mediana è un indice robusto.
Distinguiamo:
outliers compatibili con la variabilità
osservata
outliers non compatibili con la
variabilità osservata
L'osservazione x * è fortemente anomala se
L'osservazione x * è anomala se
Com' é classificabile l'osservazione dell'esempio precedente (soggetti OI)?