
























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Le mediane, modalità, variabilità e distribuzioni doppie di frequenze in statistica. Viene inoltre illustrato come calcolare la mediana con una distribuzione di frequenza, la moda assoluta, relativa e percentuale, e come determinare la classe modale. Inoltre, vengono presentate le distribuzioni unimodale e bimodale, e come rappresentare la distribuzione di frequenza graficamente con un istogramma. Inoltre, vengono introdotte le variabilità, come la deviazione standard e il coefficiente di variazione, e come calcolare il campo di variazione e il box plot.
Tipologia: Sbobinature
1 / 32
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!

























Calcolo della mediana con distribuzione di
frequenza
Percentili
Slide 23-24 pacchetto 7 ci sono esempi di esercizi
La variabilità di una distribuzione esprime la tendenza delle unità di un collettivo ad assumere diverse modalità del carattere. Per misurare la variabilità, si utilizzano degli indici che sintetizzano la diversità tra ogni modalità e una media, oppure tra due particolari valori caratteristici della distribuzione (per esempio due quartili). Questi indici sono chiamati indici di variabilità. Un indice di variabilità deve assumere il suo valore minimo se e solo se tutte le unità della distribuzione presentato uguali modalità del carattere. Un indice di variabilità deve aumentare all’aumentare della «diversità» tra le modalità assunte dalle varie unità.
INDICI BASATI SULLO SCOSTAMENTO DELLA MEDIA ARITMETICA: VARIANZA La varianza di un insieme di 𝑛 valori osservati 𝑥1, 𝑥 2 , ... , 𝑥n di una variabile 𝑋 con media aritmetica 𝑥 è data da:
Il valore è detto devianza
Se è nota la distribuzione di frequenze di una variabile 𝑋 con 𝐾 modalità, allora:
Nel caso in cui la distribuzione di frequenze sia riferita a un carattere suddiviso in classi, il generico valore 𝑥j corrisponderà al valore centrale della j-esima classe ottenuto come semisomma degli estremi della classe. Tale scelta porta ad un calcolo approssimato della varianza.
PROPRIETÀ DELLA VARIANZA La varianza assume un valore sempre positivo. Il suo valore minimo è 0 e lo assume quando tutte le modalità sono uguali al valore medio e, quindi, uguali tra loro. La varianza aumenta all’aumentare della differenza tra i valori osservati. La varianza può essere anche calcolata come:
La varianza non possiede la stessa unità di misura dei valori della distribuzione, per questo motivo si utilizza la deviazione standard che si definisce come la radice quadrata della varianza:
Nell’esempio precedente, la deviazione standard è:
La deviazione standard è anche chiamata scarto quadratico medio.
COEFFICIENTE DI VARIAZIONE Il coefficiente di variazione (CV) della distribuzione di un carattere 𝑋, di media 𝑥 > 0 e deviazione standard 𝜎, è dato dal rapporto tra la deviazione standard e la media moltiplicato per 100:
Il coefficiente di variazione è utile per confrontare grandezze con unità di misura diverse e grandezze con valori medi molto diversi.
ESEMPIO
(Esercizi alla fine del pacchetto slide n.9)
Esempio In un ospedale si osserva, per un determinato anno, la distribuzione di frequenze corrispondente al numero di nati per madri con un’età del parto compresa tra i 18 e i 25 anni.
La media aritmetica e la mediana sono pari a: x = 22,88 e Me = 23. Lo scostamento semplice dalla media è Sx = 1,47 e SMe = 1,43. Valori standardizzati I valori standardizzati 𝑦 1 , 𝑦 2 , ... , 𝑦n corrispondenti a un insieme di 𝑛 osservazioni 𝑥̅ 1 , 𝑥̅ 2 , ... , 𝑥̅n con media 𝑥̅ e deviazione standard 𝜎 sono definiti come:
I valori standardizzati hanno media nulla e deviazione standard unitaria.
Esempio Si supponga di aver osservato i seguenti valori: 2, 4, 5, 5, 6, 8, 10, 12, 18, 20, con media aritmetica pari a 9 e deviazione standard pari a 5,73. I corrispondenti valori standardizzati sono:
Intervalli di variabilità Gli intervalli di variabilità sono indici che si basano sul confronto di due valori caratteristici della distribuzione. Dato un insieme di 𝑛 valori osservati 𝑥̅ 1, 𝑥̅ 2, ... , 𝑥̅ n, ordinati in senso crescente, definiamo campo di variazione la differenza tra il più grande e il più piccolo di tali valori
Dato un insieme di 𝑛 valori osservati 𝑥̅ , 𝑥̅ , ... , 𝑥̅ , definiamo differenza interquartile la differenza tra il terzo e il primo quartile:
L’indice 𝑅 è piuttosto approssimativo in quanto si basa soltanto su due valori e risente dei valori anomali. L’indice 𝑊 rappresenta il campo di variazione per il 50% delle unità centrali e anche esso si basa soltanto su due valori, ma non risente della presenza di valori anomali.
Esempio Si consideri la distribuzione di un carattere 𝑋. Il campo di variazione è dato da: 𝑅 = 7 − 1 = 6. Il primo quartile è uguale a 𝑄 1 = 3, mentre il terzo è 𝑄 3 = 4, quindi la differenza interquartile è:
𝑊 = 𝑄 3 – 𝑄 1 = 4 − 3 = 1
Box Plot Il box plot di una distribuzione è un grafico caratterizzato da tre elementi principali: Una linea o un punto, che indicano la posizione della media della distribuzione; Un rettangolo (box) la cui altezza indica la variabilità dei valori «prossimi» alla media; Due segmenti che partono dal rettangolo e i cui estremi sono determinati in base ai valori estremi della distribuzione. Un box plot molto utilizzato è quello che ha come media la mediana, come altezza del rettangolo la distanza interquartile e come estremi dei segmenti il valore minimo e il valore massimo della distribuzione. Un altro box plot molto utilizzato considera come media la media aritmetica 𝑥̅, come estremi del rettangolo i valori 𝑥̅ ± 𝜎 e come estremi dei segmenti 𝑥̅ ± 1,96𝜎. Nella rappresentazione dei dati mediante box plot si può tenere conto anche dei valori anomali e dei valori eccedenti. Sono considerati anomali quei valori 𝑋 per i quali si verifica una delle seguenti condizioni: 𝑋 > 𝐿𝑆𝑅 + 𝜆(𝐿𝑆𝑅 − 𝐿𝐼𝑅) o 𝑋 < 𝐿𝐼𝑅 − 𝜆(𝐿𝑆𝑅 − 𝐿𝐼𝑅) dove 𝐿𝑆𝑅 è il limite superiore del rettangolo (ad esempio 𝑄 3 ), 𝐿𝐼𝑅 è il limite inferiore del rettangolo (per esempio 𝑄 1 ) e 𝜆 è una costante positiva. I valori eccedenti sono definiti nella stessa maniera di quelli anomali con la differenza che si considera 2𝜆 al posto di 𝜆. In questo caso gli estremi dei due segmenti del box plot sono determinati attraverso i due valori della distribuzione più vicini ai primi due valori anomali.
Che ha il valore massimo pari ad 1 nel caso di massima omogeneità e il minimo pari a 1/𝐾 nel caso di minima omogeneità. Che valore massimo pari a 0 (assumendo che 0 log 0 = 0) nel caso di massima omogeneità e − log 𝐾 nel caso di minima omogeneità.
Indice di eterogeneità di Gini e indice di entropia Si definisce Indice di eterogeneità di Gini:
Si definisce Indice di entropia:
Per ottenere degli indici relativi consideriamo:
Esempio Si consideri la distribuzione delle frequenze relative dei viaggi effettuati per vacanza nel 2005 dagli italiani rispetto alle tipologie di alloggio:
Dagli indici relativi si osserva che c’è una medio/alta eterogeneità.
Indici di asimmetria Si consideri un carattere ordinabile. Una distribuzione di frequenze 𝑛1,𝑛 2 ,...,𝑛k è simmetrica se:
Una distribuzione non simmetrica mostra asimmetria positiva, se sono più frequenti nella distribuzione le modalità più piccole, o asimmetria negativa, se sono più frequenti nella distribuzione le modalità più grandi. Un indice di asimmetria è quello che si basa sul momento centrato dalla
media aritmetica di ordine 3:
Se 𝑀 3 > 0 si ha asimmetria positiva. Se 𝑀 3 < 0 si ha asimmetria negative. Per confrontare distribuzioni di caratteri diversi, si considera l’indice di asimmetria di Fisher:
Esempio Si consideri la distribuzione delle famiglie italiane (in migliaia) nel 2005, per numero di stanze dell’abitazione di residenza: Si ha:
Se il carattere è suddiviso in classi, si può calcolare una approssimazione della media aritmetica condizionata usando il valore centrale della classe.
VARIANZA CONDIZIONATA
La varianza condizionata di un carattere quantitativo Y rispetto alla i-esima modalità di un carattere X è data da:
Data una distribuzione doppia per due caratteri ordinati, definiamo Frequenza assoluta cumulata:
E frequenza relativa cumulata:
La frequenza cumulata relativa alla H-esima e alla K-esima modalità dei due caratteri risulta pari al totale delle frequenze:
Dati due caratteri, X e Y, entrambi quantitativi, possiamo sintetizzare la distribuzione doppia mediante il punto di coordinate (x; y) chiamato punto medio o Baricentro della distribuzione.
GRAFICO DI DISPERSIONE
Nel grafico di dispersione le coppie di modalità di due caratteri quantitativi, osservate per ogni unità del collettivo, vengono rappresentate come punti di un piano cartesiano i cui assi ortogonali corrispondono ai due caratteri.
Lo stereogramma rappresenta le frequenze di una tabella doppia tramite dei parallelepipedi di altezza proporzionale alla frequenza congiunta in uno spazio tridimensionale. Lo stereogramma può rappresentare sia caratteri quantitativi divisi in classi, sia caratteri qualitativi.
Si parla di dipendenza logica tra due o più caratteri quando tra questi sono note a priori relazioni di causa ed effetto.
Si parla di indipendenza logica fra due o più caratteri quando si suppone a priori che tra questi non possa sussistere alcuna relazione causa ed effetto. Per esempio, c’è dipendenza logica tra statura ed età, c’è indipendenza logica tra colore degli occhi e corso di laurea scelto.