Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Calcoli statistici: Mediana, Moda, Variabilità e Distribuzioni Doppie - Prof. La Rocca, Sbobinature di Statistica

Le mediane, modalità, variabilità e distribuzioni doppie di frequenze in statistica. Viene inoltre illustrato come calcolare la mediana con una distribuzione di frequenza, la moda assoluta, relativa e percentuale, e come determinare la classe modale. Inoltre, vengono presentate le distribuzioni unimodale e bimodale, e come rappresentare la distribuzione di frequenza graficamente con un istogramma. Inoltre, vengono introdotte le variabilità, come la deviazione standard e il coefficiente di variazione, e come calcolare il campo di variazione e il box plot.

Tipologia: Sbobinature

2022/2023

Caricato il 28/12/2023

RicaF2202
RicaF2202 🇮🇹

4 documenti

1 / 32

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Mediana
La mediana è una media di posizione che può essere utilizzata anche per
caratteri di tipo qualitativo ordinabili.
La mediana 𝑀 di un insieme di unità ordinate (secondo un carattere
ordinabile) è la modalità presentata dall’unità centrale, dove per unità
centrale si intende quell’unità che divide il collettivo in due parti di
uguale numerosità: una parte formata dalle unità che presentano una
modalità precedente o uguale a quella dell’unità centrale e una parte
formata dalle unità che presentano una modalità successiva o uguale a
quella dell’unità centrale.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20

Anteprima parziale del testo

Scarica Calcoli statistici: Mediana, Moda, Variabilità e Distribuzioni Doppie - Prof. La Rocca e più Sbobinature in PDF di Statistica solo su Docsity!

Mediana

La mediana è una media di posizione che può essere utilizzata anche per

caratteri di tipo qualitativo ordinabili.

La mediana 𝑀 di un insieme di unità ordinate (secondo un carattere

ordinabile) è la modalità presentata dall’unità centrale, dove per unità

centrale si intende quell’unità che divide il collettivo in due parti di

uguale numerosità: una parte formata dalle unità che presentano una

modalità precedente o uguale a quella dell’unità centrale e una parte

formata dalle unità che presentano una modalità successiva o uguale a

quella dell’unità centrale.

Calcolo della mediana con distribuzione di

frequenza

Quando si conosce la distribuzione di frequenza, per calcolare la mediana

è utile utilizzare le frequenze relative cumulative.

A 110 persone viene chiesto di esprimere un giudizio su un film. La

distribuzione di frequenza è la seguente

La mediana è «Sufficiente» in quanto cade nel 50%.

Calcolo della mediana di un carattere quantitativo suddiviso in

classi

Quando un carattere quantitativo è suddiviso in classi, non è possibile

determinare la mediana in modo esatto, ma si può determinare una sua

approssimazione attraverso la formula:

Distribuzione unimodale e bimodale

Se si rappresenta la distribuzione di frequenza in termini grafici mediante

un istogramma di frequenze, la moda rappresenta il picco del grafico.

Una distribuzione si dice unimodale se presenta un solo picco e bimodale

se presenta due picchi di medesima altezza.

Percentili

Si definiscono percentili quei valori che dividono la distribuzione in cento

parti di uguale numerosità.

Da questa definizione si deduce che la mediana è il 50-esimo percentile,

ed è chiamata anche secondo quartile 𝑄 2

I percentili più frequenti sono il 25-esimo (detto primo quartile e indicato

con 𝑄1) e il 75-esimo (detto terzo quartile e indicato con Q3).

I quartili dividono la distribuzione in quattro parti uguali.

Il primo e il terzo quartile individuano un intervallo centrale che contiene

circa il 50% delle unità statistiche e può essere considerato come una

misura della dispersione dei valori più frequenti del collettivo osservato.

Slide 23-24 pacchetto 7 ci sono esempi di esercizi

SINTESI DELLA DISTRIBUZIONE DI UN CARATTERE: LA VARIABILITÀ

VARIABILITÀ

La variabilità di una distribuzione esprime la tendenza delle unità di un collettivo ad assumere diverse modalità del carattere. Per misurare la variabilità, si utilizzano degli indici che sintetizzano la diversità tra ogni modalità e una media, oppure tra due particolari valori caratteristici della distribuzione (per esempio due quartili). Questi indici sono chiamati indici di variabilità. Un indice di variabilità deve assumere il suo valore minimo se e solo se tutte le unità della distribuzione presentato uguali modalità del carattere. Un indice di variabilità deve aumentare all’aumentare della «diversità» tra le modalità assunte dalle varie unità.

INDICI BASATI SULLO SCOSTAMENTO DELLA MEDIA ARITMETICA: VARIANZA La varianza di un insieme di 𝑛 valori osservati 𝑥1, 𝑥 2 , ... , 𝑥n di una variabile 𝑋 con media aritmetica 𝑥 è data da:

Il valore è detto devianza

Se è nota la distribuzione di frequenze di una variabile 𝑋 con 𝐾 modalità, allora:

Nel caso in cui la distribuzione di frequenze sia riferita a un carattere suddiviso in classi, il generico valore 𝑥j corrisponderà al valore centrale della j-esima classe ottenuto come semisomma degli estremi della classe. Tale scelta porta ad un calcolo approssimato della varianza.

PROPRIETÀ DELLA VARIANZA La varianza assume un valore sempre positivo. Il suo valore minimo è 0 e lo assume quando tutte le modalità sono uguali al valore medio e, quindi, uguali tra loro. La varianza aumenta all’aumentare della differenza tra i valori osservati. La varianza può essere anche calcolata come:

ESEMPIO

DEVIAZIONE STANDARD

La varianza non possiede la stessa unità di misura dei valori della distribuzione, per questo motivo si utilizza la deviazione standard che si definisce come la radice quadrata della varianza:

Nell’esempio precedente, la deviazione standard è:

La deviazione standard è anche chiamata scarto quadratico medio.

COEFFICIENTE DI VARIAZIONE Il coefficiente di variazione (CV) della distribuzione di un carattere 𝑋, di media 𝑥 > 0 e deviazione standard 𝜎, è dato dal rapporto tra la deviazione standard e la media moltiplicato per 100:

Il coefficiente di variazione è utile per confrontare grandezze con unità di misura diverse e grandezze con valori medi molto diversi.

ESEMPIO

(Esercizi alla fine del pacchetto slide n.9)

Esempio In un ospedale si osserva, per un determinato anno, la distribuzione di frequenze corrispondente al numero di nati per madri con un’età del parto compresa tra i 18 e i 25 anni.

La media aritmetica e la mediana sono pari a: x = 22,88 e Me = 23. Lo scostamento semplice dalla media è Sx = 1,47 e SMe = 1,43. Valori standardizzati I valori standardizzati 𝑦 1 , 𝑦 2 , ... , 𝑦n corrispondenti a un insieme di 𝑛 osservazioni 𝑥̅ 1 , 𝑥̅ 2 , ... , 𝑥̅n con media 𝑥̅ e deviazione standard 𝜎 sono definiti come:

I valori standardizzati hanno media nulla e deviazione standard unitaria.

Esempio Si supponga di aver osservato i seguenti valori: 2, 4, 5, 5, 6, 8, 10, 12, 18, 20, con media aritmetica pari a 9 e deviazione standard pari a 5,73. I corrispondenti valori standardizzati sono:

Intervalli di variabilità Gli intervalli di variabilità sono indici che si basano sul confronto di due valori caratteristici della distribuzione. Dato un insieme di 𝑛 valori osservati 𝑥̅ 1, 𝑥̅ 2, ... , 𝑥̅ n, ordinati in senso crescente, definiamo campo di variazione la differenza tra il più grande e il più piccolo di tali valori

Dato un insieme di 𝑛 valori osservati 𝑥̅ 􏰍, 𝑥̅ 􏰍, ... , 𝑥̅ 􏰍, definiamo differenza interquartile la differenza tra il terzo e il primo quartile:

L’indice 𝑅 è piuttosto approssimativo in quanto si basa soltanto su due valori e risente dei valori anomali. L’indice 𝑊 rappresenta il campo di variazione per il 50% delle unità centrali e anche esso si basa soltanto su due valori, ma non risente della presenza di valori anomali.

Esempio Si consideri la distribuzione di un carattere 𝑋. Il campo di variazione è dato da: 𝑅 = 7 − 1 = 6. Il primo quartile è uguale a 𝑄 1 = 3, mentre il terzo è 𝑄 3 = 4, quindi la differenza interquartile è:

𝑊 = 𝑄 3 – 𝑄 1 = 4 − 3 = 1

Box Plot Il box plot di una distribuzione è un grafico caratterizzato da tre elementi principali: Una linea o un punto, che indicano la posizione della media della distribuzione; Un rettangolo (box) la cui altezza indica la variabilità dei valori «prossimi» alla media; Due segmenti che partono dal rettangolo e i cui estremi sono determinati in base ai valori estremi della distribuzione. Un box plot molto utilizzato è quello che ha come media la mediana, come altezza del rettangolo la distanza interquartile e come estremi dei segmenti il valore minimo e il valore massimo della distribuzione. Un altro box plot molto utilizzato considera come media la media aritmetica 𝑥̅, come estremi del rettangolo i valori 𝑥̅ ± 𝜎 e come estremi dei segmenti 𝑥̅ ± 1,96𝜎. Nella rappresentazione dei dati mediante box plot si può tenere conto anche dei valori anomali e dei valori eccedenti. Sono considerati anomali quei valori 𝑋 per i quali si verifica una delle seguenti condizioni: 𝑋 > 𝐿𝑆𝑅 + 𝜆(𝐿𝑆𝑅 − 𝐿𝐼𝑅) o 𝑋 < 𝐿𝐼𝑅 − 𝜆(𝐿𝑆𝑅 − 𝐿𝐼𝑅) dove 𝐿𝑆𝑅 è il limite superiore del rettangolo (ad esempio 𝑄 3 ), 𝐿𝐼𝑅 è il limite inferiore del rettangolo (per esempio 𝑄 1 ) e 𝜆 è una costante positiva. I valori eccedenti sono definiti nella stessa maniera di quelli anomali con la differenza che si considera 2𝜆 al posto di 𝜆. In questo caso gli estremi dei due segmenti del box plot sono determinati attraverso i due valori della distribuzione più vicini ai primi due valori anomali.

Che ha il valore massimo pari ad 1 nel caso di massima omogeneità e il minimo pari a 1/𝐾 nel caso di minima omogeneità. Che valore massimo pari a 0 (assumendo che 0 log 0 = 0) nel caso di massima omogeneità e − log 𝐾 nel caso di minima omogeneità.

Indice di eterogeneità di Gini e indice di entropia Si definisce Indice di eterogeneità di Gini:

Si definisce Indice di entropia:

Per ottenere degli indici relativi consideriamo:

Esempio Si consideri la distribuzione delle frequenze relative dei viaggi effettuati per vacanza nel 2005 dagli italiani rispetto alle tipologie di alloggio:

Dagli indici relativi si osserva che c’è una medio/alta eterogeneità.

Indici di asimmetria Si consideri un carattere ordinabile. Una distribuzione di frequenze 𝑛1,𝑛 2 ,...,𝑛k è simmetrica se:

Una distribuzione non simmetrica mostra asimmetria positiva, se sono più frequenti nella distribuzione le modalità più piccole, o asimmetria negativa, se sono più frequenti nella distribuzione le modalità più grandi. Un indice di asimmetria è quello che si basa sul momento centrato dalla

media aritmetica di ordine 3:

Se 𝑀 3 > 0 si ha asimmetria positiva. Se 𝑀 3 < 0 si ha asimmetria negative. Per confrontare distribuzioni di caratteri diversi, si considera l’indice di asimmetria di Fisher:

Esempio Si consideri la distribuzione delle famiglie italiane (in migliaia) nel 2005, per numero di stanze dell’abitazione di residenza: Si ha:

Se il carattere è suddiviso in classi, si può calcolare una approssimazione della media aritmetica condizionata usando il valore centrale della classe.

VARIANZA CONDIZIONATA

La varianza condizionata di un carattere quantitativo Y rispetto alla i-esima modalità di un carattere X è data da:

FREQUENZE CUMULATE

Data una distribuzione doppia per due caratteri ordinati, definiamo Frequenza assoluta cumulata:

E frequenza relativa cumulata:

La frequenza cumulata relativa alla H-esima e alla K-esima modalità dei due caratteri risulta pari al totale delle frequenze:

BARICENTRO

Dati due caratteri, X e Y, entrambi quantitativi, possiamo sintetizzare la distribuzione doppia mediante il punto di coordinate (x; y) chiamato punto medio o Baricentro della distribuzione.

GRAFICO DI DISPERSIONE

Nel grafico di dispersione le coppie di modalità di due caratteri quantitativi, osservate per ogni unità del collettivo, vengono rappresentate come punti di un piano cartesiano i cui assi ortogonali corrispondono ai due caratteri.

STEREOGRAMMA

Lo stereogramma rappresenta le frequenze di una tabella doppia tramite dei parallelepipedi di altezza proporzionale alla frequenza congiunta in uno spazio tridimensionale. Lo stereogramma può rappresentare sia caratteri quantitativi divisi in classi, sia caratteri qualitativi.

DIPENDENZA E INDIPENDENZA LOGICA

Si parla di dipendenza logica tra due o più caratteri quando tra questi sono note a priori relazioni di causa ed effetto.

Si parla di indipendenza logica fra due o più caratteri quando si suppone a priori che tra questi non possa sussistere alcuna relazione causa ed effetto. Per esempio, c’è dipendenza logica tra statura ed età, c’è indipendenza logica tra colore degli occhi e corso di laurea scelto.