Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Demografia internazionale, Appunti di Demografia

………………………………………………………………………………

Tipologia: Appunti

2024/2025

Caricato il 31/12/2025

madidiallo04
madidiallo04 🇮🇹

1 documento

1 / 89

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
DEMOGRAFIA INTERNAZIONALE
Modulo 1
STATISTICA DI BASE
Che cos’è la statistica?
-> È un insieme di metodi induttivi finalizzati a studiare fenomeni scientifici,
collettivamente tipici, per metterne in evidenza la regolarità e favorirne la prevedibilità.
La statistica studia i fenomeni, cioè ciò che è possibile misurare. Possono essere:
a) individuali o collettivi: ad esempio la nascita di un bambino è individuale,
mentre la natalità è un fenomeno collettivo, caratteristica attribuibile ad
una popolazione;
b) tipici, (
o
regolari
), o atipici, (
o
irregolari
): la mortalità oggi è un fenomeno
tipico, quindi regolare, mentre gli eventi metereologici sono atipici, quindi
irregolari;
c) scientifici o non scientifici: un fenomeno è scientifico quando è misurabile,
descrivibile, riproducibile e prevedibile, come la distanza geografica. La
scientificità di un fenomeno è spesso legata all’esistenza di un adeguato
strumento di misura.
I metodi di ragionamento possono essere:
a) deduttivi: permettono di ricavare le affermazioni particolari partendo da
affermazioni generali, (
es: tutti gli uomini sono mortali, Socrate è un uomo,
dunque Socrate è mortale
);
b) induttivi: permettono di ricavare le affermazioni generali partendo da
affermazioni particolari, (
es: insieme di indizi che portano ad identificare
un colpevole generalizzazione
).
Un insieme di metodi induttivi è finalizzato a studiare fenomeni scientifici,
collettivamente tipici, per metterne in evidenza la regolarità e favorirne la prevedibilità.
Non è una scienza, ma un insieme di metodi, (
al servizio di tutte le scienze
). I metodi
induttivi, partendo dall’osservazione delle differenze, suggeriscono affermazioni di
carattere generale.
Problema dello statistico: rilevare i dati, classificarli e ordinarli per facilitare
l’induzione di leggi generali, mettere in evidenza le regolarità collettive dei
fenomeni, (
es: nascita di un bambino vs natalità
). I fenomeni che sono osservati a
livello individuale sembrano soggetti al caso, possono evidenziare regolarità a
livello collettivo: i fenomeni diventano classificabili e a volte prevedibili.
-> Elementi della Statistica:
popolazione statistica:
a) soggetto della statistica;
b) è costituita da un certo numero, (
n
), di unità statistiche;
c) ha caratteristiche precise: è necessario stabilire se un’unità appartiene o
meno alla popolazione;
d) esempio: residenti di un Comune vs iscritti all’anagrafe del Comune;
variabili statistiche, (
X
):
a) oggetto della statistica, caratteristica di interesse della popolazione, (
es:
temperatura corporea, età, statura…
);
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59

Anteprima parziale del testo

Scarica Demografia internazionale e più Appunti in PDF di Demografia solo su Docsity!

DEMOGRAFIA INTERNAZIONALE

Modulo 1 → STATISTICA DI BASE

Che cos’è la statistica?

  • È un insieme di metodi induttivi finalizzati a studiare fenomeni scientifici,

collettivamente tipici, per metterne in evidenza la regolarità e favorirne la prevedibilità.

 La statistica studia i fenomeni, cioè ciò che è possibile misurare. Possono essere:

a) individuali o collettivi: ad esempio la nascita di un bambino è individuale,

mentre la natalità è un fenomeno collettivo, caratteristica attribuibile ad

una popolazione;

b) tipici, ( o regolari), o atipici, ( o irregolari): la mortalità oggi è un fenomeno

tipico, quindi regolare, mentre gli eventi metereologici sono atipici, quindi

irregolari;

c) scientifici o non scientifici: un fenomeno è scientifico quando è misurabile,

descrivibile, riproducibile e prevedibile, come la distanza geografica. La

scientificità di un fenomeno è spesso legata all’esistenza di un adeguato

strumento di misura.

 I metodi di ragionamento possono essere:

a) deduttivi: permettono di ricavare le affermazioni particolari partendo da

affermazioni generali, ( es: tutti gli uomini sono mortali, Socrate è un uomo,

dunque Socrate è mortale);

b) induttivi: permettono di ricavare le affermazioni generali partendo da

affermazioni particolari, ( es: insieme di indizi che portano ad identificare

un colpevole → generalizzazione).

Un insieme di metodi induttivi è finalizzato a studiare fenomeni scientifici,

collettivamente tipici, per metterne in evidenza la regolarità e favorirne la prevedibilità.

Non è una scienza, ma un insieme di metodi, ( al servizio di tutte le scienze). I metodi

induttivi, partendo dall’osservazione delle differenze, suggeriscono affermazioni di

carattere generale.

 Problema dello statistico: rilevare i dati, classificarli e ordinarli per facilitare

l’induzione di leggi generali, mettere in evidenza le regolarità collettive dei

fenomeni, ( es: nascita di un bambino vs natalità). I fenomeni che sono osservati a

livello individuale sembrano soggetti al caso, possono evidenziare regolarità a

livello collettivo: i fenomeni diventano classificabili e a volte prevedibili.

  • Elementi della Statistica:

 popolazione statistica:

a) soggetto della statistica;

b) è costituita da un certo numero, ( n), di unità statistiche;

c) ha caratteristiche precise: è necessario stabilire se un’unità appartiene o

meno alla popolazione;

d) esempio: residenti di un Comune vs iscritti all’anagrafe del Comune;

 variabili statistiche, ( X):

a) oggetto della statistica, caratteristica di interesse della popolazione, ( es:

temperatura corporea, età, statura…);

b) definiscono una partizione, ( sottosistemi), delle unità statistiche: si assegna

ad ogni unità un valore della variabile statistica;

c) la caratteristica statistica di una variabile è legata alla possibilità di

poterla misurare;

 manifestazioni della variabile X nelle n unità statistiche: X.

  • Popolazione e campione:

 rilevazione delle variabili su tutta la popolazione: la popolazione può essere troppo

vasta, troppo difficile e/o costosa;

 rilevazione delle variabili su un campione della popolazione:

a) si raccolgono informazioni su un sottoinsieme di unità della popolazione e

per induzione si ottengono informazioni su tutta la popolazione: regolarità

del campione = regolarità della popolazione → calcolo delle probabilità;

b) il campione dev’essere statisticamente rappresentativo, ( miniatura della

popolazione);

c) la scelta casuale dei soggetti del campione garantisce la rappresentatività;

d) il campione viene selezionato, se non scelto in maniera appropriata. Più la

popolazione è eterogenea, più il campione dev’essere ampio.

  • La fase di rilevazione:

 è necessario raccogliere dei dati per misurare le variabili statistiche;

a) popolazione: n studenti di un corso di laurea;

b) variabile X: voto nell’esame di demografia internazionale;

c) dati: n voti Xi riportati dagli studenti;

 le rilevazioni statistiche possono essere:

a) continue: misurano l’evento oggetto di studio nel momento in cui si verifica,

( es: nascite, voti esami, meteo);

b) a intervalli regolari: cadenzate nel tempo, ( es: assunzioni e licenziamenti

ISTAT ogni 3 mesi, PIL, prezzi, censimenti);

c) episodiche: indagini fatte ad hoc per studiare un determinato fenomeno,

( trasversale o longitudinale).

  • Operatore sommatoria ∑ 𝑿𝒊

𝒏

𝒊=𝟏

 è un simbolo utilizzato per rappresentare somme di elementi indicizzati: X1, X2,

X3, ..., Xi P , ..., Xn.

𝑛

𝑖= 1

i = individuo

n = numero di variabili

Xi = variabile statistica

Quindi è un sigma di individuo

che va da 1 a n, ( numero totale)

Scale e misura delle variabili:

  • Per misurare le variabili servono strumenti flessibili, in grado di tener conto della

complessità dei fenomeni.

 Allo stesso tempo, però, è opportuno classificare le variabili in base al grado di

raffinatezza in cui è possibile misurarle;

 esempio: peso corporeo vs professione

a) peso corporeo di A ≠ peso corporeo di B;

b) peso corporeo di A > peso corporeo di B;

c) A pesa 3kg più di B;

d) A pesa il 10% più di B;

 posso dire le stesse cose per la variabile “professione”? Posso dire ad esempio che

la professione di A è maggiore dalla professione di B? No, perché la variabile

“professione” è diversa dalla variabile “peso”.

Esistono 4 possibili scale su cui misurare le variabili:

  1. Nominale: classificazione di individui per categoria. Le caratteristiche dei valori

sono delle etichette in termini di operazioni e si può affermare solo che una

variabile sia uguale o diversa dall’altra. Non si possono fare calcoli o dire che una

sia maggiore dell’altra. Si tratta di variabili qualitative nominali, quindi vengono

semplicemente elencate, ( es: professioni, religione, sesso…);

  1. Ordinale: comprende variabili qualitative che possono essere messe in un certo

ordine, ma non si può sapere quanto sia grande la differenza tra un valore e

l’altro. Possiamo dire che una categoria è diversa, anche maggiore, minore o

uguale, ma non di quanto lo è, ( es: titolo di studio, livello di soddisfazione…);

  1. A intervallo: quando abbiamo a che fare con i numeri, dobbiamo chiederci se le

variabili siano qualitative o quantitative. Se sono quantitative possono essere

discrete o continue. Possono essere misurate attraverso due scale: con la scala a

intervallo possiamo misurare le differenze tra i valori, ma non c’è uno zero

assoluto, ( lo zero non significa “assenza assoluta” della quantità che si sta

misurando, ma è solo un punto arbitrario scelto per il sistema di misurazione).

Esempi di variabili a intervallo possono essere la temperatura o la distanza;

  1. A rapporto: è un’altra scala quantitativa. Qui si può fare tutto, come ordinare,

calcolare le differenze e fare rapporti. Ha uno zero assoluto, cioè uno zero che

significa davvero “assenza di qualcosa”; questo significa che rappresenta l’assenza

totale della quantità che si sta misurando. Esempi di variabili a rapporto possono

essere il peso corporeo o la statura.

Non tutti i numeri rappresentano la quantità! Delle scale ordinali possono sembrare a

intervallo o a rapporto, ma il loro significato è qualitativo. Per esempio, se il codice dello

stato civile è: celibe/nubile = 1, coniugato/a = 2, seprato/a = 3, vedovo/a = 4, non posso

calcolare la differenza tra lo stato civile separato e vedovo. Quindi la responsabilità di

scegliere quali operazioni fare sui numero non può essere delegata al computer/software,

ma alla persona che calcola le statistiche.

  • Quando misuriamo una variabile qualitativa, ( nominale/ordinale), dobbiamo decidere a

priori le modalità delle variabili stesse:

 esempio: se voglio rilevare la variabile X professione, devo decidere una

classificazione delle professioni a priori:

Frequenze Assolute

Modalità X1 … Xi … XI Totale

Numerosità n1 … ni … nI ∑ 𝑛𝑖 = 𝑛

Modalità → Xi, i=1, …, I → variabile, ( Xi), e individuo che va da 1, (i=1), a I

Al termine della rilevazione si può associare a ogni unità statistica la propria

professione e, a partire da tale elenco, calcolare il numero di unità statistiche, ( n1, …,

ni, …, nI), attinente a ogni modalità. La quantità ni è la frequenza assoluta della

variabile modaltà Xi. L’insieme delle I frequenze assolute definisce la distribuzione delle

frequenze assolute di X.

Esempio:

  • Oltre alla frequenza assoluta, è importante tenere conto anche della frequenza relativa.

 La frequenza relativa in statistica è il rapporto tra il numero di volte in cui si

verifica un determinato evento, ( o un valore in un insieme di dati), e il numero

totale di eventi, ( o il totale dei dati);

𝑰

𝒊=𝟏

𝑰

𝒊=𝟏

Frequenze Relative

Modalità X1 … Xi … XI Totale

Numerosità n1 … ni … nI ∑ 𝑓𝑖 = 1

Se le variabili qualitative sono ordinali, è possibile costruire anche frequenze cumulate

assolute, ( Ni), e frequenze cumulate relative, ( Fi).

Si calcola la distribuzione di

frequenze assolute della variabile

professione in una popolazione di 24

individui.

Come fare se si vuole fare il confronto

tra popolazioni con n di individui

diversi?

Le frequenze assolute hanno una

grande importanza nella descrizione

di una variabile, ma non consentono

un rapido confronto tra distribuzioni,

in quanto strettamente legate alla

numerosità delle popolazioni.

Esempio:

Modalità Diploma Laurea Dottorato Totale

ni 9 11 4 24

fi 9/24 = 0.38 11/24 = 0.46 4/24 = 0.16 -

Fi 0.38 0.38 + 0.46 = 0.84 0.84 + 0.16 = 1 -

Le frequenze cumulate relative servono a valutare la percentuale di individui che si

trova al di sotto/sopra di un certo livello della scala, ad esempio: la percentuale che ha

al massimo, ( 8 4%), o almeno la laurea, ( 100% – 84% = 16%).

  • Le variabili quantitative, ( discrete o continue):

 discrete: le modalità sono identificate da numeri naturali, ( es: numero di fratelli,

taglia dei pantaloni, numero di dipendenti di un’azienda, numero di studenti di

un’università…). Non si possono avere, ad esempio, 1.3 fratelli;

 continue: le modalità sono identificate da numeri reali o razionali, ( come 2.5).

Date due misure è sempre possibile trovarne una intermedia, ( ad esempio, tra

184cm e 185cm, si può trovare qualcuno alto 184,5cm). Quindi la precisione

dipende dallo strumento di misura utilizzato, ( es: bilancia). In pratica la variabile

continua viene discretizzata in funzione del livello ritenuto opportuno dal

ricercatore e del livello di precisione dello strumento: si usa l’approssimazione per

arrivare ad un numero intero.

  • Il raggruppamento dei dati in classi:

 non sempre conviene mantenere le modalità elementari di rilevazione, ( es: ogni

peso corporeo rilevato). Sia per le variabili qualitative che per quelle quantitative

i dati si possono raggruppare in classi;

 la fase di rilevazione e la fase di raggruppamento vengono tenute distinte. Non è

conveniente rilevare i dati fissando a priori delle classi troppo ampie. L’ampiezza

delle classi o delle modalità di raggruppamento dipendono dalle problematiche

oggetto di studio, ( quindi da cosa stiamo studiando).

  • Caso particolare → variabile età:

 è una variabile quantitativa, continua e su scala a rapporto;

 perché è una variabile continua? Effettuiamo dei processi mentali implicitamente

statistici, con i quali si compie un’operazione di approssimazione. Di solito la

variabile età è espressa in anni compiuti: chi ha 39 anni e 2 mesi e chi ha 39 anni

e 8 mesi, dice di avere 39 anni. Mentre chi pesa 76kg pesa in media 76.0kg, chi ha

39 anni compiuti, ha mediamente 39.5 anni, quindi 39 anni e 6 mesi. Nella

maggior parte dei casi è sufficiente conoscere l’età in anni compiuti, ma è sempre

meglio rilevare la data di nascita.

La rappresentazione dei dati:

  • Come si rappresentano i dati?

 Una volta costruite le distribuzioni di frequenza, prima di manipolarle per

ottenere degli indicatori sintetici, può essere utile rappresentarle graficamente. Ci

sono delle caratteristiche che sono più difficili da mettere in evidenza tramite le

tabelle.

  • Come NON fare una tabella:

  • Come fare una tabella:

  • Caratteristiche che una tabella deve avere per essere di facile comprensione:

 attenzione al titolo: deve avere un senso:

 non devono esserci codici, ma la loro etichetta;

 tenere lo stesso numero di decimali;

 allineare/incolonnare i dati;

 inserire totali, ( e subtotali);

 inserire note esplicative;

 inserire la fonte dei dati.

Le tabelle ci permettono di:

 visualizzare immediatamente le caratteristiche di una distribuzione;

 operare confronti tra più distribuzioni;

 semplificare la lettura di fenomeni, evidenziando andamenti, relazioni ed

eventuali valori anomali;

 divulgare rapidamente le informazioni.

I criteri per costruire un grafico dipendono da:

 fenomeno oggetto di studio;

 tipo di variabile da rappresentare, ( qualitativa o quantitativa);

 tipologia della distribuzione di frequenza che si vuole rappresentare, ( frequenze

assolute o relative).

Bisogna sempre corredare il grafico di un titolo, che indica: popolazione, variabili,

oggetto, luogo e anno di riferimento, legenda con la descrizione dei simboli utilizzati.

A cosa corrispondono le età 1, 2, 3 e 4? E M e F?

( Attenzione alle etichette).

Il diverso numero di cifre decimali rende la

tabella di difficile lettura, ( approssimazione).

Cos’è rappresentato in tabella? Sono litri?

Bicchieri? ( Unità di misura)

Manca il totale, sia di riga che di colonna.

Vi sono tutti i dettagli che ci servono:

abbiamo le classi d’età, le etichette,

l’approssimazione è più chiara…

Abbiamo la media per età e su quante

persone viene calcolata.

Vi è una legenda che spiega eventuali dati,

come le definizioni o i numeri tra parentesi.

  • Diagrammi circolari o a torta:

 si disegna un cerchio e lo si divide in settori circolari di ampiezza proporzionale al

valore delle frequenze relative. Bisogna usare la formula delle proporzioni:

x◦ : ni = 360◦ : n → x ◦ = (ni/n) ∗ 360 ◦ = 360◦ ∗ f

 in un cerchio ci sono 360 gradi: il numero di gradi sta alla frequenza, come 360 sta

al totale di individui nel campione o al 100%.

Esempio:

Il primo settore circolare, ( malattie infettive), ha lo stesso punto di inizio in entrambi i

grafici, ( ore 12), per favorire la confrontabilità.

Qui si notano subito le cause principali, quindi i settori più grossi. È più facile vedere le

proporzioni tra le varie cause. Ma è più difficile confrontare la Calabria con il Veneto.

Rappresentando graficamente i dati non si manipolano le distribuzioni di frequenza. Si

mettono in evidenza delle caratteristiche che sono meno facili da notare nelle tabelle.

Per esempio? La scelta del tipo di diagramma non è neutrale rispetto alla possibilità di

migliorare la descrizione di una distribuzione di frequenza.

  • Il diagramma a barre rappresenta bene distribuzioni con molte modalità e se le

distribuzioni non sono troppo diverse.

  • Il diagramma a torta rappresenta bene distribuzioni con poche modalità e se le

distribuzioni sono molto diverse.

  • Variabili ordinali:

 anche per queste variabili si possono usare i diagrammi a barre e a torta, ma, nei

diagrammi a barre, mentre nelle variabili nominali la sequenza è irrilevante, in

quelle ordinali le modalità vanno messe in ordine.

  • È possibile rappresentare anche la distribuzione delle frequenze cumulate.

 Esempio relativo al titolo di studio con le seguenti distribuzioni di frequenze

relative semplici e cumulate:

 Nella tabella in alto ci sono le frequenze relative semplici.

 Nella tabella in basso ci sono le frequenze relative cumulate.

È rilevante una grande differenza tra la classe di età più giovane e quella più vecchia in

termini di quanti sono gli alfabeti senza titolo. La maggioranza nelle due classi ha la

licenza elementare.

  • Istogrammi per le variabili quantitative:

 quando le variabili sono quantitative, le basi delle barre hanno un’ampiezza

diversa, in base a dei calcoli.

Vi sono esattamente le distribuzioni di frequenza, ma i rettangoli rappresentati devono

avere:

 l’area del rettangolo proporzionale alle frequenze;

 la base dei rettangoli proporzionale alle misure delle modalità.

Come si calcolano queste quantità?

 L’area del rettangolo si calcola base x altezza;

La frequenza relativa cumulata

per entrambe le classi d’età

arriva al 100%, com’è giusto

che sia.

  • Poligoni di densità:

Misure di centralità:

  • Sintetizzare i dati:

 le distribuzioni di frequenza, ( rappresentate in tabella o tramite grafici), non

implicano procedure di sintesi dei dati stessi;

 una prima riduzione di complessità dei dati iniziali si ottiene mediante il

raggruppamento dei dati in classi, soprattutto se la numerosità dei dati e delle

modalità iniziali è elevata.

Vi sono due fasi:

  1. determinare l’esigenza conoscitiva che si vuole soddisfare a partire dai dati;

  2. manipolare i dati per estrarre la risposta all’esigenza conoscitiva.

  • Esempio: - Per gli istogrammi la procedura di

stilizzazione, congiungendo i punti centrali

delle basi superiori, è particolarmente

indicata quando si lavora con variabili

continue:

  • ai due lati estremi del grafico, accanto ai due

istogrammi estremi, si accostano due

segmenti aventi la stessa base;

  • si congiunge poi il punto centrale di ogni

segmento con quello della base superiore

dell’istogramma vicino;

  • così si costruisce il poligono di densità, utile

a confrontare due distribuzioni diverse;

  • si possono fare considerazioni sulla forma

delle distribuzioni: grado di variabilità e

livello di simmetria.

X = numero di esami registrati

i = studenti, totale 9

Bisogna distribuire le frequenze relative e quelle assolute.

  • Trasformare i dati in informazioni sintetiche:

Vogliamo rappresentare in modo più intuitivo con una sola quantità. Raggruppiamo i dati

in classi e abbiamo la distribuzione dei dati in quelle classi.

C’è il rischio che i dati non vengano semplificati sufficientemente, ( è il caso delle

informazioni ridondanti), o che lo siano troppo.

Si ricorre alla manipolazione dei dati che rispondono alla domanda: qual è il valore che

sintetizza da solo la distribuzione di frequenza? Consentono di dare una descrizione

dell’ordine di grandezza di un dato fenomeno.

Ci sono tre principali misure di centralità: moda, mediana, media aritmetica.

(1) LA MODA:

  • Se i dati sono espressi secondo modalità elementari, ( non raggruppati in classi), la moda

è la modalità con la frequenza, ( assoluta o relativa), più elevata. È la modalità del

carattere che, nell’insieme delle osservazioni, si presenta con la frequenza più alta, ( cioè

il maggior numero di volte). È necessario contare quante volte ciascun valore si ripete.

  • Se i dati sono raggruppati in classi, contenenti un numero diseguale di modalità

elementari, la moda cade nella classe in cui è più elevato il valore ni / k = densità.

 ni è la frequenza assoluta della classe i-esima

 k è il numero di modalità elementari raggruppate della classe i-esima, ( ampiezza)

 i risultati sono identici se, invece delle frequenze assolute ni, si usano le frequenze

relative fi

  • Esempio:

In questo caso la moda è Verona, perché ha il

numero più alto, ( la maggior parte degli iscritti va

a Verona) → modalità elementari

Dati raggruppati in classi → Verona viene messa

da sola, i comuni in provincia di Verona in una

classe e le altre province in un’altra classe. Si

sommano gli studenti appartenenti ad ogni classe:

ogni modalità è 1 per la prima e 4 per le altre due.

Per calcolare la moda:

frequenza assoluta / ampiezza = densità.

La moda è Verona, il numero più alto dei tre.

  • Esempio 1 :

  • Esempio 2:

 X = numero di scarpe; n = 10 individui;

 la distribuzione del numero di scarpe di 10 individui è X = {38, 40, 41, 36, 38, 45,

 la prima operazione da fare è ordinare i dati: X = {36, 38, 38, 40, 41, 42, 43, 44, 45,

 la mediana è il valore che si trova tra le posizioni n / 2 = 5 e la n/2 + 1 = 6. n è

pari, quindi si prendono due numeri: la 5° e la 6° posizione;

 quindi la mediana si individua calcolando la semi-somma dei valori che si trovano

in tali posizioni: (41 + 42) / 2 = 4.5.

  • Esempio 3:

  • Quando i dati sono raggruppati in classi e conosciamo la distribuzione di frequenza:

 la mediana si calcola utilizzando le frequenze relative cumulate;

 la classe che contiene il valore mediano è la prima in cui Fi > 50%;

 se un valore di Fi è esattamente uguale al 50%, il valore mediano sta in mezzo fra

la classe i - esima e quella (i + 1) - esima.

  • Esempio:

  • Le scelte del ricercatore sul raggruppamento in classi non influenzano la determinazione

della mediana, ( non era così per la moda):

 avremo sempre il 50% prima e il 50% dopo.

X = numero di esami

n = 9 studenti

Prima di tutto si mettono in ordine. Visto

che il numero è dispari, si calcola la mediana

del numero in mezzo, che occupa la

posizione n+1 / 2 = 9+1= 10/2 = 5 →

individuo che sta nella quinta posizione.

La mediana è 5 esami, ci sono quattro

studenti prima e quattro dopo.

X = titolo di studio

n = 6 individui

La mediana sta tra le due

modalità diploma e laurea.

Sono variabili qualitative ordinarie:

quindi si possono calcolare le frequenze

cumulate.

“ Abbastanza soddisfatto” è la nostra

mediana, perché supera il 50%,

(0,61 → 61%)

  • Se la mediana è la modalità elementare i - esima, quando le modalità vengono

raggruppate in classi accorpando modalità contigue, la mediana cade all’interno della

classe contenente la modalità i - esima.

 La mediana è indifferente rispetto ai valori estremi: quali siano il valore più basso

e quello più alto, tutto ciò non influenza la mediana, perché sta in mezzo.

La mediana è una misura più raffinata della moda, meno soggetta all’arbitrio del

ricercatore. La moda è calcolata solo mediante la distribuzione delle frequenze, mentre la

mediana è calcolata facendo interagire la distribuzione delle frequenze e l’ordinamento

naturale dei dati.

(3) LA MEDIA:

  • La media aritmetica viene calcolata facendo interagire la distribuzione delle frequenze e

la scala di misura delle variabili.

  • Data una variabile quantitativa X misurata su n unità statistiche, la media aritmetica è:

𝑴 = ∑ 𝑿𝒊/𝒏

𝒏

𝒊=𝟏

;

 cioè la somma dei valori rapportata alla numerosità delle unità statistiche.

  • Data la distribuzione di frequenze assolute: 𝑴 = (∑ 𝒙𝒊 ∗ 𝒏𝒊)/𝒏

𝒏

𝒊=𝟏

  • Data la distribuzione di frequenze relative: 𝑴 = (∑ 𝑿𝒊 ∗ 𝒇𝒊)

𝒏

𝒊=𝟏

 Chiamata anche media ponderata.

  • Esempio 1 : - > Esempio 2:

A partire dai singoli valori

osservati, ( modalità

elementari), xi

X = peso corporeo

n = 24 individui

Quando abbiamo la

distribuzione di frequenze

assolute o relative, si tratta di

medie ponderate.

Moda:

  • nel Paese B ci sono molte famiglie povere o più povere rispetto al paese A;
  • trascura che nel Paese B ci sono famiglie abbienti e di reddito medio.

Mediana:

  • uguale nei due Paesi, non varia in base ai valori estremi;
  • molto usata come indice di centralità per i test clinici, in cui la media aritmetica

può essere influenzata da “ outliers”;

  • Paese A e Paese B hanno un reddito simile?

Media:

  • nel Paese A è il doppio rispetto al Paese B. risente dei valori estremi.

Le misure di variabilità:

  • L’esigenza conoscitiva a cui danno risposta le misure di centralità è “sintetizzare in un

solo valore la distribuzione di frequenza”.

 Se vengono presi da soli, però, gli indicatori di centralità rischiano di dare una

rappresentazione della realtà non soddisfacente.

Anche gli indici di variabilità sintetizzano in un unico valore la distribuzione dei dati,

ma questa volta il fine è misurare gli scostamenti dei dati stessi rispetto alla situazione

di omogeneità, ossia alla mancanza di variabilità.

  • Quando le variabili sono su scala nominale, dobbiamo costruire un indice di variabilità

che non sia il frutto di operazioni matematiche sui valori della distribuzione, basato

solo sulla manipolazione delle frequenze. Intuitivamente, l’indicatore deve godere di

due proprietà:

  1. avere valore minimo e uguale a zero se tutte le unità statistiche sono concentrate

in una sola frequenza, ( che è anche la moda della distribuzione): si parla di

situazione di omogeneità;

  1. avere valore massimo se ogni modalità ha la stessa frequenza: si parla di

situazione di massima eterogeneità.

Un indice che gode di queste due proprietà ed è molto semplice da costruire è l’Indice di

Gini, ( G): è la misura dell’area compresa fra la retta dell’eguaglianza e la curva di

Lorenz, rapportata all’intera area che sta sotto alla retta dell’eguaglianza.

Anche la costruzione di questi

indici è legata alla scala di

misura delle variabili,

( qualitative nominali, qualitative

ordinali e quantitative).

  • Siano date n unità statistiche, classificate su una variabile X su scala nominale con K

modalità.

 Si confrontano a due a due tutte le n unità statistiche, osservando se hanno lo

stesso valore di X;

 il numero di confronti in cui le due unità risultano diverse viene chiamato g;

 poiché il numero di confronti possibili è 𝒏

𝟐

, e ricordando che si confronta anche

ogni unità con se stessa, l’indicatore di variabilità vale:

𝑮 = 𝒈/𝒏

𝟐

  • Esempio:

  • Si può dimostrare che:

 calcolare le quantità diverse g è macchinoso, soprattutto al crescere di n;

 fortunatamente si dimostra che:

𝑮 =

𝒈

𝒏

𝟐

= ∑ 𝒇𝒌 ∗ (𝟏 − 𝒇𝒌) = 𝟏 − ∑ 𝒇

𝒌

𝟐

𝑲

𝒌=𝟏

𝑲

𝒌=𝟏

 fk è la frequenza relativa della k-esima modalità.

Minima eterogeneità: una modalità è assunta da tutte le unità statistiche

 Gmin = 1 – (1 + 0 + … + 0) = 0

Massima eterogeneità: ciascuna modalità è assunta da un uguale numero di unità

statistiche, (f1 = f2 = … = fk = 1/K)

 Gmax = 1 - ∑ 𝒇

𝒌

𝟐

𝟏

𝒌

𝟐

(𝑲−𝟏)

𝑲

𝑲

𝒌=𝟏

𝑲

𝒌=𝟏

  • Indice di Gini Relativo:

  1. rapportando G al suo massimo, otteniamo l’Indice Relativo di Gini;

𝒌

𝟐

𝑲

𝒌=𝟏

2) l’Indice Relativo di Gini varia tra 0, ( variabilità minima), e 1, ( variabilità

massima).

2 popolazioni → A e B

n = 3 unità statistiche

X = titolo d studio

Intuitivamente, la variabilità è minima nella

popolazione A, ( tutti con lo stesso titolo di

studio), e massima nella popolazione B, ( tutti

con un titolo di studio diverso).

Numero di confronti possibili: 𝒏

𝟐

𝟐

Per calcolare l’Indice di Gini si contano i ≠ (g)

A: 𝑔 = 0 , 𝑛

2

= 9 , 𝐺 = 0 / 9 = 0 (min)

B: 𝑔 = 6 , 𝑛

2

= 9 , 𝐺 = 6 / 9 = 0. 67 (max)