

















































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
………………………………………………………………………………
Tipologia: Appunti
1 / 89
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


















































































È un insieme di metodi induttivi finalizzati a studiare fenomeni scientifici,
collettivamente tipici, per metterne in evidenza la regolarità e favorirne la prevedibilità.
La statistica studia i fenomeni, cioè ciò che è possibile misurare. Possono essere:
a) individuali o collettivi: ad esempio la nascita di un bambino è individuale,
mentre la natalità è un fenomeno collettivo, caratteristica attribuibile ad
una popolazione;
tipico, quindi regolare, mentre gli eventi metereologici sono atipici, quindi
irregolari;
c) scientifici o non scientifici: un fenomeno è scientifico quando è misurabile,
descrivibile, riproducibile e prevedibile, come la distanza geografica. La
scientificità di un fenomeno è spesso legata all’esistenza di un adeguato
strumento di misura.
I metodi di ragionamento possono essere:
a) deduttivi: permettono di ricavare le affermazioni particolari partendo da
b) induttivi: permettono di ricavare le affermazioni generali partendo da
Un insieme di metodi induttivi è finalizzato a studiare fenomeni scientifici,
collettivamente tipici, per metterne in evidenza la regolarità e favorirne la prevedibilità.
induttivi, partendo dall’osservazione delle differenze, suggeriscono affermazioni di
carattere generale.
Problema dello statistico: rilevare i dati, classificarli e ordinarli per facilitare
l’induzione di leggi generali, mettere in evidenza le regolarità collettive dei
livello individuale sembrano soggetti al caso, possono evidenziare regolarità a
livello collettivo: i fenomeni diventano classificabili e a volte prevedibili.
Elementi della Statistica:
popolazione statistica:
a) soggetto della statistica;
c) ha caratteristiche precise: è necessario stabilire se un’unità appartiene o
meno alla popolazione;
d) esempio: residenti di un Comune vs iscritti all’anagrafe del Comune;
ad ogni unità un valore della variabile statistica;
c) la caratteristica statistica di una variabile è legata alla possibilità di
poterla misurare;
manifestazioni della variabile X nelle n unità statistiche: X.
Popolazione e campione:
rilevazione delle variabili su tutta la popolazione: la popolazione può essere troppo
vasta, troppo difficile e/o costosa;
rilevazione delle variabili su un campione della popolazione:
c) la scelta casuale dei soggetti del campione garantisce la rappresentatività;
d) il campione viene selezionato, se non scelto in maniera appropriata. Più la
popolazione è eterogenea, più il campione dev’essere ampio.
La fase di rilevazione:
è necessario raccogliere dei dati per misurare le variabili statistiche;
b) variabile X: voto nell’esame di demografia internazionale;
le rilevazioni statistiche possono essere:
a) continue: misurano l’evento oggetto di studio nel momento in cui si verifica,
Operatore sommatoria ∑ 𝑿𝒊
𝒏
𝒊=𝟏
è un simbolo utilizzato per rappresentare somme di elementi indicizzati: X1, X2,
X3, ..., Xi P , ..., Xn.
𝑛
𝑖= 1
i = individuo
n = numero di variabili
Xi = variabile statistica
Quindi è un sigma di individuo
Per misurare le variabili servono strumenti flessibili, in grado di tener conto della
complessità dei fenomeni.
Allo stesso tempo, però, è opportuno classificare le variabili in base al grado di
raffinatezza in cui è possibile misurarle;
esempio: peso corporeo vs professione
a) peso corporeo di A ≠ peso corporeo di B;
b) peso corporeo di A > peso corporeo di B;
c) A pesa 3kg più di B;
d) A pesa il 10% più di B;
“professione” è diversa dalla variabile “peso”.
Esistono 4 possibili scale su cui misurare le variabili:
sono delle etichette in termini di operazioni e si può affermare solo che una
variabile sia uguale o diversa dall’altra. Non si possono fare calcoli o dire che una
sia maggiore dell’altra. Si tratta di variabili qualitative nominali, quindi vengono
ordine, ma non si può sapere quanto sia grande la differenza tra un valore e
l’altro. Possiamo dire che una categoria è diversa, anche maggiore, minore o
variabili siano qualitative o quantitative. Se sono quantitative possono essere
discrete o continue. Possono essere misurate attraverso due scale: con la scala a
intervallo possiamo misurare le differenze tra i valori, ma non c’è uno zero
Esempi di variabili a intervallo possono essere la temperatura o la distanza;
calcolare le differenze e fare rapporti. Ha uno zero assoluto, cioè uno zero che
significa davvero “assenza di qualcosa”; questo significa che rappresenta l’assenza
totale della quantità che si sta misurando. Esempi di variabili a rapporto possono
essere il peso corporeo o la statura.
Non tutti i numeri rappresentano la quantità! Delle scale ordinali possono sembrare a
intervallo o a rapporto, ma il loro significato è qualitativo. Per esempio, se il codice dello
stato civile è: celibe/nubile = 1, coniugato/a = 2, seprato/a = 3, vedovo/a = 4, non posso
calcolare la differenza tra lo stato civile separato e vedovo. Quindi la responsabilità di
scegliere quali operazioni fare sui numero non può essere delegata al computer/software,
ma alla persona che calcola le statistiche.
Quando misuriamo una variabile qualitativa, ( nominale/ordinale), dobbiamo decidere a
priori le modalità delle variabili stesse:
classificazione delle professioni a priori:
Modalità X1 … Xi … XI Totale
Numerosità n1 … ni … nI ∑ 𝑛𝑖 = 𝑛
Al termine della rilevazione si può associare a ogni unità statistica la propria
Esempio:
Oltre alla frequenza assoluta, è importante tenere conto anche della frequenza relativa.
La frequenza relativa in statistica è il rapporto tra il numero di volte in cui si
𝑰
𝒊=𝟏
𝑰
𝒊=𝟏
Modalità X1 … Xi … XI Totale
Numerosità n1 … ni … nI ∑ 𝑓𝑖 = 1
Se le variabili qualitative sono ordinali, è possibile costruire anche frequenze cumulate
Si calcola la distribuzione di
frequenze assolute della variabile
individui.
Le frequenze assolute hanno una
grande importanza nella descrizione
di una variabile, ma non consentono
un rapido confronto tra distribuzioni,
in quanto strettamente legate alla
numerosità delle popolazioni.
Esempio:
Modalità Diploma Laurea Dottorato Totale
ni 9 11 4 24
fi 9/24 = 0.38 11/24 = 0.46 4/24 = 0.16 -
Fi 0.38 0.38 + 0.46 = 0.84 0.84 + 0.16 = 1 -
Le frequenze cumulate relative servono a valutare la percentuale di individui che si
trova al di sotto/sopra di un certo livello della scala, ad esempio: la percentuale che ha
Le variabili quantitative, ( discrete o continue):
continua viene discretizzata in funzione del livello ritenuto opportuno dal
ricercatore e del livello di precisione dello strumento: si usa l’approssimazione per
arrivare ad un numero intero.
Il raggruppamento dei dati in classi:
i dati si possono raggruppare in classi;
la fase di rilevazione e la fase di raggruppamento vengono tenute distinte. Non è
conveniente rilevare i dati fissando a priori delle classi troppo ampie. L’ampiezza
delle classi o delle modalità di raggruppamento dipendono dalle problematiche
Caso particolare → variabile età:
è una variabile quantitativa, continua e su scala a rapporto;
statistici, con i quali si compie un’operazione di approssimazione. Di solito la
variabile età è espressa in anni compiuti: chi ha 39 anni e 2 mesi e chi ha 39 anni
e 8 mesi, dice di avere 39 anni. Mentre chi pesa 76kg pesa in media 76.0kg, chi ha
39 anni compiuti, ha mediamente 39.5 anni, quindi 39 anni e 6 mesi. Nella
maggior parte dei casi è sufficiente conoscere l’età in anni compiuti, ma è sempre
meglio rilevare la data di nascita.
Come si rappresentano i dati?
Una volta costruite le distribuzioni di frequenza, prima di manipolarle per
ottenere degli indicatori sintetici, può essere utile rappresentarle graficamente. Ci
sono delle caratteristiche che sono più difficili da mettere in evidenza tramite le
tabelle.
Come NON fare una tabella:
Come fare una tabella:
Caratteristiche che una tabella deve avere per essere di facile comprensione:
attenzione al titolo: deve avere un senso:
non devono esserci codici, ma la loro etichetta;
tenere lo stesso numero di decimali;
allineare/incolonnare i dati;
inserire note esplicative;
inserire la fonte dei dati.
Le tabelle ci permettono di:
visualizzare immediatamente le caratteristiche di una distribuzione;
operare confronti tra più distribuzioni;
semplificare la lettura di fenomeni, evidenziando andamenti, relazioni ed
eventuali valori anomali;
divulgare rapidamente le informazioni.
I criteri per costruire un grafico dipendono da:
fenomeno oggetto di studio;
Bisogna sempre corredare il grafico di un titolo, che indica: popolazione, variabili,
oggetto, luogo e anno di riferimento, legenda con la descrizione dei simboli utilizzati.
A cosa corrispondono le età 1, 2, 3 e 4? E M e F?
Il diverso numero di cifre decimali rende la
Cos’è rappresentato in tabella? Sono litri?
Manca il totale, sia di riga che di colonna.
Vi sono tutti i dettagli che ci servono:
abbiamo le classi d’età, le etichette,
l’approssimazione è più chiara…
Abbiamo la media per età e su quante
persone viene calcolata.
Vi è una legenda che spiega eventuali dati,
come le definizioni o i numeri tra parentesi.
Diagrammi circolari o a torta:
si disegna un cerchio e lo si divide in settori circolari di ampiezza proporzionale al
valore delle frequenze relative. Bisogna usare la formula delle proporzioni:
in un cerchio ci sono 360 gradi: il numero di gradi sta alla frequenza, come 360 sta
al totale di individui nel campione o al 100%.
Esempio:
Qui si notano subito le cause principali, quindi i settori più grossi. È più facile vedere le
proporzioni tra le varie cause. Ma è più difficile confrontare la Calabria con il Veneto.
Rappresentando graficamente i dati non si manipolano le distribuzioni di frequenza. Si
mettono in evidenza delle caratteristiche che sono meno facili da notare nelle tabelle.
migliorare la descrizione di una distribuzione di frequenza.
Il diagramma a barre rappresenta bene distribuzioni con molte modalità e se le
distribuzioni non sono troppo diverse.
Il diagramma a torta rappresenta bene distribuzioni con poche modalità e se le
distribuzioni sono molto diverse.
Variabili ordinali:
anche per queste variabili si possono usare i diagrammi a barre e a torta, ma, nei
diagrammi a barre, mentre nelle variabili nominali la sequenza è irrilevante, in
quelle ordinali le modalità vanno messe in ordine.
È possibile rappresentare anche la distribuzione delle frequenze cumulate.
Esempio relativo al titolo di studio con le seguenti distribuzioni di frequenze
relative semplici e cumulate:
Nella tabella in alto ci sono le frequenze relative semplici.
Nella tabella in basso ci sono le frequenze relative cumulate.
È rilevante una grande differenza tra la classe di età più giovane e quella più vecchia in
termini di quanti sono gli alfabeti senza titolo. La maggioranza nelle due classi ha la
licenza elementare.
Istogrammi per le variabili quantitative:
quando le variabili sono quantitative, le basi delle barre hanno un’ampiezza
diversa, in base a dei calcoli.
Vi sono esattamente le distribuzioni di frequenza, ma i rettangoli rappresentati devono
avere:
l’area del rettangolo proporzionale alle frequenze;
la base dei rettangoli proporzionale alle misure delle modalità.
La frequenza relativa cumulata
per entrambe le classi d’età
arriva al 100%, com’è giusto
che sia.
Poligoni di densità:
Sintetizzare i dati:
implicano procedure di sintesi dei dati stessi;
una prima riduzione di complessità dei dati iniziali si ottiene mediante il
raggruppamento dei dati in classi, soprattutto se la numerosità dei dati e delle
modalità iniziali è elevata.
Vi sono due fasi:
determinare l’esigenza conoscitiva che si vuole soddisfare a partire dai dati;
manipolare i dati per estrarre la risposta all’esigenza conoscitiva.
Esempio: - Per gli istogrammi la procedura di
stilizzazione, congiungendo i punti centrali
delle basi superiori, è particolarmente
indicata quando si lavora con variabili
continue:
istogrammi estremi, si accostano due
segmenti aventi la stessa base;
segmento con quello della base superiore
dell’istogramma vicino;
a confrontare due distribuzioni diverse;
delle distribuzioni: grado di variabilità e
livello di simmetria.
X = numero di esami registrati
i = studenti, totale 9
Bisogna distribuire le frequenze relative e quelle assolute.
Trasformare i dati in informazioni sintetiche:
Vogliamo rappresentare in modo più intuitivo con una sola quantità. Raggruppiamo i dati
in classi e abbiamo la distribuzione dei dati in quelle classi.
dell’ordine di grandezza di un dato fenomeno.
Ci sono tre principali misure di centralità: moda, mediana, media aritmetica.
Se i dati sono espressi secondo modalità elementari, ( non raggruppati in classi), la moda
Se i dati sono raggruppati in classi, contenenti un numero diseguale di modalità
Esempio:
In questo caso la moda è Verona, perché ha il
Dati raggruppati in classi → Verona viene messa
da sola, i comuni in provincia di Verona in una
classe e le altre province in un’altra classe. Si
sommano gli studenti appartenenti ad ogni classe:
ogni modalità è 1 per la prima e 4 per le altre due.
Per calcolare la moda:
La moda è Verona, il numero più alto dei tre.
Esempio 1 :
Esempio 2:
la distribuzione del numero di scarpe di 10 individui è X = {38, 40, 41, 36, 38, 45,
la prima operazione da fare è ordinare i dati: X = {36, 38, 38, 40, 41, 42, 43, 44, 45,
pari, quindi si prendono due numeri: la 5° e la 6° posizione;
quindi la mediana si individua calcolando la semi-somma dei valori che si trovano
Esempio 3:
Quando i dati sono raggruppati in classi e conosciamo la distribuzione di frequenza:
la mediana si calcola utilizzando le frequenze relative cumulate;
la classe che contiene il valore mediano è la prima in cui Fi > 50%;
se un valore di Fi è esattamente uguale al 50%, il valore mediano sta in mezzo fra
Esempio:
Le scelte del ricercatore sul raggruppamento in classi non influenzano la determinazione
avremo sempre il 50% prima e il 50% dopo.
X = numero di esami
n = 9 studenti
Prima di tutto si mettono in ordine. Visto
che il numero è dispari, si calcola la mediana
del numero in mezzo, che occupa la
posizione n+1 / 2 = 9+1= 10/2 = 5 →
individuo che sta nella quinta posizione.
La mediana è 5 esami, ci sono quattro
studenti prima e quattro dopo.
X = titolo di studio
n = 6 individui
La mediana sta tra le due
modalità diploma e laurea.
Sono variabili qualitative ordinarie:
quindi si possono calcolare le frequenze
cumulate.
“ Abbastanza soddisfatto” è la nostra
mediana, perché supera il 50%,
(0,61 → 61%)
Se la mediana è la modalità elementare i - esima, quando le modalità vengono
raggruppate in classi accorpando modalità contigue, la mediana cade all’interno della
La mediana è indifferente rispetto ai valori estremi: quali siano il valore più basso
e quello più alto, tutto ciò non influenza la mediana, perché sta in mezzo.
La mediana è una misura più raffinata della moda, meno soggetta all’arbitrio del
ricercatore. La moda è calcolata solo mediante la distribuzione delle frequenze, mentre la
mediana è calcolata facendo interagire la distribuzione delle frequenze e l’ordinamento
naturale dei dati.
La media aritmetica viene calcolata facendo interagire la distribuzione delle frequenze e
la scala di misura delle variabili.
Data una variabile quantitativa X misurata su n unità statistiche, la media aritmetica è:
𝑴 = ∑ 𝑿𝒊/𝒏
𝒏
𝒊=𝟏
;
cioè la somma dei valori rapportata alla numerosità delle unità statistiche.
Data la distribuzione di frequenze assolute: 𝑴 = (∑ 𝒙𝒊 ∗ 𝒏𝒊)/𝒏
𝒏
𝒊=𝟏
Data la distribuzione di frequenze relative: 𝑴 = (∑ 𝑿𝒊 ∗ 𝒇𝒊)
𝒏
𝒊=𝟏
Chiamata anche media ponderata.
Esempio 1 : - > Esempio 2:
A partire dai singoli valori
X = peso corporeo
n = 24 individui
Quando abbiamo la
distribuzione di frequenze
assolute o relative, si tratta di
medie ponderate.
Moda:
Mediana:
Media:
L’esigenza conoscitiva a cui danno risposta le misure di centralità è “sintetizzare in un
solo valore la distribuzione di frequenza”.
Se vengono presi da soli, però, gli indicatori di centralità rischiano di dare una
rappresentazione della realtà non soddisfacente.
Anche gli indici di variabilità sintetizzano in un unico valore la distribuzione dei dati,
ma questa volta il fine è misurare gli scostamenti dei dati stessi rispetto alla situazione
di omogeneità, ossia alla mancanza di variabilità.
Quando le variabili sono su scala nominale, dobbiamo costruire un indice di variabilità
che non sia il frutto di operazioni matematiche sui valori della distribuzione, basato
solo sulla manipolazione delle frequenze. Intuitivamente, l’indicatore deve godere di
due proprietà:
situazione di omogeneità;
situazione di massima eterogeneità.
Un indice che gode di queste due proprietà ed è molto semplice da costruire è l’Indice di
Lorenz, rapportata all’intera area che sta sotto alla retta dell’eguaglianza.
Anche la costruzione di questi
indici è legata alla scala di
misura delle variabili,
Siano date n unità statistiche, classificate su una variabile X su scala nominale con K
modalità.
stesso valore di X;
poiché il numero di confronti possibili è 𝒏
𝟐
, e ricordando che si confronta anche
ogni unità con se stessa, l’indicatore di variabilità vale:
𝑮 = 𝒈/𝒏
𝟐
Esempio:
Si può dimostrare che:
fortunatamente si dimostra che:
𝑮 =
𝒈
𝒏
𝟐
= ∑ 𝒇𝒌 ∗ (𝟏 − 𝒇𝒌) = 𝟏 − ∑ 𝒇
𝒌
𝟐
𝑲
𝒌=𝟏
𝑲
𝒌=𝟏
fk è la frequenza relativa della k-esima modalità.
Minima eterogeneità: una modalità è assunta da tutte le unità statistiche
Gmin = 1 – (1 + 0 + … + 0) = 0
Massima eterogeneità: ciascuna modalità è assunta da un uguale numero di unità
statistiche, (f1 = f2 = … = fk = 1/K)
Gmax = 1 - ∑ 𝒇
𝒌
𝟐
𝟏
𝒌
𝟐
(𝑲−𝟏)
𝑲
𝑲
𝒌=𝟏
𝑲
𝒌=𝟏
Indice di Gini Relativo:
𝒌
𝟐
𝑲
𝒌=𝟏
2 popolazioni → A e B
n = 3 unità statistiche
X = titolo d studio
Intuitivamente, la variabilità è minima nella
Numero di confronti possibili: 𝒏
𝟐
𝟐
Per calcolare l’Indice di Gini si contano i ≠ (g)
2
= 9 , 𝐺 = 0 / 9 = 0 (min)
2
= 9 , 𝐺 = 6 / 9 = 0. 67 (max)