































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Dispenda del manuale del corso di Statistica, secondo anno di sociologia
Tipologia: Dispense
1 / 39
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!
































A che cosa serve la statistica?
L’uomo è incapace di comprendere ciò che avviene nella realtà con un’unica o un insieme ridotto di
osservazioni e di sintetizzare “a occhio” un insieme più ampio di osservazioni → la statistica supplisce
all’incapacità di percepire un fenomeno reale con una sola o poche osservazioni e all’incapacità di
sintetizzare quantitativamente il risultato di un elevato numero di informazioni.
Statistica moderna = strumento non solo per la raccolta e produzione di dati ma anche per la loro
elaborazione e analisi con l’obiettivo di trasformarli in informazioni che servono poi a prendere decisioni.
La statistica è quindi un insieme di metodi e tecniche per la conoscenza quantitativa, l’analisi e la
comprensione di uno o più fenomeni singolarmente o congiuntamente considerati, che si presentano nella
realtà con un insieme di diverse manifestazioni, osservabili totalmente o parzialmente.
Etimologia → da “Stato” con riferimento alle rilevazioni ufficiali da parte delle istituzioni statali.
Storia → le tracce più antiche di rilevazioni statistiche ufficiali si hanno con i Sumeri (IV-II millennio a.C.),
nell’antico Egitto con la misurazione quantitativa dei fenomeni sociali e la venerazione di una dea dei libri e
dei conti, con il Libro dei Numeri nella bibbia e con le rilevazioni statistiche ufficiali anche nell’antica Cina e
nell’antica Roma.
Fase metodologica → con Quetelet (1976-1874) → statistica come metodo scientifico grazie all’unificazione
di diversi ambiti di ricerca (demografia, teoria degli errori accidentali, calcolo delle probabilità). La
crescente potenza di calcolo automatizzato e di memorizzazione stanno rivoluzionando il modo di fare
statistica.
Statistica = insieme di metodologie e strumenti formali per la trattazione quantitativa dei fenomeni
osservabili nella realtà sociale, in natura o in laboratorio; per trattazione quantitativa si intende la
realizzazione del processo logico di osservazione → analisi → comprensione , cioè il processo che utilizziamo
ogni giorno per prendere decisioni e che realizziamo attraverso raccolta dati → elaborazione →
trasformazione dei dati in informazioni.
Fenomeni statistici = fenomeni che si presentano con una molteplicità di manifestazioni; a noi interessano
soprattutto i fenomeni che riguardano le popolazioni umane e le società: genere, livello di scolarizzazione,
reddito mensile, nr. di esami sul libretto, ecc… ma anche fenomeni statistici osservabili su oggetti più
generali (es. temperatura massima in un determinato luogo e in un determinato periodo di tempo).
Unità statistiche = supporti fisici o teorici delle diverse manifestazioni del fenomeno statistico: presso di
loro è possibile osservare e registrare le manifestazioni dei fenomeni d’interesse (es. gli individui, i giorni
del mese).
Popolazione = la popolazione statistica o universo di riferimento (target) è l’insieme delle unità statistiche
sulle quali interessa studiare il fenomeno (es. collettivo di individui, giorni dell’intero mese).
𝑈 (maiuscola) = popolazione o universo statistico
Lettere latine maiuscole = indicano fenomeni statistici
Lettere minuscole = indicano ogni singola manifestazione del fenomeno indicato con la corrispondente
lettera maiuscola → modalità o valori del fenomeno
Esempio
Fenomeno statistico = 𝑋 : genere
Popolazione statistica = 𝑈 : collettivo di persone
Modalità di 𝑋 osservabili su ogni unità statistica che compone 𝑈 = 𝑢 : maschio o femmina
Numerosità (o dimensione) di 𝑈 → il nr. di unità statistiche che compongono la popolazione statistica di
riferimento; si usa la lettera 𝑁 e indica la dimensione dell’intera popolazione.
𝑁 è un numero intero positivo ( 1 ≤ 𝑁 < ∞) nel caso di fenomeni che si manifestano su popolazioni
umane e finite; 𝑁 = ∞ in fenomeni presenti su popolazioni teoreticamente infinite (composte da un nr
virtualmente infinito di unità statistiche).
Se la dimensione di 𝑁 di 𝑈, anche se finita, è molto elevata conviene pensarla infinita ai fini dell’analisi
statistica.
Su 𝑈 di 𝑁 sono presenti le manifestazioni 𝑥 del fenomeno 𝑋
𝑋 fenomeno
𝑈 insieme di unità statistiche
numero (virtualmente infinito)
𝑥 attributo, categoria, numero, numero reale, ecc…
Analisi statistica di un fenomeno
Dopo aver stabilito:
a. Il fenomeno che interessa studiare;
b. La popolazione su cui interessa studiarlo;
c. Le unità statistiche sulle quali sono reperibili le manifestazioni.
Trattare quantitativamente un fenomeno significa:
diverse manifestazioni del fenomeno → rilevazione di 𝑋 su 𝑈
confuso di 𝑁 più o meno diverse manifestazioni 𝑥 di 𝑋; quando la popolazione è numerosa ed 𝑁 è
Classificazione dei fenomeni statistici
Fenomeni qualitativi: si manifestano nella popolazione osservata attraverso attributi o categorie,
qualità appunto → es. X = genere; Y: squadra di calcio; S: titolo di studio
Fenomeni quantitativi: si manifestano nella popolazione osservata attraverso numeri, quantità
appunto → es. A: numero di accessi a un certo sito internet in un dato giorno
Per certi tipi di statistica è necessario che le manifestazioni del fenomeno possano essere ordinate. Le
manifestazioni dei fenomeni quantitativi sono sempre ordinate perché fra i numeri esiste una relazione
d’ordine naturale; per i fenomeni qualitativi è importante la sottoclassificazione che li distingue in base alla
possibilità di ordinare le manifestazioni.
o Fenomeni qualitativi ordinali: fenomeni che, pur essendo qualitativi, si manifestano con attributi e
categorie che si possono ordinare secondo qualche criterio oggettivo e convenzionalmente accettato →
es. S: titolo di studio
o Fenomeni qualitativi categoriali: fenomeni qualitativi per i quali non abbiamo un criterio oggettivo (ma
sono personale e variabile) per ordinare le categorie con cui si manifesta → es. R: città di residenza
o Fenomeni quantitativi discreti: fenomeni quantitativi che possiamo contare, enumerare → es. E:
numero di esami registrati sul libretto al termine del primo anno
o Fenomeni quantitativi continui: fenomeni quantitativi che si possono misurare, una volta scelta
un’opportuna unità di misura e con la disponibilità del corretto strumento di misurazione → es. C: peso
corporeo alle 08:00 a digiuno.
Le manifestazioni di un fenomeno quantitativo continuo sono intervalli e la caratteristica della
enumerabilità, tipica dei fenomeni quantitativi discreti, scompare a favore della continuità. L’intervallo
rappresenta la manifestazione del fenomeno continuo misurato su una certa unità statistica con una certa
unità di misura. L’intervallo contiene numeri infiniti e non possiamo enumerarli tutti. Un fenomeno
continuo, cioè che si può solo misurare con intervalli che dipendono dall’unità di misura scelta e della
precisione delle strumento di misurazione utilizzato, ha un numero infinito e di un’infinità non numerabile
di sue possibili manifestazioni.
Gli strumenti della rilevazione: questionari e scale di mobilità
Il questionario è il tipico strumento attraverso il quale si effettua la rilevazione.
𝑈: collettivo matricole 2014/15 Milano-Bicocca
𝑋: mezzo di conoscenza dell’ateneo → 11 caselline cioè 11 possibile caselle in cui chi risponde può
classificarsi → l’insieme delle caselline previste per ogni domanda/fenomeno costituisce la scala delle
modalità o scala di rilevazione.
La scala delle modalità con cui si rileva 𝑋 è l’insieme di tutte le diverse manifestazioni di 𝑋 osservabili su 𝑈.
Devono essere rispettatiti i principi di:
a. Esaustività: la scala delle modalità con cui si effettua la rilevazione deve essere esaustiva, cioè deve
prevedere tutte le possibili manifestazioni di 𝑋 che potenzialmente si possono osservare su 𝑈
b. Mutua esclusività: la scala con cui si effettua la rilevazione deve prevedere solo modalità che si
escludono a vicenda, senza la possibilità di confusione o sovrapposizioni.
L’obiettivo è quello di evitare all’unità statistica qualunque ambiguità nella scelta della casellina con cui
identificarsi; rispettando entrambi i principi, presso ciascuna unità statistica viene osservata certamente e
senza ambiguità una e una sola manifestazione 𝑥 di 𝑋.
Classificazione delle scale di modalità
Scala qualitativa: le modalità sono attributi o categorie, qualità
Scala quantitativa: le modalità sono numeri, quantità
o Scala qualitativa ordinale: scala qualitativa nella quale gli attributi o le categorie di cui consta possono
essere ordinati secondo qualche criterio oggettivo e convenzionalmente accettato
o Scala qualitativa sconnessa: scala qualitativa nella quale gli attributi o le categorie di cui consta non
ammettono un ordinamento oggettivo ma solo un ordinamento casuale o personale
sottotipo → scala dicotomica o binaria: consta di 2 sole modalità esaustive ed esclusive (vero/falso,
favorevole/contrario)
o Scala quantitativa rapporto: scala quantitativa nella quale l’origine è il numero 0 con significato
assoluto (0 indica l’assenza del fenomeno) → es. numero accessi a un sito internet in data tot.
o Scala quantitativa non rapporto: scala quantitativa nella quale l’origine 0 non è assoluta ma
convenzionale, cioè scelta secondo qualche tipo di criterio → es. fenomeno della temperatura
La classificazione delle SdM è importante perché dalla tipologia di scala dipende il livello di analisi statistica
che si può effettuare sui dati così rilevati. Il tipo di scala determina le possibili relazioni istituitili tra le
modalità di cui consta.
Le scale qualitative consentono un livello di analisi inferiore rispetto alle scale quantitative: sui numeri
possiamo applicare le operazioni aritmetiche. Fra le modalità di una scala qualitativa possiamo istituite le
relazioni di uguaglianza o di diversità. Se la scala qualitativa è ordinale fra le sue modalità possiamo anche
istituire relazioni d’ordine ≤ 𝑜 ≥. Le scale quantitative consentono un livello maggiore di analisi
( =, ≠, ≤, ≥ + 4 operazioni elementari ). Le scale quantitative non rapporto però non consentono appunto il
rapporto → le temperature: stesso confronto, risultato diverso.
Le scale quantitative non rapporto non ammettono i rapporti, fra le modalità do una scala non rapporto
possiamo effettuare confronti ordinali (≤, ≥) e confronti assoluti ( +, - ) ma non relativi (/).
Con la scala di modalità scelta andiamo presso ciascuna unità statistica a rilevare la manifestazione del
fenomeno 𝑋; registriamo tale manifestazione in una delle modalità previste dalla scala. Con 𝐾 indichiamo il
numero di diverse modalità della scala utilizzata.
L’indice 𝑖 lo utilizziamo per distinguere le diverse modalità previste dalla scala con cui andiamo a rilevare le
manifestazioni 𝑥 del fenomeno 𝑋. La rilevazione di 𝑋 su 𝑈 avviene con la scala di modalità 𝑥 1
2
𝑘
o
𝑖
→ nella scala dicotomica sempre 𝑘 = 2
Il passaggio dai dati grezzi alla variabile statistica rende i dati più organizzati e leggibile ma ci fa perdere le
info sull’ordine in cui dati sono stati rilevati; a ogni livello di elaborazione si fanno emergere dati più
chiaramente ma si perdono alcune info.
Frequenze relative e percentuali
Le frequenze assolute non sono confrontabili fra popolazioni di numerosità diversa perché queste sono
direttamente influenzate dalla numerosità 𝑁; se l’obiettivo è confrontare le distribuzioni di frequenze in 𝑋
di due o più popolazioni con numerosità diversa occorre depurare le frequenze assolute dell’influenza di 𝑁
costruendo le frequenze relative.
La frequenza relativa associata alla modalità 𝑥 𝑖
è il rapporto fra le frequenze assolute di 𝑥
𝑖
e la numerosità
𝑁 si 𝑈. La frequenza assoluta di indica con 𝑝
𝑖
. Ogni volta che l’obiettivo è il confronto bisogna costruire
grandezze relative, cioè dei rapporti in cui al denominatore andrà posta la grandezza che disturba e
impedisce il confronto delle quantità poste al numeratore. Le frequenze relative sono quantità
adimensionali e sono sempre confrontabili. Moltiplicando le frequenze relative per 100 si ottengono le
percentuali.
Le frequenze relative sono rapporti particolari con il denominatore che rappresenta il totale del
numeratore; sono sempre comprese tra 0 e 1 e la loro somma è pari a 1.
Le percentuali sono frequenze relative moltiplicate per 100, sono sempre comprese fra 1 e 100 e la loro
somma è pari a 100 (sono preferibili per l’interpretazione e la comunicazione dei risultati).
La colonna delle frequenze relative costituisce la distribuzione di frequenze relative di 𝑋 su 𝑈; questa è
confrontabile fra popolazioni con dimensioni diverse. L’informazione che si perde con questa ulteriore
sintesi è la dimensione 𝑁 di 𝑈.
Frequenze assolute, relative e percentuali sono costruibili per qualunque tipo di fenomeno 𝑋.
Frequenze cumulate
Quando un fenomeno 𝑋 è almeno ordinale si costruisce la v.s. ordinando in senso crescente le modalità
osservate, partendo dal minimo 𝑥 1
e arrivando al massimo 𝑥
𝑘
. La possibilità di stabilire un ordine oggettivo
e universale fra le modalità di 𝑋 è utile all’analisi statistica per domande come: “quante sono le unità
statistiche che, fra le 𝑁 osservate, manifestano una modalità non più grande/non più piccola di una certa
𝑖
?” → si cumulano/si sommano le frequenze associate alle modalità inferiori di 𝑥
𝑖
costruendo le frequenze
cumulate.
𝑖
𝑖
Proprietà delle frequenze cumulate:
sempre comprese tra 0 e 1. La prima frequenza cumulata coincide con la frequenza della modalità
più piccola; l’ultima frequenza cumulata coincide con la numerosità 𝑁 di 𝑈 se parliamo di
frequenze cumulate assolute mentre coincide con 1 se parliamo di frequenze cumulate relative. Il
fenomeno 𝑋 è (almeno) ordinale e le modalità 𝑥
𝑖
sono ordinate, dunque 𝑥
1
è la più piccola e 𝑥
𝑘
la
più grande.
corrispondenza biunivoca: data una distribuzione è possibile passare all’altra e viceversa. Se
conosco le frequenze (assolute o relative) posso ottenere le cumulate (sommando) e se conosco le
cumulate posso ri-ottenere le frequenze (sottraendo).
Densità di frequenza
Fenomeni quantitativi continui → se 𝑋 è continuo le modalità 𝑥 sono intervalli.
La variabile statistica ci dice che al generico intervallo 𝑥 𝑖
𝑙
𝐿
appartengono 𝑓
𝑖
unità statistiche. Non
sappiamo in quale fra gli infiniti punti che appartengono all’intervallo si posiziona ciascuna delle 𝑓
𝑖
unità
statistiche che cadono nell’intervallo → la distribuzione di frequenze all’interno degli intervalli è ignota.
In questa situazione si deve ricorrere all’emissione di ipotesi in sostituzione delle info ignote; adottare
un’ipotesi significa proporre un modo per ripartire la 𝑓 𝑖
fra gli infiniti valori dell’intervallo 𝑥
𝑖
𝑙
𝐿
. Le
ipotesi comunemente e convenientemente emesse sono 2:
Ipotesi del valore centrale: l’obiettivo è assegnare a ciascuna delle 𝑓 𝑖
unità statistiche che cadono
dell’intervallo un unico punto, interno all’intervallo stesso → principio del “in medio stat virtus”; il metodo
consiste nell’associare tutte le 𝑓 𝑖
al valore centrale dell’intervallo; il valore centrale dell’intervallo è la
semisomma dei suoi valori estremi quindi → 𝑥 𝑖
∗
𝑥
𝑙
𝐿
2
Con quest’ipotesi si attua una discretizzazione della variabile statistica: si supera il problema dell’ignota
distribuzione di frequenze all’interno degli intervalli ma si perde la natura continua rappresentata dagli
intervalli.
Ipotesi della distribuzione uniforme: si considera alla pari ogni possibilità; se non sappiamo niente circa
dove si posizionano esattamente le 𝑓 𝑖
unità statistiche all’interno dell’intervallo allora le distribuiamo in
modo uniforme lungo tutto l’intervallo.
Fenomeni continui → gli intervalli possono avere ampiezza diversa.
L’ampiezza dell’intervallo 𝑥 𝑖
𝑙
𝐿
è la differenza fra l’estremo superiore e l’estremo inferiore →
𝐿
𝑙
. L’ampiezza dell’intervallo influenza le frequenza associate (assolute o relative); quanto più un
intervallo è ampio tanto più è facile che contenga più casi di un intervallo meno ampio.
Un’informazione importante è quanto è denso al proprio interno un intervallo. A parità di frequenze, un
intervallo più ampio sarà meno denso di uno più stretto. La densità di frequenza di un intervallo è la
frequenza dell’intervallo depurato dall’influenza dell’ampiezza.
Densità dell’intervallo 𝑥
𝑖
𝑙
𝐿
𝑖
𝑖
𝐿
𝑙
Quando 𝑋 è continuo, accanto alle distribuzioni di frequenza, è costruibile la densità di frequenza. Le
densità di frequenza 𝜌 𝑖
sono numeri reali e sono sempre positive ma non hanno limite superiore (possono
essere grandi quanto si vuole). Il loro valore non ha un significato intrinseco e la loro somma non ha alcun
significato. Le densità di frequenza danno un’idea dell’addensamento delle frequenze all’interno degli
intervalli e sono utili quando le diverse ampiezze degli intervalli rendono fuorviante l’interpretazione delle
frequenze. A parità di frequenze un intervallo ampio è meno denso di un intervallo più stretto.
Comprendere o non comprendere gli estremi di un intervallo non fa cambiare la sua ampiezza.
Rappresentazioni grafiche
Con le distribuzioni di frequenze possiamo costruire grafici; la rappresentazione grafica delle distribuzioni di
frequenza è alternativa alla forma tabellare, si presentano semplicemente i dati in forma diversa.
Per i fenomeni qualitativi il grafico è un semplice disegno che affianca o sostituisce la tabella (grafici a
barre, grafico a torta); altezza/lunghezza delle barre danno un’idea della frequenza associata a ciascuna
categoria 𝑥 𝑖
osservata. Il confronto grafico fra due o più distribuzioni di frequenze che derivano
dall’osservazione del medesimo fenomeno su due o più diverse popolazioni è agevolato se si rappresentano
insieme su un unico grafico. Se le popolazioni sono di dimensione diversa bisogna usare le frequenze
relative o percentuali.
La moda o la norma di una v.s. è la modalità a cui è associata la frequenza più elevata fra le 𝑘 osservate,
cioè la modalità più osservata. La moda è un valore medio di sintesi calcolabile per 𝑋 qualunque
(qualitativo o quantitativo, categoriale o ordinale, discreto o continuo). La moda è immediatamente
individuabile. Nel caso di 𝑋 continuo, con modalità che sono intervalli 𝑥 𝑖
𝑙
𝐿
, se gli intervalli sono di
ampiezza differente, la frequenza, sia assoluta che relativa, è influenzata dall’ampiezza degli intervalli e non
si riesce a individuare 𝑥 0
→ bisogna utilizzare la densità di frequenza.
L’intervallo modale è quello a cui è associata la densità 𝜌
𝑖
più elevata fra le 𝑘 osservate. Si fa coincidere la
moda 𝑥 𝑜
con il valore centrale dell’intervallo modale. A volte la v.s. è priva di moda o si presenta con più di
una moda (fenomeno bi-modale).
Utilizzabile nei fenomeni almeno cardinali (qualitativi ordinali o quantitativi) → quando 𝑋 è almeno
ordinale è possibile istituire relazioni d’ordine fra le sue modalità e si possono porre un certo tipo di
domande (es. “quanti non sono superiori a …?”). Per i fenomeni almeno ordinali quest’ulteriore sintesi
consiste nel selezionare fra le 𝑘 manifestazioni ordinate 𝑥
1
𝑖
𝑘
quella che occupa una
posizione speciale nell’ordinamento → posizione centrale.
La sintesi della variabile statistica effettuata dalla mediana è più complessa ma più raffinata
nell’informazione che offre: il 50% di 𝑈 manifesta una modalità 𝑥 𝑖
e l’altro 50% modalità 𝑥
𝑖
La mediana è calcolabile e ha senso solo con 𝑋 almeno ordinale, cioè se le modalità 𝑥
𝑖
possono essere
ordinate. La mediana si calcola dalla colonna delle frequenze cumulate relative: non appena si raggiunge ed
eventualmente si supera 0.5 (50% di 𝑈) lì troviamo la mediana.
Caso dei fenomeni quantitativi continui
Quando le modalità 𝑥 𝑖
sono intervalli si scorrono le frequenze cumulate relative e laddove si raggiunge ed
eventualmente si supera 0.5 si individua un intervallo che verrà chiamato intervallo mediano. Come si
individua la mediana all’interno dell’intervallo mediano? Bisogna avanzare un’ipotesi, o quella del valore
centrale o quella della distribuzione uniforme.
Formula per la mediana sotto l’ipotesi della distribuzione uniforme (freq. assolute e relative)
𝐿
𝑙
𝑖
𝐿
𝑙
𝑖
Nell’istogramma ci interesserà un rettangolo di altezza 𝜌 𝑖
𝑖
𝐿
𝑙
, di base 𝑥
𝐿
𝑙
e di area 𝑓
𝑖
Siccome questo è l’intervallo mediano la mediana 𝑥
è un punto interno a questo intervallo. Per
determinare la mediana bisogna aggiungere a 𝑥
𝑙
il pezzetto che manca per raggiungere 𝑥
𝑙
𝑖− 1
𝐿
𝑙
𝑖
𝑙
𝑖− 1
Con i fenomeni quantitativi possiamo operare con gli strumenti della matematica su tutta la variabile
statistica (sia sulle frequenze assolute che sulle modalità) e possiamo quindi aumentare il livello dell’analisi
statistica. Costruiamo quindi il valore medio di sintesi manipolando algebricamente l’intera variabile
statistica. La notazione 𝑥̅ si legge 𝑥 soprassegnato o 𝑥 medio.
La media aritmetica:
quantitativa);
Media ponderata
𝑗
𝑖
𝑘
𝑖= 1
𝑖
𝑖
𝑘
𝑖= 1
Si moltiplica ciascuna delle 𝑘 modalità osservate 𝑥
𝑖
per il numero di volte in cui sono state osservate in 𝑈,
cioè la loro frequenza 𝑓 𝑖
, poi si somma il tutto e infine si divide per il numero 𝑁 di unità statistiche
osservate (cioè la somma di tutte le 𝑓
𝑖
Ci sono modalità 𝑥 𝑖
ponderate con (moltiplicate per) le frequenze e si divide per la somma dei pesi della
ponderazione.
Se 𝑋 è quantitativo continuo e le sue modalità sono intervalli la media 𝑥̅ è calcolata in genere con l’ipotesi
del valore centrale:
𝑖
∗
𝑙
𝐿
Quindi:
𝑖
∗
𝑖
𝑘
𝑖= 1
Conviene sempre costruire più valori medi di sintesi. La media aritmetica può essere gonfiata da valori
anomali. Il valore medio più stabile alla presenza di valori anomali è la mediana. Moda, mediana e media
sono sintesi complementari che descrivono aspetti differenti dei dati.
3 criteri che possono guidare nella scelta e nella costruzione del valore medio opportuno per sintetizzare
una variabile statistica quando 𝑋 è quantitativo:
o Proprietà formali: si sceglie il valore medio di sintesi in base alle proprietà di cui gode
o Ottimizzazione: ottimizzazione del valore medio attraverso la minimizzazione della perdita di
informazioni
o Invariante: ci possono essere particolari aspetti di X che devono essere mantenuti inalterati
nella sintesi
Proprietà formali:
Se per ragioni di privacy o risorse a disposizione non disponiamo dei dati individuali utilizziamo i dati
aggregati: si considera 𝑈 di numerosità 𝑁, suddivisa in un certo numero di ℎ, di sottopopolazioni
𝑗
ciascuna di numerosità 𝑁
𝐽
con 𝑗 = 1 , … , 𝑘 e ∑ 𝑁
𝑗
ℎ
𝑗= 1
Massima variabilità → es. due modalità fra loro massimamente distanti (tutto o niente)
Misura della variabilità: deviazione standard, varianza e devianza
Una misura (assoluta) della variabilità di 𝑋 su 𝑈 è un indice sintetico calcolato sulla variabile statistica con le
seguenti caratteristiche → proprietà di un indice di variabilità:
di U con un’unica modalità, generando una v.s. costante → v.s. degenere;
e differenti, cioè in caso di variabilità;
Come costruire un indice con queste proprietà?
Bisogna confrontare fra loro le modalità con cui 𝑋 si manifesta su 𝑈 Range → misura di variabilità che si
ottiene confrontando la più piccola e la più grande fra le modalità osservate
𝑚𝑎𝑥
𝑚𝑖𝑛
misura assoluta di variabilità:
perciò 𝑥
𝑚𝑎𝑥
𝑚𝑖𝑛
e valori positivi > 0 quando 𝑋 si manifesta con più modalità diverse e perciò
𝑚𝑎𝑥
𝑚𝑖𝑛
il valore assunto dal range cresce all’aumentare della differenza fra 𝑥
𝑚𝑎𝑥
𝑚𝑖𝑛
ioè
all’aumentare della variabilità di 𝑋
Il range è molto sensibile alla presenza di valori anomali (quando 𝑥
𝑚𝑖𝑛
estremamente piccola o 𝑥
𝑚𝑎𝑥
troppo
grande) ed è basato solo su 2 fra le 𝑘 modalità, perciò il resto viene ignorato.
Una misura di variabilità più raffinata, meno sensibile a eventuali valori anomali e che utilizza tutta la v.s.
(tutte le 𝑘 coppie di modalità 𝑥 𝑖
e frequenze 𝑓
𝑖
) è la deviazione standard/scarto quadratico medio →
notazione 𝜎 (sigma). Si confronta ciascuna delle 𝑘 osservate su 𝑥
𝑖
con un unico valore fisso scelto come polo
di confronto.
Deviazione standard o scarto quadratico medio
𝑖
2
𝑖
𝑘
𝑖= 1
è confrontata con la media aritmetica che, essendo un valore medio di sintesi
dell’intera v.s., funziona bene come polo di confronto;
𝑖
→ scarto che può risultare positivo o negativo a seconda che 𝑥
𝑖
sia una modalità
sotto o sopra-media. Per misurare la variabilità il segno dello scarto è ininfluente, serve a sapere se 𝑥
𝑖
è
vicino o lontano dal polo di confronto 𝑥̅ → ci interessa la distanza di 𝑥
𝑖
da 𝑥̅. Per eliminare l’influenza del
segno si considerano gli scarti quadratici (𝑥
𝑖
2
(il quadrato inoltre enfatizza le distanze);
modalità 𝑥
𝑖
si presenta in 𝑈 𝑓
𝑖
volte;
osservate, li sintetizziamo tutti
in una media sommando e dividendo poi per 𝑁;
La deviazione standard misura la variabilità di X considerando la dispersione dei suoi valori intorno al suo
valore medio. 𝜎 è espressa nella stessa unità di misura con cui è rilevato X e in cui è espressa la media. Ci dice
che X si manifesta su U con valori che in media distano da 𝑥̅ per ±𝜎.
Deviazione standard (formula alternativa)
𝑖
2
𝑖
2
𝑘
𝑖= 1
Da sigma si definiscono altre 2 misure di variabilità → varianza e devianza
Varianza (deviazione standard elevata al quadrato)
2
𝑖
2
𝑖
𝑘
𝑖= 1
2
𝑖
2
𝑖
2
𝑘
𝑖= 1
crescenti all’aumentare della variabilità di 𝑋 in 𝑈;
sono alterati dal quadrato.
La varianza moltiplicata per N (eliminando perciò il denominatore di 𝜎
2
) definisce la devianza di 𝑋.
Devianza
2
𝑖
2
𝑖
𝑘
𝑖= 1
variabilità;
mediata su tutta la U;
perché vengono trascurati radice quadrata e denominatore N
Valutazione e confronti di variabilità: il coefficiente di variazione
Deviazione standard, varianza, range e devianza sono misure assolute, cioè influenzate dall’ordine di
grandezza e dall’unità di misura con cui il fenomeno X si manifesta sulla popolazione U → quindi non sono
né confrontabili né valutabili. Per confrontare e valutare la variabilità di X occorre costruire una misura di
variabilità relativa; per costruirla si mette a rapporto la misura assoluta con un valore medio che sintetizzi
l’ordine di grandezza di X e che sia espresso nella medesima unità di misura. Il coefficiente di variazione di X
si costruisce ponendo la deviazione standard a rapporto con la media aritmetica.
Coefficiente di variazione
Frequenze congiunte e marginali
Sulle tabelle a doppia entrata si leggono sia info di tipo bivariato, che riguardano cioè 𝑋 e 𝑌
congiuntamente, sia info di tipo monovariato che riguardano 𝑋 e 𝑌 considerati singolarmente. All'interno
della tabella si trova la frequenza con cui si manifesta ciascuna coppia di modalità (𝑥 𝑖
𝑗
). Sono frequenze
che riguardano entrambi i fenomeni sono chiamate frequenze congiunte (𝑓 𝑖𝑗
Interno della tabella → variabile statistica doppia
La somma generale di tutte le frequenze congiunte riproduce la numerosità di 𝑁.
Ai margini della tabella si trovano le frequenze che riguardano i fenomeni 𝑋 e 𝑌 considerati singolarmente
e separatamente; si chiamano frequenze marginali. Si aggiunge un punto in sostituzione all'indice dell'altro
fenomeno:
𝑖.
= frequenza marginali di 𝑋
.𝑗
= frequenze marginali di 𝑌
Si ottengono sommando le frequenze congiunte che stanno sulla stessa riga o colonna.
la somma delle frequenze sulla i-esima riga dalle frequenze marginali di 𝑋;
la somma delle frequenze sulla j-esima colonna dalle frequenze marginali di 𝑌;
la somma di tutte le frequenze congiunte (oppure tutte le frequenze marginali) riproduce la
numerosità di 𝑈.
Le 𝑘 coppie (𝑥 𝑖
𝑖.
) e le ℎ coppie (𝑦
𝑗
.𝑗
) sono due variabili statistiche monovariate che chiamiamo variabili
statistiche marginali e su di esse sono applicabili tutti gli strumenti della statistica descrittiva monovariata,
come le frequenze marginali relative.
Gli strumenti della statistica descrittiva bivariata si applicano alla variabile statistica doppia costituita da
𝑘 × ℎ terne (𝑥 𝑖
𝑗
𝑖𝑗
Distribuzioni e frequenze condizionate
Per descrivere il comportamento congiunto di una coppia di fenomeni rilevati sulla medesima popolazione
bisogna analizzare il comportamento dell'uno condizionatamente all'altro. Fissando l'attenzione sulle
singole righe o colonne separatamente si costruiscono le variabili statistiche condizionate 𝑌|𝑥 𝑖
(Y dato,
condizionato da) e 𝑋
𝑗
. Considerare le righe separatamente significa ridurre l'attenzione dell'intera U di N
unità, alla sottopopolazione di 𝑓 𝑖.
unità che manifestano la modalità 𝑥
𝑖
di 𝑋 e in questa sotto-popolazione si
guarda il comportamento di 𝑌. La variabile statistica condizionata 𝑌|𝑥
𝑖
descrive il comportamento di sulle
sole 𝑓 𝑖.
unità statistiche che sono omogenee rispetto a 𝑋 perché manifestano tutte la medesima modalità 𝑥
𝑖
(modalità condizionante).
Considerare le colonne separatamente significa concentrarsi sulla sottopopolazione di 𝑓 .𝑗
unità statistiche
che manifestano la modalità 𝑦
𝑗
di 𝑌 e guardare il comportamento di 𝑋.
La condizionata 𝑋
𝑗
descrive il comportamento di 𝑋 sulle sole 𝑓
.𝑗
unità statistiche omogenee rispetto a 𝑌
perché manifestano tutte la medesima modalità condizionante 𝑦 𝑗
Avremo tante variabili statistiche condizionate quante sono le possibili modalità condizionanti → si hanno
𝑘 variabili condizionate di tipo 𝑌
𝑖
(tante quante sono le righe) e ℎ variabili condizionate di tipo 𝑋
𝑗
(tante
quante sono le colonne).
Sulle variabili statistiche condizionate si costruiscono le frequenze condizionate che vengono chiamate
percentuali di riga e percentuali di colonna.
Le frequenze condizionate sono frequenze relative ottenute dal rapporto fra le frequenze congiunte (che
stanno sulla riga/colonna su cui si fissa l'attenzione) e la frequenza marginale della modalità con cui si
condiziona (quella che sta a margine della riga/colonna su cui si fissa l'attenzione).
Le frequenze condizionate informano sul comportamento di un fenomeno condizionatamente a un altro.
Sulla tabella a doppia entrata si possono leggere diversi tipi di informazioni:
Il comportamento congiunto (bivariato) di 𝑋 e 𝑌 si legge all’interno della tabella sulla variabile
statistica doppia mediante le frequenze congiunte 𝑓
𝑖𝑗
Il comportamento monovariato di 𝑋 e 𝑌 singolarmente considerati si legge sulla riga e sulla colonna
marginali della tabella, sulle v.s. marginali mediante le frequenze marginali 𝑓
𝑖.
di 𝑋 e 𝑓
.𝑗
di 𝑌.
Il comportamento di un fenomeno condizionatamente all’altro si legge sulle righe o sulle colonne
separatamente, considerando le v.s. condizionate mediante la costruzione delle frequenze
condizionate.
Il fenomeno condizionante viene anche chiamato: variabile esplicativa, variabile indipendente, regressore,
predittore. Il fenomeno condizionato viene anche chiamato: variabile di risposta, variabile dipendente.
Indipendenza statistica
Se fra 𝑋 e 𝑌 non esiste alcuna relazione statistica, allora 𝑋 e 𝑌 sono statisticamente indipendenti; per
capirlo bisogna confrontare le frequenze condizionate che informano sul comportamento di un fenomeno
condizionatamente alle modalità dell’altro con le frequenze marginali, che invece informano sul
comportamento dei due fenomeni indipendentemente uno dall’altro.
(se guardiamo alle righe
𝑖
) o di numerosità 𝑓
.𝑗
(se guardiamo alle colonne 𝑋|𝑦
.𝑗
le frequenze marginali assolute, per diventare relative, devono solo essere divise per 𝑁.
Se tutte le 𝑘 serie di frequenze condizionate
𝑓 𝑖𝑗
𝑓
𝑖.
sono uguali fra loro e uguali alla marginale (relativa)
𝑓 .𝑗
𝑁
significa che, sia condizionatamente alle 𝑘 modalità 𝑥
𝑖
di 𝑋 sia marginalmente (indipendentemente da 𝑋), 𝑌
si comporta nella stessa maniera → cioè 𝑋 e 𝑌 sono statisticamente indipendenti, non c’è nessuna
relazione statistica/non c’è nessuna relazione statisticamente rilevabile.
Condizione di indipendenza statistica
𝑖𝑗
𝑖.
.𝑗
Sia marginalmente che condizionatamente per tutte le k modalità 𝑥 𝑖
, il fenomeno 𝑌 si comporta alla stessa
maniera (condizione che vale per tutti gli indici).
Moltiplicando entrambi i membri dell’uguaglianza per 𝑓 𝑖.
si ottengono le frequenze congiunte che
realizzano/rendono vera la condizione di indipendenza statistica → queste vengono chiamate frequenze
teoriche o attese di indipendenza statistica:
𝑖𝑗
∗
𝑖.
.𝑗
A ogni tabella osservata si può accostare la corrispondente tabella teorica di indipendenza statistica → si
mantengono fisse le marginali e si sostituiscono le frequenze congiunte osservate con le frequenze teoriche
di indipendenza statistica; quando la condizione è verificata le due tabelle coincidono.
2
𝑖𝑗
2
𝑖.
.𝑗
ℎ
𝑗= 1
𝑘
𝑖= 1
Indice di connessione normalizzato
Il valore assoluto dell’indice non consente la valutazione, non è interpretabile → c’è bisogno di una
normalizzazione: normalizzare un indice significa trasformarlo in un numero compreso nell’intervallo ( 0 , 1 )
in modo che, moltiplicato per 100, diventi una percentuale e diventi facilmente interpretabile. Un indice
come 𝜒
2
(chi quadrato) assume valore minimo 0 lo si normalizza rapportandolo al/dividendolo per il suo
valore massimo. Il valore massimo del chi quadrato è il valore che l’indice assumerebbe in caso di una
relazione statistica perfetta in cui è sufficiente conoscere il comportamento di un fenomeno per sapere già
tutto del comportamento dell’altro.
Valore massimo di 𝜒
2
è il valore pari a 𝑁 moltiplicato per il più piccolo fra il numero delle righe 𝑘 e il
numero delle colonne ℎ meno 1:
𝑁 × min{𝑘 − 1 , ℎ − 1 }
Poi:
Indice di connessione normalizzato
2
𝑁 × min {𝑘 − 1 , ℎ − 1 }
con il numeratore chi quadrato calcolato sulla tabella osservata
Il 𝜒
2
normalizzato è sempre compreso fra 0 e 1 e moltiplicato per 100 è interpretabile come percentuale di
connessione → questa permette la valutazione della connessione (tanta o poca) compatibilmente agli
interrogativi di ricerca.
Associazione locale → relazione di tipo locale fra singole coppie o modalità 𝑥 𝑖
e 𝑦
𝑖
Connessione = associazione globale fra tutte le 𝑘 modalità di 𝑋 e le ℎ modalità di 𝑌
Odds e Odds Ratio
Quando fra due fenomeni categoriali dicotomici uno è scelto come condizionante, le modalità dell’altro
fenomeno (condizionato) sono tipicamente indicate con i termini successo e insuccesso; si identifica come
successo la modalità che più interessa ai fini dell’analisi statistica e come insuccesso la modalità contraria.
Scegliamo X come fenomeno condizionante, fissiamo l’attenzione sulle righe della tabella (v.s. condizionate
1
(prima riga) e 𝑌|𝑥
2
(seconda riga) → scegliendo il fenomeno condizionante abbiamo dato un verso
all’associazione. Le frequenze congiunte lette per riga sono interpretabili come casi favorevoli al successo e
all’insuccesso il che permette di chiedersi se 𝑥 1
favorisca o meno il successo.
Odds → il rapporto (divisione) fra casi favorevoli
′
Si fa il rapporto per ciascuna delle sotto-popolazioni definite dalle modalità del fenomeno condizionante,
cioè uno per ciascuna riga. Gli Odds sono sempre positivi e possono risultare maggiori o minori di 1. Un
rapporto è maggiore di 1 se il numeratore è più grande del denominatore e viceversa quando è minore di 1.
𝑂𝑑𝑑𝑠 > 1 significa che i casi favorevoli al successo superano quelli favorevoli all’insuccesso e viceversa
per 𝑂𝑑𝑑𝑠 < 1 dove i casi sfavorevoli al successo superano quelli favorevoli. Gli Odds informano sul rischio
di successo relativamente all’insuccesso in ciascuna delle sottopopolazioni di interesse. Sono anche
chiamati rischio relativo/relative risk.
Il rapporto fra due Odds è noto con il termine Odds Ratio ; è anche detto rapporto dei prodotti incrociati:
1
2
11
12
21
22
11
22
12
21
L’ Odds Ratio è interpretabile come misura di associazione nella coppia di modalità in posizione
nella
tabella. È inoltre sempre positivo e maggiore o minore di 1. Quanto più è lontano da 1 (molto più grande di
1 o molto vicino a 0) tanto più forte è l’associazione nella coppia di modalità in posizione
. Viceversa
quando il risultato risulta vicino all’unità significa che è assente l’associazione in quella coppia di modalità.
Odds Ratio è legato all’indice di associazione Yule
Quando almeno uno dei due fenomeni congiuntamente osservati sulla popolazione è quantitativo è
possibile aumentare il livello di analisi introducendo relazioni e strumenti statistici più raffinati (che
impiegano frequenze e modalità) → è possibile dare un senso alla relazione, cioè stabilire se e quando 𝑋
influenza 𝑌 o viceversa. Se entrambi i fenomeni sono quantitativi e quindi l’intera variabile statistica doppia
è numerica è possibile esplorare ancora più nel dettaglio natura e tipologia della sua relazione.
Medie e varianze marginali e condizionate
𝑌 quantitativo, 𝑋 qualunque
𝑋 e 𝑌 connessi