Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica di base: come, quando e perché, Dispense di Statistica

Dispenda del manuale del corso di Statistica, secondo anno di sociologia

Tipologia: Dispense

2020/2021

In vendita dal 21/03/2022

hellence
hellence 🇮🇹

4.8

(15)

21 documenti

1 / 39

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
Statistica di base, Fulvia Mecatti
CAPITOLO 1, INTRODUZIONE
A che cosa serve la statistica?
L’uomo è incapace di comprendere ciò che avviene nella realtà con un’unica o un insieme ridotto di
osservazioni e di sintetizzare “a occhio” un insieme più ampio di osservazioni → la statistica supplisce
all’incapacità di percepire un fenomeno reale con una sola o poche osservazioni e all’incapacità di
sintetizzare quantitativamente il risultato di un elevato numero di informazioni.
Statistica moderna = strumento non solo per la raccolta e produzione di dati ma anche per la loro
elaborazione e analisi con l’obiettivo di trasformarli in informazioni che servono poi a prendere decisioni.
La statistica è quindi un insieme di metodi e tecniche per la conoscenza quantitativa, l’analisi e la
comprensione di uno o più fenomeni singolarmente o congiuntamente considerati, che si presentano nella
realtà con un insieme di diverse manifestazioni, osservabili totalmente o parzialmente.
Etimologia → da “Stato” con riferimento alle rilevazioni ufficiali da parte delle istituzioni statali.
Storia → le tracce più antiche di rilevazioni statistiche ufficiali si hanno con i Sumeri (IV-II millennio a.C.),
nell’antico Egitto con la misurazione quantitativa dei fenomeni sociali e la venerazione di una dea dei libri e
dei conti, con il Libro dei Numeri nella bibbia e con le rilevazioni statistiche ufficiali anche nell’antica Cina e
nell’antica Roma.
Fase metodologica → con Quetelet (1976-1874) → statistica come metodo scientifico grazie all’unificazione
di diversi ambiti di ricerca (demografia, teoria degli errori accidentali, calcolo delle probabilità). La
crescente potenza di calcolo automatizzato e di memorizzazione stanno rivoluzionando il modo di fare
statistica.
CAPITOLO 2, DEFINIZIONE E NOTAZIONE DI BASE
Statistica = insieme di metodologie e strumenti formali per la trattazione quantitativa dei fenomeni
osservabili nella realtà sociale, in natura o in laboratorio; per trattazione quantitativa si intende la
realizzazione del processo logico di osservazione analisi comprensione, cioè il processo che utilizziamo
ogni giorno per prendere decisioni e che realizziamo attraverso raccolta dati elaborazione
trasformazione dei dati in informazioni.
Fenomeni statistici = fenomeni che si presentano con una molteplicità di manifestazioni; a noi interessano
soprattutto i fenomeni che riguardano le popolazioni umane e le società: genere, livello di scolarizzazione,
reddito mensile, nr. di esami sul libretto, ecc… ma anche fenomeni statistici osservabili su oggetti più
generali (es. temperatura massima in un determinato luogo e in un determinato periodo di tempo).
Unità statistiche = supporti fisici o teorici delle diverse manifestazioni del fenomeno statistico: presso di
loro è possibile osservare e registrare le manifestazioni dei fenomeni d’interesse (es. gli individui, i giorni
del mese).
Popolazione = la popolazione statistica o universo di riferimento (target) è l’insieme delle unità statistiche
sulle quali interessa studiare il fenomeno (es. collettivo di individui, giorni dell’intero mese).
𝑈 (maiuscola) = popolazione o universo statistico
Lettere latine maiuscole = indicano fenomeni statistici
Lettere minuscole = indicano ogni singola manifestazione del fenomeno indicato con la corrispondente
lettera maiuscola → modalità o valori del fenomeno
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27

Anteprima parziale del testo

Scarica Statistica di base: come, quando e perché e più Dispense in PDF di Statistica solo su Docsity!

CAPITOLO 1 , INTRODUZIONE

A che cosa serve la statistica?

L’uomo è incapace di comprendere ciò che avviene nella realtà con un’unica o un insieme ridotto di

osservazioni e di sintetizzare “a occhio” un insieme più ampio di osservazioni → la statistica supplisce

all’incapacità di percepire un fenomeno reale con una sola o poche osservazioni e all’incapacità di

sintetizzare quantitativamente il risultato di un elevato numero di informazioni.

Statistica moderna = strumento non solo per la raccolta e produzione di dati ma anche per la loro

elaborazione e analisi con l’obiettivo di trasformarli in informazioni che servono poi a prendere decisioni.

La statistica è quindi un insieme di metodi e tecniche per la conoscenza quantitativa, l’analisi e la

comprensione di uno o più fenomeni singolarmente o congiuntamente considerati, che si presentano nella

realtà con un insieme di diverse manifestazioni, osservabili totalmente o parzialmente.

Etimologia → da “Stato” con riferimento alle rilevazioni ufficiali da parte delle istituzioni statali.

Storia → le tracce più antiche di rilevazioni statistiche ufficiali si hanno con i Sumeri (IV-II millennio a.C.),

nell’antico Egitto con la misurazione quantitativa dei fenomeni sociali e la venerazione di una dea dei libri e

dei conti, con il Libro dei Numeri nella bibbia e con le rilevazioni statistiche ufficiali anche nell’antica Cina e

nell’antica Roma.

Fase metodologica → con Quetelet (1976-1874) → statistica come metodo scientifico grazie all’unificazione

di diversi ambiti di ricerca (demografia, teoria degli errori accidentali, calcolo delle probabilità). La

crescente potenza di calcolo automatizzato e di memorizzazione stanno rivoluzionando il modo di fare

statistica.

CAPITOLO 2, DEFINIZIONE E NOTAZIONE DI BASE

Statistica = insieme di metodologie e strumenti formali per la trattazione quantitativa dei fenomeni

osservabili nella realtà sociale, in natura o in laboratorio; per trattazione quantitativa si intende la

realizzazione del processo logico di osservazioneanalisicomprensione , cioè il processo che utilizziamo

ogni giorno per prendere decisioni e che realizziamo attraverso raccolta datielaborazione

trasformazione dei dati in informazioni.

Fenomeni statistici = fenomeni che si presentano con una molteplicità di manifestazioni; a noi interessano

soprattutto i fenomeni che riguardano le popolazioni umane e le società: genere, livello di scolarizzazione,

reddito mensile, nr. di esami sul libretto, ecc… ma anche fenomeni statistici osservabili su oggetti più

generali (es. temperatura massima in un determinato luogo e in un determinato periodo di tempo).

Unità statistiche = supporti fisici o teorici delle diverse manifestazioni del fenomeno statistico: presso di

loro è possibile osservare e registrare le manifestazioni dei fenomeni d’interesse (es. gli individui, i giorni

del mese).

Popolazione = la popolazione statistica o universo di riferimento (target) è l’insieme delle unità statistiche

sulle quali interessa studiare il fenomeno (es. collettivo di individui, giorni dell’intero mese).

𝑈 (maiuscola) = popolazione o universo statistico

Lettere latine maiuscole = indicano fenomeni statistici

Lettere minuscole = indicano ogni singola manifestazione del fenomeno indicato con la corrispondente

lettera maiuscola → modalità o valori del fenomeno

Esempio

Fenomeno statistico = 𝑋 : genere

Popolazione statistica = 𝑈 : collettivo di persone

Modalità di 𝑋 osservabili su ogni unità statistica che compone 𝑈 = 𝑢 : maschio o femmina

Numerosità (o dimensione) di 𝑈 → il nr. di unità statistiche che compongono la popolazione statistica di

riferimento; si usa la lettera 𝑁 e indica la dimensione dell’intera popolazione.

𝑁 è un numero intero positivo ( 1 ≤ 𝑁 < ∞) nel caso di fenomeni che si manifestano su popolazioni

umane e finite; 𝑁 = ∞ in fenomeni presenti su popolazioni teoreticamente infinite (composte da un nr

virtualmente infinito di unità statistiche).

Se la dimensione di 𝑁 di 𝑈, anche se finita, è molto elevata conviene pensarla infinita ai fini dell’analisi

statistica.

Su 𝑈 di 𝑁 sono presenti le manifestazioni 𝑥 del fenomeno 𝑋

𝑋 fenomeno

𝑈 insieme di unità statistiche

numero (virtualmente infinito)

𝑥 attributo, categoria, numero, numero reale, ecc…

Analisi statistica di un fenomeno

Dopo aver stabilito:

a. Il fenomeno che interessa studiare;

b. La popolazione su cui interessa studiarlo;

c. Le unità statistiche sulle quali sono reperibili le manifestazioni.

Trattare quantitativamente un fenomeno significa:

  1. Osservare le manifestazioni: recarsi fisicamente presso le unità statistiche per registrare le

diverse manifestazioni del fenomeno → rilevazione di 𝑋 su 𝑈

  1. Organizzare il risultato della rilevazione: il risultato della rilevazione è in genere un insieme

confuso di 𝑁 più o meno diverse manifestazioni 𝑥 di 𝑋; quando la popolazione è numerosa ed 𝑁 è

Classificazione dei fenomeni statistici

 Fenomeni qualitativi: si manifestano nella popolazione osservata attraverso attributi o categorie,

qualità appunto → es. X = genere; Y: squadra di calcio; S: titolo di studio

 Fenomeni quantitativi: si manifestano nella popolazione osservata attraverso numeri, quantità

appunto → es. A: numero di accessi a un certo sito internet in un dato giorno

Per certi tipi di statistica è necessario che le manifestazioni del fenomeno possano essere ordinate. Le

manifestazioni dei fenomeni quantitativi sono sempre ordinate perché fra i numeri esiste una relazione

d’ordine naturale; per i fenomeni qualitativi è importante la sottoclassificazione che li distingue in base alla

possibilità di ordinare le manifestazioni.

o Fenomeni qualitativi ordinali: fenomeni che, pur essendo qualitativi, si manifestano con attributi e

categorie che si possono ordinare secondo qualche criterio oggettivo e convenzionalmente accettato →

es. S: titolo di studio

o Fenomeni qualitativi categoriali: fenomeni qualitativi per i quali non abbiamo un criterio oggettivo (ma

sono personale e variabile) per ordinare le categorie con cui si manifesta → es. R: città di residenza

o Fenomeni quantitativi discreti: fenomeni quantitativi che possiamo contare, enumerare → es. E:

numero di esami registrati sul libretto al termine del primo anno

o Fenomeni quantitativi continui: fenomeni quantitativi che si possono misurare, una volta scelta

un’opportuna unità di misura e con la disponibilità del corretto strumento di misurazione → es. C: peso

corporeo alle 08:00 a digiuno.

Le manifestazioni di un fenomeno quantitativo continuo sono intervalli e la caratteristica della

enumerabilità, tipica dei fenomeni quantitativi discreti, scompare a favore della continuità. L’intervallo

rappresenta la manifestazione del fenomeno continuo misurato su una certa unità statistica con una certa

unità di misura. L’intervallo contiene numeri infiniti e non possiamo enumerarli tutti. Un fenomeno

continuo, cioè che si può solo misurare con intervalli che dipendono dall’unità di misura scelta e della

precisione delle strumento di misurazione utilizzato, ha un numero infinito e di un’infinità non numerabile

di sue possibili manifestazioni.

Gli strumenti della rilevazione: questionari e scale di mobilità

Il questionario è il tipico strumento attraverso il quale si effettua la rilevazione.

𝑈: collettivo matricole 2014/15 Milano-Bicocca

𝑋: mezzo di conoscenza dell’ateneo → 11 caselline cioè 11 possibile caselle in cui chi risponde può

classificarsi → l’insieme delle caselline previste per ogni domanda/fenomeno costituisce la scala delle

modalità o scala di rilevazione.

La scala delle modalità con cui si rileva 𝑋 è l’insieme di tutte le diverse manifestazioni di 𝑋 osservabili su 𝑈.

Devono essere rispettatiti i principi di:

a. Esaustività: la scala delle modalità con cui si effettua la rilevazione deve essere esaustiva, cioè deve

prevedere tutte le possibili manifestazioni di 𝑋 che potenzialmente si possono osservare su 𝑈

b. Mutua esclusività: la scala con cui si effettua la rilevazione deve prevedere solo modalità che si

escludono a vicenda, senza la possibilità di confusione o sovrapposizioni.

L’obiettivo è quello di evitare all’unità statistica qualunque ambiguità nella scelta della casellina con cui

identificarsi; rispettando entrambi i principi, presso ciascuna unità statistica viene osservata certamente e

senza ambiguità una e una sola manifestazione 𝑥 di 𝑋.

Classificazione delle scale di modalità

 Scala qualitativa: le modalità sono attributi o categorie, qualità

 Scala quantitativa: le modalità sono numeri, quantità

o Scala qualitativa ordinale: scala qualitativa nella quale gli attributi o le categorie di cui consta possono

essere ordinati secondo qualche criterio oggettivo e convenzionalmente accettato

o Scala qualitativa sconnessa: scala qualitativa nella quale gli attributi o le categorie di cui consta non

ammettono un ordinamento oggettivo ma solo un ordinamento casuale o personale

 sottotipo → scala dicotomica o binaria: consta di 2 sole modalità esaustive ed esclusive (vero/falso,

favorevole/contrario)

o Scala quantitativa rapporto: scala quantitativa nella quale l’origine è il numero 0 con significato

assoluto (0 indica l’assenza del fenomeno) → es. numero accessi a un sito internet in data tot.

o Scala quantitativa non rapporto: scala quantitativa nella quale l’origine 0 non è assoluta ma

convenzionale, cioè scelta secondo qualche tipo di criterio → es. fenomeno della temperatura

La classificazione delle SdM è importante perché dalla tipologia di scala dipende il livello di analisi statistica

che si può effettuare sui dati così rilevati. Il tipo di scala determina le possibili relazioni istituitili tra le

modalità di cui consta.

Le scale qualitative consentono un livello di analisi inferiore rispetto alle scale quantitative: sui numeri

possiamo applicare le operazioni aritmetiche. Fra le modalità di una scala qualitativa possiamo istituite le

relazioni di uguaglianza o di diversità. Se la scala qualitativa è ordinale fra le sue modalità possiamo anche

istituire relazioni d’ordine ≤ 𝑜 ≥. Le scale quantitative consentono un livello maggiore di analisi

( =, ≠, ≤, ≥ + 4 operazioni elementari ). Le scale quantitative non rapporto però non consentono appunto il

rapporto → le temperature: stesso confronto, risultato diverso.

Le scale quantitative non rapporto non ammettono i rapporti, fra le modalità do una scala non rapporto

possiamo effettuare confronti ordinali (≤, ≥) e confronti assoluti ( +, - ) ma non relativi (/).

Con la scala di modalità scelta andiamo presso ciascuna unità statistica a rilevare la manifestazione del

fenomeno 𝑋; registriamo tale manifestazione in una delle modalità previste dalla scala. Con 𝐾 indichiamo il

numero di diverse modalità della scala utilizzata.

L’indice 𝑖 lo utilizziamo per distinguere le diverse modalità previste dalla scala con cui andiamo a rilevare le

manifestazioni 𝑥 del fenomeno 𝑋. La rilevazione di 𝑋 su 𝑈 avviene con la scala di modalità 𝑥 1

2

𝑘

o

𝑖

→ nella scala dicotomica sempre 𝑘 = 2

Il passaggio dai dati grezzi alla variabile statistica rende i dati più organizzati e leggibile ma ci fa perdere le

info sull’ordine in cui dati sono stati rilevati; a ogni livello di elaborazione si fanno emergere dati più

chiaramente ma si perdono alcune info.

Frequenze relative e percentuali

Le frequenze assolute non sono confrontabili fra popolazioni di numerosità diversa perché queste sono

direttamente influenzate dalla numerosità 𝑁; se l’obiettivo è confrontare le distribuzioni di frequenze in 𝑋

di due o più popolazioni con numerosità diversa occorre depurare le frequenze assolute dell’influenza di 𝑁

costruendo le frequenze relative.

La frequenza relativa associata alla modalità 𝑥 𝑖

è il rapporto fra le frequenze assolute di 𝑥

𝑖

e la numerosità

𝑁 si 𝑈. La frequenza assoluta di indica con 𝑝

𝑖

. Ogni volta che l’obiettivo è il confronto bisogna costruire

grandezze relative, cioè dei rapporti in cui al denominatore andrà posta la grandezza che disturba e

impedisce il confronto delle quantità poste al numeratore. Le frequenze relative sono quantità

adimensionali e sono sempre confrontabili. Moltiplicando le frequenze relative per 100 si ottengono le

percentuali.

Le frequenze relative sono rapporti particolari con il denominatore che rappresenta il totale del

numeratore; sono sempre comprese tra 0 e 1 e la loro somma è pari a 1.

Le percentuali sono frequenze relative moltiplicate per 100, sono sempre comprese fra 1 e 100 e la loro

somma è pari a 100 (sono preferibili per l’interpretazione e la comunicazione dei risultati).

La colonna delle frequenze relative costituisce la distribuzione di frequenze relative di 𝑋 su 𝑈; questa è

confrontabile fra popolazioni con dimensioni diverse. L’informazione che si perde con questa ulteriore

sintesi è la dimensione 𝑁 di 𝑈.

Frequenze assolute, relative e percentuali sono costruibili per qualunque tipo di fenomeno 𝑋.

Frequenze cumulate

Quando un fenomeno 𝑋 è almeno ordinale si costruisce la v.s. ordinando in senso crescente le modalità

osservate, partendo dal minimo 𝑥 1

e arrivando al massimo 𝑥

𝑘

. La possibilità di stabilire un ordine oggettivo

e universale fra le modalità di 𝑋 è utile all’analisi statistica per domande come: “quante sono le unità

statistiche che, fra le 𝑁 osservate, manifestano una modalità non più grande/non più piccola di una certa

𝑖

?” → si cumulano/si sommano le frequenze associate alle modalità inferiori di 𝑥

𝑖

costruendo le frequenze

cumulate.

𝑖

𝑖

Proprietà delle frequenze cumulate:

  1. Le frequenze cumulate assolute sono numeri interi compresi fra 0 e 𝑁 mentre quelle relative sono

sempre comprese tra 0 e 1. La prima frequenza cumulata coincide con la frequenza della modalità

più piccola; l’ultima frequenza cumulata coincide con la numerosità 𝑁 di 𝑈 se parliamo di

frequenze cumulate assolute mentre coincide con 1 se parliamo di frequenze cumulate relative. Il

fenomeno 𝑋 è (almeno) ordinale e le modalità 𝑥

𝑖

sono ordinate, dunque 𝑥

1

è la più piccola e 𝑥

𝑘

la

più grande.

  1. Fra le frequenze ( assolute o relative) e le corrispondenti frequenze cumulate esiste una

corrispondenza biunivoca: data una distribuzione è possibile passare all’altra e viceversa. Se

conosco le frequenze (assolute o relative) posso ottenere le cumulate (sommando) e se conosco le

cumulate posso ri-ottenere le frequenze (sottraendo).

Densità di frequenza

Fenomeni quantitativi continui → se 𝑋 è continuo le modalità 𝑥 sono intervalli.

La variabile statistica ci dice che al generico intervallo 𝑥 𝑖

𝑙

𝐿

appartengono 𝑓

𝑖

unità statistiche. Non

sappiamo in quale fra gli infiniti punti che appartengono all’intervallo si posiziona ciascuna delle 𝑓

𝑖

unità

statistiche che cadono nell’intervallo → la distribuzione di frequenze all’interno degli intervalli è ignota.

In questa situazione si deve ricorrere all’emissione di ipotesi in sostituzione delle info ignote; adottare

un’ipotesi significa proporre un modo per ripartire la 𝑓 𝑖

fra gli infiniti valori dell’intervallo 𝑥

𝑖

𝑙

𝐿

. Le

ipotesi comunemente e convenientemente emesse sono 2:

 Ipotesi del valore centrale: l’obiettivo è assegnare a ciascuna delle 𝑓 𝑖

unità statistiche che cadono

dell’intervallo un unico punto, interno all’intervallo stesso → principio del “in medio stat virtus”; il metodo

consiste nell’associare tutte le 𝑓 𝑖

al valore centrale dell’intervallo; il valore centrale dell’intervallo è la

semisomma dei suoi valori estremi quindi → 𝑥 𝑖

𝑥

𝑙

  • 𝑥

𝐿

2

Con quest’ipotesi si attua una discretizzazione della variabile statistica: si supera il problema dell’ignota

distribuzione di frequenze all’interno degli intervalli ma si perde la natura continua rappresentata dagli

intervalli.

 Ipotesi della distribuzione uniforme: si considera alla pari ogni possibilità; se non sappiamo niente circa

dove si posizionano esattamente le 𝑓 𝑖

unità statistiche all’interno dell’intervallo allora le distribuiamo in

modo uniforme lungo tutto l’intervallo.

Fenomeni continui → gli intervalli possono avere ampiezza diversa.

L’ampiezza dell’intervallo 𝑥 𝑖

𝑙

𝐿

è la differenza fra l’estremo superiore e l’estremo inferiore →

𝐿

𝑙

. L’ampiezza dell’intervallo influenza le frequenza associate (assolute o relative); quanto più un

intervallo è ampio tanto più è facile che contenga più casi di un intervallo meno ampio.

Un’informazione importante è quanto è denso al proprio interno un intervallo. A parità di frequenze, un

intervallo più ampio sarà meno denso di uno più stretto. La densità di frequenza di un intervallo è la

frequenza dell’intervallo depurato dall’influenza dell’ampiezza.

Densità dell’intervallo 𝑥

𝑖

𝑙

𝐿

𝑖

𝑖

𝐿

𝑙

Quando 𝑋 è continuo, accanto alle distribuzioni di frequenza, è costruibile la densità di frequenza. Le

densità di frequenza 𝜌 𝑖

sono numeri reali e sono sempre positive ma non hanno limite superiore (possono

essere grandi quanto si vuole). Il loro valore non ha un significato intrinseco e la loro somma non ha alcun

significato. Le densità di frequenza danno un’idea dell’addensamento delle frequenze all’interno degli

intervalli e sono utili quando le diverse ampiezze degli intervalli rendono fuorviante l’interpretazione delle

frequenze. A parità di frequenze un intervallo ampio è meno denso di un intervallo più stretto.

Comprendere o non comprendere gli estremi di un intervallo non fa cambiare la sua ampiezza.

Rappresentazioni grafiche

Con le distribuzioni di frequenze possiamo costruire grafici; la rappresentazione grafica delle distribuzioni di

frequenza è alternativa alla forma tabellare, si presentano semplicemente i dati in forma diversa.

Per i fenomeni qualitativi il grafico è un semplice disegno che affianca o sostituisce la tabella (grafici a

barre, grafico a torta); altezza/lunghezza delle barre danno un’idea della frequenza associata a ciascuna

categoria 𝑥 𝑖

osservata. Il confronto grafico fra due o più distribuzioni di frequenze che derivano

dall’osservazione del medesimo fenomeno su due o più diverse popolazioni è agevolato se si rappresentano

insieme su un unico grafico. Se le popolazioni sono di dimensione diversa bisogna usare le frequenze

relative o percentuali.

La moda o la norma di una v.s. è la modalità a cui è associata la frequenza più elevata fra le 𝑘 osservate,

cioè la modalità più osservata. La moda è un valore medio di sintesi calcolabile per 𝑋 qualunque

(qualitativo o quantitativo, categoriale o ordinale, discreto o continuo). La moda è immediatamente

individuabile. Nel caso di 𝑋 continuo, con modalità che sono intervalli 𝑥 𝑖

𝑙

𝐿

, se gli intervalli sono di

ampiezza differente, la frequenza, sia assoluta che relativa, è influenzata dall’ampiezza degli intervalli e non

si riesce a individuare 𝑥 0

→ bisogna utilizzare la densità di frequenza.

L’intervallo modale è quello a cui è associata la densità 𝜌

𝑖

più elevata fra le 𝑘 osservate. Si fa coincidere la

moda 𝑥 𝑜

con il valore centrale dell’intervallo modale. A volte la v.s. è priva di moda o si presenta con più di

una moda (fenomeno bi-modale).

 MEDIANA 𝑥

  1. 5

Utilizzabile nei fenomeni almeno cardinali (qualitativi ordinali o quantitativi) → quando 𝑋 è almeno

ordinale è possibile istituire relazioni d’ordine fra le sue modalità e si possono porre un certo tipo di

domande (es. “quanti non sono superiori a …?”). Per i fenomeni almeno ordinali quest’ulteriore sintesi

consiste nel selezionare fra le 𝑘 manifestazioni ordinate 𝑥

1

𝑖

𝑘

quella che occupa una

posizione speciale nell’ordinamento → posizione centrale.

La sintesi della variabile statistica effettuata dalla mediana è più complessa ma più raffinata

nell’informazione che offre: il 50% di 𝑈 manifesta una modalità 𝑥 𝑖

  1. 5

e l’altro 50% modalità 𝑥

𝑖

  1. 5

La mediana è calcolabile e ha senso solo con 𝑋 almeno ordinale, cioè se le modalità 𝑥

𝑖

possono essere

ordinate. La mediana si calcola dalla colonna delle frequenze cumulate relative: non appena si raggiunge ed

eventualmente si supera 0.5 (50% di 𝑈) lì troviamo la mediana.

Caso dei fenomeni quantitativi continui

Quando le modalità 𝑥 𝑖

sono intervalli si scorrono le frequenze cumulate relative e laddove si raggiunge ed

eventualmente si supera 0.5 si individua un intervallo che verrà chiamato intervallo mediano. Come si

individua la mediana all’interno dell’intervallo mediano? Bisogna avanzare un’ipotesi, o quella del valore

centrale o quella della distribuzione uniforme.

Formula per la mediana sotto l’ipotesi della distribuzione uniforme (freq. assolute e relative)

  1. 5

𝐿

𝑙

𝑖

  1. 5

𝐿

𝑙

𝑖

Nell’istogramma ci interesserà un rettangolo di altezza 𝜌 𝑖

𝑖

𝐿

𝑙

, di base 𝑥

𝐿

𝑙

e di area 𝑓

𝑖

Siccome questo è l’intervallo mediano la mediana 𝑥

  1. 5

è un punto interno a questo intervallo. Per

determinare la mediana bisogna aggiungere a 𝑥

𝑙

il pezzetto che manca per raggiungere 𝑥

  1. 5
  1. 5

𝑙

𝑖− 1

𝐿

𝑙

𝑖

  1. 5

𝑙

𝑖− 1

 MEDIA ARITMETICA 𝑥̅

Con i fenomeni quantitativi possiamo operare con gli strumenti della matematica su tutta la variabile

statistica (sia sulle frequenze assolute che sulle modalità) e possiamo quindi aumentare il livello dell’analisi

statistica. Costruiamo quindi il valore medio di sintesi manipolando algebricamente l’intera variabile

statistica. La notazione 𝑥̅ si legge 𝑥 soprassegnato o 𝑥 medio.

La media aritmetica:

  • È calcolabile per qualunque fenomeno 𝑋 quantitativo (o qualitativo ordinale rilevato con scala

quantitativa);

  • È espressa nella stessa unità di misura con cui 𝑋 si manifesta su 𝑈;
  • Ci dà un’informazione sintetica dell’ordine di grandezza di 𝑋 su 𝑈.

Media ponderata

𝑗

𝑖

𝑘

𝑖= 1

𝑖

𝑖

𝑘

𝑖= 1

Si moltiplica ciascuna delle 𝑘 modalità osservate 𝑥

𝑖

per il numero di volte in cui sono state osservate in 𝑈,

cioè la loro frequenza 𝑓 𝑖

, poi si somma il tutto e infine si divide per il numero 𝑁 di unità statistiche

osservate (cioè la somma di tutte le 𝑓

𝑖

Ci sono modalità 𝑥 𝑖

ponderate con (moltiplicate per) le frequenze e si divide per la somma dei pesi della

ponderazione.

Se 𝑋 è quantitativo continuo e le sue modalità sono intervalli la media 𝑥̅ è calcolata in genere con l’ipotesi

del valore centrale:

𝑖

𝑙

𝐿

Quindi:

𝑖

𝑖

𝑘

𝑖= 1

Conviene sempre costruire più valori medi di sintesi. La media aritmetica può essere gonfiata da valori

anomali. Il valore medio più stabile alla presenza di valori anomali è la mediana. Moda, mediana e media

sono sintesi complementari che descrivono aspetti differenti dei dati.

CAPITOLO 6, APPROFONDIMENTI SUI VALORI MEDI

3 criteri che possono guidare nella scelta e nella costruzione del valore medio opportuno per sintetizzare

una variabile statistica quando 𝑋 è quantitativo:

o Proprietà formali: si sceglie il valore medio di sintesi in base alle proprietà di cui gode

o Ottimizzazione: ottimizzazione del valore medio attraverso la minimizzazione della perdita di

informazioni

o Invariante: ci possono essere particolari aspetti di X che devono essere mantenuti inalterati

nella sintesi

 Proprietà formali:

Se per ragioni di privacy o risorse a disposizione non disponiamo dei dati individuali utilizziamo i dati

aggregati: si considera 𝑈 di numerosità 𝑁, suddivisa in un certo numero di ℎ, di sottopopolazioni

𝑗

ciascuna di numerosità 𝑁

𝐽

con 𝑗 = 1 , … , 𝑘 e ∑ 𝑁

𝑗

𝑗= 1

Massima variabilità → es. due modalità fra loro massimamente distanti (tutto o niente)

Misura della variabilità: deviazione standard, varianza e devianza

Una misura (assoluta) della variabilità di 𝑋 su 𝑈 è un indice sintetico calcolato sulla variabile statistica con le

seguenti caratteristiche → proprietà di un indice di variabilità:

  • Assume valore 0 in assenza di variabilità, cioè nella situazione limite in cui 𝑋 si manifesta sulle 𝑁 unità

di U con un’unica modalità, generando una v.s. costante → v.s. degenere;

  • Assume valori positivi > 0 quando 𝑋 (più realisticamente) si manifesta su 𝑈 con modalità molteplici

e differenti, cioè in caso di variabilità;

  • Assume valori positivi e via via più grandi all’aumentare della variabilità

Come costruire un indice con queste proprietà?

Bisogna confrontare fra loro le modalità con cui 𝑋 si manifesta su 𝑈  Range → misura di variabilità che si

ottiene confrontando la più piccola e la più grande fra le modalità osservate

𝑚𝑎𝑥

𝑚𝑖𝑛

misura assoluta di variabilità:

  • Vale 0 se la v.s. è degenere, cioè quando 𝑋 si manifesta con un’unica modalità (sempre la stessa) e

perciò 𝑥

𝑚𝑎𝑥

𝑚𝑖𝑛

e valori positivi > 0 quando 𝑋 si manifesta con più modalità diverse e perciò

𝑚𝑎𝑥

𝑚𝑖𝑛

il valore assunto dal range cresce all’aumentare della differenza fra 𝑥

𝑚𝑎𝑥

𝑚𝑖𝑛

ioè

all’aumentare della variabilità di 𝑋

Il range è molto sensibile alla presenza di valori anomali (quando 𝑥

𝑚𝑖𝑛

estremamente piccola o 𝑥

𝑚𝑎𝑥

troppo

grande) ed è basato solo su 2 fra le 𝑘 modalità, perciò il resto viene ignorato.

Una misura di variabilità più raffinata, meno sensibile a eventuali valori anomali e che utilizza tutta la v.s.

(tutte le 𝑘 coppie di modalità 𝑥 𝑖

e frequenze 𝑓

𝑖

) è la deviazione standard/scarto quadratico medio →

notazione 𝜎 (sigma). Si confronta ciascuna delle 𝑘 osservate su 𝑥

𝑖

con un unico valore fisso scelto come polo

di confronto.

Deviazione standard o scarto quadratico medio

𝑖

2

𝑖

𝑘

𝑖= 1

  1. Ogni modalità osservata 𝑥 𝑖

è confrontata con la media aritmetica che, essendo un valore medio di sintesi

dell’intera v.s., funziona bene come polo di confronto;

  1. La differenza

𝑖

→ scarto che può risultare positivo o negativo a seconda che 𝑥

𝑖

sia una modalità

sotto o sopra-media. Per misurare la variabilità il segno dello scarto è ininfluente, serve a sapere se 𝑥

𝑖

è

vicino o lontano dal polo di confronto 𝑥̅ → ci interessa la distanza di 𝑥

𝑖

da 𝑥̅. Per eliminare l’influenza del

segno si considerano gli scarti quadratici (𝑥

𝑖

2

(il quadrato inoltre enfatizza le distanze);

  1. Gli scari quadratici vengono ponderati con (moltiplicati per) le frequenze; si tiene conto del fatto che la

modalità 𝑥

𝑖

si presenta in 𝑈 𝑓

𝑖

volte;

  1. Perché gli scarti quadratici sono 𝑘, cioè tanti quante sono le modalità 𝑥 𝑖

osservate, li sintetizziamo tutti

in una media sommando e dividendo poi per 𝑁;

  1. Si ristabilisce l’ordine di grandezza e l’unità di misura prendendo la radice quadrata.

La deviazione standard misura la variabilità di X considerando la dispersione dei suoi valori intorno al suo

valore medio. 𝜎 è espressa nella stessa unità di misura con cui è rilevato X e in cui è espressa la media. Ci dice

che X si manifesta su U con valori che in media distano da 𝑥̅ per ±𝜎.

Deviazione standard (formula alternativa)

𝑖

2

𝑖

2

𝑘

𝑖= 1

Da sigma si definiscono altre 2 misure di variabilità → varianza e devianza

Varianza (deviazione standard elevata al quadrato)

2

𝑖

2

𝑖

𝑘

𝑖= 1

2

𝑖

2

𝑖

2

𝑘

𝑖= 1

  • La varianza vale 0 in caso di assenza di variabilità (v.s. degenere) e assume valori positivi > 0 e

crescenti all’aumentare della variabilità di 𝑋 in 𝑈;

  • La varianza non è una buona misura di variabilità perché l’ordine di grandezza e l’unità di misura

sono alterati dal quadrato.

La varianza moltiplicata per N (eliminando perciò il denominatore di 𝜎

2

) definisce la devianza di 𝑋.

Devianza

2

𝑖

2

𝑖

𝑘

𝑖= 1

  • La devianza vale 0 in assenza di variabilità e assume valori positivi e crescenti al crescere della

variabilità;

  • La devianza non è una buona misura di variabilità perché è quantità al quadrato;
  • La devianza è un totale di quadrati invece che una media perché non essendo divisa pe N non è

mediata su tutta la U;

  • La devianza è anche un’ulteriore semplificazione analitica della deviazione standard e della varianza

perché vengono trascurati radice quadrata e denominatore N

Valutazione e confronti di variabilità: il coefficiente di variazione

Deviazione standard, varianza, range e devianza sono misure assolute, cioè influenzate dall’ordine di

grandezza e dall’unità di misura con cui il fenomeno X si manifesta sulla popolazione U → quindi non sono

né confrontabili né valutabili. Per confrontare e valutare la variabilità di X occorre costruire una misura di

variabilità relativa; per costruirla si mette a rapporto la misura assoluta con un valore medio che sintetizzi

l’ordine di grandezza di X e che sia espresso nella medesima unità di misura. Il coefficiente di variazione di X

si costruisce ponendo la deviazione standard a rapporto con la media aritmetica.

Coefficiente di variazione

Frequenze congiunte e marginali

Sulle tabelle a doppia entrata si leggono sia info di tipo bivariato, che riguardano cioè 𝑋 e 𝑌

congiuntamente, sia info di tipo monovariato che riguardano 𝑋 e 𝑌 considerati singolarmente. All'interno

della tabella si trova la frequenza con cui si manifesta ciascuna coppia di modalità (𝑥 𝑖

𝑗

). Sono frequenze

che riguardano entrambi i fenomeni sono chiamate frequenze congiunte (𝑓 𝑖𝑗

Interno della tabella → variabile statistica doppia

La somma generale di tutte le frequenze congiunte riproduce la numerosità di 𝑁.

Ai margini della tabella si trovano le frequenze che riguardano i fenomeni 𝑋 e 𝑌 considerati singolarmente

e separatamente; si chiamano frequenze marginali. Si aggiunge un punto in sostituzione all'indice dell'altro

fenomeno:

𝑖.

= frequenza marginali di 𝑋

.𝑗

= frequenze marginali di 𝑌

Si ottengono sommando le frequenze congiunte che stanno sulla stessa riga o colonna.

 la somma delle frequenze sulla i-esima riga dalle frequenze marginali di 𝑋;

 la somma delle frequenze sulla j-esima colonna dalle frequenze marginali di 𝑌;

 la somma di tutte le frequenze congiunte (oppure tutte le frequenze marginali) riproduce la

numerosità di 𝑈.

Le 𝑘 coppie (𝑥 𝑖

𝑖.

) e le ℎ coppie (𝑦

𝑗

.𝑗

) sono due variabili statistiche monovariate che chiamiamo variabili

statistiche marginali e su di esse sono applicabili tutti gli strumenti della statistica descrittiva monovariata,

come le frequenze marginali relative.

Gli strumenti della statistica descrittiva bivariata si applicano alla variabile statistica doppia costituita da

𝑘 × ℎ terne (𝑥 𝑖

𝑗

𝑖𝑗

Distribuzioni e frequenze condizionate

Per descrivere il comportamento congiunto di una coppia di fenomeni rilevati sulla medesima popolazione

bisogna analizzare il comportamento dell'uno condizionatamente all'altro. Fissando l'attenzione sulle

singole righe o colonne separatamente si costruiscono le variabili statistiche condizionate 𝑌|𝑥 𝑖

(Y dato,

condizionato da) e 𝑋

𝑗

. Considerare le righe separatamente significa ridurre l'attenzione dell'intera U di N

unità, alla sottopopolazione di 𝑓 𝑖.

unità che manifestano la modalità 𝑥

𝑖

di 𝑋 e in questa sotto-popolazione si

guarda il comportamento di 𝑌. La variabile statistica condizionata 𝑌|𝑥

𝑖

descrive il comportamento di sulle

sole 𝑓 𝑖.

unità statistiche che sono omogenee rispetto a 𝑋 perché manifestano tutte la medesima modalità 𝑥

𝑖

(modalità condizionante).

Considerare le colonne separatamente significa concentrarsi sulla sottopopolazione di 𝑓 .𝑗

unità statistiche

che manifestano la modalità 𝑦

𝑗

di 𝑌 e guardare il comportamento di 𝑋.

La condizionata 𝑋

𝑗

descrive il comportamento di 𝑋 sulle sole 𝑓

.𝑗

unità statistiche omogenee rispetto a 𝑌

perché manifestano tutte la medesima modalità condizionante 𝑦 𝑗

Avremo tante variabili statistiche condizionate quante sono le possibili modalità condizionanti → si hanno

𝑘 variabili condizionate di tipo 𝑌

𝑖

(tante quante sono le righe) e ℎ variabili condizionate di tipo 𝑋

𝑗

(tante

quante sono le colonne).

Sulle variabili statistiche condizionate si costruiscono le frequenze condizionate che vengono chiamate

percentuali di riga e percentuali di colonna.

Le frequenze condizionate sono frequenze relative ottenute dal rapporto fra le frequenze congiunte (che

stanno sulla riga/colonna su cui si fissa l'attenzione) e la frequenza marginale della modalità con cui si

condiziona (quella che sta a margine della riga/colonna su cui si fissa l'attenzione).

Le frequenze condizionate informano sul comportamento di un fenomeno condizionatamente a un altro.

Sulla tabella a doppia entrata si possono leggere diversi tipi di informazioni:

 Il comportamento congiunto (bivariato) di 𝑋 e 𝑌 si legge all’interno della tabella sulla variabile

statistica doppia mediante le frequenze congiunte 𝑓

𝑖𝑗

 Il comportamento monovariato di 𝑋 e 𝑌 singolarmente considerati si legge sulla riga e sulla colonna

marginali della tabella, sulle v.s. marginali mediante le frequenze marginali 𝑓

𝑖.

di 𝑋 e 𝑓

.𝑗

di 𝑌.

 Il comportamento di un fenomeno condizionatamente all’altro si legge sulle righe o sulle colonne

separatamente, considerando le v.s. condizionate mediante la costruzione delle frequenze

condizionate.

Il fenomeno condizionante viene anche chiamato: variabile esplicativa, variabile indipendente, regressore,

predittore. Il fenomeno condizionato viene anche chiamato: variabile di risposta, variabile dipendente.

CAPITOLO 10, INDIPENDENZA, CONNESSIONE E ASSOCIAZIONE

Indipendenza statistica

Se fra 𝑋 e 𝑌 non esiste alcuna relazione statistica, allora 𝑋 e 𝑌 sono statisticamente indipendenti; per

capirlo bisogna confrontare le frequenze condizionate che informano sul comportamento di un fenomeno

condizionatamente alle modalità dell’altro con le frequenze marginali, che invece informano sul

comportamento dei due fenomeni indipendentemente uno dall’altro.

  • Le frequenze marginali si riferiscono all’intera unità 𝑈 di numerosità 𝑁
  • Le frequenze condizionate si riferiscono a sotto-popolazioni di numerosità 𝑓 𝑖.

(se guardiamo alle righe

𝑖

) o di numerosità 𝑓

.𝑗

(se guardiamo alle colonne 𝑋|𝑦

.𝑗

  • Il confronto è possibile solo fra frequenze relative; le frequenze condizionate sono già relative mentre

le frequenze marginali assolute, per diventare relative, devono solo essere divise per 𝑁.

Se tutte le 𝑘 serie di frequenze condizionate

𝑓 𝑖𝑗

𝑓

𝑖.

sono uguali fra loro e uguali alla marginale (relativa)

𝑓 .𝑗

𝑁

significa che, sia condizionatamente alle 𝑘 modalità 𝑥

𝑖

di 𝑋 sia marginalmente (indipendentemente da 𝑋), 𝑌

si comporta nella stessa maniera → cioè 𝑋 e 𝑌 sono statisticamente indipendenti, non c’è nessuna

relazione statistica/non c’è nessuna relazione statisticamente rilevabile.

Condizione di indipendenza statistica

𝑖𝑗

𝑖.

.𝑗

Sia marginalmente che condizionatamente per tutte le k modalità 𝑥 𝑖

, il fenomeno 𝑌 si comporta alla stessa

maniera (condizione che vale per tutti gli indici).

Moltiplicando entrambi i membri dell’uguaglianza per 𝑓 𝑖.

si ottengono le frequenze congiunte che

realizzano/rendono vera la condizione di indipendenza statistica → queste vengono chiamate frequenze

teoriche o attese di indipendenza statistica:

𝑖𝑗

𝑖.

.𝑗

A ogni tabella osservata si può accostare la corrispondente tabella teorica di indipendenza statistica → si

mantengono fisse le marginali e si sostituiscono le frequenze congiunte osservate con le frequenze teoriche

di indipendenza statistica; quando la condizione è verificata le due tabelle coincidono.

2

𝑖𝑗

2

𝑖.

.𝑗

𝑗= 1

𝑘

𝑖= 1

Indice di connessione normalizzato

Il valore assoluto dell’indice non consente la valutazione, non è interpretabile → c’è bisogno di una

normalizzazione: normalizzare un indice significa trasformarlo in un numero compreso nell’intervallo ( 0 , 1 )

in modo che, moltiplicato per 100, diventi una percentuale e diventi facilmente interpretabile. Un indice

come 𝜒

2

(chi quadrato) assume valore minimo 0 lo si normalizza rapportandolo al/dividendolo per il suo

valore massimo. Il valore massimo del chi quadrato è il valore che l’indice assumerebbe in caso di una

relazione statistica perfetta in cui è sufficiente conoscere il comportamento di un fenomeno per sapere già

tutto del comportamento dell’altro.

Valore massimo di 𝜒

2

 è il valore pari a 𝑁 moltiplicato per il più piccolo fra il numero delle righe 𝑘 e il

numero delle colonne ℎ meno 1:

𝑁 × min{𝑘 − 1 , ℎ − 1 }

Poi:

Indice di connessione normalizzato

2

𝑁 × min {𝑘 − 1 , ℎ − 1 }

con il numeratore chi quadrato calcolato sulla tabella osservata

Il 𝜒

2

normalizzato è sempre compreso fra 0 e 1 e moltiplicato per 100 è interpretabile come percentuale di

connessione → questa permette la valutazione della connessione (tanta o poca) compatibilmente agli

interrogativi di ricerca.

Associazione locale → relazione di tipo locale fra singole coppie o modalità 𝑥 𝑖

e 𝑦

𝑖

Connessione = associazione globale fra tutte le 𝑘 modalità di 𝑋 e le ℎ modalità di 𝑌

Odds e Odds Ratio

Quando fra due fenomeni categoriali dicotomici uno è scelto come condizionante, le modalità dell’altro

fenomeno (condizionato) sono tipicamente indicate con i termini successo e insuccesso; si identifica come

successo la modalità che più interessa ai fini dell’analisi statistica e come insuccesso la modalità contraria.

Scegliamo X come fenomeno condizionante, fissiamo l’attenzione sulle righe della tabella (v.s. condizionate

1

(prima riga) e 𝑌|𝑥

2

(seconda riga) → scegliendo il fenomeno condizionante abbiamo dato un verso

all’associazione. Le frequenze congiunte lette per riga sono interpretabili come casi favorevoli al successo e

all’insuccesso il che permette di chiedersi se 𝑥 1

favorisca o meno il successo.

Odds → il rapporto (divisione) fra casi favorevoli

Si fa il rapporto per ciascuna delle sotto-popolazioni definite dalle modalità del fenomeno condizionante,

cioè uno per ciascuna riga. Gli Odds sono sempre positivi e possono risultare maggiori o minori di 1. Un

rapporto è maggiore di 1 se il numeratore è più grande del denominatore e viceversa quando è minore di 1.

𝑂𝑑𝑑𝑠 > 1 significa che i casi favorevoli al successo superano quelli favorevoli all’insuccesso e viceversa

per 𝑂𝑑𝑑𝑠 < 1 dove i casi sfavorevoli al successo superano quelli favorevoli. Gli Odds informano sul rischio

di successo relativamente all’insuccesso in ciascuna delle sottopopolazioni di interesse. Sono anche

chiamati rischio relativo/relative risk.

Il rapporto fra due Odds è noto con il termine Odds Ratio ; è anche detto rapporto dei prodotti incrociati:

1

2

11

12

21

22

11

22

12

21

L’ Odds Ratio è interpretabile come misura di associazione nella coppia di modalità in posizione

nella

tabella. È inoltre sempre positivo e maggiore o minore di 1. Quanto più è lontano da 1 (molto più grande di

1 o molto vicino a 0) tanto più forte è l’associazione nella coppia di modalità in posizione

. Viceversa

quando il risultato risulta vicino all’unità significa che è assente l’associazione in quella coppia di modalità.

Odds Ratio è legato all’indice di associazione Yule

CAPITOLO 11, INDIPENDENZA E CORRELAZIONE

Quando almeno uno dei due fenomeni congiuntamente osservati sulla popolazione è quantitativo è

possibile aumentare il livello di analisi introducendo relazioni e strumenti statistici più raffinati (che

impiegano frequenze e modalità) → è possibile dare un senso alla relazione, cioè stabilire se e quando 𝑋

influenza 𝑌 o viceversa. Se entrambi i fenomeni sono quantitativi e quindi l’intera variabile statistica doppia

è numerica è possibile esplorare ancora più nel dettaglio natura e tipologia della sua relazione.

Medie e varianze marginali e condizionate

𝑌 quantitativo, 𝑋 qualunque

𝑋 e 𝑌 connessi