











































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Dispende demografia internazionale con i riassunti dei due libri da leggere
Tipologia: Dispense
1 / 51
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!












































La statistica è un insieme di metodi induttivi finalizzati allo studio dei fenomeni scientifici collettivamente tipici, con l’obiettivo di metterne in evidenza le regolarità e favorirne la prevedibilità. Essa non è una scienza autonoma, ma uno strumento metodologico al servizio di tutte le scienze che studiano fenomeni osservabili e misurabili. La sua funzione principale consiste nel raccogliere, organizzare e analizzare i dati per trarre conclusioni generali a partire dall’osservazione di casi particolari.
I fenomeni oggetto di studio della statistica possono essere individuali o collettivi. Un fenomeno individuale riguarda il singolo evento, come la nascita di un bambino, mentre un fenomeno collettivo riguarda una popolazione, come la natalità. Possono inoltre essere fenomeni tipici o regolari, quando presentano andamenti costanti nel tempo, oppure atipici o irregolari. Infine, possono essere scientifici o non scientifici. Un fenomeno è scientifico quando è misurabile, descrivibile, riproducibile e prevedibile; la sua scientificità dipende spesso dall’esistenza di strumenti adeguati di misurazione. Fenomeni che a livello individuale appaiono casuali possono, se osservati collettivamente, mostrare regolarità statistiche.
La statistica utilizza prevalentemente il ragionamento induttivo. Il ragionamento deduttivo procede dal generale al particolare, mentre quello induttivo parte dall’osservazione di casi particolari per formulare affermazioni generali. La statistica, basandosi sull’induzione, analizza le differenze e le somiglianze tra i dati osservati per individuare leggi generali. Il compito dello statistico è quindi quello di rilevare i dati, classificarli e ordinarli in modo da rendere evidenti le regolarità collettive dei fenomeni studiati.
Gli elementi fondamentali della statistica sono la popolazione statistica, le unità statistiche e le variabili. La popolazione statistica è l’insieme delle unità oggetto di studio e deve essere definita in modo preciso, così da stabilire con chiarezza se un’unità appartiene o meno alla popolazione. Le unità statistiche sono i singoli elementi che compongono la popolazione. La variabile statistica rappresenta la caratteristica di interesse che si intende osservare sulla popolazione, come l’età, la statura o il voto a un esame. Ogni variabile assume specifiche modalità o manifestazioni, che corrispondono ai valori osservati della variabile sulle diverse unità statistiche.
In molti casi, osservare l’intera popolazione non è possibile perché troppo vasta, complessa o costosa. In queste situazioni si ricorre a un campione, cioè a un sottoinsieme della popolazione. Attraverso il campione, e mediante il calcolo delle probabilità, si possono ottenere informazioni sull’intera popolazione. Affinché ciò sia possibile, il campione deve essere statisticamente rappresentativo, cioè una “miniatura” della popolazione, in cui siano rispettate le stesse proporzioni delle caratteristiche rilevanti. La rappresentatività è garantita dalla selezione casuale delle unità statistiche. Più la popolazione è eterogenea, maggiore deve essere la dimensione del campione.
La fase di rilevazione dei dati è centrale nel processo statistico. Rilevare significa raccogliere informazioni per misurare le variabili statistiche. Le rilevazioni possono essere continue,
quando registrano gli eventi nel momento in cui si verificano, come le nascite o i voti d’esame; a intervalli regolari, quando sono effettuate periodicamente, come le rilevazioni ISTAT; oppure episodiche, quando sono indagini condotte ad hoc per analizzare uno specifico fenomeno, in modo trasversale o longitudinale.
Uno degli strumenti più utilizzati per la rilevazione dei dati è il questionario. Nella costruzione di un questionario è fondamentale formulare le domande in modo che a ciascuna variabile possa essere attribuito un solo valore, evitando ambiguità e interpretazioni multiple. La qualità dei dati dipende in larga misura dalla chiarezza e dalla precisione delle domande poste.
Dal punto di vista matematico, lo strumento essenziale introdotto nel corso è l’operatore di sommatoria, indicato con il simbolo ∑. Esso consente di rappresentare la somma di una serie di valori indicizzati, come X₁, X₂, …, X . La sommatoria permette di semplificare il linguaggio matematico e di operare su grandi quantità di dati. Vengono inoltre illustrate le principali proprietà della sommatoria, come la possibilità di portare una costante fuori dalla sommatoria, la somma delle sommatorie e il fatto che la sommatoria del prodotto di due variabili non coincide con il prodotto delle loro sommatorie.
La lezione si conclude con una serie di esercizi applicativi, finalizzati a consolidare la comprensione dei concetti di popolazione statistica, unità statistica, variabile e modalità, e a sviluppare la capacità di riconoscere correttamente questi elementi in situazioni concrete.
Nel complesso, la statistica viene presentata come uno strumento indispensabile per l’analisi dei fenomeni sociali e demografici, capace di trasformare l’apparente casualità degli eventi individuali in regolarità collettive osservabili e interpretabili scientificamente.
La misurazione delle variabili rappresenta un passaggio fondamentale nell’analisi statistica, poiché consente di tradurre fenomeni complessi in informazioni osservabili e confrontabili. Per misurare correttamente le variabili è necessario disporre di strumenti flessibili, in grado di adattarsi alla natura del fenomeno studiato. Non tutte le variabili, infatti, possono essere misurate con lo stesso grado di precisione o raffinatezza: alcune consentono solo classificazioni qualitative, mentre altre permettono confronti numerici più sofisticati.
Per questo motivo, in statistica è opportuno classificare le variabili in base alle scale di misura. Esistono quattro scale fondamentali: nominale, ordinale, a intervallo e a rapporto. La differenza tra queste scale riguarda il tipo di informazioni che esse permettono di ricavare e le operazioni matematiche che è legittimo effettuare sui valori osservati.
La scala nominale è la forma più semplice di misurazione. Essa consente esclusivamente di classificare le unità statistiche in categorie diverse, senza alcun ordine intrinseco tra le modalità. Le variabili misurate su scala nominale sono qualitative e i valori assumono la funzione di etichette. Esempi tipici sono il sesso, la professione o la religione. Su queste
In molti casi, mantenere tutte le modalità elementari di una variabile quantitativa non è conveniente. Per questo motivo, i dati vengono raggruppati in classi , che possono avere ampiezza fissa o variabile. La scelta delle classi dipende dalle finalità dell’analisi e non deve essere fatta in modo arbitrario nella fase di rilevazione. Il raggruppamento consente di semplificare la distribuzione dei dati e di coglierne più facilmente le caratteristiche generali.
Un caso particolare è rappresentato dalla variabile età. Sebbene essa sia una variabile quantitativa continua misurata su scala a rapporto, nella pratica viene spesso rilevata in anni compiuti, introducendo un’operazione di approssimazione. Per questo motivo, è sempre preferibile rilevare la data di nascita, così da poter calcolare l’età con maggiore precisione quando necessario.
La lezione si conclude con una serie di esercizi applicativi, volti a consolidare la capacità di classificare correttamente le variabili, costruire distribuzioni di frequenza assolute, relative e cumulate, e scegliere il metodo di rappresentazione più adeguato in base alla natura dei dati. Attraverso questi strumenti, la statistica consente di trasformare l’osservazione grezza dei fenomeni in informazioni strutturate e interpretabili, ponendo le basi per analisi più avanzate.
Dopo aver classificato le variabili e costruito le distribuzioni di frequenza, il passo successivo dell’analisi statistica consiste nella rappresentazione dei dati. Rappresentare i dati significa tradurre le informazioni contenute nelle tabelle in forme grafiche o tabellari che consentano di cogliere più immediatamente le caratteristiche fondamentali di un fenomeno. La rappresentazione non altera i dati né li manipola, ma permette di mettere in evidenza aspetti che risultano meno evidenti nella semplice lettura numerica, come andamenti, differenze tra gruppi o eventuali valori anomali.
Il punto di partenza della rappresentazione dei dati è sempre la tabella statistica. Una tabella ben costruita deve essere chiara, completa e facilmente leggibile. Essa deve contenere un titolo esplicativo che indichi l’oggetto dell’analisi, la popolazione di riferimento, il luogo e l’anno dell’osservazione. È fondamentale utilizzare etichette comprensibili al posto di codici numerici, mantenere lo stesso numero di cifre decimali per tutti i valori, specificare l’unità di misura utilizzata e riportare i totali di riga e di colonna. Inoltre, quando necessario, la tabella deve includere note esplicative e la fonte dei dati, in modo che tutte le informazioni necessarie siano contenute al suo interno. Una tabella priva di questi elementi risulta ambigua e di difficile interpretazione.
Accanto alle tabelle, la statistica utilizza ampiamente le rappresentazioni grafiche , che presentano numerosi vantaggi. I grafici permettono di visualizzare immediatamente le caratteristiche principali di una distribuzione, facilitano il confronto tra più distribuzioni e rendono più intuitiva la comunicazione dei risultati. La scelta del tipo di grafico dipende dal fenomeno studiato, dal tipo di variabile e dalla tipologia di distribuzione di frequenza utilizzata. Qualunque rappresentazione grafica deve essere sempre accompagnata da un titolo chiaro e da una legenda che spieghi il significato dei simboli utilizzati.
Per le variabili qualitative , sia nominali sia ordinali, i grafici più utilizzati sono i diagrammi a barre e i diagrammi a torta. Nei diagrammi a barre, ogni modalità della variabile è rappresentata da un rettangolo di uguale ampiezza, mentre l’altezza del rettangolo è proporzionale alla frequenza, assoluta o relativa. Nel caso di variabili nominali, l’ordine delle modalità sull’asse orizzontale è convenzionale, mentre per le variabili ordinali la sequenza deve rispettare l’ordine logico delle modalità. I diagrammi a barre risultano particolarmente efficaci quando le modalità sono numerose o quando si vogliono confrontare più distribuzioni contemporaneamente.
I diagrammi a torta rappresentano invece le frequenze attraverso settori circolari la cui ampiezza è proporzionale al valore delle frequenze relative. La costruzione di un diagramma a torta si basa sulla trasformazione delle frequenze in angoli, calcolati in proporzione ai 360 gradi del cerchio. Questa rappresentazione è particolarmente adatta quando le modalità sono poche e le differenze tra le distribuzioni sono marcate. Nei confronti tra più diagrammi a torta è importante mantenere lo stesso punto di partenza dei settori, così da favorire la comparabilità visiva.
La scelta tra diagramma a barre e diagramma a torta non è neutrale. Il diagramma a barre consente di leggere con maggiore precisione le differenze tra le frequenze, soprattutto quando le modalità sono molte o simili tra loro, mentre il diagramma a torta è più efficace nel comunicare la composizione percentuale di un fenomeno in presenza di poche modalità ben differenziate.
Per le variabili quantitative la rappresentazione grafica più appropriata è l’ istogramma. A differenza dei diagrammi a barre, negli istogrammi non è l’altezza dei rettangoli a rappresentare direttamente le frequenze, ma la loro area. La base di ciascun rettangolo è proporzionale all’ampiezza della classe, mentre l’altezza è data dalla densità di frequenza , cioè dal rapporto tra la frequenza e l’ampiezza della classe. Questo accorgimento è necessario soprattutto quando le classi non hanno la stessa ampiezza, poiché consente di mantenere la corretta proporzionalità tra le frequenze rappresentate.
La densità di frequenza è un concetto fondamentale nella costruzione degli istogrammi. Essa si ottiene dividendo la frequenza, assoluta o relativa, per l’ampiezza della classe. Quando tutte le classi hanno la stessa ampiezza, l’altezza dei rettangoli coincide con la frequenza; quando invece le ampiezze sono diverse, solo l’uso della densità garantisce una rappresentazione corretta. Se l’istogramma è costruito utilizzando le frequenze assolute, l’area totale dei rettangoli corrisponde alla numerosità complessiva della popolazione.
A partire dagli istogrammi è possibile costruire i poligoni di densità , che si ottengono congiungendo i punti centrali delle basi superiori dei rettangoli. Questa rappresentazione è particolarmente utile quando si analizzano variabili continue e quando si vogliono confrontare più distribuzioni. I poligoni di densità permettono di osservare la forma della distribuzione, valutando il grado di variabilità e il livello di simmetria, e facilitano il confronto tra gruppi diversi, come nel caso della distribuzione di una variabile per maschi e femmine.
La lezione si conclude con esercizi applicativi che richiedono di calcolare l’ampiezza delle classi, costruire distribuzioni di frequenza relative, determinare le densità di frequenza e disegnare correttamente istogrammi e poligoni di densità. Attraverso queste attività, la rappresentazione dei dati si rivela uno strumento essenziale non solo per descrivere i
Per le variabili ordinali e per molte variabili quantitative è possibile utilizzare un indicatore di centralità più informativo: la mediana. La mediana è la modalità caratteristica dell’unità che, una volta ordinati i dati, lascia alla sua sinistra e alla sua destra lo stesso numero di unità statistiche. Essa individua quindi il valore che divide la distribuzione in due parti uguali.
Il calcolo della mediana dipende dalla numerosità della popolazione e dal tipo di dati. Quando i dati non sono raggruppati in classi e la numerosità è dispari, la mediana coincide con il valore che occupa la posizione centrale della serie ordinata. Se la numerosità è pari, nel caso di variabili quantitative la mediana è la media aritmetica dei due valori centrali, mentre per le variabili qualitative ordinali la mediana si colloca tra le due modalità centrali.
Quando i dati sono raggruppati in classi, la mediana si individua utilizzando le frequenze relative cumulate. La classe mediana è la prima classe in cui la frequenza cumulata supera il 50%. Se una frequenza cumulata è esattamente pari al 50%, il valore mediano si colloca a metà tra quella classe e la successiva. Una proprietà rilevante della mediana è la sua indipendenza dalle scelte arbitrarie del ricercatore nel raggruppamento dei dati: a differenza della moda, essa non è influenzata dalla diversa ampiezza delle classi. Inoltre, la mediana è insensibile ai valori estremi, caratteristica che la rende particolarmente utile in presenza di distribuzioni asimmetriche o con outlier.
La media aritmetica è l’indicatore di centralità più utilizzato per le variabili quantitative. Essa è calcolata facendo interagire la distribuzione delle frequenze con la scala di misura della variabile. Data una variabile quantitativa osservata su n unità statistiche, la media aritmetica è data dalla somma dei valori osservati divisa per la numerosità totale. Quando i dati sono disponibili sotto forma di distribuzione di frequenze assolute o relative, la media si calcola come media ponderata dei valori, utilizzando come pesi le frequenze.
Se i dati sono raggruppati in classi, il calcolo della media richiede l’utilizzo dei valori centrali delle classi , ottenuti come media aritmetica tra l’estremo inferiore e l’estremo superiore della classe. In questo caso, a differenza della mediana, la media è influenzata dalla scelta delle classi e dalla loro ampiezza. Per ridurre l’arbitrarietà, è sempre preferibile calcolare la media partendo dai dati originari o dalle distribuzioni di frequenze elementari.
La media aritmetica presenta diverse proprietà matematiche rilevanti. Essa è lineare rispetto alle trasformazioni dei dati, nel senso che la media di una variabile moltiplicata o sommata a una costante è uguale alla media originale trasformata nello stesso modo. Inoltre, la somma degli scarti dei singoli valori dalla media è sempre pari a zero. Un’altra proprietà importante riguarda il calcolo della media complessiva di più popolazioni: essa è una media ponderata delle medie delle singole popolazioni, con pesi pari alle rispettive numerosità.
Un caso particolare di applicazione riguarda il calcolo dell’ età media. Poiché l’età viene solitamente rilevata in anni compiuti, il calcolo diretto della media comporta un errore sistematico per difetto, pari in media a circa mezzo anno. Questo problema può essere corretto aggiungendo 0,5 anni alla media calcolata. L’errore risulta tanto più rilevante quanto più giovane è la popolazione considerata.
La scelta dell’indicatore di centralità più appropriato dipende dalla natura della variabile e dal significato che si vuole attribuire alla sintesi. Per le variabili nominali è possibile utilizzare solo la moda; per le variabili ordinali si possono usare moda e mediana; per le variabili
quantitative sono disponibili tutte e tre le misure. Tuttavia, la scelta non è neutrale. In presenza di forti disuguaglianze o valori estremi, la media può risultare fuorviante, mentre la mediana offre una rappresentazione più robusta della distribuzione. La moda, infine, fornisce informazioni sulla frequenza più comune, ma non sulla dispersione complessiva dei valori.
In conclusione, le misure di centralità rappresentano strumenti essenziali per sintetizzare i dati e interpretare correttamente i fenomeni osservati. Il loro uso consapevole consente di trasformare una distribuzione complessa in un’informazione significativa, evitando interpretazioni distorte e migliorando la qualità dell’analisi statistica.
Dopo aver introdotto gli indicatori di centralità, l’analisi statistica deve affrontare un limite fondamentale di tali misure. Moda, mediana e media aritmetica consentono di individuare un valore rappresentativo della distribuzione, ma non forniscono alcuna informazione su quanto i dati siano dispersi , eterogenei o concentrati attorno a quel valore. Distribuzioni molto diverse tra loro possono infatti avere la stessa media o la stessa mediana, pur presentando livelli di variabilità profondamente differenti. Per superare questo limite, la statistica introduce gli indicatori di variabilità , che rispondono all’esigenza conoscitiva di sintetizzare in un solo valore il grado di dispersione di una distribuzione di frequenza.
La costruzione degli indici di variabilità è strettamente legata alla scala di misura delle variabili. Non esiste un unico indicatore valido per ogni tipo di variabile: per le variabili qualitative nominali, ordinali e quantitative vengono utilizzate misure differenti, coerenti con le operazioni matematiche consentite dalla scala di misura. L’obiettivo comune è sempre quello di valutare quanto le unità statistiche differiscano tra loro rispetto alla variabile osservata.
Nel caso delle variabili qualitative , lo strumento di riferimento è l’ indice di Gini. Poiché su queste variabili non è possibile effettuare operazioni aritmetiche, l’indicatore deve basarsi esclusivamente sulle frequenze. L’indice di Gini soddisfa due proprietà fondamentali: assume valore minimo pari a zero quando tutte le unità statistiche sono concentrate in un’unica modalità, situazione di massima omogeneità; assume valore massimo quando tutte le modalità hanno la stessa frequenza, situazione di massima eterogeneità.
L’indice di Gini assoluto si costruisce confrontando a due a due tutte le unità statistiche della popolazione e verificando quante volte esse assumono valori diversi della variabile. Indicando con g il numero di confronti in cui le unità risultano diverse e con n² il numero totale di confronti possibili, l’indice è dato dal rapporto tra g e n². Operativamente, però, questo metodo risulta poco pratico per popolazioni numerose. È quindi possibile dimostrare che l’indice di Gini può essere calcolato in modo equivalente utilizzando le frequenze relative delle modalità: esso è pari a uno meno la somma dei quadrati delle frequenze relative. In questo modo il calcolo diventa più semplice e immediato.
Il valore massimo dell’indice di Gini dipende dal numero di modalità della variabile. Per rendere confrontabili distribuzioni con un numero diverso di modalità, si utilizza l’ indice di
massimo teorico. La varianza presenta inoltre importanti proprietà matematiche: se una variabile viene moltiplicata per una costante, la sua varianza viene moltiplicata per il quadrato della costante; se a una variabile si somma una costante, la varianza rimane invariata. Inoltre, nel caso di più popolazioni, la varianza totale può essere scomposta nella media delle varianze interne più la varianza delle medie.
Le lezioni si concludono con l’introduzione dei criteri di approssimazione , fondamentali per la corretta presentazione dei risultati statistici. Poiché i calcoli producono spesso numeri con molti decimali, è necessario adottare regole di arrotondamento coerenti. In generale, il numero di decimali da mantenere dipende dall’ordine di grandezza del valore osservato: più il numero è grande, meno decimali sono necessari. Questo principio consente di evitare una precisione apparente che non è giustificata dai dati di partenza.
Nel complesso, gli indicatori di variabilità completano l’analisi statistica descrittiva, permettendo di affiancare alla misura della tendenza centrale una valutazione rigorosa della dispersione dei dati. Solo considerando congiuntamente centralità e variabilità è possibile interpretare correttamente i fenomeni osservati e confrontare in modo significativo distribuzioni diverse.
Nel corso dell’analisi statistica, non sempre le variabili osservate sono sufficienti, così come vengono rilevate, a descrivere in modo efficace i fenomeni di interesse. In molti casi si rende necessario sottoporre le variabili statistiche originarie a operazioni di trasformazione e combinazione, dando origine a variabili statistiche complesse. Queste nuove variabili consentono di cogliere aspetti dinamici, comparativi o strutturali dei fenomeni che non emergono dall’osservazione diretta delle variabili semplici.
Le variabili complesse sono il risultato di manipolazioni che coinvolgono una o più variabili statistiche e, in alcuni casi, il loro ordinamento. Le unità statistiche possono infatti essere caratterizzate da un ordinamento dato a priori, come quello temporale o spaziale. In questi casi, la variabile complessa nasce dalla combinazione della variabile osservata con il suo ordinamento. Gli ordinamenti più rilevanti in ambito demografico e sociale sono quello temporale e quello territoriale.
Un esempio di ordinamento temporale è rappresentato da una variabile rilevata a intervalli di tempo regolari, come il numero di nati osservato anno per anno. Indicando con (X_t) il numero di nati nell’anno (t), è possibile costruire una nuova variabile (Y_t) che misura l’incremento annuo delle nascite, ottenuta come rapporto tra il valore osservato in un determinato anno e quello dell’anno precedente. In questo modo, la variabile complessa non descrive più un livello assoluto, ma una variazione nel tempo, fornendo informazioni sul ritmo di crescita o diminuzione del fenomeno.
Le variabili complesse possono anche derivare da operazioni tra più variabili o tra una variabile e una costante. In questi casi, l’obiettivo è sintetizzare in un unico indicatore il rapporto tra due grandezze. Un esempio tipico è il tasso di occupazione dei posti letto di un
ospedale, ottenuto dal rapporto tra il numero di letti occupati e il numero di letti disponibili. Un altro esempio è l’indice di massa corporea (BMI), calcolato come rapporto tra il peso espresso in chilogrammi e il quadrato dell’altezza espressa in metri. Tutte queste variabili complesse sono variabili quantitative a tutti gli effetti: possiedono una distribuzione di frequenza, possono essere rappresentate graficamente e sintetizzate mediante misure di centralità e di variabilità.
Quando una variabile viene rilevata in una successione di intervalli temporali di uguale ampiezza, essa genera una serie temporale. Le serie temporali consentono di studiare l’evoluzione di un fenomeno nel tempo e sono particolarmente utili per analizzare tendenze, cicli e variazioni congiunturali. La rappresentazione grafica di una serie temporale prevede il tempo sull’asse delle ascisse e i valori della variabile sull’asse delle ordinate, permettendo di visualizzare immediatamente l’andamento del fenomeno.
A partire da una serie temporale è possibile costruire i numeri indice temporali , che permettono di confrontare i valori osservati in periodi diversi rispetto a un riferimento comune. I numeri indice possono essere a base fissa o a base mobile. Nel caso dei numeri indice a base fissa, ciascun valore della serie è rapportato al valore osservato in un anno di riferimento, detto anno base. Nel caso dei numeri indice a base mobile, ciascun valore è rapportato al valore immediatamente precedente. Per rendere più agevole l’interpretazione, i numeri indice sono generalmente moltiplicati per 100. È possibile passare da una base fissa a una base mobile e viceversa mediante apposite relazioni matematiche, che consentono di ricostruire l’andamento complessivo della serie.
Un esempio significativo è rappresentato dall’andamento dell’aspettativa di vita osservata a intervalli regolari di tempo. Attraverso i numeri indice a base fissa è possibile valutare l’incremento complessivo rispetto a un anno iniziale, mentre i numeri indice a base mobile consentono di osservare le variazioni tra un periodo e il successivo, evidenziando eventuali accelerazioni o rallentamenti nel miglioramento delle condizioni di vita.
Oltre all’ordinamento temporale, un ruolo fondamentale è svolto dall’ ordinamento spaziale. Quando una o più variabili sono rilevate su unità territoriali, come comuni, province o regioni, si ottengono serie territoriali. In questo caso, l’informazione aggiuntiva non è data dal tempo, ma dalla posizione geografica delle unità statistiche. La rappresentazione più efficace delle serie territoriali è costituita dai cartogrammi , che consentono di visualizzare la distribuzione spaziale di un fenomeno e di cogliere immediatamente concentrazioni, squilibri e differenze territoriali. Nei cartogrammi, la prossimità o la distanza tra le unità territoriali diventa un elemento informativo essenziale per l’interpretazione dei dati.
Le variabili statistiche complesse possono anche derivare dalla composizione di più variabili al fine di costruire indicatori sintetici di particolare rilevanza demografica e sociale. Tra questi rientrano l’indice di vecchiaia, calcolato come rapporto tra il numero di individui con più di 64 anni e il numero di individui con meno di 16 anni; il tasso di scolarità, dato dal rapporto tra il numero di studenti e la popolazione complessiva; il rapporto di mascolinità, o sex ratio, che misura il rapporto tra maschi e femmine; e il tasso di bocciatura, che mette in relazione il numero di studenti che superano un esame con il numero di studenti iscritti.
Questi indicatori permettono di confrontare popolazioni diverse e di analizzare l’evoluzione di fenomeni complessi in modo sintetico ed efficace. Tuttavia, è fondamentale ricordare che
variabile di colonna condizionata a ciascuna modalità della variabile di riga, mentre le distribuzioni condizionate di colonna mostrano la distribuzione della variabile di riga condizionata alle modalità della variabile di colonna. Dividendo le frequenze congiunte per il totale di riga o di colonna si ottengono le distribuzioni condizionate relative , che permettono confronti più immediati e significativi.
Accanto alle distribuzioni condizionate, la tabella a doppia entrata consente di individuare le distribuzioni marginali , che descrivono la distribuzione di ciascuna variabile indipendentemente dall’altra. Le distribuzioni marginali assolute si trovano nella riga e nella colonna dei totali, mentre le distribuzioni marginali relative si ottengono dividendo tali totali per la numerosità complessiva della popolazione. Le distribuzioni marginali rappresentano il punto di riferimento fondamentale per valutare l’eventuale associazione tra le due variabili.
Dal punto di vista concettuale, due variabili sono considerate dipendenti quando al variare dell’una la distribuzione dell’altra si modifica. Al contrario, due variabili sono indipendenti quando la distribuzione di una rimane invariata al variare dell’altra. In termini rigorosi, l’indipendenza statistica si verifica quando, per ogni modalità, la distribuzione relativa marginale coincide con tutte le distribuzioni relative condizionate. Se questa condizione non è soddisfatta, allora le variabili risultano associate.
Una volta accertata l’esistenza di un’associazione, è necessario misurarne l’intensità. Quando almeno una delle due variabili è misurata su scala nominale, l’indicatore di riferimento è il χ² (chi quadrato) di Pearson. Il chi quadrato misura la distanza tra la distribuzione osservata e quella che si avrebbe in caso di indipendenza tra le variabili. Se le variabili sono indipendenti, il valore del χ² è pari a zero; quanto più il valore si discosta da zero, tanto più forte è l’associazione tra le variabili.
Il calcolo del χ² si basa sul confronto tra le frequenze osservate nella tabella a doppia entrata e le frequenze teoriche che si otterrebbero in una situazione di indipendenza. Per ciascuna cella si calcola la differenza tra frequenza osservata e frequenza teorica, si eleva al quadrato tale differenza e la si divide per la frequenza teorica. Il χ² è dato dalla somma di questi valori su tutte le celle della tabella. Questa procedura assegna lo stesso peso a tutte le celle, indipendentemente dalla loro posizione.
Nel caso particolare di una tabella 2×2 , il calcolo del χ² può essere semplificato utilizzando una formula specifica che coinvolge le frequenze delle quattro celle e i totali di riga e di colonna. In questo caso è possibile distinguere tra χ² assoluto e χ² relativo. Il χ² assoluto dipende dalla numerosità della popolazione osservata, mentre il χ² relativo si ottiene dividendo il valore del χ² assoluto per la numerosità totale. Il χ² relativo consente quindi di confrontare il grado di associazione tra coppie di variabili osservate su popolazioni di dimensioni diverse.
L’analisi dell’associazione statistica tra due variabili richiede sempre un’interpretazione attenta dei risultati. Un valore elevato di χ² indica una forte associazione, ma non implica necessariamente un rapporto di causalità. Inoltre, l’associazione può essere influenzata dalla presenza di variabili non osservate, dando luogo a relazioni spurie. Per questo motivo, l’analisi bivariata rappresenta uno strumento descrittivo fondamentale, ma deve essere sempre inserita in un quadro teorico e interpretativo più ampio.
In conclusione, lo studio dell’associazione tra due variabili consente di comprendere se e come due fenomeni siano collegati, fornendo strumenti rigorosi per descrivere le relazioni empiriche osservate nei dati. Attraverso le tabelle a doppia entrata, le distribuzioni condizionate e marginali e l’indice χ², la statistica offre un metodo sistematico per analizzare le interdipendenze tra fenomeni sociali, demografici ed economici.
La simulazione d’esame proposta in questa lezione ha l’obiettivo di verificare la comprensione dei principali concetti di statistica di base affrontati nel corso, attraverso domande che richiedono non solo il calcolo corretto, ma soprattutto la capacità di riconoscere il tipo di variabile, l’indicatore appropriato e il metodo di analisi adeguato.
La prima domanda riguarda la tipologia delle variabili. Nel contesto della scheda di dimissione ospedaliera vengono rilevate diverse informazioni, tra cui il sesso del paziente. Il sesso non è una variabile numerica e non consente alcuna operazione aritmetica significativa; serve esclusivamente a classificare gli individui in categorie. Per questo motivo si tratta di una variabile qualitativa nominale , e non di una variabile discreta o continua. La distinzione tra variabili qualitative e quantitative è preliminare a qualsiasi analisi statistica corretta.
La seconda domanda riguarda l’uso della sommatoria. Data un’espressione che contiene una sommatoria applicata alla somma di due variabili, occorre ricordare le proprietà fondamentali dell’operatore di sommatoria. In particolare, la sommatoria è distributiva rispetto all’addizione: la sommatoria di una somma è uguale alla somma delle sommatorie. Di conseguenza, un’espressione del tipo ∑(Xi + Yi) equivale a ∑Xi + ∑Yi. Questo tipo di esercizio verifica la capacità di manipolare correttamente le formule, evitando errori formali che compromettono i risultati successivi.
La terza domanda riguarda l’individuazione della moda in una distribuzione di età raggruppate in classi. In questo caso, non è sufficiente guardare alla frequenza assoluta più elevata, ma è necessario considerare che le classi hanno ampiezze diverse. Quando le classi non sono omogenee, la classe modale non è quella con la frequenza più alta, bensì quella con la densità più elevata , cioè il rapporto tra la frequenza e l’ampiezza della classe. Questo passaggio è cruciale per evitare errori concettuali molto frequenti negli esami.
La quarta domanda approfondisce proprio il concetto di densità di frequenza. Anche in questo caso, per individuare la classe con densità più elevata è necessario calcolare la densità per ciascuna classe e confrontarne i valori. La densità consente di confrontare correttamente classi di ampiezza diversa e rappresenta l’unico criterio corretto per l’analisi delle distribuzioni quantitative continue raggruppate.
La quinta domanda riguarda la mediana. Per individuare la classe mediana è necessario calcolare la frequenza cumulata e individuare la classe in cui viene superato il 50% delle osservazioni. Non conta il valore numerico della frequenza in sé, ma la posizione delle
La simulazione d’esame extra riprende e approfondisce i principali contenuti della statistica di base, con l’obiettivo di allenare lo studente a riconoscere correttamente il tipo di variabile, l’indicatore adeguato e il procedimento corretto di analisi. Le domande proposte seguono una progressione logica che va dalla classificazione delle variabili fino all’analisi dell’associazione statistica.
La prima domanda riguarda ancora una volta la tipologia delle variabili. Agli studenti iscritti a un corso di laurea viene chiesto di indicare la motivazione prevalente della scelta del corso e il numero di corsi di laurea presi in considerazione. La motivazione prevalente è una variabile qualitativa nominale , perché descrive categorie prive di un ordine naturale. Al contrario, il numero di corsi di laurea presi in considerazione è una variabile quantitativa discreta , in quanto esprime un conteggio e può assumere solo valori interi. La corretta classificazione delle variabili è fondamentale perché determina quali strumenti statistici possano essere utilizzati nelle analisi successive.
La seconda domanda riguarda la sommatoria e verifica la conoscenza delle sue proprietà formali. In presenza di una sommatoria applicata a un’espressione che contiene una variabile e una costante, è necessario ricordare che la sommatoria è distributiva rispetto all’addizione e che una costante può essere portata fuori dalla sommatoria. Di conseguenza, un’espressione del tipo ∑(Xi + cYi) può essere riscritta come ∑Xi + c∑Yi. Questo tipo di esercizio serve a evitare errori formali che, in un contesto d’esame, portano spesso a risultati errati anche quando il ragionamento concettuale è corretto.
La terza domanda riguarda l’individuazione della classe modale in una distribuzione di età. In questo caso le classi hanno ampiezze diverse, per cui la moda non può essere individuata semplicemente osservando la frequenza assoluta più elevata. È necessario invece considerare la densità di frequenza , che tiene conto del rapporto tra la frequenza e l’ampiezza della classe. La classe modale è quindi quella con densità maggiore, non necessariamente quella con il numero più alto di osservazioni in valore assoluto. Questo passaggio è essenziale per un corretto uso della moda nelle distribuzioni quantitative raggruppate.
La quarta domanda riguarda la mediana. Per individuarla è necessario ordinare i dati e individuare il valore che occupa la posizione centrale. Nel caso di una numerosità dispari, la mediana coincide con il valore che lascia lo stesso numero di osservazioni alla sua sinistra e alla sua destra. Questo esercizio verifica la capacità di distinguere tra valore numerico e posizione nella distribuzione, evitando l’errore di confondere la mediana con la media o con il valore massimo.
La quinta domanda richiede il calcolo dell’ età media di un gruppo di studenti. In questo caso, la media aritmetica viene calcolata sommando tutte le età e dividendo per il numero totale di studenti. Tuttavia, poiché l’età è rilevata in anni compiuti, è necessario tenere conto dell’errore sistematico che deriva da questa approssimazione. Come visto a lezione, per ottenere una stima più accurata dell’età media reale è opportuno aggiungere 0,5 anni alla media calcolata. Questo dettaglio mostra come il calcolo statistico non sia mai puramente meccanico, ma richieda sempre una riflessione sul significato dei dati.
La sesta domanda riguarda lo scarto interquartile. Questo indicatore di variabilità può essere calcolato solo per variabili quantitative o ordinali, poiché richiede l’ordinamento delle
osservazioni. Nel contesto della scheda di dimissione ospedaliera, lo scarto interquartile è quindi calcolabile per l’età e per il numero di notti trascorse in ospedale, ma non per variabili qualitative come il sesso o l’esito del ricovero. La domanda verifica la capacità di collegare correttamente l’indicatore statistico alla scala di misura della variabile.
La settima domanda riguarda il campo di variazione , definito come la differenza tra il valore massimo e il valore minimo osservato. Per individuare la popolazione con il campo di variazione più elevato è sufficiente confrontare l’estremo massimo e l’estremo minimo di ciascun insieme di dati. Questa misura, pur essendo semplice, evidenzia solo l’ampiezza complessiva della distribuzione e non fornisce informazioni sulla distribuzione interna dei valori.
L’ottava domanda riguarda il calcolo della varianza di una variabile quantitativa. Per calcolarla è necessario determinare la media, calcolare gli scarti dei singoli valori dalla media, elevarli al quadrato e fare la media di questi scarti quadratici. In alternativa, si può utilizzare la formula equivalente che prevede la media dei quadrati meno il quadrato della media. Il risultato finale misura quanto, mediamente, i valori si discostano dalla media e rappresenta uno degli indicatori di variabilità più utilizzati.
La nona domanda riguarda il concetto di associazione e dipendenza statistica. Fissate le distribuzioni marginali, la situazione di massima dipendenza si verifica quando le modalità delle due variabili sono perfettamente allineate, cioè quando a ciascuna modalità di una variabile corrisponde sempre la stessa modalità dell’altra. In questo caso, le distribuzioni condizionate sono massimamente diverse dalle distribuzioni marginali, segnalando un forte legame tra le variabili.
L’ultima domanda riguarda il calcolo del χ² assoluto. Il procedimento richiede il confronto tra frequenze osservate e frequenze teoriche sotto l’ipotesi di indipendenza. Le frequenze teoriche si ottengono moltiplicando i totali di riga per i totali di colonna e dividendo per il totale complessivo. Il χ² assoluto è dato dalla somma, su tutte le celle, dei rapporti tra il quadrato della differenza tra frequenza osservata e teorica e la frequenza teorica. Il valore ottenuto misura l’intensità dell’associazione tra le due variabili, ma non indica né la direzione dell’associazione né un rapporto di causalità.
Nel complesso, questa simulazione extra rappresenta un esercizio completo di ripasso, che permette di consolidare le competenze necessarie per affrontare la prova d’esame in modo consapevole. Le domande richiedono di saper riconoscere il problema statistico, scegliere lo strumento corretto e interpretare il risultato alla luce del significato dei dati, andando oltre la semplice applicazione meccanica delle formule.
Il tempo utilizzato per la riproduzione è determinato dall’inizio e dalla fine del periodo fertile, dall’età al matrimonio e dalla durata delle unioni riproduttive. Storicamente, l’età al matrimonio era più bassa e la durata delle unioni più lunga, aumentando il potenziale riproduttivo. Anche fattori biologici come l’età alla pubertà e l’età alla menopausa mostrano variazioni legate alle condizioni ambientali e nutrizionali, come evidenziato dai dati comparativi tra diverse popolazioni.
La frequenza delle nascite dipende in larga misura dall’intervallo tra i parti. Questo intervallo è influenzato dal periodo di infecondabilità post-partum, strettamente legato alla durata dell’allattamento, dal tempo medio di attesa per una nuova gravidanza, dalla durata della gestazione e dalla mortalità intrauterina. Nelle popolazioni tradizionali, l’intervallo medio tra i parti varia generalmente tra i due e i tre anni, limitando naturalmente il numero di figli per donna.
Questi fattori vengono sistematizzati nel modello di Bongaarts e Menken , che analizza l’effetto delle variabili intermedie sul numero medio di figli per donna. Partendo da un numero biologicamente massimo di figli teoricamente possibili, il modello mostra come l’età al matrimonio, la durata dell’amenorrea post-partum, il tempo di attesa tra una gravidanza e l’altra, l’età all’ultima nascita e la mortalità intrauterina riducano o aumentino la fecondità effettiva. Attraverso questo modello è possibile spiegare perché popolazioni diverse, pur in assenza di contraccezione, presentino livelli di fecondità molto differenti.
Un caso emblematico analizzato nella lezione è quello dei Canadesi Francesi del Québec. A partire dal XVII secolo, piccoli gruppi di coloni francesi, giovani e insediati in territori vasti e ricchi di risorse, mostrarono livelli di fecondità eccezionalmente elevati. Le condizioni ambientali favorevoli, il basso rischio di malattie e la disponibilità di terra permisero una rapida crescita demografica, con raddoppi della popolazione nel giro di una generazione. Le testimonianze storiche, come quelle di Adam Smith, sottolineano come in quel contesto i figli rappresentassero una risorsa economica e sociale, incentivando matrimoni precoci e famiglie numerose.
Il confronto tra i pionieri canadesi e la popolazione francese rimasta in Europa mostra comportamenti demografici differenziali: età al matrimonio più bassa, intervalli tra i parti più brevi, maggiore probabilità di seconde nozze e una speranza di vita più elevata nei contesti coloniali. Ciò dimostra come lo spazio della crescita demografica , inteso come insieme delle condizioni ambientali, economiche e sociali, influenzi profondamente le dinamiche riproduttive.
In contesti opposti, come quello dell’Italia preindustriale, la crescita demografica era spesso limitata. L’esempio di Fiesole nel Seicento mostra come, nonostante più generazioni e matrimoni, la popolazione potesse diminuire a causa di elevata mortalità e risorse limitate. Questo evidenzia il concetto di capacità di crescita di una popolazione , che dipende sia dal numero di nascite sia dall’intensità della mortalità.
Due indicatori sintetizzano questi aspetti: il Tasso di Fecondità Totale (TFT) , che misura il numero medio di figli per donna nel corso della vita riproduttiva, e la speranza di vita alla nascita (e ₀ ) , che indica la durata media della vita di una generazione di nati. L’equilibrio tra questi due indicatori determina la crescita, la stabilità o il declino di una popolazione.
In conclusione, la lezione mostra come la crescita demografica non sia il risultato di leggi naturali immutabili, ma il prodotto dell’interazione tra fattori biologici, ambientali, sociali e storici. Comprendere le strategie della crescita demografica significa quindi comprendere il rapporto dinamico tra popolazione, spazio e risorse nel lungo periodo.
Misure di fecondità e mortalità e sviluppo demografico
La seconda lezione di Storia minima approfondisce il concetto di sviluppo demografico , concentrandosi sugli strumenti utilizzati per misurare fecondità e mortalità, sulla struttura per età delle popolazioni e sull’interazione tra questi elementi nel determinare la crescita o il declino demografico. La demografia non si limita a contare gli individui, ma analizza i processi che regolano il ricambio generazionale e la sopravvivenza delle popolazioni nel tempo.
Il primo tema affrontato riguarda le misure della fecondità. La fecondità indica il livello di riproduzione di una popolazione e può essere misurata attraverso diversi indicatori, che differiscono per precisione e significato. La misura più semplice è il tasso generico di natalità , che esprime il numero di nati in un determinato periodo rapportato alla popolazione media dello stesso periodo, generalmente moltiplicato per mille. Questo indicatore consente confronti immediati tra contesti diversi, ma presenta un limite fondamentale: include nel denominatore individui che non sono biologicamente in grado di avere figli, come bambini e anziani, rendendo la misura poco precisa dal punto di vista demografico.
Per superare questo limite si utilizzano misure più raffinate, come il tasso di fecondità specifico per età. Questo tasso mette in relazione il numero di nati da donne di una determinata età con la popolazione femminile della stessa età. In questo modo si ottiene una misura che coglie direttamente il comportamento riproduttivo delle donne lungo il ciclo della vita feconda, convenzionalmente compresa tra i 15 e i 49 anni. L’analisi dei tassi specifici per età permette di osservare come la fecondità si distribuisca nelle diverse fasi della vita e come questo profilo cambi nel tempo e tra paesi diversi.
Sommando tutti i tassi di fecondità specifici per età si ottiene il Tasso di Fecondità Totale (TFT) , che rappresenta il numero medio di figli che una donna avrebbe nel corso della vita riproduttiva se fosse esposta, a ogni età, ai tassi osservati in un dato periodo. Il TFT è uno degli indicatori centrali della demografia, poiché consente di confrontare direttamente il livello di fecondità tra popolazioni e periodi storici differenti. Valori elevati di TFT indicano popolazioni ad alta fecondità, mentre valori inferiori a circa 2,1 figli per donna segnalano una fecondità insufficiente a garantire il ricambio generazionale in assenza di migrazioni.
Il confronto tra il TFT dell’Italia alla fine degli anni Cinquanta e quello degli anni Duemila mostra una trasformazione profonda del comportamento riproduttivo, con il passaggio da un modello di fecondità elevata e concentrata nelle età giovani a un modello di fecondità bassa e posticipata. Analisi analoghe a livello mondiale evidenziano come la maggior parte dei