Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


appunti statistica m2, Appunti di Statistica

appunti statistica m2 anno 2025/2026

Tipologia: Appunti

2025/2026

Caricato il 29/05/2026

sv00
sv00 🇮🇹

4

(1)

5 documenti

1 / 157

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CAPITOLO 2
1. Tipi di variabili e analisi statistica (riscrittura spiegata, completa)
Quando si passa dalla raccolta dei dati alla loro analisi, cambia un po’ il “protagonista”
della ricerca. Durante la raccolta, di solito pensi alle persone intervistate (o ai “casi”
studiati). Quando inizi ad analizzare, invece, ti accorgi che a guidare tutto sono le
variabili, perché l’analisi dei dati significa, in pratica, “che cosa posso fare con questi
valori?” e “che strumenti hanno senso su questo tipo di informazione?”. Il libro insiste su
una cosa: la scelta degli strumenti statistici non è libera, dipende dalle caratteristiche
logico-matematiche della variabile.
Ed è qui che entra la classificazione fondamentale: le variabili non si distinguono perché
“sono parole” o “sono numeri” e basta, ma perché permettono operazioni diverse. In
altre parole: la domanda vera non è “che forma ha il dato?”, ma “che cosa posso fare
correttamente con questo dato, senza dire sciocchezze?”.
I tre tipi principali: nominale, ordinale, cardinale
Qui l’elenco serve, perché il capitolo sta proprio costruendo tre “scalini” (e poi ti farà
vedere che gli scalini sono
cumulativi
).
1) Variabile nominale
È la variabile che nasce da un’operazione di classificazione: prendi una proprietà
(religione, professione, partito votato…) e la “spacchetti” in categorie. Le categorie
possono anche essere codificate con numeri (per comodità), ma quei numeri sono
etichette, non quantità. Se io scrivo 1=cattolico, 2=protestante, 3=ebreo,
4=musulmano, il “4” non significa che uno è “più religioso” di uno “3”. Sono numeri-
arbitrari usati come nomi.
Quali relazioni sono ammesse? Fondamentalmente solo: uguale/diverso. Posso dire
“queste due persone sono uguali rispetto alla religione” (entrambi cattolici) oppure “sono
diverse” (uno cattolico e uno protestante). Fine.
2) Variabile ordinale
Nasce da un’operazione di ordinamento: le categorie non solo sono diverse, ma sono
disposte in una graduatoria. Esempio tipico: “molto insoddisfatto, poco, soddisfatto,
molto soddisfatto”. Se assegni 1,2,3,4, quei numeri mantengono il senso di ordine (3 è
“più” di 2), ma attenzione: non ti dicono quanto è grande la distanza tra 2 e 3.
Qui, oltre a uguale/diverso, hai anche relazioni di maggiore/minore (ordine), ma non
puoi affermare che tra i valori esistano distanze misurabili come nei numeri veri.
3) Variabile cardinale (o quantitativa)
Qui arrivi al livello in cui i numeri sono “numeri davvero”, perché derivano da
un’operazione di misurazione o di conteggio. È qui che entra l’idea chiave: se esiste
un’unità di misura (o un’unità di conteggio), allora posso parlare di distanze tra valori e
posso fare addizione/sottrazione (e, in certe condizioni, anche moltiplicazioni/divisioni).
Nel caso del conteggio il libro sottolinea una cosa molto concreta: c’è un “zero
assoluto” (zero oggetti, zero figli, zero eventi…), e questo rende i numeri pienamente
trattabili come quantità.
Le operazioni possibili: perché cambia tutto
Il senso del capitolo è che questi tre tipi si distinguono perché consentono operazioni
diverse. Per renderlo chiaro, il libro riassume così:
sulla nominale: ha senso parlare di uguaglianza/differenza; e come “centro” della
distribuzione userai la moda (la categoria più frequente)
sulla ordinale: oltre a uguale/diverso puoi usare l’ordine (>, <); come valore
“tipico” spesso userai la mediana (il punto che sta in mezzo nell’ordine)
sulla cardinale: puoi fare anche operazioni aritmetiche (somma, sottrazione,
ecc.) e quindi ha senso la media (oltre a moda e mediana)
E collegato a questo (sempre nello stesso riassunto) il libro anticipa anche che, a seconda
del tipo di variabile, userai misure diverse di variabilità: per esempio per le cardinali
compaiono cose come la deviazione standard, mentre per le ordinali entra in gioco la
differenza interquartile, e per le nominali indicatori come l’indice di omogeneità. Il
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica appunti statistica m2 e più Appunti in PDF di Statistica solo su Docsity!

CAPITOLO 2

1. Tipi di variabili e analisi statistica (riscrittura spiegata, completa) Quando si passa dalla raccolta dei dati alla loro analisi, cambia un po’ il “protagonista” della ricerca. Durante la raccolta, di solito pensi alle persone intervistate (o ai “casi” studiati). Quando inizi ad analizzare, invece, ti accorgi che a guidare tutto sono le variabili , perché l’analisi dei dati significa, in pratica, “che cosa posso fare con questi valori?” e “che strumenti hanno senso su questo tipo di informazione?”. Il libro insiste su una cosa: la scelta degli strumenti statistici non è libera, dipende dalle caratteristiche logico-matematiche della variabile. Ed è qui che entra la classificazione fondamentale: le variabili non si distinguono perché “sono parole” o “sono numeri” e basta, ma perché permettono operazioni diverse. In altre parole: la domanda vera non è “che forma ha il dato?”, ma “che cosa posso fare correttamente con questo dato, senza dire sciocchezze?”. I tre tipi principali: nominale, ordinale, cardinale Qui l’elenco serve, perché il capitolo sta proprio costruendo tre “scalini” (e poi ti farà

vedere che gli scalini sono cumulativi).

1) Variabile nominale È la variabile che nasce da un’operazione di classificazione : prendi una proprietà (religione, professione, partito votato…) e la “spacchetti” in categorie. Le categorie possono anche essere codificate con numeri (per comodità), ma quei numeri sono etichette , non quantità. Se io scrivo 1=cattolico, 2=protestante, 3=ebreo, 4=musulmano, il “4” non significa che uno è “più religioso” di uno “3”. Sono numeri- arbitrari usati come nomi. Quali relazioni sono ammesse? Fondamentalmente solo: uguale/diverso. Posso dire “queste due persone sono uguali rispetto alla religione” (entrambi cattolici) oppure “sono diverse” (uno cattolico e uno protestante). Fine. 2) Variabile ordinale Nasce da un’operazione di ordinamento : le categorie non solo sono diverse, ma sono disposte in una graduatoria. Esempio tipico: “molto insoddisfatto, poco, soddisfatto, molto soddisfatto”. Se assegni 1,2,3,4, quei numeri mantengono il senso di ordine (3 è “più” di 2), ma attenzione: non ti dicono quanto è grande la distanza tra 2 e 3. Qui, oltre a uguale/diverso, hai anche relazioni di maggiore/minore (ordine), ma non puoi affermare che tra i valori esistano distanze misurabili come nei numeri veri. 3) Variabile cardinale (o quantitativa) Qui arrivi al livello in cui i numeri sono “numeri davvero”, perché derivano da un’operazione di misurazione o di conteggio. È qui che entra l’idea chiave: se esiste un’unità di misura (o un’unità di conteggio), allora posso parlare di distanze tra valori e posso fare addizione/sottrazione (e, in certe condizioni, anche moltiplicazioni/divisioni). Nel caso del conteggio il libro sottolinea una cosa molto concreta: c’è un “ zero assoluto ” (zero oggetti, zero figli, zero eventi…), e questo rende i numeri pienamente trattabili come quantità. Le operazioni possibili: perché cambia tutto Il senso del capitolo è che questi tre tipi si distinguono perché consentono operazioni diverse. Per renderlo chiaro, il libro riassume così:  sulla nominale : ha senso parlare di uguaglianza/differenza; e come “centro” della distribuzione userai la moda (la categoria più frequente)  sulla ordinale : oltre a uguale/diverso puoi usare l’ordine (>, <); come valore “tipico” spesso userai la mediana (il punto che sta in mezzo nell’ordine)  sulla cardinale : puoi fare anche operazioni aritmetiche (somma, sottrazione, ecc.) e quindi ha senso la media (oltre a moda e mediana) E collegato a questo (sempre nello stesso riassunto) il libro anticipa anche che, a seconda del tipo di variabile, userai misure diverse di variabilità : per esempio per le cardinali compaiono cose come la deviazione standard , mentre per le ordinali entra in gioco la differenza interquartile , e per le nominali indicatori come l’ indice di omogeneità. Il

punto non è memorizzare ora questi nomi: è capire che “variabilità” si misura in modo diverso perché cambia il tipo di informazione contenuta nei dati. Una conseguenza pratica: variabili diverse → procedure diverse A questo punto il libro fa un esempio che è proprio “anti-errore da principiante”. Con una variabile cardinale posso calcolare la media (per esempio il reddito medio), con una nominale no: posso al massimo dire qual è la categoria più diffusa (per esempio la religione più frequente), ma “la religione media” non esiste. Poi aggiunge un pezzo storico-concettuale importante: la statistica “tradizionale” è cresciuta molto dentro le scienze naturali, dove spesso le variabili erano (o venivano trattate come) cardinali. Per questo, tantissime tecniche statistiche potenti nascono pensando a variabili quantitative. Solo più tardi si sono sviluppate tecniche robuste

anche per variabili nominali; mentre tecniche progettate esplicitamente per variabili

ordinali sono più rare. Questo spiega perché, nella pratica, chi fa ricerca sociale sente spesso la tentazione di “forzare” le ordinali a diventare cardinali. Proprietà cumulative (questa è una frase-chiave del capitolo) Il libro dice una cosa che ti aiuterà un sacco più avanti: le proprietà dei tre tipi sono cumulative. Cioè:  una variabile ordinale include già tutto quello che ha una nominale (perché

comunque classifica in categorie), più l’ordine

 una variabile cardinale include tutto quello che ha una ordinale (perché è

ordinabile), più l’unità di misura/conto che rende sensate le distanze

Questa idea serve per capire anche le trasformazioni: puoi sempre “scendere di livello” (perdere informazione), mentre “salire di livello” non è automatico e spesso introduce arbitrarietà. Scendere di livello: si può, ma perdi informazione Qui il libro fa esempi molto concreti. Dice: puoi prendere una variabile cardinale, come l’età, e trasformarla in categorie (“giovani, adulti, anziani”) trattandola come nominale. Oppure puoi prendere una variabile ordinale e trattarla come nominale ignorando l’ordine. Si può fare, ma c’è un prezzo: stai buttando via informazione. Esempio “da ricerca”: se ho l’interesse per la politica con quattro livelli (per nulla, poco, abbastanza, molto) e li unisco in due soli gruppi (“non interessati” vs “interessati”), perdo la differenza tra “abbastanza” e “molto”. Quindi è una scelta che può essere utile, ma va fatta sapendo che stai semplificando. Il grande tema spinoso: trattare le ordinali come cardinali Qui c’è un passaggio che io prima ho “accorciato troppo” e invece è importante. Il libro dice: a volte si tenta di trattare l’ordinale come se fosse cardinale assegnando punteggi (1,2,3,4…) e poi usando strumenti quantitativi. Però questa scelta è delicata perché quei punteggi possono essere arbitrari. Perché proprio 1–4 e non 1–10? E soprattutto: chi ti garantisce che la distanza tra 1 e 2 sia “uguale” alla distanza tra 3 e 4? E racconta che su questo punto c’è stato un dibattito forte: da una parte gli statistici più “rigorosi”, che dicono che non è corretto usare addizioni e sottrazioni se il metodo di misura non le giustifica; dall’altra molti ricercatori sociali, che spesso trattano le ordinali come cardinali perché le tecniche quantitative sono più potenti e perché perdere informazione riducendo tutto a categorie può essere un costo alto. Oggi il dibattito è un po’ meno acceso anche perché esistono tecniche (es. quelle delle “scale”) che permettono di costruire variabili quasi-cardinali a partire da problemi sociali, ma l’avvertimento resta: se scegli di “forzare” una ordinale verso tecniche cardinali, devi interpretare i risultati con cautela. Un caso particolare: le variabili dicotomiche (e le trasformazioni 0/1) Poi il libro torna alle nominali e segnala un caso speciale: le variabili nominali con due sole modalità (maschio/femmina, sì/no, favorevole/contrario…). Sono chiamate dicotomiche (o dicotomizzate). Hanno un’importante proprietà pratica: spesso possono essere trattate con alcuni strumenti “da cardinali” proprio perché non c’è il problema delle distanze tra categorie (avendo solo due valori). Ed è anche per questo che, nella

Il libro insiste molto su questo punto perché spesso chi inizia a studiare statistica pensa che i dati “esistano già” in una forma pronta, mentre in realtà la costruzione della matrice è una fase cruciale della ricerca. Non è un passaggio tecnico secondario, ma una vera e propria operazione concettuale. A questo punto il testo chiarisce un aspetto che può sembrare ovvio, ma non lo è affatto: nella matrice, le righe e le colonne non sono intercambiabili. Le righe sono i casi, cioè le unità di analisi; le colonne sono le variabili. Se confondi queste due dimensioni, perdi completamente il senso dei dati. Una riga non è “un valore”, ma l’insieme delle risposte date da un singolo caso a tutte le variabili considerate. Una colonna, invece, è l’insieme dei valori assunti da una variabile su tutti i casi. Il libro usa spesso l’espressione “matrice casi × variabili” proprio per fissare questa idea. È importante anche notare che la matrice è detta “rettangolare” perché il numero di colonne è uguale per tutte le righe: ogni caso deve avere una posizione per ciascuna variabile. Se una risposta manca, quello spazio non viene eliminato, ma viene segnalato come dato mancante. Questo è già un primo indizio del fatto che la statistica non ama le improvvisazioni: anche l’assenza di informazione è, in qualche modo, un’informazione. Una volta chiarita la struttura generale della matrice, il capitolo introduce un altro passaggio fondamentale: la codifica. Nella pratica, infatti, le risposte che raccogliamo sono spesso parole, frasi, espressioni qualitative. Ma la matrice dei dati, per funzionare, ha bisogno di simboli semplici e coerenti. Per questo si procede alla codifica, cioè all’assegnazione di simboli (spesso numeri) alle modalità delle variabili. Qui il libro fa molta attenzione a evitare un errore tipico dei principianti: usare i numeri come se fossero sempre quantità. Quando codifichi una variabile nominale, i numeri che assegni non hanno valore numerico , ma solo valore simbolico. Se assegni 1 a “maschio” e 2 a “femmina”, non stai dicendo che femmina è “il doppio” di maschio: stai solo usando numeri come etichette. Il libro sottolinea che questa distinzione va sempre tenuta a mente, perché altrimenti si rischia di applicare operazioni matematiche dove non hanno senso. La codifica non è un’operazione neutra. È una scelta che deve rispettare il tipo di variabile e gli obiettivi dell’analisi. Nel caso delle variabili ordinali, per esempio, la codifica deve riflettere l’ordine delle modalità. Se “per niente soddisfatto” viene prima di “poco soddisfatto”, e questo prima di “molto soddisfatto”, la numerazione deve rispettare questa sequenza. Nel caso delle variabili cardinali, invece, spesso la codifica coincide direttamente con il valore osservato, come accade per l’età o il reddito. Il capitolo introduce poi una distinzione importante tra matrice grezza e matrice riorganizzata. La matrice grezza è quella che nasce direttamente dalla raccolta dei dati: contiene tutte le risposte così come sono state rilevate. È una sorta di “fotografia iniziale” del materiale empirico. Prima di qualsiasi analisi, però, questa matrice viene spesso controllata, pulita, corretta e talvolta trasformata. Il libro anticipa qui un tema che verrà sviluppato nel capitolo successivo: i dati non sono mai perfetti, e una parte del lavoro statistico consiste proprio nel renderli utilizzabili. Un altro punto importante riguarda l’idea di caso completo. In teoria, ogni riga della matrice dovrebbe contenere un valore per ogni variabile. In pratica, questo non accade quasi mai: alcune persone non rispondono a certe domande, oppure forniscono risposte non interpretabili. Il libro spiega che questi casi non vengono automaticamente eliminati, ma gestiti con attenzione, perché eliminarli può alterare l’analisi complessiva. Questa osservazione serve a far capire che la statistica lavora sempre con dati imperfetti, e che le scelte su come trattare queste imperfezioni fanno parte dell’analisi. Verso la fine del capitolo, il testo introduce un’idea che sarà fondamentale per tutto il resto del libro: analizzare i dati significa analizzare le colonne della matrice. Anche se la matrice contiene molte righe, l’analisi monovariata (che verrà sviluppata nei capitoli successivi) consiste nel prendere una colonna alla volta e studiarne la distribuzione dei valori. In altre parole, la matrice è la struttura di partenza, ma l’attenzione analitica si sposta dalle righe alle colonne.

Il capitolo si chiude facendo capire che la matrice dei dati non è solo uno strumento tecnico, ma il punto di passaggio tra la realtà osservata e la sua rappresentazione statistica. Una matrice costruita male porta a risultati sbagliati, mentre una matrice costruita con attenzione rende possibile tutta l’analisi successiva. Per questo motivo, il libro considera la costruzione della matrice dei dati come una vera e propria fase della ricerca, non come un dettaglio operativo. Un esempio concreto di matrice dei dati (passo passo) Immaginiamo una situazione realistica: abbiamo fatto un piccolo questionario a 5 persone (per semplicità) su alcuni aspetti della loro vita. Le domande sono:

  1. Sesso
  2. Età
  3. Titolo di studio
  4. Grado di soddisfazione per la vita Queste domande diventeranno le variabili. Le persone intervistate saranno i casi.

Prima fase: risposte “grezze” (come le persone parlano davvero) Immagina di avere queste risposte:  Persona 1: femmina, 22 anni, diploma, abbastanza soddisfatta  Persona 2: maschio, 25 anni, laurea, molto soddisfatto  Persona 3: femmina, 22 anni, diploma, poco soddisfatta  Persona 4: maschio, 30 anni, diploma, abbastanza soddisfatto  Persona 5: femmina, 28 anni, laurea, molto soddisfatta Così non è ancora una matrice statistica. È solo un elenco discorsivo.

Seconda fase: decidere come rappresentare i dati

Qui entra in gioco il ragionamento statistico. Abbiamo variabili di tipo diverso:  Sesso → variabile nominale  Età → variabile cardinale  Titolo di studio → variabile ordinale  Soddisfazione → variabile ordinale Per poter costruire una matrice:  dobbiamo usare valori omogenei  spesso usiamo numeri , ma non sempre come quantità Questa è la fase di codifica.

Terza fase: codifica delle variabili Decidiamo (arbitrariamente ma coerentemente):  Sesso o 1 = maschio o 2 = femmina  Titolo di studio o 1 = diploma o 2 = laurea  Soddisfazione o 1 = poco soddisfatto o 2 = abbastanza soddisfatto o 3 = molto soddisfatto ⚠️ Nota importantissima (questa è teoria pura): i numeri non significano quantità , tranne per l’età.

Le risposte “reali” diventano:  Persona 4: maschio, 30 anni, diploma, (non risponde) Questo succede continuamente nelle ricerche reali. Il libro insiste molto su questo punto perché chi inizia tende a pensare che i dati siano “puliti”, mentre non lo sono quasi mai. Come si rappresenta un dato mancante nella matrice La matrice ora diventa: Sesso Età Titolo Soddisfazione Caso 1 2 22 1 2 Caso 2 1 25 2 3 Caso 3 2 22 1 1 Caso 4 1 30 1. Caso 5 2 28 2 3 Quel punto (o un codice tipo 9, 99, -1, ecc.) non è un valore. È un segnale: “qui l’informazione manca”. ⚠️ Questo è concettualmente importantissimo: un dato mancante non significa zero , e non significa una categoria in più. È assenza di informazione.

Perché non si elimina subito il caso Un errore tipico è dire: “se manca un dato, buttiamo via tutta la riga”. Il libro spiega che non è quasi mai una buona idea. Perché?  quella persona ha risposto bene alle altre domande  eliminarla significa perdere informazione su sesso, età, titolo  se i dati mancanti non sono casuali, elimini proprio certi tipi di persone Quindi la regola generale è:  la riga resta  il dato mancante viene segnalato  verrà gestito solo quando serve , variabile per variabile Questo concetto ti tornerà utile più avanti.

Capitolo 2 (continua) – Dalla matrice alla prima distribuzione di frequenza Ora facciamo il passaggio logico che chiude davvero il Capitolo 2 e prepara il Capitolo 3. Prendiamo una colonna della matrice. Scegliamo la variabile Età (perché è semplice e cardinale). La colonna Età è: 22, 25, 22, 30, 28 Qui stiamo già facendo analisi monovariata , anche se il libro la svilupperà dopo. Stiamo guardando una sola variabile alla volta.

Cosa significa “distribuzione di frequenza” Distribuzione di frequenza significa una cosa molto semplice: contare quante volte compare ciascun valore della variabile Niente formule. Solo contare. Nel nostro esempio:  22 compare 2 volte  25 compare 1 volta  28 compare 1 volta  30 compare 1 volta Questo è già il cuore della statistica descrittiva.

Come nasce una tabella di frequenza (senza formalismi) Scriviamolo in forma ordinata: Età Frequenza 22 2 25 1 28 1 30 1 Totale 5 Questa tabella non è ancora il Capitolo 3 , ma il libro la anticipa concettualmente qui per farti capire che:  la matrice è il punto di partenza  la distribuzione è una trasformazione della colonna 👉 Non stiamo creando nuovi dati. Stiamo riassumendo quelli che già esistono.

E se c’è un dato mancante? Facciamo lo stesso con Soddisfazione , dove abbiamo un valore mancante: 2, 3, 1, ., 3 Qui succede una cosa importante:  il “.” non entra nel conteggio  il totale valido non è più 5, ma 4 La distribuzione diventa: Soddisfazione Frequenza 1 (poco) 1 2 (abbastanza) 1 3 (molto) 2 Totale validi 4 Il libro insiste su questo punto perché è una trappola classica : se conti anche i mancanti come se fossero valori, falsi tutto.

Idea chiave che chiude il Capitolo 2 A questo punto puoi tenere in testa questa catena logica:  realtà → risposte  risposte → matrice dei dati  matrice → colonne  colonne → conteggi → distribuzioni Il Capitolo 2 serve esattamente a costruire questo ponte.

Capitolo 3 – Distribuzione di frequenza

(riscrittura spiegata, discorsiva e completa)

Arrivati a questo punto abbiamo in mano una matrice dei dati. Ma così com’è, la matrice è ancora “troppo ricca”: contiene tante informazioni, ma non dice nulla in modo immediato. Se guardi una colonna con cento numeri, il tuo cervello non riesce a cogliere pattern, regolarità, concentrazioni. Il problema della statistica descrittiva nasce proprio qui: come trasformare un insieme di valori in qualcosa che sia leggibile e interpretabile. La risposta più semplice, e anche la più fondamentale, è la distribuzione di frequenza. L’idea è elementare: invece di guardare i dati uno per uno, contiamo quante volte compare ciascun valore. In questo modo non perdiamo informazione, ma la organizziamo. La distribuzione di frequenza è quindi una forma di sintesi: non inventa nulla di nuovo, ma rende visibile ciò che nei dati grezzi è nascosto. Prendiamo la colonna “Età” che avevamo prima: 22, 25, 22, 30, 28. Guardata così non dice molto. Ma se iniziamo a contare, emerge subito che 22 compare due volte, mentre gli altri valori una sola volta. Questo semplice conteggio è già una descrizione statistica.

Quando guardi un diagramma a barre, non devi partire dai numeri, ma dalle altezze relative. La domanda giusta non è “quanto vale esattamente?”, ma “quale barra è più

alta?”, “quali sono simili?”, “quali sono marginali?”. Il grafico serve a cogliere rapidamente la struttura della distribuzione, non i dettagli millimetrici. Per le variabili cardinali trattate come continue (o raggruppate in classi), il grafico tipico è invece l’ istogramma. A prima vista può sembrare simile a un diagramma a barre, ma c’è una differenza concettuale fondamentale: le barre sono attaccate. Questo perché stiamo rappresentando intervalli contigui di una scala numerica continua. Qui non stiamo confrontando categorie separate, ma parti di un continuum.

Quando hai davanti un diagramma a barre, devi farti sempre le stesse domande , nello stesso ordine. Primo sguardo: quante barre ci sono

Il numero di barre ti dice quante modalità ha la variabile. Se vedi quattro barre, sai che la variabile ha quattro categorie distinte. Questo è già un’informazione: ti dice quanto è “articolata” la variabile.

Secondo sguardo: quali barre sono più alte Qui stai cercando la moda , anche se magari non la chiamerai così. Non serve misurare: basta vedere qual è la barra dominante. Quella rappresenta la modalità più frequente. Se una barra svetta nettamente sulle altre, significa che:  molti casi si concentrano lì  quella categoria caratterizza fortemente il fenomeno

Terzo sguardo: confronto tra le altezze Ora non guardi più la barra più alta, ma le relazioni tra tutte le barre. Chiediti:  le barre sono simili tra loro?  ce n’è una molto bassa (categoria marginale)?  la distribuzione è equilibrata o sbilanciata? Questo serve a capire quanto è diversificata la popolazione.

Quarto sguardo: ordine (solo se la variabile è ordinale) Se le barre rappresentano una variabile ordinale , l’ordine sull’asse orizzontale ha un significato. In questo caso puoi chiederti:  la frequenza cresce man mano?  diminuisce?  ha un picco centrale? Qui inizi a intuire cose come:  concentrazione  polarizzazione  gradualità

Errore tipico da evitare Non interpretare la distanza tra le barre come se avesse significato. Nel diagramma a barre:  le barre sono separate  lo spazio tra loro non rappresenta nulla Conta solo l’altezza.

3. Istogramma: come cambia completamente il modo di leggere L’istogramma si usa per variabili cardinali continue (o raggruppate in classi).

Le barre non sono separate perché gli intervalli sono contigui. Questo ti dice subito una cosa: stiamo rappresentando quantità che scorrono lungo una scala Già solo questo distingue l’istogramma dal diagramma a barre.

Secondo sguardo: dove si concentra la massa Qui devi cercare:  dove stanno le barre più alte  in che zona dell’asse orizzontale Quella zona indica dove si concentrano i casi , cioè i valori più comuni. È una lettura “spaziale”, non numerica.

Terzo sguardo: forma della distribuzione Ora guardi l’insieme come se fosse un profilo. Chiediti:  la distribuzione ha un solo picco o più picchi?  è simmetrica o sbilanciata da un lato?  ha una coda lunga? Queste osservazioni non sono decorative: preparano concetti che verranno dopo (media, mediana, variabilità).

Quarto sguardo: ampiezza Osserva:  quanto si estende la distribuzione sull’asse orizzontale  se i valori sono concentrati o sparsi Questo ti dà una prima intuizione della variabilità , anche senza calcoli.

Errore tipico da evitare Non leggere l’istogramma come se fosse un diagramma a barre. Qui:  conta anche la larghezza delle classi  conta la continuità  conta la forma complessiva Non stai confrontando categorie, ma parti di una scala numerica.

4. Una frase che vale per l’esame (e per capire) Se la memorizzi, sei a posto: Nel diagramma a barre confronto categorie; nell’istogramma osservo la forma di una distribuzione. Questa frase da sola distingue chi ha capito da chi no. 5. Collegamento con i capitoli successivi Ora succede una cosa importante:  dai grafici intuisci dove stanno i valori tipici  vedi quanto sono dispersi  anticipi visivamente concetti come media e variabilità Il libro fa apposta a mettere i grafici prima degli indici: prima vedere, poi misurare. Capitolo 3 – Distribuzione di frequenza

(riscrittura completa, senza salti, con spiegazione di TUTTE le parti tecniche)

1. Perché la distribuzione di frequenza è necessaria Il capitolo parte da un problema molto concreto: una colonna della matrice dei dati contiene tanti valori, ma così com’è non è leggibile. Anche se i dati sono corretti,

l’occhio umano non riesce a cogliere regolarità, concentrazioni o squilibri semplicemente guardando una lista di numeri o di risposte. La distribuzione di frequenza nasce quindi come prima vera operazione di analisi statistica. Non serve a calcolare indici complicati, ma a riordinare l’informazione in modo sistematico. Il libro sottolinea che non si tratta di trasformare i dati, ma di rappresentarli in modo ordinato , rendendo esplicito ciò che nei dati grezzi è implicito.

2. Cos’è una distribuzione di frequenza (definizione rigorosa) Una distribuzione di frequenza è una tabella che associa a ciascun valore (o modalità) di una variabile il numero di casi in cui quel valore compare. Il libro insiste su tre caratteristiche fondamentali:  riguarda una sola variabile alla volta (è monovariata)  si costruisce a partire dalla matrice dei dati  il totale delle frequenze deve corrispondere al numero di casi validi Questo ultimo punto è cruciale e verrà ripreso più volte nel capitolo. 3. Frequenza assoluta: cosa misura davvero La frequenza assoluta è la forma più semplice di frequenza. Indica quante volte un certo valore o una certa modalità compare nei dati. Se, su 100 persone, 37 hanno un diploma, la frequenza assoluta del diploma è 37. Il libro chiarisce subito una cosa importante: la frequenza assoluta dipende direttamente dalla numerosità del collettivo. Questo significa che da sola non è sempre confrontabile tra studi diversi o tra gruppi di dimensioni diverse. Dire “37 persone” non ha lo stesso peso se il totale è 50 o se il totale è 1.000. 4. Frequenza relativa: il passaggio concettuale Per superare questo limite, il capitolo introduce la frequenza relativa. Qui il concetto cambia: non stiamo più contando, ma rapportando. La frequenza relativa si ottiene dividendo la frequenza assoluta per il numero totale dei casi validi. Il risultato è un numero compreso tra 0 e 1. Il libro insiste su due proprietà fondamentali:  la frequenza relativa esprime una quota del totale  la somma di tutte le frequenze relative deve essere uguale a 1 Ed è qui che compare uno dei primi avvertimenti tecnici importanti. 5. Arrotondamenti e “problema della somma” Nella pratica, le frequenze relative sono spesso espresse con un numero limitato di cifre decimali. Questo comporta un effetto inevitabile: la somma delle frequenze relative arrotondate può non essere esattamente uguale a 1. Il libro sottolinea che questo non è un errore concettuale , ma una conseguenza degli arrotondamenti. Tuttavia, è importante che lo studente sappia riconoscerlo, perché altrimenti potrebbe pensare di aver sbagliato i calcoli. Qui entra in gioco il concetto di quadratura. 6. Frequenza percentuale e problema della quadratura La frequenza percentuale è semplicemente la frequenza relativa moltiplicata per 100. Serve soprattutto a comunicare i risultati , perché le percentuali sono più intuitive. Tuttavia, anche qui vale lo stesso problema: quando le percentuali vengono arrotondate (per esempio all’intero o al primo decimale), la loro somma può non essere esattamente pari a 100. Il libro usa il termine quadratura per indicare il fatto che:  idealmente, la somma delle percentuali dovrebbe essere 100  nella pratica, può essere 99,9 oppure 100,

11. Relazione tra distribuzione e analisi successive Il capitolo si chiude con un messaggio forte: tutti gli indici che verranno dopo (media, mediana, variabilità) si basano sulla distribuzione di frequenza. Se la distribuzione è costruita male:  gli indici saranno fuorvianti  le interpretazioni saranno sbagliate Per questo il libro dedica così tanto spazio a questo capitolo, apparentemente “semplice”.

Idea chiave finale (questa è davvero da tenere) La distribuzione di frequenza è il primo controllo di qualità sui dati. Se non torna la tabella, non tornerà nulla dopo. Tabella 3.

Distribuzione di frequenza della variabile titolo di studio

Questa tabella è fondamentale , perché in una sola pagina il libro ti fa vedere tutte le forme di frequenza insieme e introduce anche la frequenza cumulata. Prima cosa da capire: che variabile è “Titolo di studio” è una variabile ordinale. Questo è cruciale, perché spiega perché la tabella ha una colonna di frequenze cumulate. Le modalità sono infatti ordinate logicamente:  senza titolo  licenza elementare  licenza media  diploma  laurea Non sono solo categorie diverse: c’è un ordine crescente di livello di istruzione.

Struttura della tabella (prima di leggere i numeri) Le colonne sono quattro:

  1. Frequenze assolute
  2. Frequenze relative (proporzioni)
  3. Frequenze percentuali
  4. Frequenze cumulate (percentuali) Il libro le mette tutte insieme per mostrarti che: stanno descrivendo la stessa distribuzione , ma con strumenti diversi.

Lettura colonna per colonna 1 ⃣ Frequenze assolute Questa colonna ti dice quante persone hanno ciascun titolo di studio. Esempio:  Licenza elementare: 509  Licenza media: 342  Diploma: 264  Laurea: 55 La riga Totale = 1.200 è fondamentale: ti dice che stiamo lavorando su 1.200 casi validi. Questa colonna da sola non basta ancora per interpretare bene, perché i numeri dipendono dalla dimensione del campione.

2 ⃣ Frequenze relative (proporzioni)

Qui il libro fa il primo passaggio concettuale importante. Ogni frequenza assoluta viene divisa per 1.. Il risultato è una proporzione , cioè una quota del totale. Esempio:  509 / 1.200 ≈ 0,  342 / 1.200 ≈ 0, Il libro ti fa notare (implicitamente) che:  tutte queste proporzioni sommano a 1  qui non c’è arrotondamento “grave” perché i decimali sono mantenuti Questa colonna serve per il confronto statistico.

3 ⃣ Frequenze percentuali Questa colonna non introduce nuova informazione. È la stessa proporzione, moltiplicata per 100. Esempio:  0,424 → 42,4%  0,285 → 28,5% Qui il libro sta passando dal linguaggio tecnico a quello comunicativo. La riga Totale = 100,0 è la famosa quadratura :  non è un dettaglio grafico  serve a verificare che la trasformazione è coerente Se fosse 99,9 o 100,1 il libro non parlerebbe di errore, ma qui torna perfettamente.

4 ⃣ Frequenze cumulate (percentuali) Questa è la colonna concettualmente più importante della tabella. Qui il libro ti sta dicendo: “fino a questo livello di istruzione, che percentuale di persone ho?” Vediamola riga per riga :  Senza titolo → 2, → il 2,5% delle persone non ha alcun titolo  Licenza elementare → 44, → fino alla licenza elementare arriva il 44,7%  Licenza media → 73, → fino alla licenza media arriva il 73,4%  Diploma → 95, → fino al diploma arriva il 95,4%  Laurea → 100, → includendo tutti, arrivi al totale Questa colonna cresce sempre e finisce a 100. È impossibile che diminuisca: ogni riga include le precedenti. 👉 Qui il libro sta preparando mediana e quartili , anche se non li nomina ancora.

Cosa insegna davvero questa tabella Questa tabella serve a insegnarti quattro cose insieme :  come convivono diverse frequenze  perché la cumulata ha senso solo per variabili ordinate  come leggere una distribuzione “fino a”  come controllare la coerenza dei dati

Tabella 3.

Distribuzioni di frequenza assolute e relative della variabile partito

votato

(Camera 1996, Lombardia ed Emilia-Romagna)