Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Preparati con lezioni e prove svolte basate sui programmi universitari!

Rispondi a reali domande d’esame e scopri la tua preparazione

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

Per ogni documento caricato

Rispondi alle domande

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

appunti statistica m2, Appunti di Statistica

Università degli Studi di Modena e Reggio Emilia (UNIMORE)Statistica

appunti statistica m2 anno 2025/2026

Tipologia: Appunti

2025/2026

Caricato il 29/05/2026

sv00 🇮🇹

4

(1)

5 documenti

1 / 157

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1

CAPITOLO 2

1. Tipi di variabili e analisi statistica (riscrittura spiegata, completa)

Quando si passa dalla raccolta dei dati alla loro analisi, cambia un po’ il “protagonista”

della ricerca. Durante la raccolta, di solito pensi alle persone intervistate (o ai “casi”

studiati). Quando inizi ad analizzare, invece, ti accorgi che a guidare tutto sono le

variabili, perché l’analisi dei dati significa, in pratica, “che cosa posso fare con questi

valori?” e “che strumenti hanno senso su questo tipo di informazione?”. Il libro insiste su

una cosa: la scelta degli strumenti statistici non è libera, dipende dalle caratteristiche

logico-matematiche della variabile.

Ed è qui che entra la classificazione fondamentale: le variabili non si distinguono perché

“sono parole” o “sono numeri” e basta, ma perché permettono operazioni diverse. In

altre parole: la domanda vera non è “che forma ha il dato?”, ma “che cosa posso fare

correttamente con questo dato, senza dire sciocchezze?”.

I tre tipi principali: nominale, ordinale, cardinale

Qui l’elenco serve, perché il capitolo sta proprio costruendo tre “scalini” (e poi ti farà

vedere che gli scalini sono

cumulativi

).

1) Variabile nominale

È la variabile che nasce da un’operazione di classificazione: prendi una proprietà

(religione, professione, partito votato…) e la “spacchetti” in categorie. Le categorie

possono anche essere codificate con numeri (per comodità), ma quei numeri sono

etichette, non quantità. Se io scrivo 1=cattolico, 2=protestante, 3=ebreo,

4=musulmano, il “4” non significa che uno è “più religioso” di uno “3”. Sono numeri-

arbitrari usati come nomi.

Quali relazioni sono ammesse? Fondamentalmente solo: uguale/diverso. Posso dire

“queste due persone sono uguali rispetto alla religione” (entrambi cattolici) oppure “sono

diverse” (uno cattolico e uno protestante). Fine.

2) Variabile ordinale

Nasce da un’operazione di ordinamento: le categorie non solo sono diverse, ma sono

disposte in una graduatoria. Esempio tipico: “molto insoddisfatto, poco, soddisfatto,

molto soddisfatto”. Se assegni 1,2,3,4, quei numeri mantengono il senso di ordine (3 è

“più” di 2), ma attenzione: non ti dicono quanto è grande la distanza tra 2 e 3.

Qui, oltre a uguale/diverso, hai anche relazioni di maggiore/minore (ordine), ma non

puoi affermare che tra i valori esistano distanze misurabili come nei numeri veri.

3) Variabile cardinale (o quantitativa)

Qui arrivi al livello in cui i numeri sono “numeri davvero”, perché derivano da

un’operazione di misurazione o di conteggio. È qui che entra l’idea chiave: se esiste

un’unità di misura (o un’unità di conteggio), allora posso parlare di distanze tra valori e

posso fare addizione/sottrazione (e, in certe condizioni, anche moltiplicazioni/divisioni).

Nel caso del conteggio il libro sottolinea una cosa molto concreta: c’è un “zero

assoluto” (zero oggetti, zero figli, zero eventi…), e questo rende i numeri pienamente

trattabili come quantità.

Le operazioni possibili: perché cambia tutto

Il senso del capitolo è che questi tre tipi si distinguono perché consentono operazioni

diverse. Per renderlo chiaro, il libro riassume così:

sulla nominale: ha senso parlare di uguaglianza/differenza; e come “centro” della

distribuzione userai la moda (la categoria più frequente)

sulla ordinale: oltre a uguale/diverso puoi usare l’ordine (>, <); come valore

“tipico” spesso userai la mediana (il punto che sta in mezzo nell’ordine)

sulla cardinale: puoi fare anche operazioni aritmetiche (somma, sottrazione,

ecc.) e quindi ha senso la media (oltre a moda e mediana)

E collegato a questo (sempre nello stesso riassunto) il libro anticipa anche che, a seconda

del tipo di variabile, userai misure diverse di variabilità: per esempio per le cardinali

compaiono cose come la deviazione standard, mentre per le ordinali entra in gioco la

differenza interquartile, e per le nominali indicatori come l’indice di omogeneità. Il

1

pf3

pf4

pf5

pf8

pf9

pfa

pfd

pfe

pff

pf12

pf13

pf14

pf15

pf16

pf17

pf18

pf19

pf1a

pf1b

pf1c

pf1d

pf1e

pf1f

pf20

pf21

pf22

pf23

pf24

pf25

pf26

pf27

pf28

pf29

pf2a

pf2b

pf2c

pf2d

pf2e

pf2f

pf30

pf31

pf32

pf33

pf34

pf35

pf36

pf37

pf38

pf39

pf3a

pf3b

pf3c

pf3d

pf3e

pf3f

pf40

pf41

pf42

pf43

pf44

pf45

pf46

pf47

pf48

pf49

pf4a

pf4b

pf4c

pf4d

pf4e

pf4f

pf50

pf51

pf52

pf53

pf54

pf55

pf56

pf57

pf58

pf59

pf5a

pf5b

pf5c

pf5d

pf5e

pf5f

pf60

pf61

pf62

pf63

pf64

Scopri Appunti di Statistica Università degli Studi di Modena e Reggio Emilia (UNIMORE)

Documenti correlati

Appunti completi di statistica, prof.ssa Silvia Montagna

Statistica, appunti per esame di Statistica Unimore

appunti statistica !

Appunti statistica introduttiva

(1)

appunti di statistica sociale

Appunti - statistica

APPUNTI STATISTICA VIDEO LEZIONI - Scienze e tecniche psicologiche (triennale)

(2)

Appunti di video lezioni di statistica sanitaria

(1)

Statistica sanitaria

APPUNTI CAMPIONAMENTO STATISTICA

Appunti di Statistica Sociale, Nicolini

esercizi di statistica

Anteprima parziale del testo

Scarica appunti statistica m2 e più Appunti in PDF di Statistica solo su Docsity!

CAPITOLO 2

1. Tipi di variabili e analisi statistica (riscrittura spiegata, completa) Quando si passa dalla raccolta dei dati alla loro analisi, cambia un po’ il “protagonista” della ricerca. Durante la raccolta, di solito pensi alle persone intervistate (o ai “casi” studiati). Quando inizi ad analizzare, invece, ti accorgi che a guidare tutto sono le variabili , perché l’analisi dei dati significa, in pratica, “che cosa posso fare con questi valori?” e “che strumenti hanno senso su questo tipo di informazione?”. Il libro insiste su una cosa: la scelta degli strumenti statistici non è libera, dipende dalle caratteristiche logico-matematiche della variabile. Ed è qui che entra la classificazione fondamentale: le variabili non si distinguono perché “sono parole” o “sono numeri” e basta, ma perché permettono operazioni diverse. In altre parole: la domanda vera non è “che forma ha il dato?”, ma “che cosa posso fare correttamente con questo dato, senza dire sciocchezze?”. I tre tipi principali: nominale, ordinale, cardinale Qui l’elenco serve, perché il capitolo sta proprio costruendo tre “scalini” (e poi ti farà

vedere che gli scalini sono cumulativi).

1) Variabile nominale È la variabile che nasce da un’operazione di classificazione : prendi una proprietà (religione, professione, partito votato…) e la “spacchetti” in categorie. Le categorie possono anche essere codificate con numeri (per comodità), ma quei numeri sono etichette , non quantità. Se io scrivo 1=cattolico, 2=protestante, 3=ebreo, 4=musulmano, il “4” non significa che uno è “più religioso” di uno “3”. Sono numeri- arbitrari usati come nomi. Quali relazioni sono ammesse? Fondamentalmente solo: uguale/diverso. Posso dire “queste due persone sono uguali rispetto alla religione” (entrambi cattolici) oppure “sono diverse” (uno cattolico e uno protestante). Fine. 2) Variabile ordinale Nasce da un’operazione di ordinamento : le categorie non solo sono diverse, ma sono disposte in una graduatoria. Esempio tipico: “molto insoddisfatto, poco, soddisfatto, molto soddisfatto”. Se assegni 1,2,3,4, quei numeri mantengono il senso di ordine (3 è “più” di 2), ma attenzione: non ti dicono quanto è grande la distanza tra 2 e 3. Qui, oltre a uguale/diverso, hai anche relazioni di maggiore/minore (ordine), ma non puoi affermare che tra i valori esistano distanze misurabili come nei numeri veri. 3) Variabile cardinale (o quantitativa) Qui arrivi al livello in cui i numeri sono “numeri davvero”, perché derivano da un’operazione di misurazione o di conteggio. È qui che entra l’idea chiave: se esiste un’unità di misura (o un’unità di conteggio), allora posso parlare di distanze tra valori e posso fare addizione/sottrazione (e, in certe condizioni, anche moltiplicazioni/divisioni). Nel caso del conteggio il libro sottolinea una cosa molto concreta: c’è un “ zero assoluto ” (zero oggetti, zero figli, zero eventi…), e questo rende i numeri pienamente trattabili come quantità. Le operazioni possibili: perché cambia tutto Il senso del capitolo è che questi tre tipi si distinguono perché consentono operazioni diverse. Per renderlo chiaro, il libro riassume così:  sulla nominale : ha senso parlare di uguaglianza/differenza; e come “centro” della distribuzione userai la moda (la categoria più frequente)  sulla ordinale : oltre a uguale/diverso puoi usare l’ordine (>, <); come valore “tipico” spesso userai la mediana (il punto che sta in mezzo nell’ordine)  sulla cardinale : puoi fare anche operazioni aritmetiche (somma, sottrazione, ecc.) e quindi ha senso la media (oltre a moda e mediana) E collegato a questo (sempre nello stesso riassunto) il libro anticipa anche che, a seconda del tipo di variabile, userai misure diverse di variabilità : per esempio per le cardinali compaiono cose come la deviazione standard , mentre per le ordinali entra in gioco la differenza interquartile , e per le nominali indicatori come l’ indice di omogeneità. Il

punto non è memorizzare ora questi nomi: è capire che “variabilità” si misura in modo diverso perché cambia il tipo di informazione contenuta nei dati. Una conseguenza pratica: variabili diverse → procedure diverse A questo punto il libro fa un esempio che è proprio “anti-errore da principiante”. Con una variabile cardinale posso calcolare la media (per esempio il reddito medio), con una nominale no: posso al massimo dire qual è la categoria più diffusa (per esempio la religione più frequente), ma “la religione media” non esiste. Poi aggiunge un pezzo storico-concettuale importante: la statistica “tradizionale” è cresciuta molto dentro le scienze naturali, dove spesso le variabili erano (o venivano trattate come) cardinali. Per questo, tantissime tecniche statistiche potenti nascono pensando a variabili quantitative. Solo più tardi si sono sviluppate tecniche robuste

anche per variabili nominali; mentre tecniche progettate esplicitamente per variabili

ordinali sono più rare. Questo spiega perché, nella pratica, chi fa ricerca sociale sente spesso la tentazione di “forzare” le ordinali a diventare cardinali. Proprietà cumulative (questa è una frase-chiave del capitolo) Il libro dice una cosa che ti aiuterà un sacco più avanti: le proprietà dei tre tipi sono cumulative. Cioè:  una variabile ordinale include già tutto quello che ha una nominale (perché

comunque classifica in categorie), più l’ordine

 una variabile cardinale include tutto quello che ha una ordinale (perché è

ordinabile), più l’unità di misura/conto che rende sensate le distanze

Questa idea serve per capire anche le trasformazioni: puoi sempre “scendere di livello” (perdere informazione), mentre “salire di livello” non è automatico e spesso introduce arbitrarietà. Scendere di livello: si può, ma perdi informazione Qui il libro fa esempi molto concreti. Dice: puoi prendere una variabile cardinale, come l’età, e trasformarla in categorie (“giovani, adulti, anziani”) trattandola come nominale. Oppure puoi prendere una variabile ordinale e trattarla come nominale ignorando l’ordine. Si può fare, ma c’è un prezzo: stai buttando via informazione. Esempio “da ricerca”: se ho l’interesse per la politica con quattro livelli (per nulla, poco, abbastanza, molto) e li unisco in due soli gruppi (“non interessati” vs “interessati”), perdo la differenza tra “abbastanza” e “molto”. Quindi è una scelta che può essere utile, ma va fatta sapendo che stai semplificando. Il grande tema spinoso: trattare le ordinali come cardinali Qui c’è un passaggio che io prima ho “accorciato troppo” e invece è importante. Il libro dice: a volte si tenta di trattare l’ordinale come se fosse cardinale assegnando punteggi (1,2,3,4…) e poi usando strumenti quantitativi. Però questa scelta è delicata perché quei punteggi possono essere arbitrari. Perché proprio 1–4 e non 1–10? E soprattutto: chi ti garantisce che la distanza tra 1 e 2 sia “uguale” alla distanza tra 3 e 4? E racconta che su questo punto c’è stato un dibattito forte: da una parte gli statistici più “rigorosi”, che dicono che non è corretto usare addizioni e sottrazioni se il metodo di misura non le giustifica; dall’altra molti ricercatori sociali, che spesso trattano le ordinali come cardinali perché le tecniche quantitative sono più potenti e perché perdere informazione riducendo tutto a categorie può essere un costo alto. Oggi il dibattito è un po’ meno acceso anche perché esistono tecniche (es. quelle delle “scale”) che permettono di costruire variabili quasi-cardinali a partire da problemi sociali, ma l’avvertimento resta: se scegli di “forzare” una ordinale verso tecniche cardinali, devi interpretare i risultati con cautela. Un caso particolare: le variabili dicotomiche (e le trasformazioni 0/1) Poi il libro torna alle nominali e segnala un caso speciale: le variabili nominali con due sole modalità (maschio/femmina, sì/no, favorevole/contrario…). Sono chiamate dicotomiche (o dicotomizzate). Hanno un’importante proprietà pratica: spesso possono essere trattate con alcuni strumenti “da cardinali” proprio perché non c’è il problema delle distanze tra categorie (avendo solo due valori). Ed è anche per questo che, nella

Il libro insiste molto su questo punto perché spesso chi inizia a studiare statistica pensa che i dati “esistano già” in una forma pronta, mentre in realtà la costruzione della matrice è una fase cruciale della ricerca. Non è un passaggio tecnico secondario, ma una vera e propria operazione concettuale. A questo punto il testo chiarisce un aspetto che può sembrare ovvio, ma non lo è affatto: nella matrice, le righe e le colonne non sono intercambiabili. Le righe sono i casi, cioè le unità di analisi; le colonne sono le variabili. Se confondi queste due dimensioni, perdi completamente il senso dei dati. Una riga non è “un valore”, ma l’insieme delle risposte date da un singolo caso a tutte le variabili considerate. Una colonna, invece, è l’insieme dei valori assunti da una variabile su tutti i casi. Il libro usa spesso l’espressione “matrice casi × variabili” proprio per fissare questa idea. È importante anche notare che la matrice è detta “rettangolare” perché il numero di colonne è uguale per tutte le righe: ogni caso deve avere una posizione per ciascuna variabile. Se una risposta manca, quello spazio non viene eliminato, ma viene segnalato come dato mancante. Questo è già un primo indizio del fatto che la statistica non ama le improvvisazioni: anche l’assenza di informazione è, in qualche modo, un’informazione. Una volta chiarita la struttura generale della matrice, il capitolo introduce un altro passaggio fondamentale: la codifica. Nella pratica, infatti, le risposte che raccogliamo sono spesso parole, frasi, espressioni qualitative. Ma la matrice dei dati, per funzionare, ha bisogno di simboli semplici e coerenti. Per questo si procede alla codifica, cioè all’assegnazione di simboli (spesso numeri) alle modalità delle variabili. Qui il libro fa molta attenzione a evitare un errore tipico dei principianti: usare i numeri come se fossero sempre quantità. Quando codifichi una variabile nominale, i numeri che assegni non hanno valore numerico , ma solo valore simbolico. Se assegni 1 a “maschio” e 2 a “femmina”, non stai dicendo che femmina è “il doppio” di maschio: stai solo usando numeri come etichette. Il libro sottolinea che questa distinzione va sempre tenuta a mente, perché altrimenti si rischia di applicare operazioni matematiche dove non hanno senso. La codifica non è un’operazione neutra. È una scelta che deve rispettare il tipo di variabile e gli obiettivi dell’analisi. Nel caso delle variabili ordinali, per esempio, la codifica deve riflettere l’ordine delle modalità. Se “per niente soddisfatto” viene prima di “poco soddisfatto”, e questo prima di “molto soddisfatto”, la numerazione deve rispettare questa sequenza. Nel caso delle variabili cardinali, invece, spesso la codifica coincide direttamente con il valore osservato, come accade per l’età o il reddito. Il capitolo introduce poi una distinzione importante tra matrice grezza e matrice riorganizzata. La matrice grezza è quella che nasce direttamente dalla raccolta dei dati: contiene tutte le risposte così come sono state rilevate. È una sorta di “fotografia iniziale” del materiale empirico. Prima di qualsiasi analisi, però, questa matrice viene spesso controllata, pulita, corretta e talvolta trasformata. Il libro anticipa qui un tema che verrà sviluppato nel capitolo successivo: i dati non sono mai perfetti, e una parte del lavoro statistico consiste proprio nel renderli utilizzabili. Un altro punto importante riguarda l’idea di caso completo. In teoria, ogni riga della matrice dovrebbe contenere un valore per ogni variabile. In pratica, questo non accade quasi mai: alcune persone non rispondono a certe domande, oppure forniscono risposte non interpretabili. Il libro spiega che questi casi non vengono automaticamente eliminati, ma gestiti con attenzione, perché eliminarli può alterare l’analisi complessiva. Questa osservazione serve a far capire che la statistica lavora sempre con dati imperfetti, e che le scelte su come trattare queste imperfezioni fanno parte dell’analisi. Verso la fine del capitolo, il testo introduce un’idea che sarà fondamentale per tutto il resto del libro: analizzare i dati significa analizzare le colonne della matrice. Anche se la matrice contiene molte righe, l’analisi monovariata (che verrà sviluppata nei capitoli successivi) consiste nel prendere una colonna alla volta e studiarne la distribuzione dei valori. In altre parole, la matrice è la struttura di partenza, ma l’attenzione analitica si sposta dalle righe alle colonne.

Il capitolo si chiude facendo capire che la matrice dei dati non è solo uno strumento tecnico, ma il punto di passaggio tra la realtà osservata e la sua rappresentazione statistica. Una matrice costruita male porta a risultati sbagliati, mentre una matrice costruita con attenzione rende possibile tutta l’analisi successiva. Per questo motivo, il libro considera la costruzione della matrice dei dati come una vera e propria fase della ricerca, non come un dettaglio operativo. Un esempio concreto di matrice dei dati (passo passo) Immaginiamo una situazione realistica: abbiamo fatto un piccolo questionario a 5 persone (per semplicità) su alcuni aspetti della loro vita. Le domande sono:

Sesso
Età
Titolo di studio
Grado di soddisfazione per la vita Queste domande diventeranno le variabili. Le persone intervistate saranno i casi.

Prima fase: risposte “grezze” (come le persone parlano davvero) Immagina di avere queste risposte:  Persona 1: femmina, 22 anni, diploma, abbastanza soddisfatta  Persona 2: maschio, 25 anni, laurea, molto soddisfatto  Persona 3: femmina, 22 anni, diploma, poco soddisfatta  Persona 4: maschio, 30 anni, diploma, abbastanza soddisfatto  Persona 5: femmina, 28 anni, laurea, molto soddisfatta Così non è ancora una matrice statistica. È solo un elenco discorsivo.

Seconda fase: decidere come rappresentare i dati

Qui entra in gioco il ragionamento statistico. Abbiamo variabili di tipo diverso:  Sesso → variabile nominale  Età → variabile cardinale  Titolo di studio → variabile ordinale  Soddisfazione → variabile ordinale Per poter costruire una matrice:  dobbiamo usare valori omogenei  spesso usiamo numeri , ma non sempre come quantità Questa è la fase di codifica.

Terza fase: codifica delle variabili Decidiamo (arbitrariamente ma coerentemente):  Sesso o 1 = maschio o 2 = femmina  Titolo di studio o 1 = diploma o 2 = laurea  Soddisfazione o 1 = poco soddisfatto o 2 = abbastanza soddisfatto o 3 = molto soddisfatto ⚠️ Nota importantissima (questa è teoria pura): i numeri non significano quantità , tranne per l’età.

Le risposte “reali” diventano:  Persona 4: maschio, 30 anni, diploma, (non risponde) Questo succede continuamente nelle ricerche reali. Il libro insiste molto su questo punto perché chi inizia tende a pensare che i dati siano “puliti”, mentre non lo sono quasi mai. Come si rappresenta un dato mancante nella matrice La matrice ora diventa: Sesso Età Titolo Soddisfazione Caso 1 2 22 1 2 Caso 2 1 25 2 3 Caso 3 2 22 1 1 Caso 4 1 30 1. Caso 5 2 28 2 3 Quel punto (o un codice tipo 9, 99, -1, ecc.) non è un valore. È un segnale: “qui l’informazione manca”. ⚠️ Questo è concettualmente importantissimo: un dato mancante non significa zero , e non significa una categoria in più. È assenza di informazione.

Perché non si elimina subito il caso Un errore tipico è dire: “se manca un dato, buttiamo via tutta la riga”. Il libro spiega che non è quasi mai una buona idea. Perché?  quella persona ha risposto bene alle altre domande  eliminarla significa perdere informazione su sesso, età, titolo  se i dati mancanti non sono casuali, elimini proprio certi tipi di persone Quindi la regola generale è:  la riga resta  il dato mancante viene segnalato  verrà gestito solo quando serve , variabile per variabile Questo concetto ti tornerà utile più avanti.

Capitolo 2 (continua) – Dalla matrice alla prima distribuzione di frequenza Ora facciamo il passaggio logico che chiude davvero il Capitolo 2 e prepara il Capitolo 3. Prendiamo una colonna della matrice. Scegliamo la variabile Età (perché è semplice e cardinale). La colonna Età è: 22, 25, 22, 30, 28 Qui stiamo già facendo analisi monovariata , anche se il libro la svilupperà dopo. Stiamo guardando una sola variabile alla volta.

Cosa significa “distribuzione di frequenza” Distribuzione di frequenza significa una cosa molto semplice: contare quante volte compare ciascun valore della variabile Niente formule. Solo contare. Nel nostro esempio:  22 compare 2 volte  25 compare 1 volta  28 compare 1 volta  30 compare 1 volta Questo è già il cuore della statistica descrittiva.

Come nasce una tabella di frequenza (senza formalismi) Scriviamolo in forma ordinata: Età Frequenza 22 2 25 1 28 1 30 1 Totale 5 Questa tabella non è ancora il Capitolo 3 , ma il libro la anticipa concettualmente qui per farti capire che:  la matrice è il punto di partenza  la distribuzione è una trasformazione della colonna 👉 Non stiamo creando nuovi dati. Stiamo riassumendo quelli che già esistono.

E se c’è un dato mancante? Facciamo lo stesso con Soddisfazione , dove abbiamo un valore mancante: 2, 3, 1, ., 3 Qui succede una cosa importante:  il “.” non entra nel conteggio  il totale valido non è più 5, ma 4 La distribuzione diventa: Soddisfazione Frequenza 1 (poco) 1 2 (abbastanza) 1 3 (molto) 2 Totale validi 4 Il libro insiste su questo punto perché è una trappola classica : se conti anche i mancanti come se fossero valori, falsi tutto.

Idea chiave che chiude il Capitolo 2 A questo punto puoi tenere in testa questa catena logica:  realtà → risposte  risposte → matrice dei dati  matrice → colonne  colonne → conteggi → distribuzioni Il Capitolo 2 serve esattamente a costruire questo ponte.

Capitolo 3 – Distribuzione di frequenza

(riscrittura spiegata, discorsiva e completa)

Arrivati a questo punto abbiamo in mano una matrice dei dati. Ma così com’è, la matrice è ancora “troppo ricca”: contiene tante informazioni, ma non dice nulla in modo immediato. Se guardi una colonna con cento numeri, il tuo cervello non riesce a cogliere pattern, regolarità, concentrazioni. Il problema della statistica descrittiva nasce proprio qui: come trasformare un insieme di valori in qualcosa che sia leggibile e interpretabile. La risposta più semplice, e anche la più fondamentale, è la distribuzione di frequenza. L’idea è elementare: invece di guardare i dati uno per uno, contiamo quante volte compare ciascun valore. In questo modo non perdiamo informazione, ma la organizziamo. La distribuzione di frequenza è quindi una forma di sintesi: non inventa nulla di nuovo, ma rende visibile ciò che nei dati grezzi è nascosto. Prendiamo la colonna “Età” che avevamo prima: 22, 25, 22, 30, 28. Guardata così non dice molto. Ma se iniziamo a contare, emerge subito che 22 compare due volte, mentre gli altri valori una sola volta. Questo semplice conteggio è già una descrizione statistica.

Quando guardi un diagramma a barre, non devi partire dai numeri, ma dalle altezze relative. La domanda giusta non è “quanto vale esattamente?”, ma “quale barra è più

alta?”, “quali sono simili?”, “quali sono marginali?”. Il grafico serve a cogliere rapidamente la struttura della distribuzione, non i dettagli millimetrici. Per le variabili cardinali trattate come continue (o raggruppate in classi), il grafico tipico è invece l’ istogramma. A prima vista può sembrare simile a un diagramma a barre, ma c’è una differenza concettuale fondamentale: le barre sono attaccate. Questo perché stiamo rappresentando intervalli contigui di una scala numerica continua. Qui non stiamo confrontando categorie separate, ma parti di un continuum.

Quando hai davanti un diagramma a barre, devi farti sempre le stesse domande , nello stesso ordine. Primo sguardo: quante barre ci sono

Il numero di barre ti dice quante modalità ha la variabile. Se vedi quattro barre, sai che la variabile ha quattro categorie distinte. Questo è già un’informazione: ti dice quanto è “articolata” la variabile.

Secondo sguardo: quali barre sono più alte Qui stai cercando la moda , anche se magari non la chiamerai così. Non serve misurare: basta vedere qual è la barra dominante. Quella rappresenta la modalità più frequente. Se una barra svetta nettamente sulle altre, significa che:  molti casi si concentrano lì  quella categoria caratterizza fortemente il fenomeno

Terzo sguardo: confronto tra le altezze Ora non guardi più la barra più alta, ma le relazioni tra tutte le barre. Chiediti:  le barre sono simili tra loro?  ce n’è una molto bassa (categoria marginale)?  la distribuzione è equilibrata o sbilanciata? Questo serve a capire quanto è diversificata la popolazione.

Quarto sguardo: ordine (solo se la variabile è ordinale) Se le barre rappresentano una variabile ordinale , l’ordine sull’asse orizzontale ha un significato. In questo caso puoi chiederti:  la frequenza cresce man mano?  diminuisce?  ha un picco centrale? Qui inizi a intuire cose come:  concentrazione  polarizzazione  gradualità

Errore tipico da evitare Non interpretare la distanza tra le barre come se avesse significato. Nel diagramma a barre:  le barre sono separate  lo spazio tra loro non rappresenta nulla Conta solo l’altezza.

3. Istogramma: come cambia completamente il modo di leggere L’istogramma si usa per variabili cardinali continue (o raggruppate in classi).

Le barre non sono separate perché gli intervalli sono contigui. Questo ti dice subito una cosa: stiamo rappresentando quantità che scorrono lungo una scala Già solo questo distingue l’istogramma dal diagramma a barre.

Secondo sguardo: dove si concentra la massa Qui devi cercare:  dove stanno le barre più alte  in che zona dell’asse orizzontale Quella zona indica dove si concentrano i casi , cioè i valori più comuni. È una lettura “spaziale”, non numerica.

Terzo sguardo: forma della distribuzione Ora guardi l’insieme come se fosse un profilo. Chiediti:  la distribuzione ha un solo picco o più picchi?  è simmetrica o sbilanciata da un lato?  ha una coda lunga? Queste osservazioni non sono decorative: preparano concetti che verranno dopo (media, mediana, variabilità).

Quarto sguardo: ampiezza Osserva:  quanto si estende la distribuzione sull’asse orizzontale  se i valori sono concentrati o sparsi Questo ti dà una prima intuizione della variabilità , anche senza calcoli.

Errore tipico da evitare Non leggere l’istogramma come se fosse un diagramma a barre. Qui:  conta anche la larghezza delle classi  conta la continuità  conta la forma complessiva Non stai confrontando categorie, ma parti di una scala numerica.

4. Una frase che vale per l’esame (e per capire) Se la memorizzi, sei a posto: Nel diagramma a barre confronto categorie; nell’istogramma osservo la forma di una distribuzione. Questa frase da sola distingue chi ha capito da chi no. 5. Collegamento con i capitoli successivi Ora succede una cosa importante:  dai grafici intuisci dove stanno i valori tipici  vedi quanto sono dispersi  anticipi visivamente concetti come media e variabilità Il libro fa apposta a mettere i grafici prima degli indici: prima vedere, poi misurare. Capitolo 3 – Distribuzione di frequenza

(riscrittura completa, senza salti, con spiegazione di TUTTE le parti tecniche)

1. Perché la distribuzione di frequenza è necessaria Il capitolo parte da un problema molto concreto: una colonna della matrice dei dati contiene tanti valori, ma così com’è non è leggibile. Anche se i dati sono corretti,

l’occhio umano non riesce a cogliere regolarità, concentrazioni o squilibri semplicemente guardando una lista di numeri o di risposte. La distribuzione di frequenza nasce quindi come prima vera operazione di analisi statistica. Non serve a calcolare indici complicati, ma a riordinare l’informazione in modo sistematico. Il libro sottolinea che non si tratta di trasformare i dati, ma di rappresentarli in modo ordinato , rendendo esplicito ciò che nei dati grezzi è implicito.

2. Cos’è una distribuzione di frequenza (definizione rigorosa) Una distribuzione di frequenza è una tabella che associa a ciascun valore (o modalità) di una variabile il numero di casi in cui quel valore compare. Il libro insiste su tre caratteristiche fondamentali:  riguarda una sola variabile alla volta (è monovariata)  si costruisce a partire dalla matrice dei dati  il totale delle frequenze deve corrispondere al numero di casi validi Questo ultimo punto è cruciale e verrà ripreso più volte nel capitolo. 3. Frequenza assoluta: cosa misura davvero La frequenza assoluta è la forma più semplice di frequenza. Indica quante volte un certo valore o una certa modalità compare nei dati. Se, su 100 persone, 37 hanno un diploma, la frequenza assoluta del diploma è 37. Il libro chiarisce subito una cosa importante: la frequenza assoluta dipende direttamente dalla numerosità del collettivo. Questo significa che da sola non è sempre confrontabile tra studi diversi o tra gruppi di dimensioni diverse. Dire “37 persone” non ha lo stesso peso se il totale è 50 o se il totale è 1.000. 4. Frequenza relativa: il passaggio concettuale Per superare questo limite, il capitolo introduce la frequenza relativa. Qui il concetto cambia: non stiamo più contando, ma rapportando. La frequenza relativa si ottiene dividendo la frequenza assoluta per il numero totale dei casi validi. Il risultato è un numero compreso tra 0 e 1. Il libro insiste su due proprietà fondamentali:  la frequenza relativa esprime una quota del totale  la somma di tutte le frequenze relative deve essere uguale a 1 Ed è qui che compare uno dei primi avvertimenti tecnici importanti. 5. Arrotondamenti e “problema della somma” Nella pratica, le frequenze relative sono spesso espresse con un numero limitato di cifre decimali. Questo comporta un effetto inevitabile: la somma delle frequenze relative arrotondate può non essere esattamente uguale a 1. Il libro sottolinea che questo non è un errore concettuale , ma una conseguenza degli arrotondamenti. Tuttavia, è importante che lo studente sappia riconoscerlo, perché altrimenti potrebbe pensare di aver sbagliato i calcoli. Qui entra in gioco il concetto di quadratura. 6. Frequenza percentuale e problema della quadratura La frequenza percentuale è semplicemente la frequenza relativa moltiplicata per 100. Serve soprattutto a comunicare i risultati , perché le percentuali sono più intuitive. Tuttavia, anche qui vale lo stesso problema: quando le percentuali vengono arrotondate (per esempio all’intero o al primo decimale), la loro somma può non essere esattamente pari a 100. Il libro usa il termine quadratura per indicare il fatto che:  idealmente, la somma delle percentuali dovrebbe essere 100  nella pratica, può essere 99,9 oppure 100,

11. Relazione tra distribuzione e analisi successive Il capitolo si chiude con un messaggio forte: tutti gli indici che verranno dopo (media, mediana, variabilità) si basano sulla distribuzione di frequenza. Se la distribuzione è costruita male:  gli indici saranno fuorvianti  le interpretazioni saranno sbagliate Per questo il libro dedica così tanto spazio a questo capitolo, apparentemente “semplice”.

Idea chiave finale (questa è davvero da tenere) La distribuzione di frequenza è il primo controllo di qualità sui dati. Se non torna la tabella, non tornerà nulla dopo. Tabella 3.

Distribuzione di frequenza della variabile titolo di studio

Questa tabella è fondamentale , perché in una sola pagina il libro ti fa vedere tutte le forme di frequenza insieme e introduce anche la frequenza cumulata. Prima cosa da capire: che variabile è “Titolo di studio” è una variabile ordinale. Questo è cruciale, perché spiega perché la tabella ha una colonna di frequenze cumulate. Le modalità sono infatti ordinate logicamente:  senza titolo  licenza elementare  licenza media  diploma  laurea Non sono solo categorie diverse: c’è un ordine crescente di livello di istruzione.

Struttura della tabella (prima di leggere i numeri) Le colonne sono quattro:

Frequenze assolute
Frequenze relative (proporzioni)
Frequenze percentuali
Frequenze cumulate (percentuali) Il libro le mette tutte insieme per mostrarti che: stanno descrivendo la stessa distribuzione , ma con strumenti diversi.

Lettura colonna per colonna 1 ⃣ Frequenze assolute Questa colonna ti dice quante persone hanno ciascun titolo di studio. Esempio:  Licenza elementare: 509  Licenza media: 342  Diploma: 264  Laurea: 55 La riga Totale = 1.200 è fondamentale: ti dice che stiamo lavorando su 1.200 casi validi. Questa colonna da sola non basta ancora per interpretare bene, perché i numeri dipendono dalla dimensione del campione.

2 ⃣ Frequenze relative (proporzioni)

Qui il libro fa il primo passaggio concettuale importante. Ogni frequenza assoluta viene divisa per 1.. Il risultato è una proporzione , cioè una quota del totale. Esempio:  509 / 1.200 ≈ 0,  342 / 1.200 ≈ 0, Il libro ti fa notare (implicitamente) che:  tutte queste proporzioni sommano a 1  qui non c’è arrotondamento “grave” perché i decimali sono mantenuti Questa colonna serve per il confronto statistico.

3 ⃣ Frequenze percentuali Questa colonna non introduce nuova informazione. È la stessa proporzione, moltiplicata per 100. Esempio:  0,424 → 42,4%  0,285 → 28,5% Qui il libro sta passando dal linguaggio tecnico a quello comunicativo. La riga Totale = 100,0 è la famosa quadratura :  non è un dettaglio grafico  serve a verificare che la trasformazione è coerente Se fosse 99,9 o 100,1 il libro non parlerebbe di errore, ma qui torna perfettamente.

4 ⃣ Frequenze cumulate (percentuali) Questa è la colonna concettualmente più importante della tabella. Qui il libro ti sta dicendo: “fino a questo livello di istruzione, che percentuale di persone ho?” Vediamola riga per riga :  Senza titolo → 2, → il 2,5% delle persone non ha alcun titolo  Licenza elementare → 44, → fino alla licenza elementare arriva il 44,7%  Licenza media → 73, → fino alla licenza media arriva il 73,4%  Diploma → 95, → fino al diploma arriva il 95,4%  Laurea → 100, → includendo tutti, arrivi al totale Questa colonna cresce sempre e finisce a 100. È impossibile che diminuisca: ogni riga include le precedenti. 👉 Qui il libro sta preparando mediana e quartili , anche se non li nomina ancora.

Cosa insegna davvero questa tabella Questa tabella serve a insegnarti quattro cose insieme :  come convivono diverse frequenze  perché la cumulata ha senso solo per variabili ordinate  come leggere una distribuzione “fino a”  come controllare la coerenza dei dati

Tabella 3.

Distribuzioni di frequenza assolute e relative della variabile partito

votato

(Camera 1996, Lombardia ed Emilia-Romagna)