Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica sociale di base, Appunti di Statistica Sociale

Appunti di Statistica Sociale di base con slide delle lezioni e contenuti del libro. Argomenti principali: - Introduzione alla metodologia statistica - Campionamento e misurazione - Statistica descrittiva e statistica inferenziale - Descrivere il centro dei dati: Media, mediana e moda - Descrivere la variabilità dei dati: Il campo di variazione (range), La deviazione, La deviazione standard, Le misure di posizione - Probabilità - Distribuzioni di probabilità - Inferenza statistica: la stima - Intervallo di confidenza per la proporzione

Tipologia: Appunti

2023/2024

Caricato il 29/08/2025

kekko-pittau
kekko-pittau 🇮🇹

5

(1)

3 documenti

1 / 63

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Statistica Sociale
Introduzione alla metodologia statistica
Perché si studia la statistica?
Negli ultimi decenni si è osservata una crescita nell’impiego delle metodologie
statistiche in molti settori, ormai quasi tutti:
Nelle scienze sociali (economia, sociologia, ecc.) per raccogliere ed elaborare
le informazioni relative a un determinato fenomeno sociale
- Quali fattori influenzano i risultati scolastici degli studenti?
- Quali elementi influenzano le opinioni politiche degli individui?
- Cosa influisce sulla scelta di ritirarsi dall’attività lavorativa?
Nel settore privato:
- Analisi di mercato, marketing, data scientist, ingegneri del dato, ecc.
- Social media manager, esperti di comunicazione, ecc.
Nel settore pubblico:
- Pubbliche amministrazioni
- Aziende sanitarie
- Sistema scolastico
Questo incremento è dovuto a numerosi fattori:
La disponibilità immediata di informazioni quantitative direttamente
utilizzabili
- Open data, internet, social networks, dati satellitari, ecc.
Lo sviluppo di software e computer sempre più potenti e accessibili
- Gratuiti e liberamente utilizzabili (es. R, Gretl, Python, ecc.)
- Più semplici da utilizzare (es. tutorial gratuiti, blogs, ChatGPT, ecc.)
- Servizi di cloud computing/storage
In molti settori la conoscenza dei metodi statistici è diventata una competenza
fondamentale
oOccorre saper applicare i metodi statistici
oOccorre saper leggere e interpretare report contenenti informazioni
statistiche
Nella vita di tutti i giorni affrontiamo un flusso continuo di informazioni quantitative:
Messaggi pubblicitari (es. il 70% dei consumatori sceglie…, ecc.)
Notizie (es. evoluzione della pandemia e del numero di contagi, ecc.)
Sondaggi (es. il 50% degli italiani pensa che…, ecc.)
Social network (es. lo youtuber con 5 milioni di followers, ecc.
In tutti questi casi la statistica ci aiuta a:
Comprendere e interpretare i fenomeni che ci circondano
Effettuare scelte informate e consapevoli
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f

Anteprima parziale del testo

Scarica Statistica sociale di base e più Appunti in PDF di Statistica Sociale solo su Docsity!

Statistica Sociale

Introduzione alla metodologia statistica

Perché si studia la statistica?

Negli ultimi decenni si è osservata una crescita nell’impiego delle metodologie statistiche in molti settori, ormai quasi tutti:  Nelle scienze sociali (economia, sociologia, ecc.) per raccogliere ed elaborare le informazioni relative a un determinato fenomeno sociale

  • Quali fattori influenzano i risultati scolastici degli studenti?
  • Quali elementi influenzano le opinioni politiche degli individui?
  • Cosa influisce sulla scelta di ritirarsi dall’attività lavorativa?  Nel settore privato:
  • Analisi di mercato, marketing, data scientist, ingegneri del dato, ecc.
  • Social media manager, esperti di comunicazione, ecc.  Nel settore pubblico:
  • Pubbliche amministrazioni
  • Aziende sanitarie
  • Sistema scolastico Questo incremento è dovuto a numerosi fattori:  La disponibilità immediata di informazioni quantitative direttamente utilizzabili
  • Open data, internet, social networks, dati satellitari, ecc.  Lo sviluppo di software e computer sempre più potenti e accessibili
  • Gratuiti e liberamente utilizzabili (es. R, Gretl, Python, ecc.)
  • Più semplici da utilizzare (es. tutorial gratuiti, blogs, ChatGPT, ecc.)
  • Servizi di cloud computing/storage In molti settori la conoscenza dei metodi statistici è diventata una competenza fondamentale o Occorre saper applicare i metodi statistici o Occorre saper leggere e interpretare report contenenti informazioni statistiche Nella vita di tutti i giorni affrontiamo un flusso continuo di informazioni quantitative:  Messaggi pubblicitari (es. il 70% dei consumatori sceglie…, ecc.)  Notizie (es. evoluzione della pandemia e del numero di contagi, ecc.)  Sondaggi (es. il 50% degli italiani pensa che…, ecc.)  Social network (es. lo youtuber con 5 milioni di followers, ecc. In tutti questi casi la statistica ci aiuta a:  Comprendere e interpretare i fenomeni che ci circondano  Effettuare scelte informate e consapevoli

I dati

La raccolta delle informazioni rappresenta un punto cruciale dell’analisi statistica, essa permette di ottenere i dati : Dati: l’insieme di tutte le osservazioni (per osservazioni si intendono le righe di una tabella, dunque se io osservo 10 persone avrò 10 osservazioni), sulle caratteristiche di interesse di uno studio. Ad esempio, per ciascun individuo di uno studio i dati potrebbero avere la seguente struttura: Caratteristiche Osservazioni Legalizzazione marijuana Non favorevole Partito politico Repubblicano Anni di istruzione 14 anni Frequenza funzioni religiose Una volta a settimana Reddito annuo Tra i 40 e i 60 mila $ Stato civile Coniugata Sesso Femminile I dati raccolti devono poi essere esaminati nel modo opportuno per comprendere come queste caratteristiche sono in relazione tra loro:  Le persone che frequentano con maggiore frequenza le funzioni religiose tendono a essere maggiormente conservatrici?  Le persone con più anni di istruzione tendono ad avere un reddito annuo maggiore? Per ottenere i dati possono essere utilizzati diversi metodi come: indagini esperimenti, osservazioni dirette dei comportamenti, ecc. Spesso si analizzano i dati raccolti per altre finalità , come: rapporti delle forze di polizia, archivi ospedalieri, censimenti, ecc. Le raccolte di dati in archivi sono dette database e spesso sono disponibili su internet (es. http://dati.istat.it/ )

General Social Survey (GSS)

Il Nation Opinion Research Center dell’Università di Chicago realizza la General Social Survey (GSS):  Intervista circa 2000 soggetti adulti con cadenza biennale (quindi li intervista ogni due anni)  Opinioni e comportamenti della popolazione statunitense  Viene utilizzata per valutare come gli statunitensi rispondono a certi quesiti come:

  • Credi nella vita dopo la morte?, ecc.
  • Saresti disposto a pagare prezzi più alti per i prodotti che acquisti se questo servisse a proteggere l’ambiente?, ecc.

Il termine Inferire si riferisce alle previsioni fatte attraverso i dati. Immaginiamo che il 12,4% dei rispondenti all’indagine multiscopo ha riferito di desiderare un figlio, possiamo utilizzare questa informazione per prevedere la percentuale di adulti italiani che desiderava avere un figlio al momento in cui è stata realizzata l’indagine? Si (questo è inferire). Le previsioni fatte utilizzando i dati sono chiamate inferenze statistiche. Diversi esempi: numero di contagi da Covid-19, riscaldamento globale, rendimenti finanziari, esami universitari, ecc.

Statistica descrittiva e statistica inferenziale

I metodi dell’analisi statistica dei dati vengono classificati in due grandi categorie:  Metodi descrittivi  Statistica Descrittiva  Metodi inferenziali  Statistica Inferenziale Dunque, la statistica descrittiva ci descrive un fenomeno mentre la statistica inferenziale ci aiuta a prevedere un fenomeno. In sintesi:  La statistica è un complesso di metodi per progettare ricerche e analizzare i dati raccolti.  L’analisi viene definita descrittiva quando il suo obiettivo principale è quello di descrivere e sintetizzare i dati.  L’analisi viene definita inferenziale quando il suo obiettivo principale è quello di fare previsioni sulla base dei dati raccolti. Ma perché ci serve fare delle previsioni? Due concetti importanti: Popolazione e Campione

Popolazioni e Campioni

Le entità che vengono osservate in una ricerca vengono definite soggetti di studio , che possono essere: persone fisiche (come nella GSS), famiglie (come nella Multiscopo), scuole, aziende, città, ecc. o La popolazione è costituita dal totale dei soggetti di interesse di uno studio, ad esempio: tutte le scuole italiane, tutte le persone fisiche residenti in Italia, ecc. o Il campione è un sottoinsieme della popolazione di riferimento dello studio Ad esempio, nell’indagine Multiscopo Aspetti della Vita Quotidiana:  campione: individui intervistati  popolazione: la popolazione italiana L’obiettivo principale di qualunque ricerca è quello di acquisire conoscenze sulla popolazione, il campione non ci interessa più di tanto. Il problema di quando utilizziamo il concetto di popolazione è che spesso non è possibile ottenere le informazioni su tutti i soggetti di interesse (costi, tempo, difficoltà di accesso alle informazioni, ecc.).

La soluzione parziale a questo problema è quella di utilizzare i dati del campione per fare inferenza sulle caratteristiche della popolazione, ma anche in questo caso ci sono dei problemi legati alla selezione del campione e alla generalizzazione dei risultati della ricerca. Quindi:  La statistica descrittiva sintetizza le informazioni raccolte in formati semplici limitando la perdita di informazioni e distorsioni  La statistica inferenziale fa dele previsioni su una popolazione sulla base delle informazioni raccolte su un campione selezionato da essa

Parametri e Statistiche

Quando si utilizzano le tecniche statistiche inferenziali è fondamentale comprendere la distinzione tra parametro e statistica :

  • Parametro : sintesi numerica dei dati di popolazione Nel caso dell’esempio il numero medio di figli desiderati dalla tutta la popolazione italiana Numero medio  sintesi numerica
  • Statistica : sintesi numerica dei dati campionari Nel caso dell’esempio il numero medio di figli desiderati dai soggetti che fanno parte del campione Numero medio  sintesi numerica Il nostro principale obiettivo è quello di conoscere il valore assunto dai parametri della popolazione : il campione e le statistiche sono utili in quanto ci permettono di fare inferenza sul parametro incognito di interesse Esempio: hai fiducia nella gente? Nell’indagine Multiscopo Aspetti della Vita Quotidiana è stata formulata la seguente domanda: lei pensa che si possa fidare della maggior parte della gente oppure bisogna stare molto attenti? I dati dell’indagine:  Popolazione: tutte le famiglie italiane  Campione: 20.275 intervistati (uno per famiglia)  Sintesi numerica: il 66% degli intervistati del campione ha risposto che bisogna stare molto attenti (in questo caso è una statistica perché siamo in un campione) Cosa ci interessa:  Le opinioni dell’intera popolazione italiana  La statistica calcolata nel campione è la nostra fonte di informazioni sul parametro incognito (in questo caso la percentuale di gente che si fida e che non si fida) della popolazione di interesse I metodi di statistica inferenziale ci permettono di formulare la previsione: La percentuale di adulti che non ha fiducia nella gente è compresa fra il 64% e il 68% (la statistica ha un margine di errore del 2%)

o Variabili categoriali : i valori osservati sono rappresentati da categorie, o parole, ad esempio sesso (es. femmina), titolo di studio (es. laureata), religione (es. cattolica), frutto preferito (es. ciliegie), ecc.

Variabili quantitative e categoriali

Le variabili quantitative sono di due tipi:

  • Discrete : i valori sono numeri distinti, di solito interi (es. numero di auto: 0, 1, 2, 3, ecc.)
  • Continue : può assumere come valori ogni possibile numero reale incluso in un continuum “infinito” (es. età: 1 anno, 2 mesi, 3 giorni, ecc.) La differenza tra i due valori è informativa Le variabili categoriali sono di due tipi:  Ordinali : i valori possono essere ordinati (es. titolo di studio: laurea è maggiore di diploma, …)  Nominali : i valori non possono essere ordinati (es. sesso: femmina non è maggiore di maschio, ecc.) La differenza tra due valori non è informativa (es. quanto fa laurea meno diploma?)

Variabili discrete e continue

Consideriamo la variabile discreta numero di auto per famiglia:  Possiamo usare solo numeri interi (1, 2, 3, 4, …)  Non possiamo rilevare osservazioni il cui valore sia un numero decimale (1,45 o 2,3 …) La differenza tra due valori è informativa: ad esempio , se una famiglia ha 3 auto e un’altra ne ha 1 possiamo dire che la differenza è di 2 auto Consideriamo la variabile continua età in anni: o Può assumere valori che vanno da 0 a più di 100. Ad esempio, se consideriamo due studenti che hanno 20 anni, in realtà hanno u età diversa se consideriamo i mesi, i giorni, le ore, i minuti, ecc. La differenza tra due valori è informativa: ad esempio, se tra due studenti c’è una differenza di 73 giorni allora ci sarà una differenza di 73/365, ossia 0,2 anni. Però la differenza tra variabili continue e discrete è solo apparente : in realtà tutte le variabili continue vengono trattate come discrete (es. età misurata in anni, distanza in km, ecc.) Stabilendo a quale unità o cifra decimale fermarci, compiamo un’operazione di approssimazione (da infiniti valori passiamo a un numero finito di valori) In sintesi:

  • Le variabili sono quantitative o categoriali
  • Le categoriali sono sempre discrete
  • Le categoriali si dividono in nominali (categorie non ordinate) e ordinali (categorie ordinate)
  • Le quantitative possono essere continue o discrete (ma in pratica, quando noi andiamo ad utilizzarle anche le continue vengono discretizzate, per una questione tecnica)

Casualizzazione

Alla base di una buona indagine c’è un buon campione: Innanzitutto, il campione = sottoinsieme della popolazione e la bontà del campione dipende da come selezioniamo le osservazioni. Più specificamente è un buon campione se selezionato attraverso la casualizzazione. Per casualizzazione si intende l’ applicazione della casualità nella selezione del campione. Il campione deve essere rappresentativo della popolazione da cui proviene.

Campione casuale semplice (CCS)

Il campione casuale semplice è definito come:  un campione di n soggetti estratti da una popolazione è un campione casuale semplice se ogni possibile campione di pari numerosità che poteva essere estratto dalla popolazione ha avuto la stessa probabilità di essere selezionato la lettera n indica la dimensione campionaria o ampiezza (numero di unità dentro un campione), la lettera N indica la dimensione della popolazione Esempio di campione casuale semplice: abbiamo una popolazione costituita da N= palline e associamo una lettera a ogni pallina (a, b, c, d). Se vogliamo costruire un campione casuale semplice di n=2, i possibili campioni, o le possibili combinazioni, sono: (a, b) - (a, c) - (a, d) - (b, c) - (b, d) - (c, d) e ciascun campione ha la stessa probabilità di essere scelto (1/6)

Come selezionare un CCS

Per selezionare un CCS ci serve una lista di campionamento , ossia la lista di tutte le unità della popolazione a cui ogni soggetto è associato a un numero identificativo. La procedura di selezione può essere sintetizzata in 3 fasi:

  1. assegnare un numero a ciascun elemento della lista;
  2. selezionare casualmente un insieme di questi numeri pari al numero di unità di cui si ha bisogno;
  3. Includere nel campione le unità corrispondenti ai numeri selezionati. Ma come facciamo a selezionare casualmente i numeri presenti nella lista? Una procedura piuttosto comune è quella di fare ricorso ai numeri casuali , ossia

parametro della popolazione (differenza tra il valore calcolato nel campione e il valore calcolato nella popolazione). Ricostruiamo l’indagine campionaria:  Obiettivo : conoscere il valore di un parametro nella popolazione  Procedura : selezioniamo un campione e stimiamo il valore del parametro utilizzando i dati del campione  calcoliamo la statistica campionariaRisultati : il risultato ottenuto (chiamato stima ) sarà verosimilmente diverso dal valore vero della popolazione (ignoto)  Errore campionario : differenza tra la stima e il valore vero (e dunque un errore possibile quando utilizza una statistica campionaria invece che il parametro della popolazione) Ad esempio: Vogliamo stimare il reddito medio dei lavoratori dipendenti. Chiediamo di fare l’indagine a tre istituti di ricerca che utilizzano tre campioni diversi e si ottengono i seguenti risultati:

  • campione 1: reddito medio = 1.560 €
  • campione 2: reddito medio = 1.620 €
  • campione 3: reddito medio = 1.490 € Se il reddito medio nella popolazione (il parametro ) è pari a 1540 € avremo i seguenti errori campionari : o campione 1: errore campionario = 1.560 – 1540 = + o campione 2: errore campionario = 1.620 – 1540 = + o campione 3: errore campionario = 1.490 – 1540 = – L’ errore campionario presenta alcune caratteristiche :  non è noto a priori perché ci manca l’informazione sul parametro della popolazione e inoltre se fosse noto non servirebbe fare l’inferenza  al variare dei campioni varia attorno allo zero e per alcuni campioni sarà positivo (maggiore del parametro), per latri negativo (minore del parametro)  all’aumentare della dimensione campionaria tende a ridursi , in particolare è pari a zero se la numerosità del campione coincide con quella della popolazione

Altri metodi di campionamento probabilistici

Il campione casuale semplice non è sempre la scelta migliore  Altre procedure di campionamento probabilistico possono risultare più efficaci;  Queste procedure consentono di ridurre la variabilità dovuta al campionamento;  Possono richiedere più tempo pre la rilevazione;  Possono richiedere alcune informazioni sulla popolazione e sulle sue caratteristiche. In particolare, noi ci riferiremo a quattro tecniche:

  • campione sistematico
  • campione stratificato
  • campione a grappolo
  • campione a più stadi

Campione sistematico

Il campione sistematico talvolta non viene considerato un metodo di campionamento ma una tecnica di selezione : o bisogna disporre della lista di campionamento o ci servono tre numeri:

  1. N è l’ampiezza della popolazione,
  2. n è l’ampiezza del campione,
  3. k = N/n è il passo di estrazione o si procede:
  4. si seleziona un soggetto tra i primi k contenuti nella lista di campionamento
  5. viene selezionato ogni soggetto che si trova nella k- esima posizione della lista dopo il primo. o è simile al campionamento casuale semplice ma è più facile da determinare in presenza di una lista di selezione (ad esempio nei dati amministrativi). Supponiamo di voler selezionare un campione sistematico di 100 studenti da una popolazione di 30.000 registrati negli archivi di un campus universitario. Abbiamo n=100 e N=30.000, quindi k= 30.000/100=300. L’ampiezza della popolazione è 300 volte quella del campione così che dobbiamo selezionare uno studente ogni 300. Dalla lista dei 30.000 studenti selezioniamo il primo studente del campione estraendo un numero a caso compreso tra 1 e 300, di seguito campioniamo uno studente ogni 300 fino a raggiungere la numerosità campionaria di 100.

Campione stratificato

Nel campione stratificato la popolazione viene suddivisa in gruppi distinti chiamati strati e da ogni strato viene estratto un campione casuale semplice Cosa sono gli strati? Gli strati sono gruppi di soggetti distinti per alcune caratteristiche, come età, reddito, ecc. Bisogna conoscere la distribuzione della popolazione secondo la variabile di stratificazione scelta, per esempio devo avere l’informazione di stratificazione nella lista di campionamento (ad esempio l’età), dunque bisogna conoscere a quale strato appartiene ciascun soggetto della lista di campionamento. Due tipi di campionamento stratificato: Proporzionale : i gruppi sono rappresentati nel campione con lo stesso peso che hanno nella popolazione (se il 20% della popolazione appartiene a uno strato (ad esempio età compresa tra 0 e 10 anni) allora anche il 20% del campione dovrà appartenere allo stesso strato). In altre parole, è proporzionale se la proporzione di osservazioni contenute in ciascuno strato del campione è uguale alla proporzione di popolazione appartenente al corrispondente gruppo. Non proporzionale : le proporzioni campionarie dei vari strati non corrispondono a quelle della popolazione (utile quando si vuole rappresentare in modo numericamente rilevante uno strato poco rappresentato a livello di popolazione).

  • Frequenze percentuali : percentuale di osservazioni che ricadono nella categoria

Dati qualitativi: la proporzione

Frequenze relative

La frequenza relativa è data dal rapporto tra la frequenza assoluta e la numerosità campionaria , essa indica la proporzione di volte in cui una determinata modalità di una variabile viene osservata nei dati. La tabella sottostante riporta la distribuzione del numero di furti in Sardegna secondo la provincia di residenza: Provincia Furti Cagliari-Hinterland 98 Sud Sardegna 335 Oristano 182 Nuoro 319 Sassari 119 In questo caso, la numerosità campionaria è pari a 1053 e si ottiene sommando tutte le frequenze assolute. La tabella successiva mostra le frequenze relative e le frequenze relative cumulate: Provincia Frequenze assolute Frequenze relative Frequenze relative cumulative Cagliari-Hinterland 98 0,093 0, Sud Sardegna 335 0,318 0, Oristano 182 0,173 0, Nuoro 319 0,303 0, Sassari 119 0,113 1, Per esempio, la frequenza relativa associata alla provincia Cagliari-Hinterland è pari a 98/1053 = 0.093. Le frequenze relative cumulate si calcolano semplicemente sommando le frequenze relative. Quindi, la frequenza relativa cumulata tra Sud Sardegna e Cagliari Hinterland è pari a 0.093 + 0.318 = 0.411. Frequenza relativa : proporzione di osservazioni che ricadono nella categoria. Proporzione : numero di osservazioni in una categoria diviso il numero totale. La proporzione è sempre compresa tra 0 e 1 (es. su 100 studenti 30 sono fuori sede  proporzione: 30/100 = 0.3, se tutti fossero fuori sede la proporzione sarebbe: 100/100 = 1 e se nessuno fosse fuori sede la proporzione sarebbe: 0/100 = 0). Frequenza relativa cumulativa : Per calcolare le frequenze relative cumulate , seguiamo questi passaggi:

  1. Calcoliamo il totale dei furti: 98 + 335 + 182 + 319 + 119 = 1053
  1. Calcoliamo la frequenza relativa di ciascuna provincia (furti nella provincia divisi per il totale)
  • Cagliari-Entroterra: 98/1053 = 0,
  • Sud Sardegna :335/1053 = 0,
  • Oristano: 182/1053 = 0,
  • Nuoro: 319/1053 = 0,
  • Sassari :119/1053 = 0,
  1. e poi sommiamo progressivamente queste frequenze per ottenere le cumulate :
  • Cagliari-Entroterra: 0,
  • Sud Sardegna: 0,093+0,318=0,
  • Oristano: 0,411+0,173=0,
  • Nuoro: 0,584+0,303=0,
  • Sassari: 0,887+0,119=1, La somma delle frequenze relative deve dare circa 1 La frequenza percentuale si calcola semplicemente moltiplicando le frequenze relative per 100. Provincia Frequen ze assolute Frequen ze relative Frequenz e relative cumulati ve Frequenz e percentu ali Frequenz e percentu ali cumulati ve Cagliari- Hinterland

Sud Sardegna 335 0,318 0,411 31.81% 41.12% Oristano 182 0,173 0,584 17.28% 58.40% Nuoro 319 0,303 0,887 30.29% 88.70% Sassari 119 0,113 1,000 11.30% 100.00% Frequenza percentuale : percentuale di osservazioni che ricadono nella categoria. Proporzione moltiplicata per 100. Questa è sempre compresa tra 0 e 100 (es. su 100 studenti 30 sono fuori sede  percentuale: 30/100 x 100 = 0.3 x 100 = 30%, se tutti fossero fuori sede la percentuale sarebbe: 100/100 x 100 = 100% e se nessuno fosse fuori sede la percentuale sarebbe: 0/100 x 100 = 0%).

Dati categoriali: distribuzioni di frequenze

Dati categoriali: grafico a torta

Un altro tipo di rappresentazione molto comune è il grafico a torta : o si presenta come un cerchio suddiviso in spicchi o ogni categoria è rappresentata da uno spicchio o l’ampiezza dello spicchio indica la frequenza relativa Criticità:  utile se le categorie sono poche e presentano frequenze relative molto diverse  men efficace del grafico a barre quando le frequenze relative sono simili  l’ampiezza dello spicchio non è direttamente quantificabile

Dati quantitativi: distribuzioni di frequenze

Anche nel caso dei dati quantitativi possiamo usare tabelle e grafici : Le tabelle prevedono un elenco con due colonne:  gli intervalli in cui vengono divise le osservazioni (es. da 10 a 100 euro);  le frequenze associate a ogni intervallo È possibile utilizzare anche le frequenze relative e percentuali Esempio: tassi di criminalità USA (x 10.000 abitanti) Prendiamo una tabella in cui c viene mostrato il tasso di criminalità registrato negli USA e per ottenere questo tasso di criminalità si misura il numero di crimini registrati in un dato stato ogni 10.000 abitanti residenti. Se, ad esempio, prendiamo uno stato con 12.000 crimini e una popolazione residente di 2.300.000 abitanti il tasso si calcola prendendo il numero dei crimini (12.000) e dividendolo per il numero di abitanti (2.300.000) e poi moltiplichiamo per 10.000.

Quindi 12.000 / 2.300.000 x 10.000 = 52,17. Ciò vuol dire che ogni 10.000 abitanti ci sono 52,17 crimini. Come facciamo a illustrare questi tassi in modo sintetico ed efficiente? (obiettivo della statistica descrittiva) Possiamo, anche in questo caso, utilizzare la distribuzione di frequenze nel modo seguente: Dividere la scala di misurazione della variabile in un insieme di intervalli Contare quante osservazioni sono presenti all’interno di ogni intervallo (e così ottengo le frequenze assolute ) e, per esempio, posso considerare questi intervalli: 0-11, 12- 13, 24-35, 36-47, 48-59, ecc. Come interpreto questi intervalli? Dato che le cifre sono arrotondate l’intervallo 12- rappresenta tutti i valori compresi tra 11.5 e 23. In questo modo possiamo ottenere la seguente tabella: La tabella ci mostra le frequenze assolute, relative e percentuali. Frequenza assoluta: numero di stati che presentano un tasso compreso nell’intervallo considerato.

Dati quantitativi: l’istogramma

Queste informazioni possono essere rappresentate utilizzando l’istogramma:

  • simile al grafico a barre
  • nell’asse delle ascisse si rappresentano gli intervalli in cui è stata suddivisa la variabile
  • in questo caso le “barre” non sono separate
  • gli intervalli includono tutti i possibili valori della variabile e sono mutualmente esclusivi (ogni valore è incluso in ogni singolo intervallo)
  • l’altezza della barra indica la frequenza relativa Come scegliamo il numero di intervalli? Intervalli piccoli :  si mantengono più dettagli, il numero di barre cresce

o Distribuzioni di dati di popolazione  utilizzo i dati su tutta la popolazione o Distribuzione di dati campionari  utilizzo i dati del campione La distribuzione di dati campionari approssima quella di popolazione: quando la dimensione campionaria aumenta le proporzioni campionarie in ciascun intervallo si approssimano alle vere proporzioni della popolazione e la distribuzione dei dati campionari diventa più simile alla distribuzione di popolazione.

Le distribuzioni di dati: esempio

Ad esempio, consideriamo il caso seguente:

  • analizziamo le osservazioni di una variabile continua
  • aumentiamo indefinitamente l’ampiezza campionaria
  • aumentiamo il numero di intervalli in cui abbiamo suddiviso la distribuzione (gli intervalli quindi diventano più piccoli) Cosa succede alla forma dell’istogramma?  più aumentiamo l’ampiezza campionaria e il numero di intervalli, più la distribuzione viene approssimata da una curva liscia  con poche osservazioni o pochi intervalli, invece, abbiamo dei “gradoni” La figura mostra due istogrammi di dati campionari, uno costruito su una numerosità di 100, l’altro di 500 osservazioni (quindi dal caso a) al caso b) stiamo aumentando non solo il numero di osservazioni ma anche il numero di intervalli). Il terzo grafico indica la distribuzione nella popolazione, anche se abbiamo una variabile discreta la sua distribuzione a livello di popolazione può essere adeguatamente approssimata da una curva liscia (perché ci sono talmente tanti dati che posso fare degli intervalli talmente piccoli che poi visivamente sembreranno una curva liscia, ma si tratta sempre di un istogramma).

La forma della distribuzione

Perché ci interessa la forma della distribuzione? Perché ci permette di avere informazioni sulle caratteristiche della distribuzione. Prendiamo ad esempio due forme:

Confrontiamo le due distribuzioni: Distribuzione a U : le frequenze più elevate sono riferite ai valori più bassi e più alti assunti dalle osservazioni. Indica una polarizzazione della variabile rispetto a due insiemi di soggetti Distribuzione a forma campanulare : le frequenze più elevate sono riferite ai valori centrali. Indica che la maggior parte dei soggetti tende ad assumere valori prossimi al valore centrale. In entrambi i casi le distribuzioni sono simmetriche : il lato della distribuzione a sinistra del valore centrale è l’immagine speculare del lato a destra dello stesso valore. La maggior parte delle distribuzioni che vengono osservate però non sono simmetriche: Le parti della figura in cui le frequenze sono ridotte sono chiamate code della distribuzione Le distribuzioni asimmetriche possono essere di due tipi:  asimmetriche positive : una lunga coda a destra, cioè i valori dove abbiamo poche osservazioni sono più alti  asimmetriche negative : una lunga coda a sinistra, cioè i valori dove abbiamo poche osservazioni sono più bassi È importante? Si, perché noi da queste distribuzioni riusciamo a capire molte cose del fenomeno. Esempio Reddito: un numero elevato di persone con redditi bassi e un numero ridotto di persone con redditi elevati