























































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti di Statistica Sociale di base con slide delle lezioni e contenuti del libro. Argomenti principali: - Introduzione alla metodologia statistica - Campionamento e misurazione - Statistica descrittiva e statistica inferenziale - Descrivere il centro dei dati: Media, mediana e moda - Descrivere la variabilità dei dati: Il campo di variazione (range), La deviazione, La deviazione standard, Le misure di posizione - Probabilità - Distribuzioni di probabilità - Inferenza statistica: la stima - Intervallo di confidenza per la proporzione
Tipologia: Appunti
1 / 63
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!
























































Negli ultimi decenni si è osservata una crescita nell’impiego delle metodologie statistiche in molti settori, ormai quasi tutti: Nelle scienze sociali (economia, sociologia, ecc.) per raccogliere ed elaborare le informazioni relative a un determinato fenomeno sociale
La raccolta delle informazioni rappresenta un punto cruciale dell’analisi statistica, essa permette di ottenere i dati : Dati: l’insieme di tutte le osservazioni (per osservazioni si intendono le righe di una tabella, dunque se io osservo 10 persone avrò 10 osservazioni), sulle caratteristiche di interesse di uno studio. Ad esempio, per ciascun individuo di uno studio i dati potrebbero avere la seguente struttura: Caratteristiche Osservazioni Legalizzazione marijuana Non favorevole Partito politico Repubblicano Anni di istruzione 14 anni Frequenza funzioni religiose Una volta a settimana Reddito annuo Tra i 40 e i 60 mila $ Stato civile Coniugata Sesso Femminile I dati raccolti devono poi essere esaminati nel modo opportuno per comprendere come queste caratteristiche sono in relazione tra loro: Le persone che frequentano con maggiore frequenza le funzioni religiose tendono a essere maggiormente conservatrici? Le persone con più anni di istruzione tendono ad avere un reddito annuo maggiore? Per ottenere i dati possono essere utilizzati diversi metodi come: indagini esperimenti, osservazioni dirette dei comportamenti, ecc. Spesso si analizzano i dati raccolti per altre finalità , come: rapporti delle forze di polizia, archivi ospedalieri, censimenti, ecc. Le raccolte di dati in archivi sono dette database e spesso sono disponibili su internet (es. http://dati.istat.it/ )
Il Nation Opinion Research Center dell’Università di Chicago realizza la General Social Survey (GSS): Intervista circa 2000 soggetti adulti con cadenza biennale (quindi li intervista ogni due anni) Opinioni e comportamenti della popolazione statunitense Viene utilizzata per valutare come gli statunitensi rispondono a certi quesiti come:
Il termine Inferire si riferisce alle previsioni fatte attraverso i dati. Immaginiamo che il 12,4% dei rispondenti all’indagine multiscopo ha riferito di desiderare un figlio, possiamo utilizzare questa informazione per prevedere la percentuale di adulti italiani che desiderava avere un figlio al momento in cui è stata realizzata l’indagine? Si (questo è inferire). Le previsioni fatte utilizzando i dati sono chiamate inferenze statistiche. Diversi esempi: numero di contagi da Covid-19, riscaldamento globale, rendimenti finanziari, esami universitari, ecc.
I metodi dell’analisi statistica dei dati vengono classificati in due grandi categorie: Metodi descrittivi Statistica Descrittiva Metodi inferenziali Statistica Inferenziale Dunque, la statistica descrittiva ci descrive un fenomeno mentre la statistica inferenziale ci aiuta a prevedere un fenomeno. In sintesi: La statistica è un complesso di metodi per progettare ricerche e analizzare i dati raccolti. L’analisi viene definita descrittiva quando il suo obiettivo principale è quello di descrivere e sintetizzare i dati. L’analisi viene definita inferenziale quando il suo obiettivo principale è quello di fare previsioni sulla base dei dati raccolti. Ma perché ci serve fare delle previsioni? Due concetti importanti: Popolazione e Campione
Le entità che vengono osservate in una ricerca vengono definite soggetti di studio , che possono essere: persone fisiche (come nella GSS), famiglie (come nella Multiscopo), scuole, aziende, città, ecc. o La popolazione è costituita dal totale dei soggetti di interesse di uno studio, ad esempio: tutte le scuole italiane, tutte le persone fisiche residenti in Italia, ecc. o Il campione è un sottoinsieme della popolazione di riferimento dello studio Ad esempio, nell’indagine Multiscopo Aspetti della Vita Quotidiana: campione: individui intervistati popolazione: la popolazione italiana L’obiettivo principale di qualunque ricerca è quello di acquisire conoscenze sulla popolazione, il campione non ci interessa più di tanto. Il problema di quando utilizziamo il concetto di popolazione è che spesso non è possibile ottenere le informazioni su tutti i soggetti di interesse (costi, tempo, difficoltà di accesso alle informazioni, ecc.).
La soluzione parziale a questo problema è quella di utilizzare i dati del campione per fare inferenza sulle caratteristiche della popolazione, ma anche in questo caso ci sono dei problemi legati alla selezione del campione e alla generalizzazione dei risultati della ricerca. Quindi: La statistica descrittiva sintetizza le informazioni raccolte in formati semplici limitando la perdita di informazioni e distorsioni La statistica inferenziale fa dele previsioni su una popolazione sulla base delle informazioni raccolte su un campione selezionato da essa
Quando si utilizzano le tecniche statistiche inferenziali è fondamentale comprendere la distinzione tra parametro e statistica :
o Variabili categoriali : i valori osservati sono rappresentati da categorie, o parole, ad esempio sesso (es. femmina), titolo di studio (es. laureata), religione (es. cattolica), frutto preferito (es. ciliegie), ecc.
Le variabili quantitative sono di due tipi:
Consideriamo la variabile discreta numero di auto per famiglia: Possiamo usare solo numeri interi (1, 2, 3, 4, …) Non possiamo rilevare osservazioni il cui valore sia un numero decimale (1,45 o 2,3 …) La differenza tra due valori è informativa: ad esempio , se una famiglia ha 3 auto e un’altra ne ha 1 possiamo dire che la differenza è di 2 auto Consideriamo la variabile continua età in anni: o Può assumere valori che vanno da 0 a più di 100. Ad esempio, se consideriamo due studenti che hanno 20 anni, in realtà hanno u età diversa se consideriamo i mesi, i giorni, le ore, i minuti, ecc. La differenza tra due valori è informativa: ad esempio, se tra due studenti c’è una differenza di 73 giorni allora ci sarà una differenza di 73/365, ossia 0,2 anni. Però la differenza tra variabili continue e discrete è solo apparente : in realtà tutte le variabili continue vengono trattate come discrete (es. età misurata in anni, distanza in km, ecc.) Stabilendo a quale unità o cifra decimale fermarci, compiamo un’operazione di approssimazione (da infiniti valori passiamo a un numero finito di valori) In sintesi:
Alla base di una buona indagine c’è un buon campione: Innanzitutto, il campione = sottoinsieme della popolazione e la bontà del campione dipende da come selezioniamo le osservazioni. Più specificamente è un buon campione se selezionato attraverso la casualizzazione. Per casualizzazione si intende l’ applicazione della casualità nella selezione del campione. Il campione deve essere rappresentativo della popolazione da cui proviene.
Il campione casuale semplice è definito come: un campione di n soggetti estratti da una popolazione è un campione casuale semplice se ogni possibile campione di pari numerosità che poteva essere estratto dalla popolazione ha avuto la stessa probabilità di essere selezionato la lettera n indica la dimensione campionaria o ampiezza (numero di unità dentro un campione), la lettera N indica la dimensione della popolazione Esempio di campione casuale semplice: abbiamo una popolazione costituita da N= palline e associamo una lettera a ogni pallina (a, b, c, d). Se vogliamo costruire un campione casuale semplice di n=2, i possibili campioni, o le possibili combinazioni, sono: (a, b) - (a, c) - (a, d) - (b, c) - (b, d) - (c, d) e ciascun campione ha la stessa probabilità di essere scelto (1/6)
Per selezionare un CCS ci serve una lista di campionamento , ossia la lista di tutte le unità della popolazione a cui ogni soggetto è associato a un numero identificativo. La procedura di selezione può essere sintetizzata in 3 fasi:
parametro della popolazione (differenza tra il valore calcolato nel campione e il valore calcolato nella popolazione). Ricostruiamo l’indagine campionaria: Obiettivo : conoscere il valore di un parametro nella popolazione Procedura : selezioniamo un campione e stimiamo il valore del parametro utilizzando i dati del campione calcoliamo la statistica campionaria Risultati : il risultato ottenuto (chiamato stima ) sarà verosimilmente diverso dal valore vero della popolazione (ignoto) Errore campionario : differenza tra la stima e il valore vero (e dunque un errore possibile quando utilizza una statistica campionaria invece che il parametro della popolazione) Ad esempio: Vogliamo stimare il reddito medio dei lavoratori dipendenti. Chiediamo di fare l’indagine a tre istituti di ricerca che utilizzano tre campioni diversi e si ottengono i seguenti risultati:
Il campione casuale semplice non è sempre la scelta migliore Altre procedure di campionamento probabilistico possono risultare più efficaci; Queste procedure consentono di ridurre la variabilità dovuta al campionamento; Possono richiedere più tempo pre la rilevazione; Possono richiedere alcune informazioni sulla popolazione e sulle sue caratteristiche. In particolare, noi ci riferiremo a quattro tecniche:
Il campione sistematico talvolta non viene considerato un metodo di campionamento ma una tecnica di selezione : o bisogna disporre della lista di campionamento o ci servono tre numeri:
Nel campione stratificato la popolazione viene suddivisa in gruppi distinti chiamati strati e da ogni strato viene estratto un campione casuale semplice Cosa sono gli strati? Gli strati sono gruppi di soggetti distinti per alcune caratteristiche, come età, reddito, ecc. Bisogna conoscere la distribuzione della popolazione secondo la variabile di stratificazione scelta, per esempio devo avere l’informazione di stratificazione nella lista di campionamento (ad esempio l’età), dunque bisogna conoscere a quale strato appartiene ciascun soggetto della lista di campionamento. Due tipi di campionamento stratificato: Proporzionale : i gruppi sono rappresentati nel campione con lo stesso peso che hanno nella popolazione (se il 20% della popolazione appartiene a uno strato (ad esempio età compresa tra 0 e 10 anni) allora anche il 20% del campione dovrà appartenere allo stesso strato). In altre parole, è proporzionale se la proporzione di osservazioni contenute in ciascuno strato del campione è uguale alla proporzione di popolazione appartenente al corrispondente gruppo. Non proporzionale : le proporzioni campionarie dei vari strati non corrispondono a quelle della popolazione (utile quando si vuole rappresentare in modo numericamente rilevante uno strato poco rappresentato a livello di popolazione).
La frequenza relativa è data dal rapporto tra la frequenza assoluta e la numerosità campionaria , essa indica la proporzione di volte in cui una determinata modalità di una variabile viene osservata nei dati. La tabella sottostante riporta la distribuzione del numero di furti in Sardegna secondo la provincia di residenza: Provincia Furti Cagliari-Hinterland 98 Sud Sardegna 335 Oristano 182 Nuoro 319 Sassari 119 In questo caso, la numerosità campionaria è pari a 1053 e si ottiene sommando tutte le frequenze assolute. La tabella successiva mostra le frequenze relative e le frequenze relative cumulate: Provincia Frequenze assolute Frequenze relative Frequenze relative cumulative Cagliari-Hinterland 98 0,093 0, Sud Sardegna 335 0,318 0, Oristano 182 0,173 0, Nuoro 319 0,303 0, Sassari 119 0,113 1, Per esempio, la frequenza relativa associata alla provincia Cagliari-Hinterland è pari a 98/1053 = 0.093. Le frequenze relative cumulate si calcolano semplicemente sommando le frequenze relative. Quindi, la frequenza relativa cumulata tra Sud Sardegna e Cagliari Hinterland è pari a 0.093 + 0.318 = 0.411. Frequenza relativa : proporzione di osservazioni che ricadono nella categoria. Proporzione : numero di osservazioni in una categoria diviso il numero totale. La proporzione è sempre compresa tra 0 e 1 (es. su 100 studenti 30 sono fuori sede proporzione: 30/100 = 0.3, se tutti fossero fuori sede la proporzione sarebbe: 100/100 = 1 e se nessuno fosse fuori sede la proporzione sarebbe: 0/100 = 0). Frequenza relativa cumulativa : Per calcolare le frequenze relative cumulate , seguiamo questi passaggi:
Sud Sardegna 335 0,318 0,411 31.81% 41.12% Oristano 182 0,173 0,584 17.28% 58.40% Nuoro 319 0,303 0,887 30.29% 88.70% Sassari 119 0,113 1,000 11.30% 100.00% Frequenza percentuale : percentuale di osservazioni che ricadono nella categoria. Proporzione moltiplicata per 100. Questa è sempre compresa tra 0 e 100 (es. su 100 studenti 30 sono fuori sede percentuale: 30/100 x 100 = 0.3 x 100 = 30%, se tutti fossero fuori sede la percentuale sarebbe: 100/100 x 100 = 100% e se nessuno fosse fuori sede la percentuale sarebbe: 0/100 x 100 = 0%).
Un altro tipo di rappresentazione molto comune è il grafico a torta : o si presenta come un cerchio suddiviso in spicchi o ogni categoria è rappresentata da uno spicchio o l’ampiezza dello spicchio indica la frequenza relativa Criticità: utile se le categorie sono poche e presentano frequenze relative molto diverse men efficace del grafico a barre quando le frequenze relative sono simili l’ampiezza dello spicchio non è direttamente quantificabile
Anche nel caso dei dati quantitativi possiamo usare tabelle e grafici : Le tabelle prevedono un elenco con due colonne: gli intervalli in cui vengono divise le osservazioni (es. da 10 a 100 euro); le frequenze associate a ogni intervallo È possibile utilizzare anche le frequenze relative e percentuali Esempio: tassi di criminalità USA (x 10.000 abitanti) Prendiamo una tabella in cui c viene mostrato il tasso di criminalità registrato negli USA e per ottenere questo tasso di criminalità si misura il numero di crimini registrati in un dato stato ogni 10.000 abitanti residenti. Se, ad esempio, prendiamo uno stato con 12.000 crimini e una popolazione residente di 2.300.000 abitanti il tasso si calcola prendendo il numero dei crimini (12.000) e dividendolo per il numero di abitanti (2.300.000) e poi moltiplichiamo per 10.000.
Quindi 12.000 / 2.300.000 x 10.000 = 52,17. Ciò vuol dire che ogni 10.000 abitanti ci sono 52,17 crimini. Come facciamo a illustrare questi tassi in modo sintetico ed efficiente? (obiettivo della statistica descrittiva) Possiamo, anche in questo caso, utilizzare la distribuzione di frequenze nel modo seguente: Dividere la scala di misurazione della variabile in un insieme di intervalli Contare quante osservazioni sono presenti all’interno di ogni intervallo (e così ottengo le frequenze assolute ) e, per esempio, posso considerare questi intervalli: 0-11, 12- 13, 24-35, 36-47, 48-59, ecc. Come interpreto questi intervalli? Dato che le cifre sono arrotondate l’intervallo 12- rappresenta tutti i valori compresi tra 11.5 e 23. In questo modo possiamo ottenere la seguente tabella: La tabella ci mostra le frequenze assolute, relative e percentuali. Frequenza assoluta: numero di stati che presentano un tasso compreso nell’intervallo considerato.
Queste informazioni possono essere rappresentate utilizzando l’istogramma:
o Distribuzioni di dati di popolazione utilizzo i dati su tutta la popolazione o Distribuzione di dati campionari utilizzo i dati del campione La distribuzione di dati campionari approssima quella di popolazione: quando la dimensione campionaria aumenta le proporzioni campionarie in ciascun intervallo si approssimano alle vere proporzioni della popolazione e la distribuzione dei dati campionari diventa più simile alla distribuzione di popolazione.
Ad esempio, consideriamo il caso seguente:
Perché ci interessa la forma della distribuzione? Perché ci permette di avere informazioni sulle caratteristiche della distribuzione. Prendiamo ad esempio due forme:
Confrontiamo le due distribuzioni: Distribuzione a U : le frequenze più elevate sono riferite ai valori più bassi e più alti assunti dalle osservazioni. Indica una polarizzazione della variabile rispetto a due insiemi di soggetti Distribuzione a forma campanulare : le frequenze più elevate sono riferite ai valori centrali. Indica che la maggior parte dei soggetti tende ad assumere valori prossimi al valore centrale. In entrambi i casi le distribuzioni sono simmetriche : il lato della distribuzione a sinistra del valore centrale è l’immagine speculare del lato a destra dello stesso valore. La maggior parte delle distribuzioni che vengono osservate però non sono simmetriche: Le parti della figura in cui le frequenze sono ridotte sono chiamate code della distribuzione Le distribuzioni asimmetriche possono essere di due tipi: asimmetriche positive : una lunga coda a destra, cioè i valori dove abbiamo poche osservazioni sono più alti asimmetriche negative : una lunga coda a sinistra, cioè i valori dove abbiamo poche osservazioni sono più bassi È importante? Si, perché noi da queste distribuzioni riusciamo a capire molte cose del fenomeno. Esempio Reddito: un numero elevato di persone con redditi bassi e un numero ridotto di persone con redditi elevati