

































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
dispense accurate per intercorso di statistica sociale
Tipologia: Dispense
1 / 41
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


































Nelle scienze sociali la realtà può essere indagata attraverso due tipi di ricerca, la ricerca quantitativa e la ricerca qualitativa. La ricerca quantitativa è anche detta "standard" e si struttura in quattro fasi principali:
L’unità statistica è l’elemento base su cui vengono osservate le caratteristiche, o “caratteri”, che sono oggetto di analisi statistica. Nella ricerca sociale, l’unità statistica più comune è l’individuo. Tuttavia, esistono altre unità, come gli aggregati di individui, che possono includere entità individuali o aggregati territoriali. Esempi di unità statistiche: Censimento della popolazione e delle abitazioni: l’unità è la famiglia, considerata come l’insieme degli individui che la compongono. Censimento dell’industria e dei servizi e Censimento delle istituzioni non-profit: l’unità è rispettivamente l’azienda o l’organizzazione. Qui le caratteristiche rilevate appartengono all’ente e non alla somma delle caratteristiche individuali. Unità d’analisi e unità di raccolta Unità d’analisi (o di riferimento): si riferisce all’oggetto sociale per cui si studiano le caratteristiche. Unità di raccolta (o di rilevamento): è l’elemento su cui vengono rilevate le caratteristiche. Altre unità statistiche Oltre all’individuo e agli aggregati, esistono altre unità specifiche per la ricerca sociale: Evento: un accadimento unico, come le elezioni. Prodotto culturale: rappresentazioni simboliche trovate nei messaggi di comunicazione di massa, nei libri, o negli articoli di giornale.
Un insieme di unità omogenee rispetto a una o più caratteristiche costituisce una popolazione o un collettivo statistico. Le popolazioni nella ricerca sociale sono sempre definite nello spazio e nel tempo e possono essere: Popolazioni di stato: definite in un istante di tempo preciso (es. gli abitanti di una città a una data specifica). Popolazioni di movimento: definite su un intervallo di tempo (es. i laureati di un’università in un anno accademico).
I dati nelle ricerche sociali possono essere raccolti in modo diretto o indiretto. Nel primo caso, la ricerca diretta utilizza fonti primarie (come questionari e osservazioni), mentre la ricerca indiretta utilizza fonti secondarie (come dati amministrativi e censimenti). Viene illustrata la differenza tra censimenti e survey : i primi raccolgono dati su tutta la popolazione, mentre i secondi possono riguardare solo un campione rappresentativo.
L’indagine statistica (survey) rappresenta uno strumento fondamentale per raccogliere informazioni su un fenomeno sociale attraverso la somministrazione di questionari e altre tecniche di rilevazione. L’indagine può essere realizzata su tutta la popolazione (censimento) o su un campione, ossia un sottoinsieme rappresentativo. Il questionario è il principale strumento di raccolta, con domande che indagano fatti, comportamenti, idee o motivazioni degli individui. La strutturazione del questionario è essenziale: deve essere breve, con domande chiare e specifiche, iniziando da quesiti generali per poi concentrarsi su aspetti specifici (tecnica a imbuto). Domande chiuse (a scelta dicotomica o multipla) sono preferibili per l’analisi statistica, mentre quelle aperte si usano solo se strettamente necessario. È utile inserire domande di controllo per verificare la coerenza delle risposte. Le tecniche di rilevazione variano secondo i mezzi di contatto e includono modalità come l’intervista face-to-face , telefonica o auto-amministrata (eseguita dall’intervistato senza assistenza). Le modalità di indagine assistite da computer includono: CATI (Computer Assisted Telephone Interview) per interviste telefoniche computer-assistite, CAPI (Computer Assisted Personal Interview) per interviste faccia a faccia dove l’intervistatore usa un computer, PAPI (Paper and Pen Interview) per interviste tradizionali su carta, CASI (Computer Assisted Self- completed Interview) per questionari compilati autonomamente con PC forniti dall'ente promotore e CAWI (Computer Assisted Web Interview) per interviste online, usata anche nel 15° Censimento Generale della Popolazione e delle Abitazioni. Inoltre, si può optare per l’invio postale, con questionari cartacei o digitali. L'indagine statistica si divide in rilevazioni totali (censuarie), in cui viene osservata l’intera popolazione, e rilevazioni parziali (campionarie), che analizzano solo una parte della popolazione per ridurre costi e tempi. Il censimento ha caratteristiche specifiche: universalità (coinvolge tutte le unità dell’universo oggetto di studio), individualità (ogni membro della popolazione viene osservato), simultaneità (condotto su tutto il territorio in un preciso momento) e periodicità (eseguito ogni dieci anni in Italia). Gli esempi ISTAT includono:
Dopo aver raccolto i dati, lo statistico crea una classificazione efficace delle modalità del carattere investigato, organizzando i dati in distribuzioni unitarie e di frequenza. Una distribuzione unitaria elenca le modalità osservate per singole unità (distribuzione semplice) o per più caratteristiche (distribuzione multipla). La distribuzione di frequenza assoluta indica quante volte ogni modalità si presenta nel collettivo; ad esempio, il numero di professori per tipo di ruolo, o di individui per numero di figli o per fasce di reddito mensile. Dalle frequenze assolute si ottengono le frequenze relative (rapporto tra frequenza assoluta e totale delle osservazioni) e percentuali (frequenza assoluta divisa per il totale, moltiplicata per 100). Un esempio è la distribuzione del “voto” in una classe di studenti, con frequenze relative e percentuali per ogni voto ottenuto, e un altro esempio riguarda il numero di libri letti in un anno da un gruppo di 21 persone. La frequenza cumulata rappresenta la somma delle frequenze delle modalità precedenti ed è utile quando le modalità sono ordinate. Nell’esempio sul numero di libri letti, la frequenza cumulata mostra la percentuale accumulata fino a ciascun numero di libri. La lezione spiega l’ aggregazione in classi , necessaria quando le variabili quantitative presentano molte modalità. L’Istat, ad esempio, nel sondaggio sulle ore lavorate aggrega i dati in classi (es. “1- 10 ore” o “41 ore e più”), per sintetizzare il numero di occupati. Gli estremi delle classi sono indicati con notazioni come |― e ―| per specificare se includono o escludono i limiti. La definizione di classi può essere uguale o differenziata in ampiezza e frequenza, a seconda dell’analisi da svolgere. Le rappresentazioni grafiche utilizzano unità geometriche per visualizzare distribuzioni di frequenza. I pittogrammi , adatti per un pubblico non esperto, rappresentano simbolicamente la quantità con figure. Gli aerogrammi , come i diagrammi a torta o ad anello, rappresentano variabili qualitative in settori proporzionali alla frequenza. Esempi sono il diagramma a torta delle presenze italiane per località e il diagramma ad anello sugli occupati per settore nel 2012. Gli ortogrammi (grafici a colonne o barre) rappresentano variabili qualitative o quantitative discrete; un esempio mostra la distribuzione delle categorie di peso. Per variabili quantitative in classi, gli istogrammi rappresentano le frequenze con rettangoli; questi possono avere basi uguali o diverse a seconda dell’ampiezza delle classi. La “piramide delle età” è un doppio istogramma che confronta la distribuzione per età e sesso di una popolazione. I cartogrammi mostrano distribuzioni territoriali, come la densità della popolazione. In sintesi, i grafici a torta e barre sono usati per caratteri qualitativi e quantitativi discreti; gli istogrammi per caratteri quantitativi suddivisi in classi; i grafici radar per dati ciclici; e i cartogrammi per serie territoriali.
Esempio: Se abbiamo le classi di stipendio 0-1, 1-5, 5-10, 10-20, 20-30 e le rispettive frequenze cumulative, possiamo trovare la mediana seguendo la formula sopra.
La media aritmetica è ottenuta sommando tutti i valori e dividendo per il numero totale delle osservazioni. La formula è: M(x)=∑i=1nxinM(x) = \frac{\sum_{i=1}^n x_i}{n}M(x)=n∑i=1nxi Dove xix_ixi sono i valori e nnn è il numero delle osservazioni. Esempio: Se registriamo i tempi di viaggio per dodici giorni e calcoliamo la media, troviamo M(auto)=32,17M(\text{auto}) = 32,17M(auto)= 32 , 17 minuti e M(metro)=27,83M(\text{metro}) = 27,83M(metro)= 27 , 83 minuti. Media per Variabili in Classi Quando i dati sono in classi, la media si calcola utilizzando il valore centrale delle classi: M(x)≈∑i=1kciniNM(x) \approx \frac{\sum_{i=1}^k c_i n_i}{N}M(x)≈N∑i=1kcini Dove cic_ici è il centro della classe e nin_ini è la frequenza. Esempio: Supponiamo di avere i prezzi delle confezioni di farmaci acquistate da un ospedale. Calcoliamo la media ponderata del costo totale e otteniamo il prezzo medio per confezione.
La media ponderata considera pesi diversi per le osservazioni, particolarmente utile quando alcuni valori contribuiscono più di altri. La formula è: M(x)=∑i=1kxipi∑i=1kpiM(x) = \frac{\sum_{i=1}^k x_i p_i}{\sum_{i=1}^k p_i}M(x)=∑i=1kpi ∑i=1kxipi Dove xix_ixi sono i valori e pip_ipi i loro pesi. Esempio: Consideriamo i tempi di produzione per diversi tipi di copertoni con quantità prodotte diverse. La media ponderata del tempo di produzione sarà di 18,75 minuti, tenendo conto delle diverse quantità prodotte.
La trimmed mean elimina una percentuale fissa di valori estremi (sia inferiori che superiori) per ridurre l'influenza di valori anomali. Per esempio, con una trimmed mean al 50%, escludiamo il 25% dei valori più bassi e il 25% dei più alti. Se i valori di uno stipendio sono: 3, 5, 5, 6, 8, 8, 9, 150, la trimmed mean esclude i valori estremi (3, 5 e 150), calcolando la media solo sui valori centrali.
La media aritmetica ha alcune proprietà matematiche importanti:
Oltre alla media, esistono altri valori centrali come i quantili (quartili, decili, percentili) che dividono una distribuzione in parti uguali: Quartili : Dividono la distribuzione in quattro parti uguali. Decili : Dividono la distribuzione in dieci parti uguali. Percentili : Dividono la distribuzione in cento parti uguali.
Valore Centrale Formula Applicazione Moda Modalità con massima frequenza Qualsiasi tipo di variabile Mediana Posizione centrale in una distribuzione ordinata Variabili quantitative o qualitative ordinate Media aritmetica ∑xin\frac{\sum x_i}{n}n∑xi Variabili quantitative Media ponderata ∑xipi∑pi\frac{\sum x_i p_i}{\sum p_i}∑pi ∑xipi Variabili quantitative con pesi Media troncata Media dei valori centrali esclusi i valori estremi Per ridurre l’influenza di valori anomali STATISTICA – LEZIONE 4
dove fif_ifi rappresenta la frequenza relativa delle modalità. Questo indice assume il valore minimo di 0 se una sola modalità ha una frequenza relativa pari a 1, mentre tutte le altre modalità hanno frequenza relativa pari a 0, indicando perfetta omogeneità. Al contrario, l'indice raggiunge il valore massimo quando tutte le frequenze relative sono uguali, ossia quando ciascuna modalità ha una frequenza relativa pari a 1k\frac{1}{k}k1, con kkk pari al numero totale di modalità assunte dalla variabile. Il valore massimo dell’indice di eterogeneità del Gini si calcola come: E=1−∑i=1k(1k)2=1−k(1k2)=1−1k=k−1kE = 1 - \sum_{i=1}^{k} \left( \frac{1}{k} \right)^2 = 1 - k \left( \frac{1}{k^2} \right) = 1 - \frac{1}{k} = \frac{k - 1}{k}E= 1 −i= 1 ∑k(k1) 2 = 1 −k(k21)= 1 −k =kk− 1 Trasformando questo indice da assoluto a relativo (dividendolo per il valore massimo), si ottiene l’ indice relativo di eterogeneità del Gini. Gli indici di mutabilità sono gli unici indici di disuguaglianza che possono essere calcolati per variabili qualitative sconnesse, poiché non dipendono dall’ordine dei valori. Gli intervalli di variazione rappresentano il range o campo di variazione, che è calcolato come la differenza tra il valore massimo e il valore minimo di una distribuzione (Range = Max(x) - Min(x)). Un'altra misura rilevante è la differenza interquartile, calcolata come la differenza tra il terzo e il primo quartile (IQR = Q3 - Q1). Questa differenza indica il range per il 50% delle unità più vicine alla mediana. Gli intervalli di variazione, pur essendo semplici da calcolare, non offrono informazioni dettagliate su ciò che avviene tra gli estremi della distribuzione, ma possono essere calcolati anche per variabili qualitative con categorie ordinate. Esistono tre categorie di indici di disuguaglianza:
Il calcolo della devianza implica l'uso dei quadrati degli scarti piuttosto che solo la somma degli scarti, poiché la somma degli scarti dalla media è sempre zero. Per esempio, se consideriamo un collettivo A composto dai valori 8, 9, 10, 11 e 12, calcoliamo gli scarti dalla media (che è 10): 10- 10=0, 8-10=-2, 9-10=-1, 11-10=+1, 12-10=+2. La devianza per A è: DevA=(8−10)2+(9−10)2+(10−10)2+(11−10)2+(12−10)2=10Dev_A = (8 - 10)^2 + (9 - 10)^2 + (
Come funziona una Tabella di Contingenza
L' analisi delle relazioni in statistica è uno strumento che permette di studiare come due variabili siano connesse tra loro, aiutando a comprendere se esiste una dipendenza o interdipendenza tra esse. In base al tipo di variabili (qualitative, quantitative o miste) e alla loro possibile relazione, si sceglie il metodo e l'indice appropriato.
La scelta dell'indice per misurare la relazione tra due variabili dipende dal tipo di relazione e dalle variabili stesse: Variabili qualitative : si può utilizzare l'indice Chi-quadro per stabilire se esiste un'associazione. Variabili quantitative : l'analisi di correlazione, spesso con il coefficiente di Pearson (ρ), è usata per esaminare la forza e la direzione della relazione lineare tra le variabili. Variabili miste : quando una variabile è quantitativa e l'altra qualitativa, si utilizzano indici come η² per esaminare la dipendenza in media.
Indipendenza statistica : si verifica quando la conoscenza di una variabile non migliora la previsione dell'altra variabile. Se X è indipendente da Y, anche Y sarà indipendente da X. Dipendenza statistica : si ha quando variazioni in una variabile sono associate a variazioni nell'altra. L’indice di Chi-quadro, ad esempio, calcola il grado di dipendenza contando quanto le frequenze osservate differiscono da quelle teoriche attese in uno scenario di indipendenza.
Un esempio pratico di analisi delle relazioni è l’associazione tra mezzo di trasporto e condizioni meteorologiche. Con il Chi-quadro è possibile verificare se le scelte di trasporto cambiano in modo significativo in base al meteo (sereno, variabile o pioggia), confermando un certo livello di associazione. In sintesi, l’analisi delle relazioni aiuta a comprendere la struttura delle dipendenze tra variabili, sia in termini di forza che di direzione, e rappresenta un passaggio fondamentale per costruire modelli descrittivi o predittivi in ambito statistico
L' associazione tra variabili in statistica si riferisce allo studio della relazione o connessione tra due variabili per vedere se e come i valori di una variabile influenzano i valori di un'altra. Questo concetto si esplora usando tabelle di contingenza, indici statistici, e analisi della varianza per comprendere il livello di dipendenza o indipendenza tra variabili. Concetto di Indipendenza Statistica
Il coefficiente di correlazione di Bravais-Pearson standardizza la covarianza, assumendo valori tra -1 e +1. Valori vicini a ±1 indicano una forte correlazione lineare, mentre valori vicini a 0 indicano assenza di relazione lineare. Regressione Lineare Quando si sospetta che una variabile (indipendente) influenzi un’altra (dipendente), si usa la regressione lineare per stimare una retta che meglio rappresenta la relazione media tra le due variabili. Il modello di regressione lineare semplice è dato dalla formula: Y=a+bXY = a + bXY=a+bX dove YYY è la variabile dipendente, XXX quella indipendente, aaa è l’intercetta (valore di Y quando X = 0), e bbb è la pendenza della retta (quanto varia Y per ogni unità di incremento in X). Questi strumenti di analisi aiutano a comprendere il comportamento delle variabili quantitative e la loro interdipendenza, facilitando previsioni e interpretazioni su come una variabile si modifica in base a un'altra.
Obiettivo : Descrivere un fenomeno attraverso l’uso dei dati. Questo approccio iniziale, chiamato statistica descrittiva , si concentra sull’organizzare e sintetizzare i dati per offrire una visione generale delle caratteristiche di un fenomeno. Dati : Nella statistica descrittiva si utilizzano i dati di tutta la popolazione , ossia dell'intero insieme di unità statistiche oggetto di studio. Strumenti : Le tecniche utilizzate includono tabelle, grafici e indici statistici di sintesi per riassumere efficacemente le informazioni raccolte. Risultato : Una descrizione sintetica e comprensibile di un carattere della popolazione, permettendo di trarre conclusioni iniziali.
Obiettivo : Andare oltre la semplice descrizione e fare inferenze, ossia stimare o verificare ipotesi riguardanti un’intera popolazione. Spesso, per motivi di costo o di praticità, non è possibile prendere in considerazione l’intera popolazione; pertanto, si studia solo una parte di essa, chiamata campione , pur mantenendo l'interesse verso tutte le unità statistiche, incluse quelle non direttamente osservate. Dati : Si seleziona un campione casuale dalla popolazione. Un’indagine che include tutte le unità di una popolazione è detta indagine censuaria o censimento. Al contrario, quando l’indagine riguarda solo una parte della popolazione, viene chiamata indagine campionaria. Strumenti : La statistica inferenziale utilizza variabili casuali , metodi di stima e test d’ipotesi per analizzare il campione. Risultato : Si ottiene una stima delle caratteristiche ignote di un fenomeno su scala di popolazione, basata sui dati del campione. L'obiettivo dell'inferenza è indurre, cioè estendere, i risultati ottenuti dal campione all'intera popolazione, consentendo di fare affermazioni probabilistiche riguardo a fenomeni generali.
Popolazione : È l'insieme di tutte le N unità statistiche di interesse. La popolazione include quindi l'intero gruppo di elementi o individui che si vuole studiare. Campione : È un sottoinsieme della popolazione, composto da un numero ridotto (n) di unità statistiche. Un campione deve essere selezionato casualmente per garantire che ogni unità della popolazione abbia uguale probabilità di essere scelta, riducendo i bias e aumentando la rappresentatività.
Un’ ipotesi statistica è una congettura o affermazione riguardante una caratteristica del fenomeno in studio, formulata a priori (prima di estrarre il campione). Si basa su un’idea che si intende verificare, ad esempio, un valore medio o una frequenza attesa.
che è una regola decisionale per stabilire se i dati osservati supportano l'ipotesi nulla o se è necessario rifiutarla a favore di un’ ipotesi alternativa (H1H_1H1).
Un test statistico consente di prendere una decisione tra due possibili ipotesi: l’ipotesi nulla (H0H_0H0) e l’ipotesi alternativa (H1H_1H1). Per condurre un test di ipotesi, si stabilisce prima una regione critica e una regione di accettazione dell’ipotesi nulla. Il test conduce a una ripartizione dello spazio campionario in due sottoinsiemi complementari:
La regione critica è quella in cui rifiutiamo l’ipotesi nulla, mentre la regione di accettazione è quella in cui l’ipotesi nulla non viene rifiutata. La decisione di accettare o rifiutare H0H_0H dipende dal tipo di test statistico : Test unidirezionale : Si ha una sola direzione per l’ipotesi alternativa. Per esempio, se H0:θ=θ0H_0: \theta = \theta_0H0:θ=θ0 e H1:θ>θ0H_1: \theta > \theta_0H1:θ>θ0, la regione critica sarà tale che i valori test più estremi (superiori a θ0\theta_0θ0) portano al rifiuto di H0H_0H0. Test bidirezionale : In questo caso, l’ipotesi alternativa prevede due possibilità, ossia H0:θ=θ0H_0: \theta = \theta_0H0:θ=θ0 e H1:θ≠θ0H_1: \theta \neq \theta_0H1:θ = θ0. La regione critica, quindi, si estenderà a entrambi i lati del valore θ0\theta_0θ0, con valori test che sono significativamente maggiori o minori di θ0\theta_0θ0.
In un test di ipotesi, esistono due possibili errori:
Il livello di significatività (α\alphaα) è la probabilità di commettere un errore di tipo I, ossia di rifiutare erroneamente l’ipotesi nulla quando è vera. Questo valore è definito prima del test ed è utilizzato per stabilire la regione critica. Ad esempio, se α=0,05\alpha = 0,05α= 0 , 05 , significa che si accetta una probabilità del 5% di commettere un errore di tipo I. Questo livello definisce quanto "stringente" sia il test nel rifiutare H0H_0H0.
La verifica di ipotesi non ha lo scopo di dimostrare la verità assoluta dell’ipotesi nulla, ma piuttosto di fornire una conclusione sulla base dell’evidenza empirica. In altre parole, non possiamo mai dimostrare con certezza che H0H_0H0 sia vera, ma possiamo solo concludere che i dati osservati siano compatibili o meno con H0H_0H0. La decisione di accettare o rifiutare H0H_0H0 deve essere considerata come una valutazione probabilistica, non come una dimostrazione definitiva della verità o falsità di H0H_0H0. In sintesi, un test di ipotesi è un processo inferenziale che consente di fare inferenze su una popolazione basandosi su un campione di dati. Le regioni critica e di accettazione determinano le decisioni prese nel contesto di errori di tipo I e II, e il livello di significatività definisce il rischio associato al test. Errore campionario e decisioni statistiche Nel contesto della verifica di ipotesi e delle decisioni statistiche, l’ errore campionario è un concetto fondamentale. Si tratta della possibilità di commettere un errore nel trarre conclusioni sulla base dei dati osservati. Gli errori campionari possono essere suddivisi in due tipi principali: errore di tipo I (falso positivo) e errore di tipo II (falso negativo). Questi errori derivano dalle decisioni che si prendono in base all’evidenza campionaria e all'ipotesi nulla, H0H_0H0.
Per comprendere meglio il concetto di errore campionario, possiamo fare un parallelo con scenari quotidiani, come l'interpretazione di previsioni meteorologiche. Consideriamo due possibili stati della natura: