Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Dispense per intercorso di statistica, Dispense di Statistica Sociale

dispense accurate per intercorso di statistica sociale

Tipologia: Dispense

2023/2024

Caricato il 05/05/2025

martina-pota
martina-pota 🇮🇹

4

(1)

5 documenti

1 / 41

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA – LEZIONE 1
Nelle scienze sociali la realtà può essere indagata attraverso due tipi di ricerca, la ricerca
quantitativa e la ricerca qualitativa.
La ricerca quantitativa è anche detta "standard" e si struttura in quattro fasi principali:
1. Progettazione della ricerca: questa fase prevede la definizione degli obiettivi di studio, la
selezione delle unità di analisi, la scelta tra rilevazione totale o campionaria, e la costruzione
degli strumenti di rilevazione.
2. Rilevazione dei dati: è il momento in cui i dati vengono raccolti tramite specifici strumenti.
I dati sono poi organizzati in una "matrice dei dati" che rappresenta un insieme ordinato di
informazioni numeriche.
3. Analisi dei dati: qui vengono applicati gli strumenti statistici per elaborare i dati raccolti,
con l’obiettivo di trarre conclusioni significative.
4. Comunicazione dei risultati: i risultati dell’analisi sono presentati al pubblico con
l’obiettivo di condividere le conclusioni raggiunte.
Parole del lessico settoriale: si distingue tra fenomeno collettivo e fenomeno oggetto di studio: il
primo richiede l’osservazione di una pluralità di manifestazioni individuali, mentre il secondo
rappresenta il fenomeno collettivo specifico che si intende analizzare, come ad esempio le abitudini
di viaggio o l’organizzazione familiare.
Unità Statistica e Popolazione
L’unità statistica è l’elemento base su cui vengono osservate le caratteristiche, o “caratteri”, che
sono oggetto di analisi statistica. Nella ricerca sociale, l’unità statistica più comune è l’individuo.
Tuttavia, esistono altre unità, come gli aggregati di individui, che possono includere entità
individuali o aggregati territoriali.
Esempi di unità statistiche:
Censimento della popolazione e delle abitazioni: l’unità è la famiglia, considerata come
l’insieme degli individui che la compongono.
Censimento dell’industria e dei servizi e Censimento delle istituzioni non-profit: l’unità è
rispettivamente l’azienda o l’organizzazione. Qui le caratteristiche rilevate appartengono
all’ente e non alla somma delle caratteristiche individuali.
Unità d’analisi e unità di raccolta
Unità d’analisi (o di riferimento): si riferisce all’oggetto sociale per cui si studiano le
caratteristiche.
Unità di raccolta (o di rilevamento): è l’elemento su cui vengono rilevate le caratteristiche.
Altre unità statistiche
Oltre all’individuo e agli aggregati, esistono altre unità specifiche per la ricerca sociale:
Evento: un accadimento unico, come le elezioni.
Prodotto culturale: rappresentazioni simboliche trovate nei messaggi di comunicazione di
massa, nei libri, o negli articoli di giornale.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29

Anteprima parziale del testo

Scarica Dispense per intercorso di statistica e più Dispense in PDF di Statistica Sociale solo su Docsity!

STATISTICA – LEZIONE 1

Nelle scienze sociali la realtà può essere indagata attraverso due tipi di ricerca, la ricerca quantitativa e la ricerca qualitativa. La ricerca quantitativa è anche detta "standard" e si struttura in quattro fasi principali:

  1. Progettazione della ricerca : questa fase prevede la definizione degli obiettivi di studio, la selezione delle unità di analisi, la scelta tra rilevazione totale o campionaria, e la costruzione degli strumenti di rilevazione.
  2. Rilevazione dei dati : è il momento in cui i dati vengono raccolti tramite specifici strumenti. I dati sono poi organizzati in una "matrice dei dati" che rappresenta un insieme ordinato di informazioni numeriche.
  3. Analisi dei dati : qui vengono applicati gli strumenti statistici per elaborare i dati raccolti, con l’obiettivo di trarre conclusioni significative.
  4. Comunicazione dei risultati : i risultati dell’analisi sono presentati al pubblico con l’obiettivo di condividere le conclusioni raggiunte. Parole del lessico settoriale: si distingue tra fenomeno collettivo e fenomeno oggetto di studio : il primo richiede l’osservazione di una pluralità di manifestazioni individuali, mentre il secondo rappresenta il fenomeno collettivo specifico che si intende analizzare, come ad esempio le abitudini di viaggio o l’organizzazione familiare.

Unità Statistica e Popolazione

L’unità statistica è l’elemento base su cui vengono osservate le caratteristiche, o “caratteri”, che sono oggetto di analisi statistica. Nella ricerca sociale, l’unità statistica più comune è l’individuo. Tuttavia, esistono altre unità, come gli aggregati di individui, che possono includere entità individuali o aggregati territoriali. Esempi di unità statistiche:  Censimento della popolazione e delle abitazioni: l’unità è la famiglia, considerata come l’insieme degli individui che la compongono.  Censimento dell’industria e dei servizi e Censimento delle istituzioni non-profit: l’unità è rispettivamente l’azienda o l’organizzazione. Qui le caratteristiche rilevate appartengono all’ente e non alla somma delle caratteristiche individuali. Unità d’analisi e unità di raccolta  Unità d’analisi (o di riferimento): si riferisce all’oggetto sociale per cui si studiano le caratteristiche.  Unità di raccolta (o di rilevamento): è l’elemento su cui vengono rilevate le caratteristiche. Altre unità statistiche Oltre all’individuo e agli aggregati, esistono altre unità specifiche per la ricerca sociale:  Evento: un accadimento unico, come le elezioni.  Prodotto culturale: rappresentazioni simboliche trovate nei messaggi di comunicazione di massa, nei libri, o negli articoli di giornale.

Popolazione o collettivo statistico

Un insieme di unità omogenee rispetto a una o più caratteristiche costituisce una popolazione o un collettivo statistico. Le popolazioni nella ricerca sociale sono sempre definite nello spazio e nel tempo e possono essere:  Popolazioni di stato: definite in un istante di tempo preciso (es. gli abitanti di una città a una data specifica).  Popolazioni di movimento: definite su un intervallo di tempo (es. i laureati di un’università in un anno accademico).

Fonti di Raccolta dei Dati

I dati nelle ricerche sociali possono essere raccolti in modo diretto o indiretto. Nel primo caso, la ricerca diretta utilizza fonti primarie (come questionari e osservazioni), mentre la ricerca indiretta utilizza fonti secondarie (come dati amministrativi e censimenti). Viene illustrata la differenza tra censimenti e survey : i primi raccolgono dati su tutta la popolazione, mentre i secondi possono riguardare solo un campione rappresentativo.

L’Indagine Statistica (Survey)

L’indagine statistica (survey) rappresenta uno strumento fondamentale per raccogliere informazioni su un fenomeno sociale attraverso la somministrazione di questionari e altre tecniche di rilevazione. L’indagine può essere realizzata su tutta la popolazione (censimento) o su un campione, ossia un sottoinsieme rappresentativo. Il questionario è il principale strumento di raccolta, con domande che indagano fatti, comportamenti, idee o motivazioni degli individui. La strutturazione del questionario è essenziale: deve essere breve, con domande chiare e specifiche, iniziando da quesiti generali per poi concentrarsi su aspetti specifici (tecnica a imbuto). Domande chiuse (a scelta dicotomica o multipla) sono preferibili per l’analisi statistica, mentre quelle aperte si usano solo se strettamente necessario. È utile inserire domande di controllo per verificare la coerenza delle risposte. Le tecniche di rilevazione variano secondo i mezzi di contatto e includono modalità come l’intervista face-to-face , telefonica o auto-amministrata (eseguita dall’intervistato senza assistenza). Le modalità di indagine assistite da computer includono: CATI (Computer Assisted Telephone Interview) per interviste telefoniche computer-assistite, CAPI (Computer Assisted Personal Interview) per interviste faccia a faccia dove l’intervistatore usa un computer, PAPI (Paper and Pen Interview) per interviste tradizionali su carta, CASI (Computer Assisted Self- completed Interview) per questionari compilati autonomamente con PC forniti dall'ente promotore e CAWI (Computer Assisted Web Interview) per interviste online, usata anche nel 15° Censimento Generale della Popolazione e delle Abitazioni. Inoltre, si può optare per l’invio postale, con questionari cartacei o digitali. L'indagine statistica si divide in rilevazioni totali (censuarie), in cui viene osservata l’intera popolazione, e rilevazioni parziali (campionarie), che analizzano solo una parte della popolazione per ridurre costi e tempi. Il censimento ha caratteristiche specifiche: universalità (coinvolge tutte le unità dell’universo oggetto di studio), individualità (ogni membro della popolazione viene osservato), simultaneità (condotto su tutto il territorio in un preciso momento) e periodicità (eseguito ogni dieci anni in Italia). Gli esempi ISTAT includono:

  1. Unità d’analisi vs Unità di raccolta : nella ricerca sociale è fondamentale distinguere tra l’unità d’analisi (l’oggetto sociale su cui si basa l’indagine) e l’unità di raccolta (ciò da cui si raccolgono i dati). Ad esempio, nel censimento delle abitazioni, l’unità d’analisi potrebbe essere la famiglia, ma l’unità di raccolta è l’abitazione stessa.
  2. Tecniche di rilevazione assistite : La lezione menziona specifiche modalità di rilevazione assistite dalla tecnologia, tra cui: o CATI (Computer Assisted Telephone Interview) : interviste telefoniche con supporto di un computer. o CAPI (Computer Assisted Personal Interview) : interviste faccia a faccia dove l’intervistatore utilizza un computer. o CAWI (Computer Assisted Web Interview) : interviste online, utilizzate anche per censimenti moderni.
  3. Rilevazioni totali e campionarie : viene spiegato come la rilevazione totale (censimento) e la rilevazione campionaria siano necessarie in contesti diversi. Le rilevazioni totali sono condotte su tutta la popolazione, garantendo una raccolta completa, mentre quelle campionarie sono usate per popolazioni molto ampie per ridurre costi e tempi, pur mantenendo l’affidabilità.
  4. Classificazione dettagliata delle variabili : o Le variabili qualitative possono essere ulteriormente classificate in ordinarie (dove esiste un ordine tra le modalità, es. livello di istruzione) e nominali (senza ordine, es. colore degli occhi). o Le variabili quantitative discrete e continue sono distinte per indicare se i valori possibili sono numerabili o meno.
  5. Costruzione e struttura di un questionario efficace : Un buon questionario è descritto come essenziale, chiaro e stratificato per ordine di domande, partendo da generali a specifiche (tecnica a imbuto). Viene consigliato di limitare le domande aperte e inserire domande di controllo per garantire coerenza nelle risposte.
  6. Dominio delle variabili e suddivisione in classi : Nel caso delle variabili quantitative con molte modalità distinte, si introduce la suddivisione in classi per rendere l’analisi più gestibile (es. classificare l’età in intervalli di anni). Questo processo richiede attenzione nella scelta dell’ampiezza delle classi e nella definizione di intervalli chiusi o aperti.
  7. Tipologie di dati raccolti : il termine “dati” si riferisce a un insieme di informazioni reali, differenziato in dati qualitativi (informazioni categoriche) e quantitativi (informazioni misurabili numericamente). La lezione include esempi di variabili qualitative (es. stato civile) e quantitative (es. punteggio ottenuto).
  8. Esempi di rilevazione statistica : sono presentati vari esempi pratici, come un’indagine ISTAT sull’inserimento professionale dei laureati e un'indagine sulla motivazione nel seguire un corso di statistica. Questi esempi illustrano l’applicazione delle tecniche e delle fasi di rilevazione spiegate.

STATISTICA – LEZIONE 2

Dopo aver raccolto i dati, lo statistico crea una classificazione efficace delle modalità del carattere investigato, organizzando i dati in distribuzioni unitarie e di frequenza. Una distribuzione unitaria elenca le modalità osservate per singole unità (distribuzione semplice) o per più caratteristiche (distribuzione multipla). La distribuzione di frequenza assoluta indica quante volte ogni modalità si presenta nel collettivo; ad esempio, il numero di professori per tipo di ruolo, o di individui per numero di figli o per fasce di reddito mensile. Dalle frequenze assolute si ottengono le frequenze relative (rapporto tra frequenza assoluta e totale delle osservazioni) e percentuali (frequenza assoluta divisa per il totale, moltiplicata per 100). Un esempio è la distribuzione del “voto” in una classe di studenti, con frequenze relative e percentuali per ogni voto ottenuto, e un altro esempio riguarda il numero di libri letti in un anno da un gruppo di 21 persone. La frequenza cumulata rappresenta la somma delle frequenze delle modalità precedenti ed è utile quando le modalità sono ordinate. Nell’esempio sul numero di libri letti, la frequenza cumulata mostra la percentuale accumulata fino a ciascun numero di libri. La lezione spiega l’ aggregazione in classi , necessaria quando le variabili quantitative presentano molte modalità. L’Istat, ad esempio, nel sondaggio sulle ore lavorate aggrega i dati in classi (es. “1- 10 ore” o “41 ore e più”), per sintetizzare il numero di occupati. Gli estremi delle classi sono indicati con notazioni come |― e ―| per specificare se includono o escludono i limiti. La definizione di classi può essere uguale o differenziata in ampiezza e frequenza, a seconda dell’analisi da svolgere. Le rappresentazioni grafiche utilizzano unità geometriche per visualizzare distribuzioni di frequenza. I pittogrammi , adatti per un pubblico non esperto, rappresentano simbolicamente la quantità con figure. Gli aerogrammi , come i diagrammi a torta o ad anello, rappresentano variabili qualitative in settori proporzionali alla frequenza. Esempi sono il diagramma a torta delle presenze italiane per località e il diagramma ad anello sugli occupati per settore nel 2012. Gli ortogrammi (grafici a colonne o barre) rappresentano variabili qualitative o quantitative discrete; un esempio mostra la distribuzione delle categorie di peso. Per variabili quantitative in classi, gli istogrammi rappresentano le frequenze con rettangoli; questi possono avere basi uguali o diverse a seconda dell’ampiezza delle classi. La “piramide delle età” è un doppio istogramma che confronta la distribuzione per età e sesso di una popolazione. I cartogrammi mostrano distribuzioni territoriali, come la densità della popolazione. In sintesi, i grafici a torta e barre sono usati per caratteri qualitativi e quantitativi discreti; gli istogrammi per caratteri quantitativi suddivisi in classi; i grafici radar per dati ciclici; e i cartogrammi per serie territoriali.

Esempio: Se abbiamo le classi di stipendio 0-1, 1-5, 5-10, 10-20, 20-30 e le rispettive frequenze cumulative, possiamo trovare la mediana seguendo la formula sopra.

Media Aritmetica

La media aritmetica è ottenuta sommando tutti i valori e dividendo per il numero totale delle osservazioni. La formula è: M(x)=∑i=1nxinM(x) = \frac{\sum_{i=1}^n x_i}{n}M(x)=n∑i=1nxi Dove xix_ixi sono i valori e nnn è il numero delle osservazioni. Esempio: Se registriamo i tempi di viaggio per dodici giorni e calcoliamo la media, troviamo M(auto)=32,17M(\text{auto}) = 32,17M(auto)= 32 , 17 minuti e M(metro)=27,83M(\text{metro}) = 27,83M(metro)= 27 , 83 minuti. Media per Variabili in Classi Quando i dati sono in classi, la media si calcola utilizzando il valore centrale delle classi: M(x)≈∑i=1kciniNM(x) \approx \frac{\sum_{i=1}^k c_i n_i}{N}M(x)≈N∑i=1kcini Dove cic_ici è il centro della classe e nin_ini è la frequenza. Esempio: Supponiamo di avere i prezzi delle confezioni di farmaci acquistate da un ospedale. Calcoliamo la media ponderata del costo totale e otteniamo il prezzo medio per confezione.

Media Ponderata

La media ponderata considera pesi diversi per le osservazioni, particolarmente utile quando alcuni valori contribuiscono più di altri. La formula è: M(x)=∑i=1kxipi∑i=1kpiM(x) = \frac{\sum_{i=1}^k x_i p_i}{\sum_{i=1}^k p_i}M(x)=∑i=1kpi ∑i=1kxipi Dove xix_ixi sono i valori e pip_ipi i loro pesi. Esempio: Consideriamo i tempi di produzione per diversi tipi di copertoni con quantità prodotte diverse. La media ponderata del tempo di produzione sarà di 18,75 minuti, tenendo conto delle diverse quantità prodotte.

Media Troncata (Trimmed Mean)

La trimmed mean elimina una percentuale fissa di valori estremi (sia inferiori che superiori) per ridurre l'influenza di valori anomali. Per esempio, con una trimmed mean al 50%, escludiamo il 25% dei valori più bassi e il 25% dei più alti. Se i valori di uno stipendio sono: 3, 5, 5, 6, 8, 8, 9, 150, la trimmed mean esclude i valori estremi (3, 5 e 150), calcolando la media solo sui valori centrali.

Proprietà della Media Aritmetica

La media aritmetica ha alcune proprietà matematiche importanti:

  1. Rappresentatività : La somma dei valori è uguale al prodotto tra media e numero delle osservazioni.
  2. Internalità : La media è sempre tra il valore minimo e il massimo.
  3. Scarti nulli : La somma delle differenze tra i valori e la media è zero.
  4. Condizione di minimo : La somma dei quadrati delle differenze tra i valori e qualsiasi numero è minima quando quel numero è la media.
  5. Media dei gruppi : La media di un insieme diviso in gruppi è data dalla media ponderata delle medie di ciascun gruppo.

Distribuzioni di Frequenza e Valori Centrali

Oltre alla media, esistono altri valori centrali come i quantili (quartili, decili, percentili) che dividono una distribuzione in parti uguali:  Quartili : Dividono la distribuzione in quattro parti uguali.  Decili : Dividono la distribuzione in dieci parti uguali.  Percentili : Dividono la distribuzione in cento parti uguali.

Sintesi delle Principali Formule e Applicazioni

Valore Centrale Formula Applicazione Moda Modalità con massima frequenza Qualsiasi tipo di variabile Mediana Posizione centrale in una distribuzione ordinata Variabili quantitative o qualitative ordinate Media aritmetica ∑xin\frac{\sum x_i}{n}n∑xi Variabili quantitative Media ponderata ∑xipi∑pi\frac{\sum x_i p_i}{\sum p_i}∑pi ∑xipi Variabili quantitative con pesi Media troncata Media dei valori centrali esclusi i valori estremi Per ridurre l’influenza di valori anomali STATISTICA – LEZIONE 4

dove fif_ifi rappresenta la frequenza relativa delle modalità. Questo indice assume il valore minimo di 0 se una sola modalità ha una frequenza relativa pari a 1, mentre tutte le altre modalità hanno frequenza relativa pari a 0, indicando perfetta omogeneità. Al contrario, l'indice raggiunge il valore massimo quando tutte le frequenze relative sono uguali, ossia quando ciascuna modalità ha una frequenza relativa pari a 1k\frac{1}{k}k1, con kkk pari al numero totale di modalità assunte dalla variabile. Il valore massimo dell’indice di eterogeneità del Gini si calcola come: E=1−∑i=1k(1k)2=1−k(1k2)=1−1k=k−1kE = 1 - \sum_{i=1}^{k} \left( \frac{1}{k} \right)^2 = 1 - k \left( \frac{1}{k^2} \right) = 1 - \frac{1}{k} = \frac{k - 1}{k}E= 1 −i= 1 ∑k(k1) 2 = 1 −k(k21)= 1 −k =kk− 1 Trasformando questo indice da assoluto a relativo (dividendolo per il valore massimo), si ottiene l’ indice relativo di eterogeneità del Gini. Gli indici di mutabilità sono gli unici indici di disuguaglianza che possono essere calcolati per variabili qualitative sconnesse, poiché non dipendono dall’ordine dei valori. Gli intervalli di variazione rappresentano il range o campo di variazione, che è calcolato come la differenza tra il valore massimo e il valore minimo di una distribuzione (Range = Max(x) - Min(x)). Un'altra misura rilevante è la differenza interquartile, calcolata come la differenza tra il terzo e il primo quartile (IQR = Q3 - Q1). Questa differenza indica il range per il 50% delle unità più vicine alla mediana. Gli intervalli di variazione, pur essendo semplici da calcolare, non offrono informazioni dettagliate su ciò che avviene tra gli estremi della distribuzione, ma possono essere calcolati anche per variabili qualitative con categorie ordinate. Esistono tre categorie di indici di disuguaglianza:

  1. Indici di mutabilità , che misurano l'omogeneità o l'eterogeneità tra le modalità di una distribuzione di frequenza.
  2. Indici di dispersione rispetto a determinati valori.
  3. Indici di dispersione rispetto a un valore di tendenza centrale (noti anche come indici di variabilità), che misurano la disuguaglianza delle unità rispetto a un valore centrale come media o mediana. Tra questi ultimi, i più comuni sono devianza, varianza, scarto quadratico medio, scostamento semplice medio assoluto dalla media e scostamento semplice medio assoluto dalla mediana. La devianza di un insieme di N osservazioni è definita come la somma degli scarti al quadrato dalla media aritmetica della distribuzione. La formula della devianza è: Devianza=∑i=1N(xi−M(X))2Devianza = \sum_{i=1}^{N} (x_i - M(X))^2Devianza=i= 1 ∑N(xi −M(X)) 2 Questo indice riflette tutti i valori della distribuzione e considera il quadrato delle differenze di ciascuna modalità dalla media. La devianza è usata per confrontare le modalità osservate con la media aritmetica, aiutando a rappresentare la dispersione dei valori.

Il calcolo della devianza implica l'uso dei quadrati degli scarti piuttosto che solo la somma degli scarti, poiché la somma degli scarti dalla media è sempre zero. Per esempio, se consideriamo un collettivo A composto dai valori 8, 9, 10, 11 e 12, calcoliamo gli scarti dalla media (che è 10): 10- 10=0, 8-10=-2, 9-10=-1, 11-10=+1, 12-10=+2. La devianza per A è: DevA=(8−10)2+(9−10)2+(10−10)2+(11−10)2+(12−10)2=10Dev_A = (8 - 10)^2 + (9 - 10)^2 + (

  • 10)^2 + (11 - 10)^2 + (12 - 10)^2 = 10DevA =( 8 − 10 ) 2 +( 9 − 10 ) 2 +( 10 − 10 ) 2 +( 11 − 10 ) 2 +( 12 − 10 ) 2 = 10 Gli indici di dispersione rispetto alla media includono anche la varianza , che è la media degli scarti al quadrato dalla media aritmetica. La formula è: Var(X)=σ2=∑i=1N(xi−M(X))2N=Dev(X)NVar(X) = \sigma^2 = \frac{\sum_{i=1}^{N} (x_i - M(X))^2}{N} = \frac{Dev(X)}{N}Var(X)=σ2=N∑i=1N(xi−M(X)) 2 =NDev(X) La varianza soddisfa i requisiti di un indice di disuguaglianza, poiché aumenta al crescere della dispersione nella distribuzione. L' indice di mutabilità Gini, inoltre, misura l'eterogeneità in una distribuzione di frequenze, con una formula che raggiunge il valore massimo quando tutte le frequenze sono uguali e il minimo quando una sola modalità ha frequenza relativa pari a 1, mentre le altre sono pari a zero. Per comprendere la variabilità di una distribuzione, bisogna considerare sia il valore centrale sia la disuguaglianza dei dati attorno ad esso. Per una rappresentazione efficace, come un box plot, la forma della distribuzione, la concentrazione delle variabili e la standardizzazione aiutano a sintetizzare e confrontare le distribuzioni.

Come funziona una Tabella di Contingenza

  1. Struttura della Tabella : o Ogni riga rappresenta una modalità di una caratteristica (ad esempio, il tipo di diploma: classico, scientifico, tecnico). o Ogni colonna rappresenta una modalità dell'altra caratteristica (ad esempio, il genere: maschio o femmina).
  2. Frequenza Congiunta : o In ciascuna cella della tabella inseriamo il numero di persone che rientrano in quella combinazione di caratteristiche. Ad esempio, la cella corrispondente a "Maschio e Diploma Scientifico" mostra quante persone sono maschi e hanno un diploma scientifico.
  3. Frequenza Relativa : o La frequenza relativa si ottiene dividendo ogni numero della tabella (cioè ogni frequenza congiunta) per il totale delle persone. Ad esempio, se ci sono 200 persone in totale, e 40 di esse sono maschi con diploma scientifico, la frequenza relativa per questa cella sarà 40/200 = 0,20, cioè il 20%.
  4. Distribuzioni Marginali : o Ai margini della tabella (quindi nelle righe e colonne totali), possiamo vedere i totali parziali per ciascuna categoria. Ad esempio, il totale dei maschi e il totale delle femmine, oppure il totale di persone con ciascun tipo di diploma. Questi totali ci mostrano le frequenze marginali , cioè quante persone ci sono per ciascuna caratteristica presa singolarmente. A cosa serve la Tabella di Contingenza? La tabella di contingenza è utile per capire se esiste una relazione tra le due caratteristiche. Per esempio:  Se noti che molti più maschi che femmine hanno un diploma scientifico, potresti ipotizzare una preferenza di genere per questo tipo di diploma.  Se i numeri sono simili per maschi e femmine in tutti i tipi di diploma, potresti concludere che non c’è una relazione forte tra genere e tipo di diploma. In sintesi, la tabella di contingenza ti aiuta a vedere chiaramente la distribuzione delle persone in base a due caratteristiche contemporaneamente e a calcolare la frequenza relativa di ogni combinazione, per capire se esiste un legame o una correlazione tra queste caratteristiche.

Analisi delle relazioni

L' analisi delle relazioni in statistica è uno strumento che permette di studiare come due variabili siano connesse tra loro, aiutando a comprendere se esiste una dipendenza o interdipendenza tra esse. In base al tipo di variabili (qualitative, quantitative o miste) e alla loro possibile relazione, si sceglie il metodo e l'indice appropriato.

Approcci nell'analisi delle relazioni

  1. Approccio Simmetrico (Interdipendenza) : Questo approccio si usa quando nessuna delle due variabili è considerata dipendente dall’altra. Si utilizzano indici come il Chi-quadro (χ²) , Φ² e il V di Cramer , che calcolano il grado di associazione senza implicare una relazione di causa-effetto. Questi indici servono per misurare la connessione tra le variabili, evidenziando se vi è una certa interdipendenza.
  2. Approccio Asimmetrico (Dipendenza) : Viene applicato quando si presume che una variabile dipenda dall'altra. Ad esempio, in un modello di regressione, una variabile X (indipendente) potrebbe influenzare una variabile Y (dipendente). L'indice η² (Eta quadrato) , utilizzato in questo contesto, misura la proporzione della variazione della variabile dipendente spiegata dalla variabile indipendente.

Scelta dell'indice

La scelta dell'indice per misurare la relazione tra due variabili dipende dal tipo di relazione e dalle variabili stesse:  Variabili qualitative : si può utilizzare l'indice Chi-quadro per stabilire se esiste un'associazione.  Variabili quantitative : l'analisi di correlazione, spesso con il coefficiente di Pearson (ρ), è usata per esaminare la forza e la direzione della relazione lineare tra le variabili.  Variabili miste : quando una variabile è quantitativa e l'altra qualitativa, si utilizzano indici come η² per esaminare la dipendenza in media.

Interpretazione dell'Indipendenza e della Dipendenza

Indipendenza statistica : si verifica quando la conoscenza di una variabile non migliora la previsione dell'altra variabile. Se X è indipendente da Y, anche Y sarà indipendente da X.  Dipendenza statistica : si ha quando variazioni in una variabile sono associate a variazioni nell'altra. L’indice di Chi-quadro, ad esempio, calcola il grado di dipendenza contando quanto le frequenze osservate differiscono da quelle teoriche attese in uno scenario di indipendenza.

Esempi

Un esempio pratico di analisi delle relazioni è l’associazione tra mezzo di trasporto e condizioni meteorologiche. Con il Chi-quadro è possibile verificare se le scelte di trasporto cambiano in modo significativo in base al meteo (sereno, variabile o pioggia), confermando un certo livello di associazione. In sintesi, l’analisi delle relazioni aiuta a comprendere la struttura delle dipendenze tra variabili, sia in termini di forza che di direzione, e rappresenta un passaggio fondamentale per costruire modelli descrittivi o predittivi in ambito statistico

Associazione tra variabili

L' associazione tra variabili in statistica si riferisce allo studio della relazione o connessione tra due variabili per vedere se e come i valori di una variabile influenzano i valori di un'altra. Questo concetto si esplora usando tabelle di contingenza, indici statistici, e analisi della varianza per comprendere il livello di dipendenza o indipendenza tra variabili. Concetto di Indipendenza Statistica

Il coefficiente di correlazione di Bravais-Pearson standardizza la covarianza, assumendo valori tra -1 e +1. Valori vicini a ±1 indicano una forte correlazione lineare, mentre valori vicini a 0 indicano assenza di relazione lineare. Regressione Lineare Quando si sospetta che una variabile (indipendente) influenzi un’altra (dipendente), si usa la regressione lineare per stimare una retta che meglio rappresenta la relazione media tra le due variabili. Il modello di regressione lineare semplice è dato dalla formula: Y=a+bXY = a + bXY=a+bX dove YYY è la variabile dipendente, XXX quella indipendente, aaa è l’intercetta (valore di Y quando X = 0), e bbb è la pendenza della retta (quanto varia Y per ogni unità di incremento in X). Questi strumenti di analisi aiutano a comprendere il comportamento delle variabili quantitative e la loro interdipendenza, facilitando previsioni e interpretazioni su come una variabile si modifica in base a un'altra.

STATISTICA – LEZIONE 6

Dalla descrizione all’inferenza

Obiettivo : Descrivere un fenomeno attraverso l’uso dei dati. Questo approccio iniziale, chiamato statistica descrittiva , si concentra sull’organizzare e sintetizzare i dati per offrire una visione generale delle caratteristiche di un fenomeno. Dati : Nella statistica descrittiva si utilizzano i dati di tutta la popolazione , ossia dell'intero insieme di unità statistiche oggetto di studio. Strumenti : Le tecniche utilizzate includono tabelle, grafici e indici statistici di sintesi per riassumere efficacemente le informazioni raccolte. Risultato : Una descrizione sintetica e comprensibile di un carattere della popolazione, permettendo di trarre conclusioni iniziali.

Dalla statistica descrittiva alla statistica inferenziale

Obiettivo : Andare oltre la semplice descrizione e fare inferenze, ossia stimare o verificare ipotesi riguardanti un’intera popolazione. Spesso, per motivi di costo o di praticità, non è possibile prendere in considerazione l’intera popolazione; pertanto, si studia solo una parte di essa, chiamata campione , pur mantenendo l'interesse verso tutte le unità statistiche, incluse quelle non direttamente osservate. Dati : Si seleziona un campione casuale dalla popolazione. Un’indagine che include tutte le unità di una popolazione è detta indagine censuaria o censimento. Al contrario, quando l’indagine riguarda solo una parte della popolazione, viene chiamata indagine campionaria. Strumenti : La statistica inferenziale utilizza variabili casuali , metodi di stima e test d’ipotesi per analizzare il campione. Risultato : Si ottiene una stima delle caratteristiche ignote di un fenomeno su scala di popolazione, basata sui dati del campione. L'obiettivo dell'inferenza è indurre, cioè estendere, i risultati ottenuti dal campione all'intera popolazione, consentendo di fare affermazioni probabilistiche riguardo a fenomeni generali.

Popolazione e Campione

Popolazione : È l'insieme di tutte le N unità statistiche di interesse. La popolazione include quindi l'intero gruppo di elementi o individui che si vuole studiare.  Campione : È un sottoinsieme della popolazione, composto da un numero ridotto (n) di unità statistiche. Un campione deve essere selezionato casualmente per garantire che ogni unità della popolazione abbia uguale probabilità di essere scelta, riducendo i bias e aumentando la rappresentatività.

Ipotesi Statistica

Un’ ipotesi statistica è una congettura o affermazione riguardante una caratteristica del fenomeno in studio, formulata a priori (prima di estrarre il campione). Si basa su un’idea che si intende verificare, ad esempio, un valore medio o una frequenza attesa.

che è una regola decisionale per stabilire se i dati osservati supportano l'ipotesi nulla o se è necessario rifiutarla a favore di un’ ipotesi alternativa (H1H_1H1).

Test di ipotesi

Un test statistico consente di prendere una decisione tra due possibili ipotesi: l’ipotesi nulla (H0H_0H0) e l’ipotesi alternativa (H1H_1H1). Per condurre un test di ipotesi, si stabilisce prima una regione critica e una regione di accettazione dell’ipotesi nulla. Il test conduce a una ripartizione dello spazio campionario in due sottoinsiemi complementari:

  1. Regione di accettazione (AAA): È l’insieme dei valori del test che sono compatibili con l’ipotesi nulla (H0H_0H0).
  2. Regione di rifiuto (CCC): È l’insieme dei valori del test che sono considerati incompatibili con l’ipotesi nulla e portano al rifiuto di H0H_0H0. Quando il valore campionario del test cade in questa regione, l’evidenza empirica suggerisce che l’ipotesi nulla non sia valida, quindi si rifiuta H0H_0H0. L’ ipotesi nulla (H0H_0H0) viene rifiutata quando il valore del test rientra nella regione critica, mentre viene accettata se il valore del test rientra nella regione di accettazione.

Regione critica e regione di accettazione

La regione critica è quella in cui rifiutiamo l’ipotesi nulla, mentre la regione di accettazione è quella in cui l’ipotesi nulla non viene rifiutata. La decisione di accettare o rifiutare H0H_0H dipende dal tipo di test statistico :  Test unidirezionale : Si ha una sola direzione per l’ipotesi alternativa. Per esempio, se H0:θ=θ0H_0: \theta = \theta_0H0:θ=θ0 e H1:θ>θ0H_1: \theta > \theta_0H1:θ>θ0, la regione critica sarà tale che i valori test più estremi (superiori a θ0\theta_0θ0) portano al rifiuto di H0H_0H0.  Test bidirezionale : In questo caso, l’ipotesi alternativa prevede due possibilità, ossia H0:θ=θ0H_0: \theta = \theta_0H0:θ=θ0 e H1:θ≠θ0H_1: \theta \neq \theta_0H1:θ = θ0. La regione critica, quindi, si estenderà a entrambi i lati del valore θ0\theta_0θ0, con valori test che sono significativamente maggiori o minori di θ0\theta_0θ0.

Errori di tipo I e II

In un test di ipotesi, esistono due possibili errori:

  1. Errore di tipo I (falso positivo): Si rifiuta H0H_0H0 quando in realtà è vera. Questo errore si verifica se il valore campionario cade nella regione critica, ma l’ipotesi nulla è effettivamente corretta.
  2. Errore di tipo II (falso negativo): Si accetta H0H_0H0 quando in realtà è falsa. Questo errore si verifica se il valore campionario non cade nella regione critica, ma l’ipotesi alternativa è effettivamente corretta. Le decisioni che prendiamo durante la verifica dell’ipotesi devono considerare l'importanza di ciascun tipo di errore. In altre parole, è essenziale ponderare i costi e i benefici relativi dei due errori. Nella Teoria delle decisioni , questa considerazione viene formalizzata in termini di funzioni di perdita , che misurano l’impatto economico o sociale degli errori.

Livello di significatività

Il livello di significatività (α\alphaα) è la probabilità di commettere un errore di tipo I, ossia di rifiutare erroneamente l’ipotesi nulla quando è vera. Questo valore è definito prima del test ed è utilizzato per stabilire la regione critica. Ad esempio, se α=0,05\alpha = 0,05α= 0 , 05 , significa che si accetta una probabilità del 5% di commettere un errore di tipo I. Questo livello definisce quanto "stringente" sia il test nel rifiutare H0H_0H0.

Conclusioni

La verifica di ipotesi non ha lo scopo di dimostrare la verità assoluta dell’ipotesi nulla, ma piuttosto di fornire una conclusione sulla base dell’evidenza empirica. In altre parole, non possiamo mai dimostrare con certezza che H0H_0H0 sia vera, ma possiamo solo concludere che i dati osservati siano compatibili o meno con H0H_0H0. La decisione di accettare o rifiutare H0H_0H0 deve essere considerata come una valutazione probabilistica, non come una dimostrazione definitiva della verità o falsità di H0H_0H0. In sintesi, un test di ipotesi è un processo inferenziale che consente di fare inferenze su una popolazione basandosi su un campione di dati. Le regioni critica e di accettazione determinano le decisioni prese nel contesto di errori di tipo I e II, e il livello di significatività definisce il rischio associato al test. Errore campionario e decisioni statistiche Nel contesto della verifica di ipotesi e delle decisioni statistiche, l’ errore campionario è un concetto fondamentale. Si tratta della possibilità di commettere un errore nel trarre conclusioni sulla base dei dati osservati. Gli errori campionari possono essere suddivisi in due tipi principali: errore di tipo I (falso positivo) e errore di tipo II (falso negativo). Questi errori derivano dalle decisioni che si prendono in base all’evidenza campionaria e all'ipotesi nulla, H0H_0H0.

Stati della natura e decisioni

Per comprendere meglio il concetto di errore campionario, possiamo fare un parallelo con scenari quotidiani, come l'interpretazione di previsioni meteorologiche. Consideriamo due possibili stati della natura:

  1. Piove : Lo stato naturale in cui effettivamente sta piovendo.
  2. Non piove : Lo stato naturale in cui non sta piovendo. Le decisioni che possiamo prendere sono:  Prendere l'ombrello : Se decidiamo di prendere l'ombrello, è una decisione che facciamo prima di uscire, basata sulla previsione meteorologica.  Non prendere l'ombrello : Se decidiamo di non prendere l'ombrello, è una decisione opposta. Ora vediamo i possibili errori :
  3. Errore di tipo I (falso positivo) : Si verifica se si decide di prendere l'ombrello quando in realtà non piove. In altre parole, portare inutilmente l'ombrello è un errore.