Scarica STATISTICA SOCIALE - ZANAROTTI e più Dispense in PDF di Statistica Sociale solo su Docsity!
METODI PER LA RICERCA SOCIALE
(TERZO MODULO - LABORATORIO DI STATISTICA SOCIALE)
Lezione 1 9 aprile 2024 LEZIONI CON MARIA CHIARA ZANAROTTI ([email protected]): Martedì 14.45 - 16. Mercoledì 10.45 -12. 2 lezioni straordinarie 9.00 - 10.30 (11 aprile e 2 maggio) ESERCITAZIONI CON FACCHINETTI: Venerdì (aula PC) ESAME : Per i frequentanti: PROVA SCRITTA A CROCETTE il 24 maggio, forse (dura 45 minuti):
- Sono 16 domande a crocette, alcune teoriche e altre tipo esercizio;
- Ci sono 4 possibili risposte di cui una sola corretta, no penalizzazione in caso di
risposta sbagliata;
- Le domande compaiono solo una volta;
- Portare la calcolatrice;
- L’esame è open book, posso portare un formulario, appunti.
PRESENTAZIONE DI UN LAVORO DI GRUPPO:
- Presentazione di un’analisi quantitativa svolta in un gruppo di 5/6 persone
(raccolta dati, elaborazione e piccolo video di presentazione);
- Porta un punteggio aggiuntivo da 0 a 3 punti e vale sempre, anche non
passando il pre appello.
DA STUDIARE:
- (^) Slide delle lezioni;
- (^) E manuale, scegliere tra:
- (^) Mecatti, “Statistica di base”, McGraw-Hill (2010);
- (^) Pacini, “Statistica per l’analisi operativa dei dati”, Carocci (2016) —> più discorsivo;
- (^) Borra, Di Ciaccio “Statistica. Metodologia per le scienze economiche e sociali”, McGraw-Hill (2021);
- (^) Borazzo, Perchiunno, “Analisi statistiche con excel, Pearson” (2007).
INIZIAMO…
Ma è così importante la statistica? Esempio : 1) Uno studio sulla discriminazione tra maschi e femmine nelle ammissioni ai corsi post-laurea venne fatto presso la graduate Division dell’Università della California a Berkley. Ipotizzando che la preparazione dei due gruppi non fosse diversa, la differenza tra le due percentuali sembra essere una forte prova empirica del fatto che i maschi e le femmine ricevono un trattamento diverso all’atto dell’ammissione: l’università sembra avere una preferenza per gli uomini. Poiché ogni dipartimento si occupava autonomamente delle ammissioni, si pensò di vedere in quali di essi si verificava la discriminazione. Ecco i risultati ——->
Redditi paese B: 10, 20, 10, 5, 15, 20, 30, 10, 20, 9860. Reddito medio paese B: 1000 La conclusione è ragionevole? Ovviamente no! Devo tener conto anche di come i singoli redditi si distribuiscono intorno al valore medio.
PARTIAMO DAL TITOLO: STATISTICA
Che cos’è la statistica? La STATISTICA è una scienza trasversale che studia i fenomeni collettivi attraverso la raccolta di dati che vengono poi analizzati e interpretati (graficamente, ma non solo):
- (^) Raccoglie dati
- (^) Elabora i dati
- (^) Interpreta i dati
- È una disciplina/scienza trasversale,^ al servizio di molte altre discipline , viene utilizzata in economia, biologia, medicina, politica, psicologia, nello sport, nei trasporti, nella programmazione, in molti contesti applicati;
- Rappresenta un insieme di strumenti^ che servono nelle discipline più disparate;
- In molti casi^ il contesto applicativo fa si che la statistica si declini in modi particolari , nel senso che a seconda della disciplina in cui viene utilizzata, si affinano alcune tecniche piuttosto che altre, facendo cambiare anche il nome (es: econometria o statistica economica in economia, psicometria in psicologia, biometria in biologia…);
- Tutte hanno un denominatore comune, degli^ strumenti di base che sono trasversali ;
- Molti metodi statistici sono trasversali, soprattutto quelli basilari;
- Attenzione a^ non confondere la statistica con le statistiche :
- (^) La statistica = è la disciplina
- (^) Le statistiche = sono i prodotti delle elaborazioni statistiche (si pensa magari a una tabella, dati, grafici…).
TERMINOLOGIA STATISTICA
La statistica analizza in termini quantitativi i FENOMENI COLLETTIVI. FENOMENI COLLETTIVI = ossia i fenomeni il cui studio richiede l’osservazione di un insieme di manifestazioni individuali (non si intende necessariamente individui) e rilevo su ciascuno questi fenomeni collettivi. Esempio:
- (^) Consumo di un determinato bene in un periodo fissato;
- (^) Reddito di un insieme di individui;
- (^) La statura di un insieme di individui;
- (^) I prezzi di uno stesso bene praticati in punti vendita differenti;
- (^) Il numero di pezzi difettosi prodotti da impianti diversi;
- (^) Quantità di pioggia caduta nelle ultime 24 ore in un luogo;
- (^) Il numero di autoveicoli transitati ad un casello autostradale durante un mese;
- (^) La percentuale di bambini che frequentano le scuole materne comunali;
- (^) Il livello di istruzione di un gruppo di individui. ( Che discrepanza c’è tra la nostra idea e la realtà? —> in Italia la popolazione nel giro di qualche decennio arriverà ad essere circa la metà). CARATTERI o VARIABILI = termine utilizzato per definire questi fenomeni collettivi. MODALITÀ = i possibili modi con cui ciascun carattere o variabile si manifesta.
CLASSIFICAZIONE DEI CARATTERI STATISTICI
L’elenco (o insieme) delle modalità assumibili da un carattere è detto: SCALA DELLE MODALITÀ Requisiti delle scale di modalità: devono essere ESAUSTIVE. Le modalità elencate devono rappresentare tutti i possibili modi di essere del carattere —> MUTUAMENTE ESCLUSIVE (se è azzurro non è nero). Ad ogni unità statistica deve risultare associata una scala modalità. Distinzione tra: CARATTERI QUANTITATIVI = quando le modalità sono rappresentate da numeri (es: età degli individui, altezza degli individui…). CARATTERI QUALITATIVI = quando le modalità non sono rappresentate da numeri , ma da delle caratteristiche (es: colore occhi, titolo di studio, professione…). Esistono poi ulteriori suddivisioni: CARATTERI QUALITATIVI (le modalità NON sono rappresentate da numeri):
- SCONNESSI^ o SCALA NOMINALE^ =^ misurati su SCALA NOMINALE^ —> non esiste un ordine univoco delle modalità , quindi un più piccolo o più grande, facendo riferimento a chi viene prima (es: occhi verdi, blu, marroni…).
- ORDINATI^ o SCALA ORDINALE^ =^ misurati su SCALA ORDINALE^ —> esiste un ordinamento delle modalità (es: titolo di studio, licenza media, diploma, laurea…).
CARATTERI QUANTITATIVI (le modalità sono rappresentate da numeri, con i numeri si lavora molto meglio):
- DISCRETI^ =^ il numero di modalità^ con cui si possono presentare^ è finito o numerabile , quindi posso contare comunque le distinte modalità (es: numero di fratelli o sorelle, numero di volte che si va al cinema in una vita…) —> rilevazione mediante il conteggio.
- CONTINUI^ =^ il numero di modalità^ è un’infinità non numerabile,^ è talmente grande che non posso proprio contare le modalità (es: tra un kilo e l’altro, tra 50 e 51 kg, c’è un’infinità più che numerabile di modalità) —> rilevazione mediante misurazione , non conteggio.
TRASFORMAZIONE DEI CARATTERI
Una situazione molto frequente è quando si hanno troppe modalità distinte, ci sarà quindi una difficoltà nella comprensione dei dati. Tutte le volte in cui si aggregano modalità diverse si effettua questo tipo di operazione, vogliamo accorpare le modalità. Se il CARATTERE È QUANTITATIVO —> SUDDIVISIONE IN CLASSI SCELTA DELLE CLASSI:
- (^) Numero delle classi :
- (^) Abbastanza piccolo —> per ottenere una sintesi;
- (^) Abbastanza grande —> per non perdere troppo dei valori originari.
- (^) Classi disgiunte , non sovrapposte (se una classe finisce con 300 l’altra inizierà con 301);
- (^) Devono comprendere tutte le modalità ;
- (^) Quando è possibile, è meglio se hanno la stessa ampiezza.
- (^) Da quantitativo a qualitativo —> da quantitativo a qualitativo ordinato, abbiamo delle classi, non abbiamo più dei numeri —> questa operazione è lecita, quello che è meno lecito e arbitrario è trasformare i caratteri qualitativi in caratteri quantitativi (anche se lavorare con i numeri è più facile e comodo). Come faccio ad associare dei numeri a delle modalità? Esempio:
- Carattere “titolo di studio"
- (^) Nessun titolo = 0
- (^) Licenza elementare = 1
- (^) Licenza media = 2
- (^) Diploma = 3 Ma ha senso considerare la licenza elementare come la metà della licenza media? È impattante come scelgo i numeri (la licenza elementare è la metà della licenza media con questa scala —> l’arbitrarietà è molto importante e impattante ). In questo caso, per esempio, si potrebbero associare dei numeri che tengano conto della durata degli studi. In generale, l’attribuzione di valori a delle modalità qualitative ordinate è un processo molto delicato e bisogna fare molta attenzione —> si parla di OPTIMAL SCALING. Per i qualitativi sconnessi si usano delle etichette che devono restare tali.
STATISTICA DESCRITTIVA E INFERENZA STATISTICA
STATISTICA DESCRITTIVA = rilevo uno o più caratteri su TUTTE LE UNITÀ della popolazione —> facciamo il censimento , rilevazione censuaria —> otterremo delle informazioni che sono dati e usiamo le informazioni raccolte per descrivere la nostra popolazione , solo se abbiamo popolazioni finite. INFERENZA STATISTICA = rilevo uno o più caratteri solo su ALCUNE UNITÀ della popolazione —> campionamento , indagine parziale o campionaria —> le informazioni raccolte , che sono parziali, le utilizzeremo per fare delle deduzioni su quella popolazione , dato che non la conosciamo tutta (quando la
popolazione è infinita, ma molto spesso anche quando la popolazione è finita ma per il tempo, i costi…). Il controllo di qualità viene fatto non in modo censuario, ma viene fatta un’indagine campionaria. La STATISTICA è un insieme di strumenti per analizzare DATI. Quindi bisogna avere i dati, per disporre dei dati vi sono due possibilità:
- (^) Raccogliere personalmente i dati;
- (^) Reperire dati già raccolti da altri. Supponiamo di dover raccogliere i dati.
LA RILEVAZIONE DEI DATI
Lo strumento principale per la raccolta dei dati è il QUESTIONARIO , il questionario può essere somministrato in vari modi:
- (^) Intervista diretta;
- (^) Intervista telefonica;
- (^) Autocompilazione;
- (^) Compilazione mediante terzi. Bisogna però fare attenzione alle mancate risposte: spesso le mancate risposte non sono equidistribuite rispetto alla popolazione obiettivo —> l’effetto è quello di osservare i dati relativi ad una parte della popolazione che è autoselezionata. Ma come deve essere fatto un questionario? Esistono monografie in proposito.
INDAGINI STATISTICHE E PRODUTTORI DI DATI
In Italia ci sono numerosi enti pubblici e privati che effettuano indagini statistiche. Il principale ente pubblico (attivo dal 1926) di raccolta di elaborazione dati in Italia è l’ISTITUTO NAZIONALE di STATISTICA (ISTAT e SISTAN).
ORGANIZZAZIONE DEI DATI IN FORMA TABELLARE E GRAFICA
Una volta raccolti i dati (per esempio tramite questionario) bisogna organizzare il materiale raccolto per la successiva elaborazione statistica. In genere i dati vengono elaborati tramite l’uso di software statistici. I dati vengono immessi e si ottiene la MATRICE DEI DATI. MATRICE DEI DATI = insieme di valori tipicamente organizzati in modo che in ogni riga siano elencati i dati relativi ad uno dei caratteri considerati :
- (^) In ogni riga sono rilevate le informazioni dell’unità statistica;
- (^) In ogni colonna sono rilevati i caratteri. Esempio:
- Indagine realizzata intervistando 25 milanesi, quindi 25 unità statistiche/persone. I dati ottenuti si presentano sotto forma di matrice: HORROR!!!! Come possiamo fare a presentare i dati in modo che diventino un po’ più comprensibili?
- (^) Nella I colonna —> numero del record , ogni unità statistica avrà un numero progressivo che la identifica, fino a quanto sono le unità interpellate (nel nostro caso fino a 25);
- (^) Nella II colonna —> carattere età ( quantitativo discreto , perchè misurato in termini di anni compiuti, sempre ordinato, tra i numeri c’è un ordinamento);
- (^) Nella III colonna —> carattere genere ( qualitativo sconnesso, dicotomico perchè ha due modalità di cui uno è opposto dell’altro);
- (^) Nella IV colonna —> carattere giudizio sui servizi sanitari (qualitativo ordinato);
- (^) Nella V colonna —> fumatore o meno (qualitativo sconnesso) (si, no, ex fumatore);
- (^) … Si usa applicare delle etichette numeriche, non andranno mai trattati come numeri —> a ciascuna di esse risulta essere associata una modalità qualitativa.
- Consideriamo la III colonna (vedi excel): Variabile genere
- (^) 0 = femmina
- (^) 1= maschio Quanti maschi? 12 Quante femmine? 13 Serve per andare a capire come chiameremo queste unità: Chiamiamo FREQUENZA il numero di osservazioni. Quindi abbiamo costruito una DISTRIBUZIONE DI FREQUENZA. - (^) Le modalità sono due (maschio / femmina) —> quando ho tante modalità distinte costruiremo delle CLASSI in cui accorperemo delle modalità ;
Riprendiamo la distribuzione dell’età dei nostri 25 soggetti:
- Qual è la % di 40enni?^ Sarà il 16% —> (4 / 25) * 100 Abbiamo costruito ora anche la serie delle FREQUENZE RELATIVE e la serie delle FREQUENZE PERCENTUALI. La FREQUENZA RELATIVA: - (^) La ottengo dividendo la singola frequenza con il totale (es: 6 / 25 = 0,24). - (^) La somma delle frequenze relative da 1. La FREQUENZA PERCENTUALE: - (^) La ottengo moltiplicando la frequenza relativa per 100 (es: 0,24 * 100 = 24%). - (^) La somma delle frequenze percentuali da 100.
- Quante unità statistiche hanno meno di 40 anni? Quante meno di 50 anni? Le unità statistiche che hanno meno di 40 anni sono 12 (6 + 6). Le unità statistiche che hanno meno di 50 anni sono 16 (6 + 6 + 4).
Costruisco altre frequenze: Le FREQUENZE CUMULATE:
- (^) Le posso costruire sia a partire dalle frequenze assolute, ma anche a partire dalle frequenze relative e percentuali.
- (^) Hanno senso se il carattere è qualitativo ordinato o quantitativo.
- (^) L’ultima frequenza cumulata coincide con il totale complessivo.
- (^) La prima frequenza cumulata è sempre uguale a se stessa. Le FREQUENZE CUMULATE PERCENTUALI:
- (^) Es: il 48% della popolazione ha meno di 40 anni.
- (^) Il 100%, quindi tutti, hanno meno di 70 anni. Le frequenze sono tante.
- Altro esempio:
- Nella seguente tabella sono riportate le distribuzioni del reddito di due diversi collettivi statistici: La distribuzione del reddito è simile nelle due popolazioni?
Indicheremo con n 1 , n 2 , n3,…, nk (n minuscola, i numeri piccoli in basso a destra, l’ultima frequenza sarà n con k) le frequenze assolute associate alle k modalità del carattere X. Indicheremo con f 1 , f 2 ,…, fk (f minuscola, i numeri piccoli in basso a destra) le frequenze relative associate alle k modalità del carattere X. Indicheremo con p 1 ,p 2 ,…, pk (p minuscola, i numeri piccoli in basso a destra) le frequenze percentuali associate alle k modalità del carattere X. Indicheremo con N 1 , N 2 , N3,…, Nk (N maiuscola, i numeri piccoli in basso a destra) le frequenze cumulate assolute associate alle k modalità del carattere X. Indicheremo con F 1 , F 2 ,…, Fk (F maiuscola, i numeri piccoli in basso a destra) le frequenze cumulate relative associate alle k modalità del carattere X. Indicheremo con P 1 , P 2 ,…, Pk (P maiuscola, i numeri piccoli in basso a destra) le frequenze cumulate percentuali associate alle k modalità del carattere X.
- La^ somma delle frequenze assolute^ è^ pari a^ n.
- La^ somma delle frequenze relative è^ pari a^^1 (sempre).
- La^ somma delle frequenze percentuali è^ pari a^^100.
- Nelle frequenze cumulate assolute Nk = n
- Nelle^ frequenze cumulate relative Fk = 1
- Nelle^ frequenze cumulate percentuali Pk = 100
- Con xj (si legge: x con j) indichiamo la generica modalità.
- Con nj (si legge: n con j) indichiamo la frequenza assoluta generica. Copiare queste due tabelle sul formulario per l’esame: