
















































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica sui concetti fondamentali dell'analisi statistica, come la distinzione tra variabili quantitative e qualitative, il calcolo della media aritmetica ponderata, le proprietà della media geometrica e della mediana, nonché gli indici di variabilità come la devianza, la varianza e la deviazione standard. Vengono inoltre introdotti i concetti di concentrazione, relazione funzionale tra caratteri e retta di regressione. Infine, il documento affronta i temi della probabilità, delle variabili casuali discrete e continue, e del processo inferenziale attraverso la stima e la verifica di ipotesi, con particolare riferimento all'approccio del p-value e alla valutazione dell'area di rifiuto.
Tipologia: Appunti
1 / 88
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!

















































































19/09/2023 lezione 1 CONCETTI GENERALI Fenomeno (o fatto): tutto cio che puo essere direttamente (una nascita) o indirettamente (tenore di vita di una popolazion) osservato. Fenomeni tipici (si presentano sempre allo stesso modo) e atipici (variano per es da persona a persona). Fenomeni individuali (nascita) e collettivi (natalità). La statistica è l’insieme di metodi per lo studio dei fenomeni collettivi con lo scopo di metterne in luce le regolarità nascoste attraverso lo studio del modo con cui si sono manifestati i singoli casi, o dai risultati apparsi nei vari esperimenti. Gli studi statistici si basano sullo studio dei fenomeni e sulla individuazione dei fatti che determinano tali fenomeni al fine di determinare quali elementi possono essere considerati cause principali e quali sono le relazioni intercorrenti tra tali fatti. Ciò consente di individuare, e isolare, le cause accidentali e di costruire dei modelli relativi al fenomeno preso in considerazione. Attraverso tali modelli è, poi, possibile effettuare delle previsioni in merito ai fenomeni stessi. In genere si parla di statistica descrittiva , cioè quel genere di analisi che si limita ad osservare le regolarità dei fenomeni, per distinguerla dalla statistica inferenziale , che si propone di individuare i legami tra i fatti e i fenomeni fino alla formulazione di un modello matematico che esprima l’andamento del fenomeno stesso. I fenomeni oggetto di studio possono essere di natura diversa, ma qualunque sia la loro natura, essi vengono studiati scientificamente, il che significa ricondurre i fenomeni a schemi per poterli misurare e descrivere o per prevederne l’andamento futuro, ma anche per interpretarne i risultati. I primi fenomeni studiati sono stati quelli scientifici, ma con l’affinamento della metodologia statistica, anche i fenomeni sociali possono essere studiati scientificamente. LA STATISTICA In generale, studiando un fenomeno atipico con un gran numero di osservazioni (esperimenti) si osserva che tali osservazioni presentano delle regolarità, ad esempio su un gran numero di tiri di dado ogni faccia esce circa 1/6 delle volte. Ecco come i fenomeni atipici che presentano delle regolarità possono essere considerati collettivamente tipici. La statistica è la disciplina che studia i fenomeni collettivamente tipici allo scopo di mettere in risalto le regolarità nascoste. Statistica: dal latino status, a indicare la scienza degli avvenimenti dello Stato. Oggi si usa la parola al plurale (statistiche) per indicare un insieme di dati numerici relativi a gruppi di persone, di animali, di cose o di fatti. Statistica al singolare indica l’insieme delle teorie e dei metodi che permettono di studiare i fenomeni collettivamente tipici. LE STATISTICHE APPLICATE Statistica sociale : studia i fenomeni sociali sotto l’aspetto quantitativo, evidenziandone le regolarità e le relazioni tra i fenomeni. Le regolarità si riferiscono al tempo e al luogo: i fenomeni sociali sono diversi a seconda del luogo in cui vengono studiati e nel tempo si evolvono e si trasformano. Esempi: natalità nelle varie parti del mondo, aumento dell’alfabetizzazione, aumento della vita media alla nascita. L’esigenza di conoscere i fenomeni sociali fu sentita dai tempi antichi, si pensi per esempio ai primi censimenti svolti in Cina o nell’antica Roma (da cui l’etimologia del termine censimento da “census”) già dal 2000 a.c. per fini anagrafici, commerciali, etc. Carlo magno istituì alcune rilevazioni di carattere finanziario e amministrativo. Nell’ambito della statistica sociale ritroviamo tantissimi fenomeni e con l’intento di studiarne solo gruppi di essi sono nate le diverse discipline. Demografia : studia le popolazioni e le caratteristiche in un dato istante e in un dato luogo (nascite, decessi, movimenti migratori). Statistica sanitaria : fenomeni sanitari (morbosità, mortalità). Biometria : aspetti biologici degli organismi viventi con lo scopo p.e. di analizzare le caratteristiche tipiche di popolazioni di viventi. Statistica giudiziaria : fenomeni che derivano dall’attività della magistratura (delitti, contravvenzioni, condannati). - Statistica economica : fenomeni economici (andamento dei prezzi, consumi delle famiglie, competitività delle imprese, occupazione)
Collettivo statistico : un gruppo di elementi di qualsiasi natura dei quali si può stabilire se appartengano al gruppo o meno. Es. gruppo di studenti iscritti al corso di Analisi dei dati per la ricerca sociale nell’AA.2023-24. Il collettivo si chiama anche popolazione I singoli elementi della popolazione si chiamano unità statistiche , e possono essere semplici o composte. Es. i singoli studenti iscritti al corso di Analisi dei dati per la ricerca sociale nell’AA.2023- 24 – i gruppi di studenti dei diversi anni accademici. Es. i singoli degenti di un ospedale - il reparto di un ospedale (più unità statistiche omogenee rispetto a una caratteristica). Una popolazione statistica può essere finita o infinita: è finita se è costituita da un numero finito di unità, è infinita se è costituita da tutte le unità potenzialmente osservabili e non necessariamente già esistenti fisicamente (es. i risultati di un esperimento ripetuto nel tempo). Su ogni unità statistica vengono rilevati i diversi aspetti o caratteristiche, ciascuno dei quali è chiamato carattere statistico (o variabile) che è dunque quell’attributo posseduto dall’unità statistica. Il carattere si manifesta con le sue modalità. Esempio: nella cartella clinica di un ricoverato si rilevano: sesso (2 modalità), il titolo di studio (6 modalità: nessuno, lic.elem. lic.media, maturità, laurea, post laurea), ricovero precedente (2 modalità), età, peso, prende farmaci (2 modalità), durata degenza in giorni etc. Le modalità devono essere:
domande e la ricerca, per esempio notizie sull’adolescente, notizie sulla sua famiglia, motivi della scelta, notizie sugli spostamenti per raggiungere la scuola, tipologia di corso scelto). b. recupero di documentazione esistente o bibliografia sul tema, se esiste. Serve a capire meglio se i sotto temi sono adeguati, se si sta commettendo qualche errore di valutazione generale sul tema Fa parte di questa fase la ricerca della documentazione su eventuali ricerche e analisi già effettuate, sulle liste da cui estrarre le unità statistiche, sulla vera a e propria fattibilità della ricerca. c. ricognizione ambientale Si cominciano ad appuntare le domande relative al tema e ai sotto temi. Se non esiste documentazione sull’argomento o se è la prima ricerca nel suo genere, si può sondare il campo attraverso il contatto con soggetti appartenenti alla popolazione o effettuare un piccolo test della ricerca su pochi elementi del collettivo con un questionario a domande aperte. Per esempio si può chiedere se ci sono argomenti più importanti di quelli individuati nel questionario. E’ come una sorta di feedback del questionario. Sempre attraverso questa ricognizione iniziale si formulano le ipotesi da verificare, ipotesi che non sono altro che le risposte alle domande sui temi della ricerca: per esempio i motivi per cui si frequenta la scuola di musica: l’ha frequentata un parente, in famiglia ci sono dei musicisti, la scuola è molto vicina a casa, è stata una scelta della famiglia etc. LA PROGRAMMAZIONE DI UNA RICERCA La programmazione di una ricerca si svolge anch’essa in fasi: a. scelta delle modalità di rilevazione delle unità statistiche, che può avvenire attraverso l’analisi dei documenti, per esempio amministrativi, o tramite interviste (questionario), un diario o un registro, un focus group. b. scelta delle tecniche di rilevazione delle unità statistiche. c. progettazione del questionario. d. verifica del questionario. e. indicazioni per il rilevatore f. istruzioni per l’intervistato g. previsione di tempi e costi a. modalità di rilevazione: DOCUMENTALE : La rilevazione da documenti esistenti, per esempio i dati amministrativi, riveste molta importanza soprattutto nell’ambito delle rilevazioni ufficiali. Esistono dei protocolli tra l’ente fornitore del dato amministrativo e l’Istat per poter sfruttare il potenziale informativo delle fonti amministrative. Si pensi per esempio alle statistiche demografiche di nascite e morti e nel campo economico ai bilanci civilistici, agli ISA (ex Studi di Settore), alle dichiarazioni IVA, etc. Una parte fondamentale consiste nell’analizzare la fonte documentale o amministrativa secondo i cosiddetti criteri della qualità, per capire se esaustiva, se è attendibile, se le informazioni raccolte rispecchiano le definizioni richieste dal tema o dai sotto temi, se ci sono troppi dati mancanti, la data di disponibilità, le modalità di acquisizione. L’INTERVISTA: L’intervista, generalmente tramite questionario, è per antonomasia il metodo di raccolta dati statistici. Le interviste possono essere dirette, telefoniche, on-line, postali, per email, su piattaforme dedicate, con o senza l’ausilio dell’intervistatore o di uno strumento elettronico. Una prima distinzione è tra intervista libera, semi strutturata e strutturata. Nell’intervista libera è noto il tema (cosa ti ricordi del pranzo di Natale?), in quella semi strutturata il tema è noto e l’intervistatore segue domande fissate e obbligatorie, ma adattabili (cosa hai mangiato durante il pranzo di Natale?), nell’intervista strutturata ci sono domande fisse, non adattabili, spesso sono domande chiuse (questionario con domande stabilite). Di solito per le indagini statistiche, si utilizzano le interviste strutturate, e cioè questionari con domande prestabilite. Tali questionari hanno anche il pregio di poter essere autosomministrati, se corredati da adeguata documentazione. E le risposte alle domande (chiuse) del questionario, possono essere elaborate sotto forma di tabelle. Pregi e difetti dell’intervista - > Alcuni tipi di intervista, per esempio quelle postali, per email in autosomministrazione, hanno il pregio di essere più economiche e di consentire all’intervistato di rispondere con comodo anche a domande delicate, mantenendo l’anonimato, ma spesso la mancata risposta può raggiungere tassi elevati oppure il questionario potrebbe essere compilato da persona diversa da quella indicata come mittente. Nella pratica esistono tecniche per aumentare il tasso di risposta. La difficoltà principale delle interviste è di disporre di una lista aggiornata degli indirizzi o dei recapiti delle unità da intervistare. DIARI o REGISTRI: sono una particolare forma di osservazione che permette di raccogliere informazioni molto dettagliate riguardo a uno specifico comportamento. Prendiamo ad esempio l’osservazione del percorso di un mezzo
pubblico. È possibile creare e compilare un registro, per esempio giornaliero, per documentare l’esperienza (dall’attesa a quante persone aspettavano, alla qualità della pulizia, ora di inizio e fine del viaggio, etc.) e anche standardizzarlo e fornirlo agli utenti, in modo che possano documentare la loro esperienza. FOCUS GROUP: è un tipo di intervista di gruppo che si concentra sull’analisi in profondità di un determinato tema, non solo attraverso domande a diversi partecipanti, ma anche attraverso l’interazione tra gli stessi partecipanti. Generalmente i soggetti scelti per un Focus Group hanno una particolare conoscenza o interesse della materia in questione. b. tecniche di rilevazione delle unità statistiche La raccolta delle informazioni può essere completa oppure parziale. È completa quando si esaminano tutte le unità statistiche che compongono la popolazione oggetto di studio. Pregi: accuratezza delle stime anche a livelli territoriali molto spinti, ricchezza delle informazioni raccolte, esaustività Difetti: costo elevato, tempi di elaborazione dei dati molto lunghi, qualità dei dati non elevata. È parziale quando ci si limita a studiare un sottoinsieme, detto campione dell’insieme di riferimento. Pregi: continuità della rilevazione, economicità, indagini più mirate e approfondite. Difetti: riferimento territoriale non spinto, variabilità campionaria. La statistica descrittiva fornisce gli strumenti per sintetizzare ed esplicitare in forma corretta il modo in cui il fenomeno si è manifestato nel collettivo osservato. Mediante l’inferenza statistica è possibile misurare e controllare l’attendibilità delle informazioni provenienti da un campione. ESTRAZIONE DI UN CAMPIONE: Campionamento casuale: insieme di tutte quelle tecniche di formazione del campione in cui la selezione delle unità è affidata a regole probabilistiche. Campionamento casuale semplice: tutte le unità della popolazione hanno la stessa probabilità di essere estratte. Campionamento casuale in blocco: è un particolare tipo di campionamento casuale dove non esiste un ordine di estrazione delle unità. Campionamento casuale a più stadi: in caso di popolazioni molto numerose, soprattutto per limitare costi e risorse. Esempio: se vogliamo estrarre un campione di famiglie, si può procedere estraendo nel primo stadio le province (unità primaria), nel secondo stadio i comuni (unità secondaria) e infine estraiamo le famiglie (unità finale). L’unità elementare a cui fa riferimento la ricerca a sua volta potrebbe essere diversa dall’unità finale. Campione sistematico: se gli elementi della popolazione sono numerati e elencati in maniera casuale, si decide il passo di estrazione, dato dal rapporto dal numero di elementi della popolazione e il numero di elementi del campione, per estrarre il campione. Se gli elementi sono ordinati secondo un qualche criterio, allora il campione può risultare distorto. Campionamento stratificato: la popolazione viene suddivisa in un certo numero di strati, possibilmente omogenei per una determinata caratteristica. Da ogni strato in maniera indipendente viene poi estratto un campione casuale semplice. Anche questo campionamento si usa quando le liste sono molto numerose e non si ha una lista unica. L’estrazione di un campione stratificato permette un miglioramento della stima, se gli strati sono stati ben definiti e scelti, con possibilità di ottenere anche la stima per le singole sottopopolazioni o strati. Esempio di stratificazione: fasce di età della popolazione, regione amministrativa. Campionamento a grappoli: si realizza quando si estraggono contemporaneamente tutti gli elementi di un insieme di unità contigue della popolazione (grappolo). La precisione diminuisce quanto più i grappoli sono omogenei rispetto alla caratteristica rilevata e quanto più grandi sono le differenze tra grappoli. Esempio: rilevazione del reddito nei quartieri di una città. Campionamento areolare: utile quando non si hanno liste complete ma si possono dividere le unità per area geografica di riferimento, decidendo poi come intervistare gli elementi estratti (numeri civici pari, appartamento a destra di ogni pianerottolo, etc). Se tutti gli elementi dell’area vengono intervistati, allora il campionamento areolare coincide con il campionamento a grappolo. 25/09 Lezione 3 interrotta La STATISTICA SOCIALE è una statistica applicata che serve a individuare le regole per rilevare insiemi di eventi del "sociale". La statistica sociale è la disciplina che, attraverso il metodo induttivo, studia i fenomeni sociali sotto l'aspetto quantitativo cercando di evidenziarne regolarità e relazioni.
nel sottoporre a verifica su campioni bilanciati di solito due versioni del questionario che differiscono per un aspetto (formulazione di una domanda, sequenza delle domande, periodi di riferimento temporali proposti, etc.). Gli stessi risultati di questo test possono essere sottoposti ad analisi statistiche in grado di guidare scientificamente nella scelta tra le alternative possibili.
Uso di supporti tecnologici: consentono la personalizzazione della formulazione dei quesiti e del percorso di domande, in funzione delle caratteristiche del rispondente o di risposte fornite a precedenti quesiti del questionario stesso o di informazioni già disponibili, rendendo così l’intervista più fluida e facilitando la disponibilità del rispondente a collaborare. Per CATI e CAPI, la presenza di un rilevatore formato sui contenuti dell’indagine permette di inserire una quantità di controlli decisamente elevata ma è necessario contenerli e gestirli. Per i questionari in autosomministrazione i controlli sono possibili, ma in numero più limitato, altrimenti si rischia una mancata risposta. Approfondimento SCO. Esempio di domanda-> Le domande devono essere formulate in modo da contenere informazioni sufficienti a non risultare ambigue. Per esempio: "La mattina consuma una colazione?" La domanda non chiarisce da cosa sia costituita una colazione; non è chiaro fino a che ora del mattino un pasto possa essere considerato una colazione; non è chiaro se la domanda si riferisce ad un consumo abituale o a un giorno preciso. Meglio proporre il quesito, leggermente più lungo ma più definito, nella seguente forma: "Per i nostri scopi consideri colazione un pasto costituito almeno da una bevanda (Te, latte, caffè,...) e un alimento come brioches, cereali, biscotti, toast o frutta, consumato prima delle 10 del mattino. Secondo questa definizione negli scorsi 7 giorni quante volte ha consumato una colazione?" ES: questionario di rilevazione. Rilevazione sull’impatto dell’emergenza Covid-19 sulle imprese italiane → La rilevazione è finalizzata a raccogliere direttamente dalle imprese informazioni in merito alla situazione in cui esse si trovano ad operare, nell’attuale fase di superamento degli effetti dell’emergenza sanitaria e di uscita dalla crisi economica, considerando i fattori che influenzano l’attività, le criticità, le scelte che si stanno adottando. Ciò allo scopo di fornire ai cittadini, agli operatori economici e ai decisori pubblici evidenze statistiche di elevata qualità su come le nostre imprese stanno reagendo a fronte dei rapidi mutamenti di scenario susseguitesi dopo l’emergenza. 3 edizioni: primavera e autunno 2020, autunno 2021. Lezione 5 Rilevazione sui conti economici delle imprese → La rilevazione dei conti economici delle imprese e per l'esercizio di arti e professioni è rivolta a tutte le imprese italiane che operano nei settori dell'industria, delle costruzioni, del commercio e dei servizi, con l'esclusione di alcune divisioni dell'intermediazione monetaria e finanziaria, delle assicurazioni e dei servizi domestici. Il questionario rileva i dati economico-finanziari delle imprese, classificate secondo l'attività economica prevalente, sia delle unità funzionali (unità di produzione omogenea) dell'impresa stessa. Rileva, inoltre, i dati sull'occupazione, sugli investimenti e sui costi del personale. I dati vengono richiesti al fine di soddisfare il regolamento europeo 2152/2019. Le componenti dei ricavi e dei costi sono utilizzati per il calcolo del valore aggiunto nell'ambito dei conti economici nazionali e della tavola intersettoriale dell'economia italiana. Il questionario è telematico. La rilevazione dei conti economici delle imprese e per l'esercizio di arti e professioni adotta una strategia campionaria per le imprese con meno di 250 addetti (PMI: circa 80.000 imprese coinvolte) mentre è totale per le imprese con 250 addetti ed oltre (SCI: circa 4.000 imprese coinvolte). Strumenti on-line per i questionari: Google documents (https://docs.google.com/forms/u/0/?tgif=d), Google Forms (https://www.google.it/intl/it/forms/about), Lime Survey (https://www.limesurvey.org), Survey Monkey (https://it.surveymonkey.com). Alcune riflessioni: I DATI COME FONTE DI CONOSCENZA Non sempre i dati sono una misura perfetta di ciò che ci interessa: chiedere ad esempio il grado di soddisfazione di una persona su una scala da zero a dieci difficilmente avrà la stessa valutazione da persona a persona. Qualsiasi cosa scegliamo di misurare differirà da luogo a luogo, da persona a persona, di volta in volta, e il problema è quindi estrarre informazioni significative da tutta questa variabilità apparentemente casuale. Per secoli, la statistica ha affrontato queste sfide e ha svolto un ruolo di primo piano nei tentativi scientifici di comprendere il mondo. Ha fornito le basi per interpretare dati, sempre imperfetti, per distinguere le relazioni importanti dalla variabilità di fondo che ci rende tutti unici. Il mondo è in continua evoluzione, vengono poste sempre nuove domande e diventano disponibili nuove fonti di dati, e la scienza statistica ha dovuto adattarsi.
c. La classificazione dei dati Consiste nel raggruppare i dati secondo le modalità dello stesso carattere. Questa operazione, un tempo tutta manuale, viene chiamata anche spoglio. La tabulazione è la successiva operazione di riportare i dati in forma tabellare. La tabella statistica semplice, o distribuzione statistica semplice , è un prospetto di due colonne:
Il passaggio dalla distribuzione unitaria a quella di frequenze non permette una buona sintesi dei dati. In generale, in presenza di caratteri quantitativi continui (o anche discreti, con un numero elevato di modalità) si effettua una operazione preliminare chiamata suddivisione in classi Esempio di variabile statistica divisa in intervalli Tempo di durata di una lampadina – distribuzione in classi di pari ampiezza (classi chiuse a sinistra). Si chiama valore centrale della classe la semisomma degli estremi. Nell’esempio precedente i valori centrali delle classi sono rispettivamente: (127+133)/2=130, (133+139)/2=136, (139+145)/2=142. Le ampiezze e i valori centrali delle classi sono utili per gli ulteriori calcoli che si faranno durante le elaborazioni e per le successive rappresentazioni grafiche. È possibile creare classi di uguale ampiezza o classi con ampiezza differente e uguale frequenza oppure con ampiezza differente e differente frequenza. La scelta dipende dall’obiettivo dell’analisi. Per esempio, se si vogliono fornire informazioni più dettagliate su una parte della distribuzione o se si hanno già a disposizione dei raggruppamenti da utilizzare è probabile che si avrà a che fare con intervalli di lunghezza diversa. Si definisce densità di frequenza di una classe il rapporto tra la frequenza assoluta della classe e l’ampiezza dell'intervallo. La densità indica il numero di unità statistiche per ogni unità di misura della variabile. Nell’esempio precedente le densità sono data da: 7/6=1,17, 11/6=1,83, 12/6=2. A volte può essere molto utile avere classi di uguale densità, ma la tabellazione risulta più complicata. Frequenze relative, cumulate, percentuali Dalle distribuzioni di frequenza assolute si può passare alle distribuzioni di frequenza relative e alle distribuzioni di frequenza percentuali.
Esempio tratto dalla statistica economica ufficiale: Numero di imprese industriali e dei servizi per classe di addetti, anno 2008. Il numero di addetti è un carattere quantitativo discreto, suddiviso in classi (in realtà è un carattere continuo). Le classi non sono di uguale ampiezza, né intensità. L’ultima classe non è limitata a destra. Per indicare un estremo superiore sarebbe utile avere il numero di addetti totali della classe, e normalmente è un dato fornito dall’Istat. Sappiamo che il numero medio di addetti delle imprese con 250 e oltre addetti è vicino a 1000, e questo può essere assunto come il valore centrale della classe. Potremmo pensare allora di chiudere la classe al valore 1750, così da avere un valore centrale di 1000. 03/10/2023 lezione 7 TABELLE A DOPPIA ENTRATA Supponiamo che per ogni unità statistica di una popolazione si rilevino contemporaneamente 2 caratteri. Ad esempio, prendiamo il numero di vani e il numero di abitanti di un appartamento. A ogni unità statistica (appartamento) si associano così due valori, cioè una coppia ordinata di numeri reali (x,y): x è il numero di vani e y il numero di persone che abitano nell’appartamento (2,3) (2,4) (3,5) (3,2) etc. Le determinazioni dei due caratteri possono essere organizzate sotto forma di distribuzione unitaria doppia , dove le modalità dei due caratteri sono elencate unità per unità. Tale elencazione non è adatta a rappresentare le caratteristiche del fenomeno. Si ricorre allora alle tabelle di frequenza a doppia entrata, dette anche distribuzioni doppie di frequenze. Dati due caratteri X e Y, si definisce distribuzione doppia di frequenze l’insieme delle frequenze congiunte nij, ovvero le frequenze assolute delle unità che presentano congiuntamente la modalità i-esima della X e la modalità j-esima della Y. Es. X: vani di un appartamento; Y: abitanti di un appartamento. Ma come si costruisce la tabella a doppia entrata? Si lavora in maniera congiunta sui due caratteri, se n è molto grande il conteggio verrà fatto con l’ausilio di programmi e strumenti elettronici. Distribuzione marginale: è la distribuzione che avremmo se considerassimo un solo carattere, corrisponde alla distribuzione di frequenza semplice del carattere. Le troviamo nell’ultima colonna (ni.) e nell’ultima riga (n.i) della tabella. Distribuzione condizionata: è la distribuzione di un carattere, condizionata a una modalità dell’altro carattere. Le distribuzioni condizionate sono le righe e le colonne interne della tabella. La riga i-ma è la distribuzione condizionata del carattere Y sotto la condizione che x=xi, la colonna j-ma è la distribuzione condizionata del carattere X sotto la condizione che y=yi In una tabella a doppia entrata abbiamo infine:
Grafici ad aree sovrapposte : Quando si vogliono confrontare due o più distribuzioni (o serie storiche) relative a uno stesso fenomeno, conviene riportarle in un unico grafico sovrapponendole o posizionandole una a fianco all’altra in successione rispetto alle modalità. Esempio di grafico ad aree sovrapposte. Numeri di iscritti ai corsi universitari nelle regioni del Nord-est d’Italia. Anni 2008 - 2017. Fonte Istat. Esempio di grafico ad aree sovrapposte. Numeri di iscritti ai corsi universitari nelle regioni del Nord-est d’Italia. Anni 2008 - 2017. Fonte Istat. Istogramma : Quando abbiamo un carattere quantitativo continuo l’istogramma è il tipo di rappresentazione più efficace. Si usa quindi quando vogliamo rappresentare un carattere continuo (età, peso, statura), le cui modalità sono raggruppate in classi. È una rappresentazione con barre non distanziate, di base uguale o diversa dove l’area del barra è proporzionale alla frequenza o quantità del fenomeno. Il rapporto tra la frequenza (assoluta, relativa o percentuale) e la base (ampiezza) definisce la frequenza unitaria o densità di frequenza o densità di classe che è uguale all’altezza del rettangolo che andremo a disegnare sull’istogramma: Istogramma: precisazione-> Gli istogrammi rappresentano i dati statistici mediante superfici rettangolari e si avvalgono del sistema di assi cartesiani. Sull'asse delle ascisse si pongono intervalli, scaglioni, classi, ciascuno dei quali ha la sua ampiezza. Tali ampiezze costituiscono la base dei rettangoli e le altezze relative sull'asse delle ordinate rappresentano il dato statistico riferito a quell'intervallo o scaglione o classe. Istogramma con classi della stessa ampiezza: Distribuzione per classi di età dei clienti di un albergo in un determinato giorno.
Istogramma con classi di ampiezza diversa Grafici a torta, o areali, o a settori circolari: Si usa per rappresentare i caratteri non ordinati e i caratteri ordinati ciclici. Consiste ne dividere il cerchio in settori proporzionali all’intensità del fenomeno, in pratica si trova calcolando per ogni modalità i gradi gi dell’angolo corrispondente a ciascuna modalità: Grafici a torta, o areali, o a settori circolari: Con questo tipo di grafico si rappresentano caratteri con un numero di modalità, o classi, non elevato e se non ve ne è una predominante. Per esempio nella tabella delle imprese italiane per classi di addetti il grafico a torta non è rappresentativo, in quanto la prima classe è molto più numerosa delle altre. Esempio di grafico a torta. Percentuale di imprese industriali e dei servizi per settore di attività, anno 2009. Fonte Istat Esempio di grafico a torta tridimensionale. La tridimensionalità è più un fatto estetico che non un miglioramento della rappresentazione. Esempio di grafico a torta
Serie storica dei tassi di attività per ripartizione geografica. Italia, 2020. Fonte Istat Evoluzione giornaliera della pandemia da Covid-19 in Italia fino al 20 novembre 2020. Fonte ISS Diagramma cartesiano a segmenti : È impiegato per rappresentare graficamente due caratteri quantitativi discreti non divisi in classi e si configura a segmenti verticali. Esempio. Numero dei componenti per famiglia, numero delle stanze delle abitazioni, numero di unità locali delle imprese e così via. Si costruisce come gli usuali diagrammi cartesiani aventi due assi perpendicolari: l’asse delle ascisse (x) e l’asse delle ordinate (y), aventi origine comune in zero. Ogni coppia ordinata di valori (xi,yi) determinerà un punto nel piano e l’insieme di tutte le coppie (xi = modalità quantitativa i-esima, yi = frequenza della modalità i-esima) determinerà l’insieme dei punti nel piano che costituiscono la rappresentazione grafica della distribuzione considerata. Per rendere maggiormente visibili tali punti, si tracciano dei segmenti verticali congiungenti l’ascissa (xi) con il punto del piano corrispondente all’ordinata (yi). Non è corretto tracciare la spezzata congiungendo i punti. Esempio di diagramma cartesiano a segmenti. Percentuale di famiglie per numeri di componenti familiari. Poligono di frequenza e curva di frequenza: Nel caso di variabili statistiche continue, congiungendo fra loro i punti centrali (xi,yi) delle basi superiori dei rettangoli di un istogramma si ottiene una spezzata denominata poligono di frequenza. Rispetto all’istogramma, ha il vantaggio di poter rappresentare più facilmente, nello stesso grafico, più di un fenomeno. Si indicano le frequenze se le classi sono le stesse, altrimenti bisogna riferirsi alle frequenze relative. I punti centrali (xi,yi) rappresentanti la distribuzione considerata vanno uniti mediante una spezzata detta appunto poligono di frequenza. All’aumentare del numero di unità rilevate il poligono di frequenza si approssima sempre più a una linea continua detta curva di frequenza, la quale talvolta è esprimibile anche mediante l’ausilio di funzioni matematiche. Esempio di poligono di frequenza: Esempio di curva di frequenza Nuvola dei punti o scatter plot : E’ una rappresentazione molto utilizzata per distribuzioni doppie quando entrambi i caratteri sono quantitativi e consente di visualizzare la correlazione esistente fra le variabili. Lo scatter plot è un diagramma cartesiano in cui sull’asse delle ascisse (x) e su quello delle ordinate (y) sono riportati i valori assunti dalle due variabili (X,Y) e ciascun punto P del piano rappresenta l’unità statistica avente come valore delle due variabili le coordinate (xi,yi). La nuvola dei punti consente di vedere la dispersione tra le unità statistiche ossia la loro vicinanza o distanza, indicanti rispettivamente la loro somiglianza o dissomiglianza rispetto a due caratteri considerati contemporaneamente. Importante inoltre è la forma assunta dalla nuvola dei punti, che può fornire indicazioni sul tipo di relazione esistente tra due variabili.
Esempio di scatter plot: Pil pro capite e tasso di occupazione (25-34 anni). Regioni italiane in rapporto alla media nazionale. Anni 2008 e 2022 (Pil 2021) Ideogramma : L'ideogramma o pittogramma utilizza una rappresentazione statistica fatta con figure allegoriche. È una rappresentazione grafica avente carattere molto divulgativo perché si avvale di figure, simboli, generalmente tutti simili tra loro, aventi un’immediata attinenza con il carattere considerato (figure umane, oggetti ecc.) e di grandezza o numero variabile per indicare l’entità della frequenza o dell’intensità del carattere rappresentato. Non si presta a divulgazioni scientifiche. La piramide dell’età : È la rappresentazione grafica della struttura per età e sesso di una popolazione. È rappresentata da due istogrammi rovesciati e contrapposti, corrispondenti ai due sessi, sul cui asse verticale comune sono indicate le classi di età e sul cui asse orizzontale sono riportate le frequenze (assolute o relative), corrispondenti a ciascuna classe di età considerata per entrambi i sessi. Convenzionalmente la parte sinistra è la distribuzione per età della popolazione maschile, la parte destra della popolazione femminile. La forma della piramide dà informazioni sui fattori che caratterizzano la struttura per età e sesso attuale e passata e può dare previsioni. Il profilo della piramide dell’età si modifica nel tempo per effetto dell’evoluzione a lungo termine della natalità, mortalità e delle migrazioni. In particolare la base fornisce indicazioni sul flusso di nascite: più è larga e maggiore è il flusso di nascite. L’inclinazione dei lati fornisce indicazioni sul livello generale di eliminazione per morte: più è obliqua più la mortalità è alta. La presenza di rigonfiamenti o strozzature per particolari classi d’età fornisce indicazione dell’intervento di fattori di perturbazione.