Anteprima parziale del testo
Scarica Statistica- lezioni prof. Bove a.s. 24/25 e più Sbobinature in PDF di Statistica solo su Docsity!
Introduzione La statistica è la disciplina che studia i fenomeni collettivi (o di massa). Lezione del 17/03/2025 Si dicono collettivi i fenomeni che non si manifestano sempre allo stesso modo e quindi per essere studiati richiedono una massa di osservazioni. Le informazioni riguardanti i fenomeni collettivi vengono raccolte attraverso /’indagine statistica. _Note Nelle parentesi e, quadre c'è la spiegazione del professore. O) Unità statistica - Popolazione - Modalità- Carattere statistico * Unità statistica: termine che utilizziamo per indicare la singola entità portatrice del fenomeno che vogliamo/ si vuole analizzare (es. individuo, azienda, area territoriale). [Es. se stiamo facendo un'indagine su un gruppo di individui, l'unità statistica è il singolo individuo; se stiamo facendo un'indagine su delle aziende, ad es. delle scuole, la singola unità statistica è la scuola e così via... L'insime di tutte le unità statistiche che ci interessa analizzare si chiama "popolazione" e per indicare il totale della popolazione usiamo il simbolo N grande/maiuscolo (N=totale delle unità della popolazione)] . Popolazione: l'insieme delle unità statistiche oggetto di indagine. Il totale delle unità statistiche della popolazione sarà indicato con il simbolo N. [In queste popolazioni noi andiamo a rilevare alcune caratteristiche delle unità statistiche per es. dei soggetti, possiamo pensare a dei questionari in cui rileviamo il genere, l'età, il titolo di studio delle persone. Tutte queste caratteristiche vengono denominate, richiamate nella trattazione con il termine "carattere statistico". Quindi il genere è un carattere statistico che rileviamo con l'indagine; l'età è un carattere statistico che rileviamo con la nostra indagine e così via.] e Carattere statistico: caratteristica rilevata sulle unità statistiche (es. genere, fatturato, n. residenti). [Questi caratteri statistici si manifesteranno sulle unità della popolazione con determinate modalità; per es. il genere si manifesta con delle modalità maschio, femmina e altra tipologia e altra modalità. Se ad es. rileviamo in un certo numero di aziende il carattere statistico fatturato, le modalità saranno i valori del fatturato che viene realizzato da queste azienda, quindi per es. 100.000€, 2.000€ ecc.. Se rileviamo in una certa area territoriale il numero dei residenti, il carattere statistico, il numero dei residenti si manifesterà con delle modalità numeriche che sono, per es,. 1.000 residenti o 2.000 residenti e così via.] . Modalità: è il modo di manifestarsi di un carattere statistico (es. maschio, 100.000 €, 1000 residenti). [Questi quattro termini si possono mettere in collegamento tra di loro con questa frase:] e «Ognicarattere assume una determinata modalità in corrispondenza di ogni unità statistica della popolazione.» [Quindi per es. il carattere genere assumerà una determinata modalità (maschio, femmina o altro) in corrispondenza ad ogni soggetto della popolazione che stiamo intervistando.] Caratteri Statistici [Quando noi rileviamo dei caratteri statistici in una popolazione, se ci focalizzamo sulle diverse tipologie di caratteri statistici che si possono analizzare, dobbiamo distinguere innanzitutto i caratteri statistici qualitativi dai caratteri statistici quantitativi. Un carattere statistico si dice qualitativo quando le modalità che può assumere sulle unità statistiche sono delle parole; le modalità sono rappresentate da delle parole ad es. il genere ha un carattere qualitativo perché si manifesta con delle parole (maschio, femmina o altro...). Anche il tipo di diploma è qualitativo; se io rilevo su un gruppo di studenti il tipo di diploma che possiede, le modalità del tipo di diploma sono ad es. istituto tecnico commerciale, liceo scientifico, liceo classico e così via. In particolare, questi due esempi (genere e tipo di diploma) si chiamano anche qualitativi sconnessi o nominali perché quando due modalità vengono confrontate -del carattere- possiamo solo dire se sono uguali o diverse. Quindi, per es., se considero due unità statistiche, rispetto alle modalità che assumono per il genere, io questo confronto delle modalità statistiche, assunte dal genere in queste due unità, posso solo dire se sono uguali o diverse. Invece, ci sono situazioni come ad es. il titolo di studio (altra variabile qualitativa) le cui modalità sono licenza elementare, licenza media, diploma, laurea o altro titolo superiore, per i quali le modalità sono comunque delle parole, però presentano un ordinamento; sappiamo che la licenza elementare viene prima della licenza media, la licenza media prima del diploma e così via... In questi casi quindi, oltre a poter dire se sono uguali o diverse (le modalità assunte dal carattere su due unità statistiche), possiamo dire -nel caso fossero diverse- quale viene prima e quale viene dopo sfruttando l'ordinamento oggettivo delle modalità del titolo di studio. Poi abbiamo i caratteri quantitativi come ad es. l'età, il voto preso ad un esame, il numero esami sostenuti, il numero di addetti, il peso e così via. Ciò che caratterizza i caratteri quantitativi è che si manifestano con dei numeri; l'età si manifesta con dei numeri che sono gli anni compiuti, il numero di addetti si manifesta con dei numeri che sono esattamente il valore assoluto di addetti di quella azienda, il peso si manifesta con un numero che è la misura del carattere statistico sul soggetto e, in particolare, questi caratteri quantitativi li distinguiamo in discreti o continui a seconda se: nel caso discreto le modalità sono numeri interi; nel caso continuo le modalità sono numeri reali compresi in un certo intervallo, ad es. il peso è un carattere quantitativo continuo perché quando lo misuriamo si può manifestare con i decimali (numeri che hanno la virgola, di alcuni decimali), invece il numero di addetti non può manifestarsi con un valore decimale, ma assume solo valori interi.] | caratteri statistici possono essere: 1. qualitativi: quando le modalità sono parole (es. genere, titolo di studio); 1.1. qualitativi sconnessi (o nominali): quando date due modalità possiamo solo dire se sono uguali o diverse (es. il genere); 1.2. qualitativi ordinati: quando date due modalità possiamo dire se sono uguali o diverse e, se diverse, quale viene prima (es. il titolo di studio, con le quattro modalità elementare, medie, diploma, laurea). 2. quantitativi: quando le modalità sono numeri (es. età, numero di addetti, peso); 2.1. quantitativi discreti: le modalità sono numeri interi (es. numero di addetti); 2.2. quantitativi continui: le modalità sono numeri reali compresi in un determinato intervallo (es. peso). I NISCRETI DOD PossopD MIMIFESTARSI cob Viole DE CINA (noneri con i vinaod) | CONTINUI Havro vA om DECINALG La matrice dei dati [Quando noi abbiamo condotto un'indagine e abbiamo concluso la rilevazione delle nostre informazioni, per es. utilizzando un questionario, procediamo a . . . . . memorizzare questi dati in una Un esempio di matrice dei dati matrice di dati. Vediamo un es. di matice dei dati, generalmente utilizzando un software opportuno, d ° IA Titolo di i Anni di ipendi 4 ti ad es. Excel oppure un altro codice Genere nolo ina sl sipendiofeei COLONNA isa 4 , 11° dipendente studio Lavorativa —anzianità programma, noi creiamo un foglio 0, elettronico dove in generale (cosa 2 1 Femmina Diploma Impiegato 5 1200 facciamo?) raccogliamo tutte le BI 2 Maschio Diploma Funzionario 6 1600 informazioni che abbiamo rilevato. 15 3 Maschio Laurea Funzionario 7 1700 Questa matrice di dati assume la i Di 4 Femmina Diploma Impiegato 5 1300 forma di un foglio di dati per cui è SI Ego Maschio Laurea Dirigente 5 2600 organizzato N LFaEC coloni © es fo 6 Maschio Diploma Impiegato 6 1400 righe corrispondono alle unità = È n a statistiche, ad es. questa matrice di {| 8, 7 Marti Dipiona Funzionario Li 1500 delta fimo un nego 12 | A/R en oc] Vest] panel ese pendenti di unazienda, nella id ci saranno i nomi N° 10 Maschio Laurea Funzionario 6 2000 che ci dicono quali sono i caratteri È 11 Maschio Laurea Dirigente 5 1400 statistici, quindi ci sono i nomi delle | 12% 12 Maschio Diploma Impiegato 5 1800 informazioni che abbiamo rilevato e dalla 2? riga in poi, ogni riga è associata a una unità statistica (nel nostro caso a un dipendente). La 1° colonna conterrà l'identificativo di questa unità statistica. In questo, ogni dipendente ha un suo codice; possiamo sempre immaginare che questa sia la banca dati dell'azienda dove ogni dipendente ha un suo codice, quindi per es. il 1° dipendente è una donna, come titolo di studio ha il diploma, ha la categoria lavorativa impiegata, da 5 anni lavora in questa azienda (quindi gli anni di anzianità è uguale a 5; la variabile "anni di anzianità" ha modalità 5 ), e lo stipendio in euro è di 1.200€ mensili. Poi c'è un 2° dipendente, in questo 2° caso è un maschio che ha anche lui il diploma, ha una categoria lavorativa superiore (funzionario), ha 6 anni di anzianità e guadagna 1.600€ e così via. Per ogni dipendente abbiamo una riga della matrice dei dati, mentre le colonne della matrice corrisponderanno ai caratteri statistici; in questo caso, i caratteri che compaiono dopo la 1? colonna sono il genere, il titolo di studio, la categoria lavorativa (quindi 3 caratteri qualitativi; il 1° è un es. di carattere qualitativo nominale, mentre gli altri 2 sono esempi di caratteri qualitativi ordinati/ordinari). Gli ultimi due caratteri (anni di anzianità e stipendio) sono quantitativi perché si manifestano con delle modalità numeriche; il 1° è discreto, il 2° è continuo.] Supponiamo di aver condotto un'indagine su una popolazione di N=12 dipendenti di un'azienda A e di aver rilevato i seguenti caratteri statistici: e Genere(G) Ù Titolo di studio (TDS); e Categoria lavorativa(CL); e Annidianzianità (AA); e Stipendio(S). [Per indicare le diverse variabili troviamo nelle slide tali simboli: la G per quanto riguarda il genere, TDS per il titolo di studio, CL per la categoria lavorativa, AA per gli anni di anzianità e S per stipendio (da ricordare!). In questa matrice di dati abbiamo 12 righe (12 dipendenti), quindi in questo caso N=12. N è il simbolo con cui, in generale, indichiamo il totale della nostra popolazione (se troviamo N=un numero nelle slide, significa che il totale statistico della popolazione corrisponde a quel numero).] Frequenza percentuale [Frequenza percentuale, detta anche percentuale. Oltre la frequenza assoluta, introduciamo anche la percentuale perché potrebbe succedere che a un certo punto vogliamo confrontare, ad es., la distribuzione di frequenza del genere ottenuta, ad es., in un gruppo di studenti di scienze dell'educazione con la distribuzione del genere in un gruppo di studenti di un altro corso di laurea, per es. di ingegneria meccanica, e per vari motivi può succedere che il numero delle unità statistiche del 1° gruppo sia diverso dal numero delle ostilità statistiche del 2° gruppo, per es.: potremmo aver osservato 12 studenti a scienze dell'educazione e 100 studenti a ingegneria. Per confrontare le due distribuzioni, non possiamo farlo attraverso le frequenze assolute perché i totali sono diversi, quindi il nostro confronto sarebbe influenzato dalla diversa numerosità dei due gruppi e spesso noi vogliamo evitare che questo accada. Per far sì che questo non accada, facciamo un'operazione di tipo astratto in cui ci chiediamo: «ma se, ad es., in questo gruppo di soggetti, di dipendenti, invece di 12 il totale della popolazione fosse stato 100, quante sarebbero state le femmine e quanti maschi, mantenendo le due modalità, lo stesso peso relativo nella popolazione?» (. si riferisce alla tabella "esempio di distribuzione di frequenza). Facciamo un'operazione del tutto teorica in cui immaginiamo che invece di 12, il totale sia 100 e ci andiamo a calcolare quali sarebbero le frequenze assolute nel caso in cui questo totale sia 100, in modo tale che i rapporti, diciamo proporzionali, restino gli stessi e, per fare questo, andiamo a calcolare la percentuale. La frequenza percentuale, o percentuale, si calcola dividendo alla frequenza assoluta della modalità per il totale N moltiplicato 100. Quindi, con riferimento alla tabella (es. di distribuzione di frequenza), la percentuale di femmina ca la riceveremo facendo la frequenza assoluta 3, diviso il totale 12 per 100; la percentuale di maschio ce la riceveremo facendo 9 (frequenza assoluta di maschio) diviso 12 (totale) per 100.] Dalla tabella risulta evidente la prevalenza dei maschi tra i dipendenti dell'azienda A poiché dei 12 dipendenti 9 sono maschi e 3 sono le femmine. Oltre alle frequenze assolute è sempre utile calcolare le frequenze percentuali (o percentuali). freq. assoluta freq. percentuale = x700 K = x x \ La frequenza percentuale della modalità: \ O pote POINT G) - Dà 3:12=0,25 * Femminaè x100=25%/ ; { L i 0,25x100=25 @ |? JoRHOLA LO e Maschio è 10 = rs%) 9:12=0,75 2 0,75x100=75 Tome li o Genere Frequenza assoluta Frequenza Percentuale Femmina ©) 25 Maschio 9 75 Totale 12) 100 [(Nella tabella sopra) sono riportate le due formuline nel caso specifico e il risultato dei due calcoli: le 3 femmine di questo gruppo di dipendenti rappresentano il 25% del totale e i 9 maschi rappresentano il 75% del totale. Se invece di 12 il totale delle unità di questa popolazione fosse stato 100 (dipendenti), noi avremmo avuto 25 dipendenti femmine e 75 dipendenti maschi e la proporzione resta la stessa; infatti si parla anche di proporzione, semplicemente, come rapporto tra la frequenza assoluta e il totale, quindi se noi lo moltiplicassimo per 100 avremmo esattamente le due proporzioni che sarebbero 0,25 e 0,75 la cui somma è ovviamente 1 perché le proporzioni sommano sempre 1 (0,25+ 0,75=1). Quindi abbiamo che le frequenze assolute sommano sempre N (in questo caso N=12); le frequenze percentuali sommano sempre 100 (qualunque sia la popolazione) e la proporzione sempre 1, se avessimo calcolato le proporzioni (ovvero 0,25+0,75=1).] Frequenze percentuali La frequenza percentuale: 1. misura il peso relativo di ciascuna modalità rispetto all'insieme di tutte le modalità osservate; 2. puòessere interpretata come la frequenza assoluta che la modalità avrebbe qualora la popolazione fosse costituita da 100 unità statistiche invece di N; 3. è utile quando si vogliono confrontare due o più distribuzioni relative ad uno stesso carattere osservato in popolazioni diverse. Esempio 1:supponiamo di aver rilevato il Genere anche sui 30 dipendenti di un'azienda B: Azienda A Azienda B Genere Frequenza ass. Genere Frequenza ass. Femmina 3 Femmina 6 Maschio 9 Maschio 24 Totale 12 Totale 30 [Es. utile (per la percentuale) che ci consente di fare dei confronti più corretti. In questo esempio supponiamo di aver rilevato il Genere anche sui 30 dipendenti di un'azienda B, quindi oltre alla nostra azienda dei 12 dipendenti, abbiamo una 2? azienda con 30 dipendenti la cui distribuzione è 6 dipendenti femmine e 24 maschi, per un totale di 30. Ci potremmo chiedere: qual'è (delle due aziende) quella in cui è maggiormente presente la componente femminile? Se noi ci basassimo sulle frequenze assolute, dovremmo dire che nell'azienda B c'è una maggiore presenza (incidenza) delle dipendenti rispetto all'azienda A. In realtà, l'incidenza relativa è più forte nell'azienda A perché se andiamo a vedere quanto quanto incidono nell'azienda B le 6 dipendenti, vediamo che in percentuale sono il 20% dei dipendenti (6:30=0,2 - 0,2x100=20), mentre abbiamo visto che nell'azienda A le dipendenti femmine erano il 25% (3:12=0,25 - 0,25x100=25). Quindi un corretto confronto del peso di una modalità in 2 o più distribuzioni, va operato attraverso le percentuali e non attraverso le frequenze assolute in quanto, questo 2° confronto, risentirebbe del diverso totale delle popolazioni che confrontiamo] ERRORE: la presenza Femminile è più rilevante nell'azienda B che nell'azienda A poiché 6 è maggiore di 3. Il confronto tra le due distribuzioni deve tenere conto della diversa numerosità totale. Dovrà quindi essere effettuato confrontando le frequenze percentuali della modalità femmina delle due aziende: e Frequenza percentuale di femmina in A: 25% ° Frequenza percentuale di femmina in B: ù x100 Categoria Frequenza ass. | Frequenza perc. | Frequenza perc. cum. lavorativa Impiegato 4 33 33 Funzionario 5 42 75 Dirigente 3 25 100 Totale 12 10000 | --_ [Quindi, riportiamo i risultati di questo calcolo finale nella tabella dove abbiamo un'ulteriore colonna delle frequenze percentuali cumulate. Quindi per: . impiegato + la cumulata è 33 perché prima non c'è nulla; . funzionario + la percentuale cumulata la otteniamo sommando le percentuali fino a quella modalità funzionario quindi 33 (impiegato) +42 (funzionario); . dirigente + la cumulata la otteniamo sommando tutte le percentuali (impiegato+funzionario+ dirigente=) fino a dirigente, quindi 33+42+25=100. Ovviamente in una distribuzione la percentuale cumulata dell'ultima modalità è sempre uguale a 100, mentre non riportiamo il totale perché non avrebbe nessuna utilità, non avrebbe senso nella colonna delle frequenze percentuali cumulate. Alla fine del calcolo della frequenza percentuale cumulata, abbiamo capito che il carattere statistico deve essere ordinato o quantitativo, quindi per es. per il genere e per il tipo di diploma non ha senso calcolare la frequenza percentuale cumulata, perché l'ordine delle modalità è soggettivo, mentre noi, quando usiamo un carattere qualitativo ordinato, siamo costretti a mettere nella distribuzione le modalità in ordine: dalla prima all'ultima; da quella che viene prima a quella che viene per ultima e quindi, nel caso della categoria lavorativa, impiegato, funzionario, dirigente. Se avevamo il titolo di studio eravamo obbligati a mettere elementare, licenza media, diploma e laurea. > La frequenza percentuale cumulata non si calcola solo per i caratteri qualitativi ordinati, ma anche per i quantitativi, perché un carattere quantitativo è anche lui ordinato ad es. l'età, il voto in un esame, essendo dei caratteri quantitativi che assumono come modalità dei numeri, sono anche loro ordinati e quindi noi le cumulate le possiamo calcolare sia peri caratteri qualitativi ordinati che per i quantitativi; non li possiamo calcolare per i qualitativi nominali come il tipo di diploma, il genere, ecc... ] Le percentuali cumulate si possono calcolare per tutte le modalità della variabile categoria lavorativa e possono essere riportate nella tabella, senza il totale che non ha senso. Esercizio aggiuntivo n° 1 - Unità 1. Con riferimento alla matrice di dati dell'esercizio 2 di Esercizi Unità 1, si risponda alle seguenti domande; 1. Qualèla frequenza assoluta della modalità 16 esami superati? 2. Qualè la percentuale di studenti che hanno superato esattamente 16 esami? 3. Qualè la percentuale di studenti che hanno superato al massimo 18 esami? 4. Qualè la percentuale di studenti che hanno superato almeno 18 esami? 2. E’ stata effettuata un'indagine su 10 studenti ottenendo la n nia + A 3 seguente matrice dei dati [Per sapere quali sono le modalità con cui si è manifestata 9 la variabile, dobbiamo vedere la matrice che ci interessa che è quella riportata nella dispensa degli esercizi dell'unità Kosa Sanere, pipa Tea iu sl 1 al secondo esercizio. Questa è la matrice dei 10 studenti Famiglia e quindi per quanto riguarda il numero degli esami vediamo 7 Maschio Tiso Veda Te | 282 che si manifestano con 16,18,19, e 20. Queste quattro modalità le riportiamo nella tabella] ° 9 ? Femmina ticeo Diploma 18 285 3 Maschio Altro Media 16 | 28/1 4 Femmina | Magistrale Diploma 18 | 273 Yu ni -g i 5 Femmina Liceo Media 16 | 292 VAI E 6 Femmina | Magistrale Elementare 19 26,6 7 Femmina Altro Elementare 19 | 273 8 Femmina | Magistrale Media 16 | 272 9g Femmina | Magistrale Diploma 18 | 284 10 Femmina | Magistrale Laurea 20 | 295 [Iniziamo lo svolgimento preparando la tabella in cui mettiamo nella 12 colonna il nome della variabile (numero esami), le modalità che assume (16,18, 19, 20) e totale. Prepariamo poi la 22 colonna (frequenza).] COLONNA 7° x N. Esami | Frequenza sp TT] 1 TTODALITA n ASSUNTE 19 20 Totale vr TOTOE [Rispondiamo alla 1? domanda: qual è la frequenza assoluta della modalità 16 esami superati? Andiamo nella colonna (quella dall'esercizio 2 della matrice) del numero di esami e vediamo quante volte si presenta 16: si presenta in corrispondenza al 1° studente, al 3°, al 5° e all'8°, quindi quattro volte per cui la frequenza assoluta della modalità 16 sarà 4 e la riportiamo nella tabella a fianco a 16.] N. Esami | Frequenza 16 TA 18 19 20 Totale [Completiamo tutta la tabella andando a vedere (nella matrice) quante volte si presentano 18,19 e 20 e li riportiamo in tabella. Poi scriviamo il totale, ossia 10 (4+3+2+1=10) che è esattamente il numero delle righe di questa matrice di dati.] N. Esami | Frequenza 16 4 18 3 19 2 20 1 Totale 10 [Rispondiamo alla 3* domanda: Qual è /a percentuale di studenti che hanno superato al massimo 18 esami? Qui ci chiede la percentuale di questi studenti. A/ massimo 18 esami, in italiano, significa o 18 o meno di 18, ma meno di 18 significa solo 16, quindi o 16 o 18 esami. E qual è la percentuale degli studenti che hanno fatto 16 o 18 esami? Sono il 40% quelli che hanno fatto i 16 esami più il 30% di quelli che hanno fatto 18 esami. Quindi la risposta è molto semplice ed è la percentuale cumulata della modalità 18: 40+30 che fa 70] | N. Esami | Frequenza | Percentuale 4A SOMHATO CA 7 _16 4 20 | L 18 3 30 all L04+30:70 YERCENTOALE Ta 3 > Di Queste WE 20 1 10 HODSALITA | Totale 10 100 [Se io (professore) avessi chiesto: qual è la percentuale di studenti che hanno superato_a/ massimo 19 esami, avremmo calcolato la percentuale cumulata della modalità 19 facendo: 40+30+20 quindi 90%. Attenzione perché il concetto di cumulata si può applicare anche alle frequenze assolute, cioè io potrei chiedere qual è la frequenza assoluta cumulata oppure qual è il numero di studenti che hanno superato al massimo 18 esami? Quindi, in quel caso, non sommerammo la colonna delle percentuali ma nella colonna delle frequenze; quindi faremo nel caso della modalità: . 18- 443; . 19 4+3+2; . 20 -— 4+3+241. e queste sarebbero le frequenze assolute cumulate. Comunque la risposta alla domanda: qual è la percentuale di studenti che hanno superato al massimo 18 esami?È il 70% e si ottiene sommando 40+30. Questo risultato lo possiamo riportare in una 3* colonna. N. Esami | Frequenza | Percentuale | Percentuale cumulata 16 4 40 40 18 3 30 70 19 2 20 20 1 10 Totale 10 | 100 Possiamo anche aggiungere le percentuali cumulate delle altre due che sono 90 e 100, in modo da avete la colonna delle percentuali cumulate completa.] N. Esami | Frequenza | Percentuale | Percentuale cumulata 16 4 40 40 18 3 30 70 19 2 20 90 20 1 10 100 Totale 10 100 - VERCENTORLE CUMULATA? HosAei 19 L0+30+20= 90 HODALITA L0 > L0+30420+103100 [Rispondiamo all'ultima domanda: Qual è /a percentuale di studenti che hanno superato almeno 18 esami? Almeno 18 esami significa 18 esami o più di 18 esami, quindi o 18 0 19 o 20. Qual è la percentuale di questi studenti? In questo caso, invece della cumulata, dobbiamo sommare le frequenze percentuali di 18,19 e 20 quindi: 30+20+10, fa 60%. Quindi la percentuale di studenti che ha superato almeno 18 esami (cioè 0 180 190 20 esami) è il 60% dei nostri studenti e andiamo a riportare questo risultato, questa somma, nella risposta a questo esercizio. Questo 60% potevamo ottenerlo anche attraverso le percentuali cumulate, in che modo? Non utilizzando una singola percentuale, ma andando a togliere da 100 (dalla percentuale cumulata più alta) la percentuale cumulata di 16 esami perché è l'unica modalità che resta fuori da questo calcolo. Quindi, invece di fare 30+20+10, avremmo anche potuto fare 100-40 ottenendo lo stesso risultato (60%).] N. Esami | Frequenza | Percentuale | Percentuale cumulata 16 4 | 40 40 18 3 | 30 70 |__19 2_| 20 90 20 1 10 100 | Totale 10 100 - Esercizio n° 10 - Unità 1 Su 10 famiglie è stato rilevato il carattere numero di figli. | dati osservati sono i seguenti: a]2le L|Tdo 3,13) 3-—>M05Asmmmossarensen CARATTERE NUMERO "DI Flaci a. Si calcoli la distribuzione di frequenza. b. Quante sono le famiglie che hanno almeno due figli? c. Quante sono le famiglie che hanno al massimo due figli? a. Si calcoli la distribuzione di frequenza. [Calcoliamo la distribuzione di frequenza: creiamo la tabella con le seguenti due colonne: nella 1° colonna scriviamo "numero dei figli" con le modalità che ha assunto (1,2 e 3) e il totale; nella 2° colonna scriviamo "frequenza" e andiamo a calcolare le frequenze assolute delle modalita un figlio, 2 figli e 3 figli.] (7 r n (027 1 Coronvas-Ne figli | Frequenza > COLOLLI 0 HODALITOÀT ) 2 | TE ì | Totale 10 [Contiamo in quante famiglie si presenta la modalità 1 figlio, 2 figli e la modalità 3 figli: . modalità 1 figlio > compare nella 1° e nella 6° famiglia, quindi la frequenza sarà 2 (perché compare 2 volte); . modalità 2 figli > compare nella 2?, nella 3?, nella 5? e nella 7, quindi la frequenza sarà 4; . modalità 3 figli compare nella 4*, nell'8?, nella 9° e nella 108, quindi la frequenza sarà 4, inoltre era abbastanza seplice calcolare la frequenza di questa modalità perché essendo coinvolte sei famiglie nelle prime due modalità, era chiaro che la frequenza assoluta fosse 10-6 e cioè 4. Riportiamo i dati in tabella] N. figli | Frequenza Bossa TABELIA É Lo ii | 2 Svocginento AL QUESITO A 2. 4 3 | 4 Totale | 10 Introduzione | due principali aspetti che descrivono una distribuzione sono: e la tendenzacentrale: una modalità o una variabile con il quale rappresentare l'intera distribuzione; * lavariabilità (o mutabilità): tendenza ad assumere modalità differenti della variabile. [Il professore ci ricorda che stiamo analizzando la nostra matrice dei dati, singola colonna per singola colonna quindi una variabile alla volta; le possiamo analizzare tutte, ma comunque una alla volta e quindi si dice che facciamo l'analisi statistica univariata perché è una variabile alla volta.] Indici di tendenza centrale [Cominciamo dal 1° aspetto a rivedere velocemente alcuni aspetti teorici riguardanti la sintesi attraverso un valore di tendenza centrale. Sinteticamente in questo corso presentiamo soltanto 3 esempi di tendenza centrale che si chiamano moda, mediana e media aritmetica. È importante, nella scelta del tipo di media, tener conto del tipo di variabile che stiamo analizzando (del tipo di carattere) a seconda se qualitativo o quantitativo perché ad es. la moda si potrà calcolare qualunque sia la variabile, mentre la mediana e la media aritmetica no, richiedono: . la mediana che sia almeno ordinata, quindi solo per variabili qualitative ordinali e cardinali; . la media aritmetica, che chiamiamo anche spesso semplicemente media, solo per variabili quantitative. La terminologia del livello di misurazione della variabile in qualitativa e quantitativa, e anche in qualitativa ordinata o qualitativa nominale, ha un riflesso nella scelta del metodo che si può utilizzare.] La scelta dell'indice di tendenza centrale dipende dalla natura (qualitativa o quantitativa) dei dati. Gli indicatori di tendenza centrale più utilizzati sono: e Moda:si può calcolare per qualsiasi tipo di variabile; e Mediana:si può calcolare per variabili qualitative ordinali e cardinali; * Mediaaritmetica (o media): si può calcolare solo per variabili quantitative. Moda [Che cos'è la moda? Immaginiamo di dover sintetizzare la distribuzione del genere con un'unica modalità. Quale modalità sceglieremo? La modalità maschio perché è quella che rappresenta meglio la distribuzione, cioè è quella maggiormente osservata. Ecco, allora la moda non è altro che la modalità maggiormente osservata nella popolazione, cioè nella distribuzione è la modalità che ha la frequenza più elevata. Quindi la moda del genere è la modalità maschio.] La moda è la modalità maggiormente osservata nella popolazione. Quindi la modalità che presenta la frequenza (assoluta o percentuale) più alta. Ad esempio, per la variabile Genere rivelata sui 12 dipendenti dell'azienda A la moda è maschio. Genere Frequenza assoluta 2 Femmina 3 x Maschio 9 Totale 12 [Non necessariamente questa moda è unica; potrebbe succedera che in una distribuzione abbiamo più di una modalità con la frequenza più elevata. Allora distinguiamo se la distribuzione è unimodale (quando c'è solo una moda, come nel caso precedente) oppure se ci sono due mode (bimodale) e se, addirittura, ci sono più di due mode (plurimodale). Warning (avvertimento) — il professore ci segnala un errore che spesso si fa nella prova scritta: non confondiamo la moda con la frequenza che gli corrisponde! Nell'es. precedente che abbiamo visto, la moda non è 9, è maschio; 9 è la frequenza più elevata che ci consente (in corrispondenza) di ottenere la moda; ma la moda deve essere una modalità assumibile dalla variabile. Quindi 9 non può essere una modalità del genere. La modalità è maschio e quindi la moda è maschio.] La moda di una distribuzione non è necessariamente unica. Se la distribuzione statistica è caratterizzata da: Ù un'unica moda, la distribuzione si dice unimodale; e duemode,la distribuzione si dice bimodale; e da più di due mode, la distribuzione si dice p/urimodale. e ATTENZIONE: non bisogna confondere la moda con la frequenza assoluta corrispondente (nell'esempio dell'azienda A, la moda del Genere è Maschio e non 9!). [Per il punto 2: come si determina, una volta che abbiamo ordinato le varie modalità, la posizione centrale? Dobbiamo distinguere se il totale delle osservazioni, cioè il totale della popolazione (N), è dispari oppure se è pari. Se è dispari, la posizione centrale si ottiene con questa semplice formula: si aggiunge 1 al totale N della popolazione e il risultato viene diviso per 2.] Con riferimento al punto 2, la posizione occupata dalla mediana si determina in modo diverso, a seconda che N sia dispari o pari. Se N è dispari la posizione centrale si calcola utilizzando la formula N+t1 [Per es.: immaginiamo di aver osservato in 11 studenti il voto medio agli esami che hanno superato. Il 1° studente ha preso come voto medio 27,4; il secondo 28,3; il terzo 27,7 e così via. L'undicesimo 24,8. Dobbiamo calcolare la mediana.] Esempio 1: supponiamo di avere osservato su N=11 studenti la variabile voto medio 27.4|28.3|27.7,29.2|25.6|28.7, 28.4,|24.3,|22.2,|25.6,|24.8 [1° passaggio: ordinare i valori dal più piccolo al più grande.] Per calcolare la mediana dobbiamo: 1. ordinare i valori dal più piccolo al più grande; 22.2,|24.3,|24.8,/25.6,/25.6, 27.4|27.7,|28.3/28.4|28.7|29.2 [2° passaggio: trovare la posizione centrale, quindi dobbiamo usare la formula N+1 fratto 2. Sostituiamo N 11, lo aumentiamo di 1, quindi lo rendiamo pari (12). 12 diviso 2 fa 6. Quindi la posizione che occupa la mediana è la sesta nell'elenco ordinato.] 2. calcolare la posizione centrale: N+1 _11+1 20° 2 =6 [3° passaggio: individuiamo la mediana andando a vedere nell'ordinamento dei voti quale voto occupa la 6? posizione e contiamo; il voto che occupa la posizione centrale è la 6? posizione quindi 27,4. Quindi la mediana è 27,4] 04259 05d07À, 27.7,28.3, 28.4, 28.7, 29.2 > L 5 6 22. 643 z 3. individuare la mediana: ossia individuare la modalità che nella sequenza ordinata occupa il sesto posto: Mediana = 27.4 [Supponiamo che N sia pari. Se N è pari, lo possiamo subito dividere per 2. Essendo pari, però, non avremmo più una sola posizione, ma avremmo due posizioni perché essendo il numero dei valori osservati pari, avremmo che se possiamo dividere in due parti questa sequenza (es. 2 che si trova sotto) e ciascuna delle due modalità, che si trova nelle posizioni centrali, può essere considerata una mediana. Quindi, nel caso in cui N è pari abbiamo due formule che sono: 1. Ndiviso2; 2. Ndiviso2+1]] Se N è pari per il calcolo delle due posizioni centrali si utilizzano le formule N N 2 © 3" [Supponiamo che questa volta i voti medi siano 10.] Esempio 2: supponiamo di avere osservato su N=10 studenti la variabile voto medio 22.3,(23.8, 29.5/26.7,/25.4,(24.5,|26.8,/20.4,26.4, [23.9 Ù [1° passaggio: li ordiniamo dal più piccolo al più grande.] Per calcolare la mediana procediamo a 1. ordinare i valori dal più piccolo al più grande 60.À 623 633) 639643 26.4, 26.7, 26.8, 29.5 TI 3% 5 6 [2° passaggio: calcolare le due formule che ci danno le posizioni centrali. N 10, quindi N diviso 2 è 10 diviso 2, fa 5 (quinta posizione); aumentiamo di 1, sesta posizione.] 2. calcolare le posizioni centrali N10 N 10 —= — =5 © = 2° 2 24132 +1=6 [3° passaggio: andiamo a contare nella 5° posizione (troviamo 24,5) e nella 6? posizione (troviamo 25,4).] 3. individuare le modalità corrispondenti alle due posizioni centrali, che sono 24.5 e 25.4 (ciascuna si può assumere come mediana) [Quindi possiamo dire che le due modalità, entrambe, possono essere considerate delle mediane; sia 24,5 che 25,4 sono delle mediane perché entrambe occupano una posizione centrale e hanno all'incirca il 50% di modalità minori o uguali e all'incirca il 50% maggiori o uguali. Inoltre, possiamo eventualmente anche prendere, in qualche modo, un'unica modalità di riferimento -come mediana- andando a considerare qualunque valore compreso tra 24,5 e 25,4. Normalmente quello che si fa è prendere la semisomma, cioè la media delle due mediane (che abbiamo calcolato prima) facendo la somma e dividendo per due. Quindi, se vogliamo rendere unico il valore, prendiamo 24,95 (24,5+ 25,4=49,9| 49,9:2=24,95) e lo consideriamo come ulteriore mediana che avrà esattamente il 50% prima e il 50% dopo. Però 24,95 non è osservato e questo ci fa capire che la media che andiamo a calcolare non deve essere un valore di quelli osservati, può essere anche un valore diverso. Cioè vale per la mediana e ancora di più per la media aritmetica.] Notiamo che: e qualunque numero compreso tra 24.5 e 25.4 potrebbe essere scelto come mediana e Sesidesidera un unico valore possiamo ricorrere alla semisomma delle due mediane: 24.5 1254 = 24.95