Scarica 1 - Cos'è la statistica e più Slide in PDF di Statistica solo su Docsity!
Cos’è la statistica
• Statistiche: al plurale, sinonimo di dati
• Statistica: al singolare, è la disciplina che
analizza le statistiche, i dati, cercando di
estrarne informazioni utili
L’enorme mole di dati resi oggi disponibili
dalla digitalizzazione, rende la statistica
indispensabile in qualsiasi ambito. 1
3
Statistica e Economia
- Descrizione dello stato e dell’andamento nel
tempo dei fenomeni economici
- Analisi dei comportamenti degli operatori
economici
- Previsioni sulla dinamica degli aggregati
economici
- Analisi dei processi e dei risultati produttivi e
gestionali
- Valutazione delle condizioni del mercato
- Pianificazione delle strategie di marketing
- Scelta tra portafogli alternativi
- Previsioni sulla dinamica delle misure finanziarie 4
Statistica: maneggiare
con cautela
- Mark Twain: «Di solito la gente usa le statistiche
come un ubriaco usa un lampione: per
appoggiarsi più che come fonte di illuminazione»
- Di seguito alcuni esempi di procedimenti giusti e
sbagliati per analizzare i dati.
5
ESEMPIO 1:
Nascite e
cicogne
6 Numero di nati in funzione del numero di cicogne 0 200 400 600 800 1000 1200 1400 1600 1800 0 5000 10000 15000 20000 25000 30000 35000 Coppie di cicogne Numero di nati (in migliaia) Il grafico mostra chiaramente che i paesi con più cicogne sono quelli con la natalità più elevata, avvalorando la tesi che le cicogne portino i bambini! 7 Numero di nati in funzione del numero di cicogne 0 0, 0, 0, 0, 0, 0, 0 0,0002 0,0004 0,0006 0,0008 0, Coppie di cicogne/numero di abitanti Numero di nati/numero abitanti Un’analisi corretta deve tenere conto della diversa dimensione dei paesi considerati: in questo modo si conclude correttamente che non c’è relazione tra numero di cicogne e di nati. 8
ESEMPIO 2:
• “Gli automobilisti corretti? Solo l’8%”.
(Corriere della Sera del 25/08/2003)
• Dal titolo siamo portati a pensare che
quasi tutti gli automobilisti sono scorretti.
13
Il lessico della Statistica:
qualche definizione
- Statistica: insieme dei principi ai quali dovrebbero
ispirarsi la raccolta e l’elaborazione dei dati
concernenti fenomeni collettivi
- Statistica descrittiva: si occupa dell’analisi di un
fenomeno relativo a un certo gruppo di soggetti
(popolazione) sulla base di una rilevazione completa
delle informazioni (censimento). Tali informazioni
vengono sintetizzate tramite opportuni indici statistici.
- Inferenza statistica: basandosi su un campione
estratto dalla popolazione di interesse, trae
conclusioni sull’intera popolazione
14
• Popolazione: insieme di riferimento del
fenomeno oggetto di studio
• Unità statistica: singolo caso che compone la
popolazione
• Carattere: caratteristica oggetto di rilevazione
sulle unità statistiche che formano il collettivo
• Modalità di un carattere: diversi modi con cui il
carattere si manifesta nelle unità statistiche
15
Esempio
- Fenomeno collettivo che si intende studiare: rendimento degli studenti iscritti al corso di laurea EBAM dell’Università di Macerata nell’esame di Statistica, nell’A.A. 2014-
- Collettivo statistico: insieme degli studenti iscritti al corso di laurea EBAM dell’Università di Macerata nell’A.A. 2014-2015 e che hanno sostenuto l’esame di Statistica in quell’anno
- Unità statistica: singolo studente iscritto al corso di laurea EBAM dell’Università di Macerata nell’A.A. 2014-2015 e che ha sostenuto l’esame di Statistica in quell’anno
- Caratteri rilevati: sesso, regione di provenienza, tipo di scuola superiore, anno di corso, voto all’esame di statistica
- Matrice di dati: tabella con numero di righe pari al numero di unità statistiche e numero di colonne pari al numero di caratteri rilevati 16 Nome Sesso Regione Scuola superiore Anno Voto Verdi M. M Marche Lic. Scientifico II 26 Bianchi C. F Umbria Lic. Classico III 30 Rossi V. F Marche Ist. Tecnico F.C. 27 … … … … … … … … … … … … Unità statistiche Collettivo Caratteri Modalità
17
Classificazione dei caratteri
- A seconda di come sono espresse le sue modalità, un
carattere viene classificato in
- Qualitativo: quando le modalità sono espresse tramite espressioni verbali
- Quantitativo: quando le modalità sono espresse numericamente
- Un carattere qualitativo può essere ulteriormente
classificato come:
- Sconnesso: non esiste un ordine naturale delle modalità
- Ordinato: esiste un ordine naturale delle modalità 18
• Un carattere quantitativo può essere
ulteriormente classificato come:
- Discreto: le modalità possono essere messe in
corrispondenza biunivoca con un sottoinsieme dei
numeri interi
- Continuo: si ha una corrispondenza biunivoca con
l’insieme dei numeri reali
• Un carattere quantitativo si dice trasferibile
quando la sua intensità può essere trasferita da
un’unità all’altra
Esercizio
- Si considerino i seguenti caratteri statistici: (a) settore
di attività economica prevalente; (b) tipo di contratti
stipulati da un’agenzia assicuratrice; (c) giudizio sulla
qualità della didattica in un corso di formazione
professionale; (d) prezzo al Kg. di un certo prodotto
alimentare; (e) giorno della settimana in cui
avvengono furti di un certo tipo; (f) numero di stanze
nelle abitazioni.
- Per ognuno di essi si indichino: 1. le possibili modalità;
2. la natura del carattere (se qualitativo sconnesso,
ordinato ecc.); 3. il collettivo a cui può essere riferito e
la corrispondente unità statistica. 19
Esercizio
Si indichi quale carattere può corrispondere
ai seguenti gruppi di modalità e completare
per ciascun gruppo l’elenco delle possibili
ulteriori modalità: (a) nessun mezzo,
ferrovia, tram, metro, autobus, mezzo
proprio; (b) Piemonte, Valle d’Aosta, Liguria,
Lombardia; (c) celibe/nubile, coniugato; (d)
laurea, diploma, licenza media inferiore,
licenza elementare.
20
25
Distribuzioni statistiche
- La rilevazione statistica produce come risultato la matrice dei dati Nome Sesso Regione Scuola superiore Anno Voto Verdi M. M Marche Lic. Scientifico II 26 Bianchi C. F Umbria Lic. Classico III 30 Rossi V. F Marche Ist. Tecnico F.C. 27 Gialli F. F Calabria Ist. Tecnico II 30 Neri A. M Marche Lic. Scientifico III 28
- Ogni colonna della matrice costituisce una distribuzione disaggregata secondo un singolo carattere. Si tratta dell’elencazione delle modalità osservate per ogni una unità x 1 , x 2 , …, xi, …,xn 26 - Una distribuzione di questo tipo si chiama semplice (rispetto ad un solo carattere) unitaria (unità per unità). x 1 , x 2 , …, xi, …,xn - Se si considerassero più caratteri congiuntamente avremmo una distribuzione multipla (es. doppia se si considerassero due caratteri) - Per sintetizzare una distribuzione disaggregata si fa uso di una distribuzione di frequenza che può essere semplice o multipla - Una distribuzione di frequenza semplice viene costruita associando a ognuna delle modalità distinte che sono state osservate, x 1 , x 2 , …, xi, …,xk la corrispondente frequenza assoluta che è pari al numero di unità statistiche che presentano quella modalità. Per la i-esima modalità, la frequenza assoluta viene indicata con ni. 27
- Una distribuzione di frequenza semplice viene rappresentata attraverso una tabella di questo tipo
Modalità (xi) Frequenze (ni)
x 1 n 1
x 2 n 2
xi ni
xk nk
Totale n
28
Esempio
- Dalla matrice di dati sugli studenti universitari, si possono ricavare 5 distribuzioni semplici secondo i caratteri: sesso, regione, scuola di provenienza, anno di corso e voto in Statistica.
- Per il carattere sesso, le modalità distinte sono M e F con frequenze pari, rispettivamente, a 2 e 3. La corrispondente distribuzione di frequenza è quindi:
Sesso (xi) Frequenze (ni)
M 2
F 3
Totale 5
29
- Per gli altri 4 caratteri si ha: Regione (xi) Frequenze (ni) Marche 3 Umbria 1 Calabria 1 Totale 5 Anno (xi) Frequenze (ni) II 2 III 2 F.C. 1 Totale 5 Scuola (xi) Frequenze (ni) Classico 1 Scientifico 2 Tecnico 2 Totale 5 Voto (xi) Frequenze (ni) 26 1 27 1 28 1 30 2 Totale 5
Esercizio
Si considerino i dati del Caso Studio 1.
Per ciascuno dei caratteri presi in esame se ne descriva
la natura.
Che tipo di distribuzione è quella presentata in tabella?
Per il carattere Giudizio, si costruisca la distribuzione di
frequenze.
30 31
Esempio
- Distribuzione delle famiglie per numero di componenti - Regione Marche - Censimento 2001. NUMERO DI COMPONENTI Numero di famiglie (in migliaia) 1 persona 124, 2 persone 149, 3 persone 124, 4 persone 107, 5 persone 31, 6 o più persone 11, Totale 549, 32
Esempio
- Distribuzione doppia delle famiglie per numero di componenti e per ripartizione geografica - Censimento 2001 (dati in migliaia). RIPARTIZIONI GEOGRAFICHE Numero di componenti 1 persona 2 persone 3 persone 4 persone 5 persone (^) persone6 o più Totale Italia Nord-Occidentale 1.767,208 1.840,037 1.390,009 966,118 207,367 46,461 6.217, Italia Nord-Orientale 1.116,042 1.208,212 962,636 701,273 184,009 59,838 4.232, Italia Centrale 1.061,905 1.188,248 941,315 780,561 208,574 61,596 4.242, Italia Meridionale 940,888 1.100,449 935,550 1.150,759 474,806 145,822 4.748, Italia Insulare 541,578 568,465 476,696 537,495 191,070 55,689 2.370, Italia 5.427,621 5.905,411 4.706,206 4.136,206 1.265,826 369,406 21.810,
37
Esempio
- Popolazione residente per classi di età - Regione Marche - Censimento 2001 CLASSI DI ETÀ Popolazione residente (in migliaia) Meno di 15 189, 15-24 154, 25-34 216, 35-44 218, 45-54 193, 55-64 177, 65-74 168, 75 e più 152, Totale 1.470,
Esercizio
La seguente tabella riporta i dati relativi a 15 aziende agricole umbre (Id. Azienda) che hanno partecipato ad un bando per l’assegnazione di contributi da parte dell’Unione Europea. Si noti che il dato riguardante il Grado di innovazione nei processi dell’azienda (Innovazione) è stato codificato nel modo seguente: 1 = basso, 2 = medio, 3 = alto. Inoltre, il fatturato annuo di ciascuna azienda è espresso in migliaia di Euro. a) Qual è l’unità statistica? Quali sono i caratteri rilevati? E qual è la loro natura? b) Quali sono le modalità rilevate del carattere Grado di innovazione? Quali sono le modalità rilevate del carattere Anni di attività? c) Costruire la distribuzione doppia rispetto al Grado di innovazione e al fatturato (classi 0-5, 5-10, 10-15). 38 39 Id. Azienda 1 2 3 4 5 6 7 8 Anni di attività 3 8 13 2 11 18 6 1 Provincia PG TR TR PG TR PG PG PG Innovazione 1 3 2 1 1 2 1 2 Fatturato 5,1 6,8 10,3 14,7 3,5 8,9 11,3 4, Id. Azienda 9 10 11 12 13 14 15 Anni di attività 0 12 8 10 15 7 3 Provincia TR TR PG TR PG PG TR Innovazione 2 1 3 2 1 3 2 Fatturato 8,3 13,1 7 5,8 8,1 12,6 10,
Esercizio
Si considerino i dati del Caso Studio 1.
Si costruisca la distribuzione doppia di frequenze
secondo i caratteri Ammontare del Deposito e Giudizio.
Per il carattere Deposito si considerino le classi: Fino a
15.000, 15.000-30.000 e 30.000-45.000.
40
41
Frequenze relative e percentuali
Famiglie per numero di componenti
- Italia Settentrionale - Censimento
Famiglie per numero di componenti - Italia Meridionale e Isole - Censimento 2001.
NUMERO DI COMPONENTI Numero di famiglie (x 1000) 1 persona 2.883, 2 persone 3.048, 3 persone 2.352, 4 persone 1.667, 5 persone 391, 6 o più persone 106, Totale 10.449, NUMERO DI COMPONENTI Numero di famiglie (x 1000) 1 persona 1.482, 2 persone 1.668, 3 persone 1.412, 4 persone 1.688, 5 persone 665, 6 o più persone 201, Totale 7.119, 42 Italia Settentrionale Italia Meridionale NUMERO DI COMPONENTI Numero di famiglie Frequenze relative Numero di famiglie Frequenze relative 1 persona 2.883,250 0,276 1.482,466 0, 2 persone 3.048,249 0,292 1.668,914 0, 3 persone 2.352,645 0,225 1.412,246 0, 4 persone 1.667,391 0,160 1.688,254 0, 5 persone 391,376 0,037 665,876 0, 6 o più persone 106,299 0,010 201,511 0, Totale 10.449,210 1 7.119,267 1 43 Italia Settentrionale Italia Meridionale NUMERO DI COMPONENTI Numero di famiglie Frequenze percentuali Numero di famiglie Frequenze percentuali 1 persona 2.883,250 27,593 1.482,466 20, 2 persone 3.048,249 29,172 1.668,914 23, 3 persone 2.352,645 22,515 1.412,246 19, 4 persone 1.667,391 15,957 1.688,254 23, 5 persone 391,376 3,746 665,876 9, 6 o più persone 106,299 1,017 201,511 2, Totale 10.449,210 100 7.119,267 100 44
• Frequenza relativa:
• Frequenza percentuale:
• Un’ovvia proprietà delle frequenze relative
e percentuali è:
n n f (^) i i 100 n n p (^) i i
ୀଵ
ୀଵ
49
Frequenze cumulate
Famiglie per numero di componenti
- Italia Settentrionale - Censimento
NUMERO DI COMPONENTI Numero di famiglie (x 1000) 1 persona 2.883, 2 persone 3.048, 3 persone 2.352, 4 persone 1.667, 5 persone 391376 6 o più persone 106, Totale 10.449, - Quante sono le famiglie con al massimo due componenti? - Quante sono le famiglie con al massimo tre componenti? 50 Italia Settentrionale Italia Meridionale NUM. COMP. Num. famiglie Freq. ass. cum. Freq. rel. cum. Freq. perc. cum. Num. famiglie Freq. ass. cum. Freq. rel. cum. Freq. perc. cum. 1 2.883,250 2.883,250 0,276 27,593 1.482,466 1.482,466 0,208 20, 2 3.048,249 5.931,499 0,568 56,765 1.668,914 3.151,380 0,443 44, 3 2.352,645 8.284,144 0,793 79,280 1.412,246 4.563,626 0,641 64, 4 1.667,391 9.951,535 0,952 95,237 1.688,254 6.251,880 0,878 87, 5 391,376 10.342,911 0,990 98,983 665,876 6.917,756 0,972 97, 6 o più 106,299 10.449,210 1 100 201,511 7.119,267 1 100 Totale 10.449,210 7.119, 51
• Frequenza assoluta cumulata :
• Frequenza relativa cumulata:
• Frequenza percentuale cumulata:
52
- Una distribuzione di frequenze assolute, relative e percentuali cumulate viene rappresentata attraverso una tabella di questo tipo
Modalità
(xi)
Frequenze
assolute
cumulate
(Ni)
Frequenze
relative
cumulate
(Fi)
Frequenze
percentuali
cumulate
(Pi)
x 1 N 1 F 1 P 1
x 2 N 2 F 2 P 2
xi Ni Fi Pi
xk Nk Fk Pk
Esercizio
Si considerino i dati del Caso Studio 1.
Qual è la frequenza di clienti che appartengono a
famiglie di al massimo 2 componenti?
Qual è la percentuale di clienti con un Ammontare di
Depositi fino a 30.000 euro?
Qual è la percentuale di clienti con Giudizio di Solvibilità
almeno sufficiente?
53 54
Rappresentazioni grafiche
- Per una distribuzione di frequenza di un carattere qualitativo o quantitativo discreto, si utilizza un grafico a barre che consiste nel rappresentare, su un piano cartesiano, k barre di altezza n 1 ,…, nk in corrispondenza delle ascisse x 1 ,…, xk. Distribuzione degli studenti secondo il sesso 0 1 2 3 4 M F Frequenza
Esempio
Distribuzione degli studenti secondo il sesso 0 1 2 3 4 M F Frequenza 55
Esempi
Distribuzione delle famiglie residenti nell'Italia Settentrionale secondo il numero di componenti 0 500000 1000000 1500000 2000000 2500000 3000000 3500000 1 2 3 4 5 6 o più Numero di componenti Frequenza assoluta 56 Distribuzione delle famiglie residenti secondo il numero di componenti e la ripartizione geografica 0 500000 1000000 1500000 2000000 2500000 3000000 3500000 1 2 3 4 5 6 o più Numero di componenti Frequenza assoluta Italia Settentrionale Italia Meridionale
61 Classi di addetti Frequenze assolute (ni) Ampiezza classi (ai) Densità di frequenza (hi) 1 14.349 1 14.349, (^2) 9.588 1 9.588, 3--5 15.263 3 5.087, 6--9 9.651 4 2.412, 10--15 8.837 6 1.472, 16--19 4.570 4 1.142, 20--49 (^) 12.653 30 421, Totale: 74. 62 0 5000 10000 15000 20000 0 20 40 Classi di addetti Frequenza Istogramma per la distribuzione delle imprese secondo il numero degli addetti 0 5000 10000 15000 20000 0 20 40 Classi di addetti Densità 63 Classi di addetti Frequenze relative (fi) Ampiezza classi (ai) Densità di frequenza (hi) 0,5--1,5 0,1915 1 0, 1,5--2,5 0,1280 1 0, 2,5--5,5 (^) 0,2037 3 0, 5,5--9,5 0,1288 4 0, 9,5--15,5 (^) 0,1180 6 0, 15,5--19,5 0,0610 4 0, 19,5--49,5 (^) 0,1689 30 0, Totale: 1 64 Istogramma per la distribuzione delle imprese secondo il numero di addetti 0,
Classi di addetti Densità
Esercizio
Si considerino i dati del Caso Studio 1.
Si rappresenti graficamente la distribuzione di frequenze
secondo il carattere Ammontare del Deposito. Si
considerino le classi: Fino a 10.000, 10.000-20.000,
20.000-30.000 e 30.000-45.000.
65 66
Funzione di ripartizione
•La funzione di ripartizione, F(x) , fornisce la frequenza relativa delle osservazioni che presentano una modalità del carattere non superiore a x. Quindi si ha sempre:
F ^ ^ lim x F^ x^ 0 F^ ^ ^ lim^ x F^ x^ ^1
•Per un carattere qualitativo ordinato o quantitativo non in classi, la funzione di ripartizione è pari a:
k i i i x x F x x x x x F x 1
1 1 quindi, se x è compreso tra la modalità più piccola (x 1 ) e quella più grande (xk), F(x) è uguale alla frequenza cumulata (Fi) corrispondente alla più grande modalità (xi) minore o uguale a x. Altrimenti, F(x) = 0 o F(x) = 1. 67
Esempio
NUMERO DI COMPONENTI (xi) Numero di famiglie (ni) Frequenze relative (fi) Frequenze relative cumulate (Fi) 1 persona 2.883,250 0,276 0, 2 persone 3.048,249 0,292 0, 3 persone 2.352,645 0,225 0, 4 persone 1.667,391 0,160 0, 5 persone 391,376 0,037 0, 6 persone 106,299 0,010 1 Totale 10.449,210 1 •F(2) = 0,568; F(4) = 0,952; F(4,5) = 0,952. 68 •Nel caso di un carattere in classi (tipicamente continuo) ci si basa sull’ipotesi che in ogni classe ci sia uniforme distribuzione: si ha sempre la stessa frequenza in ogni sottointervallo della classe di ampiezza unitaria •In questo caso la funzione di ripartizione è pari a:
k i i i i i x c F h x c c x c x c F x 1
1 1 1 0 e quindi, se x è compreso tra l’estremo sinistro della prima classe (c 0 ) e l’estremo destro dell’ultima classe (ck), per il calcolo occorre innanzitutto individuare la classe che contiene x (ci-1 – ci) e poi F(x) = Fi-1 + hi(x - ci-1); altrimenti, F(x) = 0 oppure F(x) = 1. Si noti che se x è uguale a un estremo di classe (ci), si ha F(x)= Fi
73
Esempi
NUMERO DI COMPONENTI (xi) Numero di famiglie (ni) Frequenze relative (fi) Frequenze relative cumulate (Fi) 1 persona 2.883,250 0,276 0, 2 persone 3.048,249 0,292 0, 3 persone 2.352,645 0,225 0, 4 persone 1.667,391 0,160 0, 5 persone 391,376 0,037 0, 6 persone 106,299 0,010 1 Totale 10.449,210 1 0 0, 0, 0, 0, 1 0 5 10 15 Numero componenti Frequenza c um ulata 74
Numero componenti
Frequenza cumulata
Italia Settentrionale Italia Meridionale
Esercizio
Si considerino i dati del Caso Studio 1.
Si consideri la distribuzione di frequenze secondo il
carattere Giudizio sulla solvibilità.
Si disegni la funzione di ripartizione e si cerchi di capire
che tipo di informazione si può estrarre dal grafico.
Sulla base della funzione di ripartizione, determinare la
percentuale di clienti con Giudizio di solvibilità almeno
sufficiente.
75 76 0 0, 0, 0, 0, 1 0 20000 40000 60000 80000 100000 Fatturato Frequenze cumulate Classi di fatturato (ci-1 – ci) Frequenze assolute (ni) Frequenze relative (fi) Frequenze relative cumulate (Fi) Densità (hi) 0--250 2156 0,482219 0,482219 0, 250--500 666 0,14896 0,631179 0, 500--1.000 517 0,115634 0,746813 0, 1.000--2.500 539 0,120555 0,867367 8,04E- 2.500--5.000 260 0,058153 0,92552 2,33E- 5.000--10.000 171 0,038246 0,963766 7,65E- 10.000--25.000 95 0,021248 0,985015 1,42E- 25.000--50.000 32 0,007157 0,992172 2,86E- 50.000--100.000 35 0,007828 1 1,57E- Totale 4471 1
Esercizio
Si considerino i dati del Caso Studio 1.
Si consideri la distribuzione di frequenze secondo il
carattere Ammontare del Deposito. Si considerino le
classi: Fino a 10.000, 10.000-20.000, 20.000-30.000 e
Si disegnino l’istogramma di frequenze e la funzione di
ripartizione e si cerchi di capire che tipo di informazione
si può estrarre dai due grafici.
Sulla base della funzione di ripartizione della
distribuzione in classi, determinare la percentuale di
clienti con un ammontare dei depositi compreso tra
25.000 e 35.000 euro. 77
Esercizio
La seguente distribuzione è tratta dall’indagine ISTAT Struttura e produzione delle aziende agricole - Anno 2007 e considera le aziende agricole esistenti in Umbria secondo la superficie totale (in ettari): a)Assumendo ”100” come estremo superiore per l’ultima classe, si rappresentino graficamente l’istogramma di frequenza e la funzione di ripartizione. Si calcolino inoltre: b)il valore della funzione di ripartizione nel punto 50; c)la frequenza relativa delle aziende con una superficie compresa tra 8 e 12 ettari, utilizzando la funzione di ripartizione; d)la frequenza relativa delle aziende con una superficie tra 15 e 50 ettari, utilizzando le densità di frequenza e riportando il risultato nell’istogramma. 78 Classi di superficie Aziende Meno di 1 5. 1--2 7. 2--5 8. 5--10 6. 10--20 4. 20 e oltre 5. Totale 38.
Dove e come studiare
- Libro di testo: S. Borra, A. Di Ciaccio (2014), Cap. 1 e 2
- Svolgere esercitazione 1
- Svolgere i seguenti punti degli esercizi nel file: Esercizi su medie.xls: - Foglio 1, punto a) e d) - Foglio 2, punto a) - Foglio 3, punto a) e c) - Foglio 4, punto a) e b) - Foglio 5, punto a) e b) - Foglio 6, punto a) e b) - Foglio 7, punto b) 79