Scarica Statistica: Esercizi e Quiz - Prof. Mezzetti e più Appunti in PDF di Statistica solo su Docsity!
Introduzione
Statistica (CLEF)
- Cos’è la statistica?
- La statitstica si occupa di fornire metodi e modelli per l’analisi della realtà.
- Statistics is the art of learning from data. It is concerned with the collection of data, their subsequent description, and their analysis, which often leads to the drawing of conclusions (S. Ross. Introductory Statistics. 2nd^ ed. Elsevier, 2005. p.3).
- Statistics concerns what can be learned from data (A.C. Davison. Statical Models. Cambridge University Press. 2003. p.1).
- La statistica è l’arte e la scienza del disegno di studi e dell’analisi dei dati che tali studi producono. Il suo obiettivo ultimo è la traduzione dei dati in conoscenza e comprensione del mondo che ci circonda.
- La statistica è l’arte e la scienza di apprendere dai dati.
- Statistics vs Anecdotal Evidence
- A utism and Vaccines
- A 7 mesi il bambino è stato vaccinato contro il morbillo
- Dopo 2 mesi, si sono accorti che non parlava
- A 1 anno e mezzo arriva la diagnosi:
- AUTISMO
- Quindi il vaccino causa l’autismo
- D’altra parte, da quando sono aumentati i vaccini sono aumentati i casi di autismo
- Le cicogne portano i bambini? Studio sulle nascite a Oldemburg (Germania) nel 1930. Ad una maggiore presenza di cicogne sui tetti in inverno corrisponde un maggior numero di nascite nell’autunno successivo.
Mappe concettuali
Statistica
Parte 1
◘ Statistica Descrittiva
- Caratteri e scale di misura
- La distribuzione di un carattere
- La distribuzione di un carattere: le medie e la variabilità
- Analisi dell’associazione tra due caratteri
- Statistica Descrittiva
- Consiste in: Raccolta dati Presentazione dei dati Sintesi dei dati
- Scopo: Descrizione dei dati
- Statistica Inferenziale
- Consiste in: Stima Verifica di ipotesi
- Scopo: Prendere decisioni sulla popolazione
- Data Sources
- Existing Sources Government agencies are important source of data. Data are also available from a variety of industry associations and special-interest organizations. Data needed for a particular application might already exist within a firm. Detailed information is often kept on customers, suppliers, and employees for example. Substantial amounts of business and economic data are available from organizations that specialize in collecting and maintaining data.
- Internet The Internet has become an important source of data. Most government agencies, like the Bureau of the Census (www.census.gov), make their data available through a web site. More and more companies are creating web sites and providing public access to them. A number of companies now specialize in making information available over the Internet.
- Statistical Studies Statistical studies can be classified as either experimental or observational. o In experimental studies the variables of interest are first identified. The one or more factors are controlled so that data can be obtained about how the factors influence the variables. o In observational (nonexperimental) studies no attempt is made to control or influence the variables of interest; an example is a survey.
- Distribuzioni univariate e multivariate L’informazione statistica di base (output del processo di misurazione) prende solitamente la forma di una distribuzione unitaria semplice (univariata) o multipla (multivariata), a seconda del numero di caratteri misurati sulle unità.
- Distribuzione unitaria semplice:
- Distribuzione unitaria multivariata:
Data set: student_survety.txt student_survey.xls Intervistati 60 studenti appena laureate in Scienze politiche all’University of Florida
Indagine su 60 studenti laureati in Scienze Politiche
- GE = sesso (m/g)
- AG = anni compiuti
- HI = voto finale alle superiori (in scala da 1-4)
- CO = voto finale al college (in scala da 1 a 4)
- DH = distanza (in miglia) del college dalla città di residenza
- DR = distanza (in miglia) della classe dalla residenza attuale
- TV = tempo medio (in ore) passato davanti alla TV alla settimana
- SP = tempo medio (in ore) dedicato all’attività fisica alla settimana
- NE = numero di volte alla settimana leggi un giornale
- VE = vegetarian (yes, no)
- PA = affiliazione politica (D = Democrat, R = Republican, I = Independet)
- PI = ideologia politica (1 = very liberal, 2 = liberal, 3 = slightly liberal, 4 = moderate, 5 = slightly conservative, 6 = conservative, 7 = very conservative),
- RE = frequenza in cui si assiste a una ceremonia religiosa (0 = never, 1 = occasionally, 2 = most weeks, 3 = every week).
- Scala ad intervallo Consente di confrontare l’intensità del fenomeno in unità diverse. Tuttavia, non esiste una origine naturale e l’unità di misurazione è arbitraria. Confronto tra unità: differenza
x − x
Esempio: temperatura (Celsius e Fahrenheit: F = 32 + 1.8C)
- Scala di rapporto A differenza della scala precedente, esiste un’origine naturale (zero assoluto) che denota l’assenza del carattere. Confronto tra unità: oltre a x − x , ha senso calcolare i rapporti x ⁄x.
Esempi: produzione, prezzi, fatturato, ordinativi, peso, numero componenti la famiglia, addetti.
- Esercizio: tipologia di dati
- Età
- Età all’ultimo compleanno (in anni)
- Il paziente è stato dal dentista nell’ultimo anno?
- Numero di volte un paziente è stato dal dentista nell’ultimo anno
- Titolo di studio
- Classe sociale
- Stato civile
- IQ
- Numero di persone nella famiglia
- Colore di autoveicoli
- Lunghezza del salto di una rana
- Esercizio: tipologia di dati
- Numero di figli in famiglia
- Comune di residenza
- Distanza (in miglia) tra casa e scuola
- Periodo di studio necessario per preparare un esame
- Numero di persone in attesa in linea
- Numero di multe ricevute l’anno scorso
- Il peso del tuo cane
Indagine su 60 studenti laureati in Scienze Politiche
- GE = sesso (m/g)
- AG = anni compiuti
- HI = voto finale alle superiori (in scala da 1-4)
- CO = voto finale al college (in scala da 1 a 4)
- DH = distanza (in miglia) del college dalla città di residenza
- DR = distanza (in miglia) della classe dalla residenza attuale
- TV = tempo medio (in ore) passato davanti alla TV alla settimana
- SP = tempo medio (in ore) dedicato all’attività fisica alla settimana
- NE = numero di volte alla settimana leggi un giornale
- VE = vegetarian (yes, no)
- PA = affiliazione politica (D = Democrat, R = Republican, I = Independet)
- PI = ideologia politica (1 = very liberal, 2 = liberal, 3 = slightly liberal, 4 = moderate, 5 = slightly conservative, 6 = conservative, 7 = very conservative),
- RE = frequenza in cui si assiste a una ceremonia religiosa (0 = never, 1 = occasionally, 2 = most weeks, 3 = every week).
Indagine su 60 studenti laureati in Scienze Politiche
- GE = QUALITATIVO NOMINALE
- AG = QUANTATIVO DISCRETO
- HI = QUANTATIVO DISCRETO
- CO = QUANTATIVO DISCRETO
- DH = QUANTATIVO CONTINUO
- DR = QUANTATIVO CONTINUO
- TV = QUANTATIVO CONTINUO
- SP = QUANTATIVO CONTINUO
- NE = QUANTATIVO DISCRETO
- VE = QUALITATIVO NOMINALE
- PA = QUALITATIVO NOMINALE
- PI = QUALITATIVO ORDINALE
- RE = QUALITATIVO ORDINALE
- Distribuzioni di frequenza Ci proponiamo di sintetizzare una distribuzione di un carattere mediante tabella e grafici. Una distribuzione di frequenza è una rappresentazione tabellare che riporta le modalità del carattere ed il numero (assoluto, relativo, percentuale) delle unità che presentano il carattere con quelle modalità. Contiamo le unità che presentano la stessa modalità. Questo ha significato per i caratteri qualitativi e quantitativi discreti. Più in generale, nel caso dei caratteri quantitativi occorre suddividere i valori che la variabile può assumere in intervalli o classi.
x modalità della i-esima unità statistica
x ⋆^ i-esima modalità
Il giudizio di 20 ospiti in un albergo:
x Scarso
x⋆^ Buono
- Frequenze cumulate La frequenza cumulata associata ad una modalità del carattere misura il numero dei casi che presentano un valore non superiore a quella modalità. NB. Ha significato solo se il carattere è misurato su scala almeno ordinale. Frequenza assoluta cumulata:
N = / n 5 , j = 1,... , K
0
512 (n.b. 67 = 8)
N.B .: vale la formula ricorsiva N = N 92 + n
Frequenza relativa cumulata:
F = / f 5 , j = 1,... , K
512
(n.b. F 0 = 1)
Frequenza percentuale cumulata:
P = / p 5 , j = 1,... , K
512
N.B .: vale la formula ricorsiva F = F 92 + f
- Esempio Distribuzione percentuale delle famiglie per classi di reddito familiare annuale a seconda del titolo di studio (Anno 2004, Banca d’Italia).
- Rappresentazione grafica per variabili qualitative
- Le due rappresentazioni grafiche principali per sintetizzare una variabile qualitative sono: Diagramma a torta : un cerchio in cui a ciascuna modalità corrisponde uno “spicchio di torta”. L’ampiezza di ogni fetta corrisponde alla percentuale che compete a ciascuna modalità. Grafico a barre : mostra delle barre verticali di uguale base per ogni categoria. L’altezza di ciascun rettangolo è la percentuale di ogni modalità. I rettangoli sono di solito uniformemente distanziati.
- Pie charts Used for summarizing a categorical variable Drawn as a circle where each category is represented as a “slice of the pie” The size of each pie slice is proportional to the percentage of observations falling in that category.
- Bar graphs Bar graphs are used for summarizing categorical variable Bar graphs display a vertical bar for each category The height of each bar represents either counts (“frequencies”) or percentages (“relative frequencies”) for that category Usually easier to compare categories with a bar graph than with a pie chart
- Example: Marada Inn Insights Gained from the Preceding Pie Chart
- One-half of the customers surveyed gave Marada a quality rating of “above average” or “excellent” (looking at the left side of the pie). This might please the manager.
- For each customer who gave an “excellent” rating. There were two customers who gave an “poor” rating (looking at the top of the pie). This should displease the manager.
- Exercise: Interpreting a pie
- The pie chart shows most frequent reading every day
- Are people more likely to read fiction or magazines?
- Which two types of reading are more popular than internet?
- Which type of reading are the less common one?
- Summarizing Quantitative Data
- Frequency Distribution
- Relative frequency and Percent Frequency
- Histogram
- Cumulative Distributions
- Data presentation
- Thinking Challenge
- You’re an analyst for IRI. You want to show the market shares held by Windows program manufactures in 1992. Construct a bar chart, pie chart.
- Bar Chart Solution
- Pie Chart Solution
- Le suddivisione in classi Arbitrarietà della suddivisione in classi. Linee guida:
- Al fine di facilitare l’interpretazione della distribuzione, qualora possibile, le classi dovrebbero avere la stessa ampiezza
- Evitare di costruire classi caratterizzate da un numero di frequenze molto basso
- Equilibrio tra due esigenze in conflitto: sintesi e grado di risoluzione
Attenzione: la suddivisione in classi comporta una perdita di informazioni (le differenze presenti entro la classe). Tale operazione ha senso soltanto se l’obiettivo finale è produrre una tabella di sintesi o un istogramma. Per tutti gli altri scopi occorre lavorare con la distribuzione unitaria di partenza.
- Rappresentazione grafica della distribuzione di frequenza per caratteri quantitativi continui Supponiamo dia ver ripartito le modalità in classi. Se le classi sono di ampiezza diversa, le frequenze non sono direttamente confrontabili. Definiamo allora la densità di frequenza (indicata con h ) come il rapporto tra la frequenza (assoluta o relativa)
e l’ampiezza (indicata con a ) di una classe:
h =
n
a
; ovvero h =
f
a
- Istogramma di frequenza Ad ogni classe è associato un rettangolo, tale che:
- La base è pari a a
- L’altezza è pari a h L’area del rettangolo è dunque pari alla frequenza (assoluta n = a × h o relativa f = a × h ) associata alla
classe. L’area totale è pari a n o 1.