Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica: Esercizi e Quiz - Prof. Mezzetti, Appunti di Statistica

Il file contiene tutte le slide e tutto quello detto durante le lezioni di Statistica.

Tipologia: Appunti

2021/2022

In vendita dal 21/02/2024

natalia-soledad-larroza
natalia-soledad-larroza 🇮🇹

4.6

(27)

33 documenti

1 / 169

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
Introduzione
Statistica (CLEF)
Cos’è la statistica?
- La statitstica si occupa di fornire metodi e modelli per l’analisi della realtà.
- Statistics is the art of learning from data. It is concerned with the collection of data, their
subsequent description, and their analysis, which often leads to the drawing of conclusions (S. Ross.
Introductory Statistics. 2nd ed. Elsevier, 2005. p.3).
- Statistics concerns what can be learned from data (A.C. Davison. Statical Models. Cambridge
University Press. 2003. p.1).
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica Statistica: Esercizi e Quiz - Prof. Mezzetti e più Appunti in PDF di Statistica solo su Docsity!

Introduzione

Statistica (CLEF)

  • Cos’è la statistica?
    • La statitstica si occupa di fornire metodi e modelli per l’analisi della realtà.
    • Statistics is the art of learning from data. It is concerned with the collection of data, their subsequent description, and their analysis, which often leads to the drawing of conclusions (S. Ross. Introductory Statistics. 2nd^ ed. Elsevier, 2005. p.3).
    • Statistics concerns what can be learned from data (A.C. Davison. Statical Models. Cambridge University Press. 2003. p.1).
  • La statistica è l’arte e la scienza del disegno di studi e dell’analisi dei dati che tali studi producono. Il suo obiettivo ultimo è la traduzione dei dati in conoscenza e comprensione del mondo che ci circonda.
  • La statistica è l’arte e la scienza di apprendere dai dati.
  • Statistics vs Anecdotal Evidence
  • A utism and Vaccines
  • A 7 mesi il bambino è stato vaccinato contro il morbillo
  • Dopo 2 mesi, si sono accorti che non parlava
  • A 1 anno e mezzo arriva la diagnosi:
  • AUTISMO
  • Quindi il vaccino causa l’autismo
  • D’altra parte, da quando sono aumentati i vaccini sono aumentati i casi di autismo
  • Le cicogne portano i bambini? Studio sulle nascite a Oldemburg (Germania) nel 1930. Ad una maggiore presenza di cicogne sui tetti in inverno corrisponde un maggior numero di nascite nell’autunno successivo.

Mappe concettuali

Statistica

Parte 1

◘ Statistica Descrittiva

  • Caratteri e scale di misura
  • La distribuzione di un carattere
  • La distribuzione di un carattere: le medie e la variabilità
  • Analisi dell’associazione tra due caratteri
  • Statistica Descrittiva
  • Consiste in:  Raccolta dati  Presentazione dei dati  Sintesi dei dati
  • Scopo:  Descrizione dei dati
  • Statistica Inferenziale
  • Consiste in:  Stima  Verifica di ipotesi
  • Scopo:  Prendere decisioni sulla popolazione
  • Data Sources
  • Existing Sources  Government agencies are important source of data.  Data are also available from a variety of industry associations and special-interest organizations.  Data needed for a particular application might already exist within a firm. Detailed information is often kept on customers, suppliers, and employees for example.  Substantial amounts of business and economic data are available from organizations that specialize in collecting and maintaining data.
  • Internet  The Internet has become an important source of data.  Most government agencies, like the Bureau of the Census (www.census.gov), make their data available through a web site.  More and more companies are creating web sites and providing public access to them.  A number of companies now specialize in making information available over the Internet.
  • Statistical Studies  Statistical studies can be classified as either experimental or observational. o In experimental studies the variables of interest are first identified. The one or more factors are controlled so that data can be obtained about how the factors influence the variables. o In observational (nonexperimental) studies no attempt is made to control or influence the variables of interest; an example is a survey.
  • Distribuzioni univariate e multivariate L’informazione statistica di base (output del processo di misurazione) prende solitamente la forma di una distribuzione unitaria semplice (univariata) o multipla (multivariata), a seconda del numero di caratteri misurati sulle unità.
    • Distribuzione unitaria semplice:
    • Distribuzione unitaria multivariata:

Data set: student_survety.txt student_survey.xls Intervistati 60 studenti appena laureate in Scienze politiche all’University of Florida

Indagine su 60 studenti laureati in Scienze Politiche

  • GE = sesso (m/g)
  • AG = anni compiuti
  • HI = voto finale alle superiori (in scala da 1-4)
  • CO = voto finale al college (in scala da 1 a 4)
  • DH = distanza (in miglia) del college dalla città di residenza
  • DR = distanza (in miglia) della classe dalla residenza attuale
  • TV = tempo medio (in ore) passato davanti alla TV alla settimana
  • SP = tempo medio (in ore) dedicato all’attività fisica alla settimana
  • NE = numero di volte alla settimana leggi un giornale
  • VE = vegetarian (yes, no)
  • PA = affiliazione politica (D = Democrat, R = Republican, I = Independet)
  • PI = ideologia politica (1 = very liberal, 2 = liberal, 3 = slightly liberal, 4 = moderate, 5 = slightly conservative, 6 = conservative, 7 = very conservative),
  • RE = frequenza in cui si assiste a una ceremonia religiosa (0 = never, 1 = occasionally, 2 = most weeks, 3 = every week).
  • Scala ad intervallo Consente di confrontare l’intensità del fenomeno in unità diverse. Tuttavia, non esiste una origine naturale e l’unità di misurazione è arbitraria. Confronto tra unità: differenza

x − x

Esempio: temperatura (Celsius e Fahrenheit: F = 32 + 1.8C)

  • Scala di rapporto A differenza della scala precedente, esiste un’origine naturale (zero assoluto) che denota l’assenza del carattere. Confronto tra unità: oltre a x − x , ha senso calcolare i rapporti x ⁄x.

Esempi: produzione, prezzi, fatturato, ordinativi, peso, numero componenti la famiglia, addetti.

  • Esercizio: tipologia di dati
    • Età
    • Età all’ultimo compleanno (in anni)
    • Il paziente è stato dal dentista nell’ultimo anno?
    • Numero di volte un paziente è stato dal dentista nell’ultimo anno
    • Titolo di studio
    • Classe sociale
    • Stato civile
    • IQ
    • Numero di persone nella famiglia
    • Colore di autoveicoli
    • Lunghezza del salto di una rana
  • Esercizio: tipologia di dati
    • Numero di figli in famiglia
    • Comune di residenza
    • Distanza (in miglia) tra casa e scuola
    • Periodo di studio necessario per preparare un esame
    • Numero di persone in attesa in linea
    • Numero di multe ricevute l’anno scorso
    • Il peso del tuo cane

Indagine su 60 studenti laureati in Scienze Politiche

  • GE = sesso (m/g)
  • AG = anni compiuti
  • HI = voto finale alle superiori (in scala da 1-4)
  • CO = voto finale al college (in scala da 1 a 4)
  • DH = distanza (in miglia) del college dalla città di residenza
  • DR = distanza (in miglia) della classe dalla residenza attuale
  • TV = tempo medio (in ore) passato davanti alla TV alla settimana
  • SP = tempo medio (in ore) dedicato all’attività fisica alla settimana
  • NE = numero di volte alla settimana leggi un giornale
  • VE = vegetarian (yes, no)
  • PA = affiliazione politica (D = Democrat, R = Republican, I = Independet)
  • PI = ideologia politica (1 = very liberal, 2 = liberal, 3 = slightly liberal, 4 = moderate, 5 = slightly conservative, 6 = conservative, 7 = very conservative),
  • RE = frequenza in cui si assiste a una ceremonia religiosa (0 = never, 1 = occasionally, 2 = most weeks, 3 = every week).

Indagine su 60 studenti laureati in Scienze Politiche

  • GE = QUALITATIVO NOMINALE
  • AG = QUANTATIVO DISCRETO
  • HI = QUANTATIVO DISCRETO
  • CO = QUANTATIVO DISCRETO
  • DH = QUANTATIVO CONTINUO
  • DR = QUANTATIVO CONTINUO
  • TV = QUANTATIVO CONTINUO
  • SP = QUANTATIVO CONTINUO
  • NE = QUANTATIVO DISCRETO
  • VE = QUALITATIVO NOMINALE
  • PA = QUALITATIVO NOMINALE
  • PI = QUALITATIVO ORDINALE
  • RE = QUALITATIVO ORDINALE
  • Distribuzioni di frequenza Ci proponiamo di sintetizzare una distribuzione di un carattere mediante tabella e grafici. Una distribuzione di frequenza è una rappresentazione tabellare che riporta le modalità del carattere ed il numero (assoluto, relativo, percentuale) delle unità che presentano il carattere con quelle modalità. Contiamo le unità che presentano la stessa modalità. Questo ha significato per i caratteri qualitativi e quantitativi discreti. Più in generale, nel caso dei caratteri quantitativi occorre suddividere i valori che la variabile può assumere in intervalli o classi.

x modalità della i-esima unità statistica

x ⋆^ i-esima modalità

Il giudizio di 20 ospiti in un albergo:

x Scarso

x⋆^ Buono

  • Frequenze cumulate La frequenza cumulata associata ad una modalità del carattere misura il numero dei casi che presentano un valore non superiore a quella modalità. NB. Ha significato solo se il carattere è misurato su scala almeno ordinale. Frequenza assoluta cumulata:

N = / n 5 , j = 1,... , K

0

512 (n.b. 67 = 8)

N.B .: vale la formula ricorsiva N = N 92 + n

Frequenza relativa cumulata:

F = / f 5 , j = 1,... , K

512

(n.b. F 0 = 1)

Frequenza percentuale cumulata:

P = / p 5 , j = 1,... , K

512

N.B .: vale la formula ricorsiva F = F 92 + f

  • Esempio Distribuzione percentuale delle famiglie per classi di reddito familiare annuale a seconda del titolo di studio (Anno 2004, Banca d’Italia).
  • Rappresentazione grafica per variabili qualitative
    • Le due rappresentazioni grafiche principali per sintetizzare una variabile qualitative sono:  Diagramma a torta : un cerchio in cui a ciascuna modalità corrisponde uno “spicchio di torta”. L’ampiezza di ogni fetta corrisponde alla percentuale che compete a ciascuna modalità.  Grafico a barre : mostra delle barre verticali di uguale base per ogni categoria. L’altezza di ciascun rettangolo è la percentuale di ogni modalità. I rettangoli sono di solito uniformemente distanziati.
  • Pie charts  Used for summarizing a categorical variable  Drawn as a circle where each category is represented as a “slice of the pie”  The size of each pie slice is proportional to the percentage of observations falling in that category.
  • Bar graphs  Bar graphs are used for summarizing categorical variable  Bar graphs display a vertical bar for each category  The height of each bar represents either counts (“frequencies”) or percentages (“relative frequencies”) for that category  Usually easier to compare categories with a bar graph than with a pie chart
  • Example: Marada Inn Insights Gained from the Preceding Pie Chart
    • One-half of the customers surveyed gave Marada a quality rating of “above average” or “excellent” (looking at the left side of the pie). This might please the manager.
    • For each customer who gave an “excellent” rating. There were two customers who gave an “poor” rating (looking at the top of the pie). This should displease the manager.
  • Exercise: Interpreting a pie
    • The pie chart shows most frequent reading every day
    • Are people more likely to read fiction or magazines?
    • Which two types of reading are more popular than internet?
    • Which type of reading are the less common one?
  • Summarizing Quantitative Data
    • Frequency Distribution
    • Relative frequency and Percent Frequency
    • Histogram
    • Cumulative Distributions
  • Data presentation
  • Thinking Challenge
    • You’re an analyst for IRI. You want to show the market shares held by Windows program manufactures in 1992. Construct a bar chart, pie chart.
  • Bar Chart Solution
  • Pie Chart Solution
  • Le suddivisione in classi Arbitrarietà della suddivisione in classi. Linee guida:
    • Al fine di facilitare l’interpretazione della distribuzione, qualora possibile, le classi dovrebbero avere la stessa ampiezza
    • Evitare di costruire classi caratterizzate da un numero di frequenze molto basso
    • Equilibrio tra due esigenze in conflitto: sintesi e grado di risoluzione

Attenzione: la suddivisione in classi comporta una perdita di informazioni (le differenze presenti entro la classe). Tale operazione ha senso soltanto se l’obiettivo finale è produrre una tabella di sintesi o un istogramma. Per tutti gli altri scopi occorre lavorare con la distribuzione unitaria di partenza.

  • Rappresentazione grafica della distribuzione di frequenza per caratteri quantitativi continui Supponiamo dia ver ripartito le modalità in classi. Se le classi sono di ampiezza diversa, le frequenze non sono direttamente confrontabili. Definiamo allora la densità di frequenza (indicata con h ) come il rapporto tra la frequenza (assoluta o relativa)

e l’ampiezza (indicata con a ) di una classe:

h =

n

a

; ovvero h =

f

a

  • Istogramma di frequenza Ad ogni classe è associato un rettangolo, tale che:
    • La base è pari a a
    • L’altezza è pari a h L’area del rettangolo è dunque pari alla frequenza (assoluta n = a × h o relativa f = a × h ) associata alla

classe. L’area totale è pari a n o 1.