Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Statistica: Frequenze, Misure di Tendenza e Variabilità, Appunti di Statistica

Appunti di statistica. Argomenti presenti: - Tipi di dati - Statistica descrittiva (dati qualitativi e quantitativi, classi e frequenze) - Distribuzione dei dati - Misure di tendenza centrale (moda, media e mediana) - Misure di dispersione e indici di variabilità (range, varianza e deviazione standard) - Misure di tendenza relativa - Analisi di dati bivariati - Probabilità - Variabili casuali continue - La gaussiana - Variabili normali standard e tabelle z - Distribuzioni campionarie e stimatori - Il teorema centrale del limite - Intervalli di confidenza - Test d'ipotesi (con esempi)

Tipologia: Appunti

2022/2023

In vendita dal 28/11/2023

Lorenzo_Polloni
Lorenzo_Polloni 🇮🇹

2 documenti

1 / 27

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Statistica
Concetti chiave
- Popolazione: insieme di unità statistiche (individui o oggetti) da studiare (non sono necessariamente
individui fisici), solitamente indicata con 𝑁.
- Variabile statistica: oggetto dell’indagine; è una caratteristica delle unità statistiche appartenenti alla
popolazione che può assumere diversi valori.
- Censimento: studio condotto su tutta la popolazione.
- Campione: sottoinsieme della popolazione su cui viene condotta l’indagine. Idealmente è una
miniatura della popolazione (deve essere rappresentativo) e si indica con 𝑛.
- Parametro: valore che descrive una caratteristica della popolazione.
- Statistica: valore che descrive una caratteristica del campione.
Il campione
Un campione può non rappresentare la popolazione. L’errore che ne deriva dipende dall’ampiezza del
campione (+ ampiezza, + errore) oppure dalla variabilità della popolazione (+ variabilità, + errore). Questa
variabilità è espressa attraverso un grado che è misura di quanto gli elementi della popolazione differiscono
tra loro in riferimento alla variabile studiata.
La dimensione del campione dipende da diversi fattori:
- Variabilità della popolazione: Un grado di variabilità più alto comporterà una dimensione maggiore
del campione. (+ Variabilità, + Dim. 𝑛).
- Errore tollerabile: dimensioni ridotte del campione comportano errori molto elevati rispetto alla
popolazione che rendono il campione stesso non rappresentativo. È quindi necessario aumentare la
dimensione del campione al diminuire dell’errore tollerabile. (- Errore, + Dim. 𝑛).
- Risorse disponibili: un numero limitato di risorse sfruttabili per condurre l’indagine comporta una
riduzione della dimensione del campione, che però a sua volta comporta un aumento dell’errore
commesso. (- Risorse, - Dim. 𝑛 + Errore).
- Dimensione della popolazione: maggiore è la dimensione della popolazione da cui si vuole
prelevare il campione, maggiore dovrà essere la dimensione del campione stesso. (+ Dim. 𝑁, + Dim.
𝑛).
Tipi di dati (modalità)
Dati qualitativi: assumono un valore non numerico:
- Dati categoriali (o nominali): sono quei dati non numerici che non si possono ordinare, come ad
esempio il colore degli occhi o il paese di nascita.
- Dati ordinali: sono dati non numerici che però possono essere ordinati, come gli indici di gradimento
o di accordo (molto, abbastanza, poco, per niente…).
Dati quantitativi: sono dati numerici ordinabili e si dividono in:
- Dati discreti: sono risultati appartenenti all’insieme dei numeri naturali positivi (+) e ne fanno parte
dati come il numero di figli o il numero di studenti in una scuola.
- Dati continui: sono risultati che possono assumere valori all’interno dell’insieme dei numeri reali ()
e che sono accompagnati da opportune unità di misura. Ne sono un esempio lo stipendio mensile o
l’altezza di una persona.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Frequenze, Misure di Tendenza e Variabilità e più Appunti in PDF di Statistica solo su Docsity!

Statistica

Concetti chiave

  • Popolazione: insieme di unità statistiche (individui o oggetti) da studiare (non sono necessariamente

individui fisici), solitamente indicata con 𝑁.

  • Variabile statistica: oggetto dell’indagine; è una caratteristica delle unità statistiche appartenenti alla

popolazione che può assumere diversi valori.

  • Censimento: studio condotto su tutta la popolazione.
  • Campione: sottoinsieme della popolazione su cui viene condotta l’indagine. Idealmente è una

miniatura della popolazione (deve essere rappresentativo) e si indica con 𝑛.

  • Parametro: valore che descrive una caratteristica della popolazione.
  • Statistica: valore che descrive una caratteristica del campione.

Il campione

Un campione può non rappresentare la popolazione. L’ errore che ne deriva dipende dall’ampiezza del

campione (+ ampiezza, + errore) oppure dalla variabilità della popolazione (+ variabilità, + errore). Questa

variabilità è espressa attraverso un grado che è misura di quanto gli elementi della popolazione differiscono

tra loro in riferimento alla variabile studiata.

La dimensione del campione dipende da diversi fattori:

  • Variabilità della popolazione: Un grado di variabilità più alto comporterà una dimensione maggiore

del campione. (+ Variabilità, + Dim. 𝑛).

  • Errore tollerabile: dimensioni ridotte del campione comportano errori molto elevati rispetto alla

popolazione che rendono il campione stesso non rappresentativo. È quindi necessario aumentare la

dimensione del campione al diminuire dell’errore tollerabile. (- Errore, + Dim. 𝑛).

  • Risorse disponibili: un numero limitato di risorse sfruttabili per condurre l’indagine comporta una

riduzione della dimensione del campione, che però a sua volta comporta un aumento dell’errore

commesso. (- Risorse, - Dim. 𝑛 → + Errore).

  • Dimensione della popolazione: maggiore è la dimensione della popolazione da cui si vuole

prelevare il campione, maggiore dovrà essere la dimensione del campione stesso. (+ Dim. 𝑁, + Dim.

Tipi di dati (modalità)

Dati qualitativi: assumono un valore non numerico:

  • Dati categoriali (o nominali): sono quei dati non numerici che non si possono ordinare, come ad

esempio il colore degli occhi o il paese di nascita.

  • Dati ordinali: sono dati non numerici che però possono essere ordinati, come gli indici di gradimento

o di accordo (molto, abbastanza, poco, per niente…).

Dati quantitativi: sono dati numerici ordinabili e si dividono in:

  • Dati discreti: sono risultati appartenenti all’insieme dei numeri naturali positivi (ℕ

) e ne fanno parte

dati come il numero di figli o il numero di studenti in una scuola.

  • Dati continui: sono risultati che possono assumere valori all’interno dell’insieme dei numeri reali (ℝ)

e che sono accompagnati da opportune unità di misura. Ne sono un esempio lo stipendio mensile o

l’altezza di una persona.

Sommatoria

Siano 𝑎 1

2

3

𝑛

, 𝑛 numeri reali. La loro somma 𝑎

1

2

3

𝑛

si può indicare in forma compatta

sfruttando il simbolo di sommatoria:

𝑖

𝑛

𝑖 = 1

1

2

3

𝑛

Questa scrittura si legge “sommatoria per 𝑖 da 1 a 𝑛 di 𝑎 𝑖

” dove 𝑖 si dice indice di sommatoria, detto indice

muto poiché sostituendolo con altri indici (come 𝑗 o 𝑘) il senso dell’espressione non cambia. Al contrario,

cambia quando 𝑛 è sostituito con un altro numero 𝑚 (diverso dal primo):

𝑖

𝑛

𝑖 = 1

𝑗

𝑛

𝑗 = 1

𝑖

𝑛

𝑖 = 1

𝑖

𝑚

𝑖 = 1

Statistica descrittiva

È quella parte della statistica che si occupa della rappresentazione dei dati mediante l’utilizzo di tabelle e

grafici.

Il tutto parte dai dati grezzi , che vanno raccolti e organizzati in un database (o fogli di calcolo) nel quale ogni

riga rappresenta un’unità statistica (generalmente descritta da un codice detto ID) e ogni colonna una variabile.

Per tenere traccia di quante volte ricorre una certa modalità di una variabile, ovvero quante volte un dato si

ripete, si crea una tabella di frequenza che registra:

  • Categoria: valore o classe di valori che una variabile può assumere (nella prima colonna) solitamente

indicato con 𝑥

𝑖

  • Numero di volte con cui la manifestazione ricorre ( frequenza assoluta ) solitamente indicato con 𝑓

𝑖

Sia P il numero delle categorie e 𝑓 𝑖

la frequenza, allora la dimensione del campione sarà data da:

𝑖

𝑃

𝑖 = 1

Esempio con dati grezzi qualitativi

  • Categoriali: numero di occupati per settore produttivo in Italia. Nella prima colonna inseriremo i settori

𝑖

) e nella seconda la frequenza (𝑓

𝑖

  • Ordinali: studenti iscritti a un corso di laurea. Nella prima colonna si inseriscono gli studenti (matricole,

secondo anno, …) e nella seconda colonna le frequenze (𝑓

𝑖

Eventualmente nell’ultima riga si inserisce la sommatoria scritta sopra che dovrà combaciare con la

dimensione (𝑛) del campione.

Esempio con dati grezzi quantitativi

  • Discreti: libri letti nel 2011. Nella prima colonna inseriamo il numero di libri letti, ordinando le categorie

e inserendo anche quelle con frequenza nulla, nella seconda colonna, ancora una volta, inseriamo le

frequenze (𝑓

𝑖

  • Continui: percentuale di voli in ritardo in 30 giorni. Non avrebbe senso scrivere ogni dato in una riga

sua, poiché non possiamo usare ogni valore come una categoria per la tabella di frequenza, dato che

non sarebbe una sintesi efficace. Nella tabella compariranno degli intervalli (prima colonna) e di nuovo

le frequenze nella seconda.

Per le variabili continue è necessario definire delle classi , che dovranno comprendere tutti i valori senza

sovrapporsi.

Misure di tendenza centrale

Indici di posizione: sono valori sintetici che forniscono informazione su una distribuzione statistica, usati

generalmente per misurare i valori centrali della distribuzione. Gli indici più usati sono moda, media e mediana.

Moda: può essere calcolata per qualsiasi tipo di dato (qualitativi o quantitativi) e rappresenta la categoria

(valore) con la frequenza più alta. Nel caso di dati continui divisi in classi si parla di classe modale , ovvero

la classe con la frequenza più alta (densità di frequenza).

È possibile avere una distribuzione con più mode (nel caso in cui siano presenti due mode si dirà bimodale) o

con frequenze tutte uguali, caso in cui si dice che non c’è moda.

Mediana: può essere calcolata su dati almeno ordinabili (quindi non su dati qualitativi categoriali) e

rappresenta la categoria centrale di una distribuzione ordinata , cioè la categoria che vede il 50% delle

osservazioni prima di essa e il restante 50% dopo.

Il calcolo della mediana varia in base a 𝑛 (dimensione del campione):

  • n dispari → la mediana è il valore centrale e si trova calcolando

𝑛+ 1

2

  • n pari → si calcola la media dei due valori centrali, individuati calcolando

𝑛

2

𝑛

2

In questi casi si calcola la posizione della mediana in una distribuzione ordinata di dati. Nel caso di distribuzioni

di frequenza si cerca la classe che per prima raggiunge una frequenza cumulata maggiore del 50% e si parla

di classe mediana.

Media aritmetica: può essere calcolata solo per variabili quantitative, sia discrete che continue. Partendo da

dati grezzi (quindi non da categorie o tabelle di frequenza), è calcolata:

𝑖

𝑛

𝑖 = 1

𝑖

𝑁

𝑖 = 1

Rappresenta il punto di equilibrio dei dati. Per dimostrare questo punto e per verificare che la media calcolata

sia corretta si calcola la sommatoria degli scarti dalla media ottenendo come risultato zero:

𝑖

𝑛

𝑖 = 1

𝑖

𝑁

𝑖 = 1

Per quanto riguarda le distribuzioni di frequenza si calcola la media ponderata , seguendo lo stesso principio

ma moltiplicando ogni valore per la sua frequenza prima di calcolare la sommatoria. Nel caso di dati continui

in classi si individua il valore mediano di ciascuna classe e lo si moltiplica per la frequenza della sua classe:

𝑖

𝑖

𝑃

𝑖 = 1

𝑖

𝑖

𝑃

𝑖 = 1

Nella seconda formula è stato portato

1

𝑛

all’interno della sommatoria e calcolato 𝑟𝑓

𝑖

𝑖

1

𝑛

. Anche in questo

caso deve valere l’ annullamento degli scarti :

𝑖

𝑖

𝑃

𝑖 = 1

Misure di dispersione e indici di variabilità

Questi indici sono utilizzabili solo per variabili quantitative e indicano quanto i valori si disperdono intorno a

uno degli indici di posizione visti in precedenza, generalmente intorno alla media.

Range : anche detto campo di variazione, è l’intervallo di appartenenza dei dati (solitamente del campione)

che si vogliono studiare. Più il campione è grande e più è probabile che i valori utilizzati per il calcolo del range

siano distorti o non rappresentativi. Il range è dato semplicemente da:

𝑖

𝑛

1

Ci si chiede: quanto distano, in media, tutte le osservazioni dal valore centrale (la media)? Non si possono

utilizzare gli scarti dalla media poiché la loro somma su 𝑛 risulta essere zero, eppure i dati non distano tutti

zero dall’indice di posizione scelto. Si introduce quindi un nuovo indice.

Varianza : è generalmente indicata con 𝜎

2

(popolazione) o 𝑠

2

(campione). Non si calcola la media delle

distanze delle misurazioni dall’indice di posizione sommando gli scarti, bensì sommando i loro quadrati :

2

𝑖

2

𝑁

𝑖 = 1

2

𝑖

2

𝑛

𝑖 = 1

Deviazione standard : anche chiamata scarto quadratico medio, è una misura associata alla varianza che

indica appunto quanto i dati differiscano dal valore centrale.

2

𝑖

2

𝑁

𝑖 = 1

2

𝑖

2

𝑛

𝑖 = 1

Per quanto riguarda le distribuzioni di frequenza il metodo è simile: si calcola la media dei quadrati degli scarti

pesati con la relativa frequenza assoluta (esempio con 𝜎):

2

𝑖

2

𝑁

𝑖 = 1

𝑖

2

𝑖

2

𝑁

𝑖 = 1

𝑖

La regola empirica : la deviazione standard è meno intuitiva del campo di variazione ed è sicuramente più

difficile trarre informazioni da essa. Un modo per farlo è utilizzare la regola empirica, che per distribuzioni

simmetriche a campana (gaussiana) afferma che:

  • il 68% delle osservazioni si

trovano all’interno di un

intervallo ±𝜎 dalla media.

  • il 95% delle osservazioni si

trovano all’interno di un

intervallo ± 2 𝜎 dalla media.

  • il 99% delle osservazioni si

trovano all’interno di un

intervallo ± 3 𝜎 dalla media.

Analisi di dati bivariati

Tabelle di contingenza

Quando si osservano contemporaneamente due variabili di qualsiasi tipo i dati si possono organizzare

utilizzando una tabella a doppia entrata o tabella di contingenza.

Una tabella di questo tipo è costituita da:

  • Righe che rappresentano i possibili valori della categoria 𝑥

𝑖

della prima variabile.

  • Colonne che rappresentano i possibili valori della categoria 𝑦

𝑗

della seconda variabile.

  • Interi che all’interno della tabella rappresentano il numero di volte in cui compare la corrispondente

coppia di valori/categorie (dette frequenze congiunte assolute o relative).

All’interno della tabella troviamo le frequenze assolute congiunte 𝑓 𝑖𝑗

, ovvero il numero di unità statistiche che

presentano contemporaneamente la categoria 𝑖-esima (per la variabile 1) e la categoria 𝑗-esima (per la

variabile 2).

Ai margini della tabella ci sono le frequenze marginali assolute che rappresentano il numero di unità

statistiche che presentano la categoria 𝑖 oppure 𝑗 per la rispettiva variabile.

Per poter effettuare confronti tra tabelle si calcola la frequenza congiunta relativa, analogamente alla frequenza

relativa, moltiplicando eventualmente per cento se si vogliono ottenere dati percentuali:

𝑖𝑗

𝑖𝑗

Distribuzioni condizionate: calcolare una distribuzione condizionata permette di confrontare le frequenze

relative di una certa classe fissata l’altra. Si scrive 𝑋 | 𝑌 = 𝑦 𝑗

e si legge “𝑋 dato 𝑌 = 𝑦

𝑗

” e viceversa per 𝑌. In

questo modo restringo il campione alle sole unità che presentano il carattere 𝑦 𝑗

(o 𝑥

𝑖

). Queste frequenze

relative si calcolano:

𝑖|𝑗

𝑖𝑗

∙𝑗

𝑗|𝑖

𝑖𝑗

𝑖∙

Sono rispettivamente le frequenze della classe 𝑖 data la classe 𝑗 e la frequenza della classe 𝑗 data la classe 𝑖.

Inoltre, se 𝑋 (o 𝑌) è una variabile quantitativa lo è anche 𝑋 | 𝑌 = 𝑦 𝑗

e posso quindi calcolare le statistiche usuali

come media, varianza e deviazione standard.

Indipendenza: se le distribuzioni condizionate di una variabile sono uguali tra loro (valore per valore) allora

si dice che sono indipendenti, ovvero che non c’è nessuna connessione tra loro. Quando succede si ha:

𝑖|𝑗

𝑖|𝑘

𝑖∙

𝑗|𝑖

𝑗|𝑘

∙𝑗

𝑖∙

∙𝑗

𝑖𝑗

𝑖∙

∙𝑗

𝑖𝑗

Variabile 2

Categoria 1 Categoria 2 … Categoria j Totale

Variabile 1

Categoria 1 𝑓

11

12

1 𝑗

1 ∙

Categoria 2 𝑓

21

22

2 𝑗

2 ∙

Categoria i 𝑓

𝑖 1

𝑖 2

𝑖𝑗

𝑖∙

Totale 𝑓

∙ 1

∙ 2

∙𝑗

n

I dati quantitativi bivariati

Se 𝑋 e 𝑌 sono entrambe variabili quantitative, si può studiare il loro comportamento congiunto. Se una variabile

cresce, l’altra come si comporta? Se esiste una relazione lineare tra le due si può scrivere (con 𝑎, 𝑏 costanti):

Per rappresentare graficamente questi

dati si utilizza il grafico a dispersione ,

in cui le coppie di numeri (𝑥 𝑖

𝑗

) sono

rappresentate come punti nel piano. In

via preliminare ci permette di intuire la

relazione tre le due variabili e il loro

andamento congiunto.

Nel caso a destra la relazione tra i dati

è lineare positiva. A seconda del grafico

che otteniamo possiamo notare

relazioni lineari , quadratiche,

esponenziali o nessun tipo di relazione

tra i dati.

Misure numeriche di dispersione

Covarianza: indice usato per descrivere come i due insiemi di dati variano tra loro, ovvero per esprimere la

loro dipendenza. È un indicatore della tendenza di due fenomeni a essere sensibili a variazioni in

concomitanza. È importante ricordare che dipendenza non implica causalità e che non-correlazione non

implica indipendenza.

La formula per calcolare la covarianza è:

𝑥𝑦

𝑖

𝑖

𝑛

𝑖 = 1

𝑖

𝑖

𝑛

𝑖 = 1

Ovvero è calcolabile come media dei prodotti degli scarti o come differenza tra la media del prodotto delle

variabili (con valori 𝑥 𝑖

e 𝑦

𝑖

) e il prodotto delle medie (che non è all’interno della sommatoria!).

Una covarianza positiva indica che ha senso attendersi un aumento/diminuzione della seconda grandezza

all’aumentare/diminuire della prima. Le due serie di dati hanno quindi un andamento concorde.

Viceversa, una covarianza negativa indica che i dati hanno un andamento discorde , cioè che ci si aspetta

un aumento/diminuzione della seconda grandezza al diminuire/aumentare della prima.

Il tendere a zero della covarianza indica che la relazione dei dati è pressoché nulla.

Coefficiente di correlazione lineare: è una misura della forza di una relazione lineare. Un coefficiente pari

a 1 indica una perfetta relazione positiva, - 1 indica una perfetta relazione negativa e un coefficiente pari a zero

indica che non esiste relazione. Questo è definito come il rapporto tra la covarianza e il prodotto delle

deviazioni standard di 𝑋 e 𝑌:

𝑖

𝑖

𝑛

𝑖= 1

𝑖

𝑛

𝑖= 1

𝑖

𝑛

𝑖= 1

𝑖

2

2

𝑛

𝑖= 1

𝑖

2

2

𝑛

𝑖= 1

𝑥𝑦

𝑥

𝑦

Misura l’intensità e il segno del legame tra le variabili, ovvero quanto è vera la relazione 𝑌 = 𝑎𝑋 + 𝑏.

0

10

20

30

40

50

60

70

0 5 10 15 20

Variabile Y

Variabile X

Relazione Lineare

Probabilità di un evento: la probabilità di un evento 𝐴, indicata con 𝑃(𝐴), è una misura di quanto sia

verosimile che accada l’evento 𝐴.

Quando ogni esito dello spazio campionario ha la stessa probabilità di verificarsi (esiti equiprobabili ) questa

può essere calcolata:

𝐴

Ad esempio, se lanciamo un dado e chiamiamo 𝐴 l’evento per cui otteniamo un numero pari dal lancio avremo:

Assiomi della probabilità

Conseguenze:

  • Per 𝐴 e 𝐵 non mutualmente esclusivi → 𝑃

Probabilità condizionata: considerati due eventi generici 𝐴 e 𝐵 vogliamo sapere se il verificarsi di 𝐵 ha o

meno influenza sul verificarsi di 𝐴, o viceversa.

La probabilità condizionata si scrive 𝑃(𝐴|𝐵) e si calcola:

Questo ha senso, ovviamente solo se 𝑃

≠ 0. In pratica questa operazione restringe lo spazio prendendo

in considerazione soltanto gli eventi che stanno in 𝐵.

Due eventi sono indipendenti se la probabilità che uno dei due si verifichi non è modificata al verificarsi

dell’altro:

Inoltre, sono indipendenti se la probabilità della loro intersezione è uguale al prodotto delle probabilità dei

singoli eventi:

Si può dimostrare che queste due definizioni sono equivalenti, infatti:

Variabili aleatorie

Una variabile aleatoria (o casuale ) 𝑋 è una variabile quantitativa determinata attraverso un esperimento

casuale e i cui valori seguono le regole della probabilità.

Una variabile casuale può essere continua o discreta. L’insieme dei valori che 𝑋 può assumere è detto

supporto o range.

Distribuzione di probabilità: la distribuzione o funzione di probabilità 𝑝(𝑥) di una variabile aleatoria 𝑋 indica

la probabilità che tale variabile assuma un certo valore 𝑥, ovvero la probabilità che 𝑋 = 𝑥:

Le regole della distribuzione di probabilità sono identiche alle regole della probabilità. Detto {𝑥 𝑖

𝑖= 1

𝑃

il range di

𝑖

𝑖

𝑖

𝑖

𝑃

𝑖 = 1

Valore atteso e varianza

Il valore atteso di una variabile casuale discreta 𝑋 con distribuzione di probabilità 𝑝(𝑥) è definito come:

𝑖

𝑖

𝑃

𝑖 = 1

La varianza di una variabile aleatoria discreta 𝑋 con distribuzione di probabilità 𝑝(𝑥) è definita come:

𝑖

𝑃

𝑖 = 1

∙ [𝐸(𝑋) − 𝑥

𝑖

]

2

Variabile casuale di Bernoulli: considerando un esperimento che può portare solo a due esiti, il “successo”

𝐴 oppure l’insuccesso 𝐴′, con probabilità rispettivamente 𝑝 e 1 − 𝑝, con 𝑝 ∈ ( 0 , 1 ). La funzione di probabilità

della variabile 𝑋 sarà quindi:

Se l’esperimento viene ripetuto 𝑛 volte indipendenti tra loro e si suppone che la probabilità 𝑝 di successo sia

costante per ogni prova, si ottiene una variabile casuale che descrive il numero di successi in 𝑛 prove. Questa

variabile è detta binomiale con parametri 𝑛 e 𝑝:

I valori che questa può assumere sono tutti i valori da zero a 𝑛, cioè il supporto di 𝑋:

In questo caso l’esperimento si compone di 𝑛 prove reiterate, operazione che corrisponde a prendere un

campione di dimensione 𝑛. La probabilità di successo e fallimento è uguale per ogni elemento del campione

in ogni prova, cioè nessuna prova influenza gli esiti delle altre.

La distribuzione di probabilità di 𝑋 dipende dal numero di prove effettuate e dalla probabilità di successi nel

campione. Questa si scrive:

𝑥

𝑛−𝑥

Dove (

) è detto coefficiente binomiale e corrisponde alla scrittura:

Variabili normali standard

Esistono diverse distribuzioni normali 𝑋~𝑁(𝜇, 𝜎) che differiscono tra loro per la scelta dei parametri 𝜇 e 𝜎,

per la posizione del picco (𝜇) o per appiattimento (𝜎 > 0 ).

Una variabile normale standard è quella con funzione di densità normale con media nulla e scarto quadratico

medio pari a 1 :

Questa è utile per calcolare la probabilità che una qualsiasi normale 𝑋~𝑁(𝜇, 𝜎) assuma valori in un certo

intervallo.

Analogamente a quanto fatto per gli z-scores , possiamo standardizzare una variabile sottraendo 𝑋 al valore

atteso e dividendo per 𝜎, ottenendo così 𝑍, una nuova variabile casuale continua che soddisfa le condizioni di

una normale standard, ovvero con media zero e deviazione standard 1.

Calcolare l’area sottesa alla funzione di una normale è

molto difficile; quindi, per ovviare a questo problema

sono state create apposite tabelle in cui sono racchiuse

le probabilità che una variabile casuale assuma un

valore minore di un dato valore 𝑥

𝑖

. Per questo è utile

ricordare che:

Tabelle normali standard: sono tabelle che riportano

l’area sotto la curva normale standard, cioè forniscono i valori delle probabilità relativi alle diverse aree. Per

valori 𝑧 ∈

la tavola riporta i valori di

Ossia ogni valore corrispondente alla probabilità che la variabile casuale 𝑍 assuma un valore minore di 𝑧. Φ(𝑧)

è la cosiddetta funzione di ripartizione della variabile casuale normale standard.

Per trovare questo valore si utilizza la tabella cercando l’incrocio dell’appropriata riga con la colonna

desiderata. Il valore di 𝑧 cercato è nella forma 𝑥. 𝑦𝑤.Sulle righe avremo le prime due cifre 𝑥. 𝑦 mentre sulle

colonne l’ultima cifra decimale 0. 0 𝑤.

Esempio: supponiamo di voler sapere la probabilità che 𝑧 < 0. 64. Andiamo a cercare la riga 0.6 e individuiamo

la colonna corrispondente a 0.04. in questo modo troviamo che la probabilità cercata è 0..

Se nell’esempio precedente avessimo voluto cercare la probabilità che 𝑧 > 0. 64 avremmo potuto

semplicemente sottrarre il valore cercato per 𝑧 < 0. 64 a 1, ovvero l’area totale sottesa alla funzione.

Per trovare invece la probabilità che 𝑧 appartenga a un intervallo si devono cercare le probabilità che 𝑧 sia

minore dei valori estremi e poi farne la differenza:

1

2

2

1

Quindi, per calcolare la probabilità di una variabile normale serve innanzitutto avere media e deviazione

standard. Si trasformano i valori di 𝑋 in valori standardizzati per 𝑍, standardizzando gli estremi dell’intervallo

su 𝑋. Infine, si cercano i valori di 𝑍 sulle tabelle e si calcola la probabilità cercata.

Esempio: si ha una distribuzione con media 75 e scarto quadratico medio 5. Qual è la probabilità che si

ottenga un valore minore di 7 8? Quindi 𝑋~𝑁

? Si inizia standardizzando il valore su cui si

vogliono ottenere informazioni, ovvero 78:

Andando a cercare sulle tabelle la probabilità che 𝑧 < 0. 60 troviamo 0.7257. questo significa che il 72.57%

delle misurazioni restituirà un valore minore (o uguale) a 78.

Le distribuzioni campionarie

Statistica inferenziale: si vuole usare l’informazione campionaria per ottenere informazioni probabilistiche

sul comportamento della popolazione.

I valori dei parametri che descrivono la popolazione sono in genere sconosciuti e bisogna quindi utilizzare le

informazioni ottenute dai campioni. Per farlo si usano gli stimatori puntuali.

Stimatore puntuale: è la formula o regola (la trasformazione di dati campionari) usata per calcolare la stima

puntuale, ovvero un numero che descrive un certo parametro 𝜃 della popolazione, per un particolare set di

dati. Esempi di stimatori puntuali sono la media della popolazione

, il suo scarto quadratico medio

o la proporzione della popolazione (𝑝).

Cambiando campione cambia anche la stima, ma non lo stimatore, cioè per due campioni diversi avrò medie

diverse, ma non cambierà il metodo con cui le calcolo. Questo campione viene estratto casualmente seguendo

uno schema probabilistico. Essendo lo stimatore una variabile casuale ci chiediamo quali siano media (𝑋

deviazione standard

e distribuzione di probabilità (detta distribuzione campionaria ).

Proprietà di uno stimatore

Considerando un parametro della popolazione 𝜃 e 𝑇 uno stimatore per tale parametro, esistono delle proprietà

che 𝑇 deve avere:

  • Non distorsione: lo stimatore non deve essere distorto, cioè non deve sovrastimare o sottostimare il

parametro sconosciuto in modo sistematico. Questo vuol dire che:

  • Consistenza: al crescere della dimensione 𝑛 del campione deve crescere anche la precisione della

stima del parametro sconosciuto. In altre parole, se lo stimatore non è distorto, la varianza di 𝑇 deve

tendere a zero per 𝑛 che tende a infinito:

  • Efficienza: lo stimatore puntuale non deve presentare molta variabilità. Uno stimatore non distorto 𝑇

1

è più efficiente di uno stimatore 𝑇

2

se:

1

2

Ne sono un esempio la media, la moda e la mediana. La prima ha variabilità minore rispetto alle altre

due ed è perciò la scelta migliore come stimatore per la media della popolazione.

Così si calcola l’intervallo simmetrico con centro 𝜇 in cui vi è il 68% di probabilità di osservare la media

campionaria.

Tuttavia, spesso non si conosce il valore vero di 𝜇, ma quello di 𝑋

, che vogliamo usare per fare inferenza su

𝜇. Si determina quindi un intervallo [𝐸 𝑖

𝑠

] (estremo superiore e inferiore) tale che la media vi appartenga con

un 95% (o una qualsiasi percentuale) di probabilità. Chiamando 𝛼 = 0. 05 :

[

𝑖

𝑠

])

Stima intervallare: considerando un parametro 𝜃, 𝑇 uno stimatore per tale parametro e fissando un valore

𝛼 ∈ ( 0 , 1 ) si vuole trovare un intervallo [𝐸 𝑖

𝑠

] tale che:

𝑖

𝑠

Se una stima puntuale è definita come un singolo valore numerico, la stima intervallare è un intervallo di valori,

che contenga il valore del parametro con una certa probabilità, detta livello di confidenza.

Un intervallo di confidenza per il parametro 𝜃 è un intervallo casuale [𝐸 𝑖

𝑠

] di valori a cui è associato un

livello di confidenza 1 − 𝛼. Questo quantifica la probabilità che l’intervallo contenga il valore vero del

parametro, l’affidabilità della stima e l’ errore intrinseco nella stima di 𝜃 tramite 𝑇.

Per calcolare questo intervallo è necessario che sia nota la funzione di probabilità di 𝑋

e che 𝑛 sia

sufficientemente grande.

Intervallo di confidenza per la media della popolazione normale e scarto quadratico medio noto

Se 𝑋~𝑁

allora è vero che 𝑋

𝜎

√𝑛

). Sia 𝛼 ∈

, si può scrivere:

𝛼

2

𝛼

2

Dove 𝛼 ⁄ 2 rappresenta l’area delle code lasciate a destra e a sinistra dell’intervallo 1 − 𝛼 e che quindi hanno

𝑎 2

come valori estremi.

Considerando 𝛼 ∈ ( 0 , 1 ) cerchiamo un intervallo tale che la probabilità di 𝑍 di trovarsi al suo interno sia

esattamente 1 − 𝛼.

[−𝑧

𝛼 ⁄ 2

𝛼 ⁄ 2

] ∶ 𝑃(−𝑧

𝛼 ⁄ 2

𝛼 ⁄ 2

𝛼 2

è quel valore tale per cui Φ(𝑧

𝛼 2

𝛼 2

𝛼

2

Come trovare gli estremi dell’intervallo (partendo dalla formula sopra):

2

2

2

2

) = 𝑃 (𝜇 ∈ [𝑋

2

2

]) = 1 − 𝛼

Quindi:

𝑖

𝑠

𝛼

2

L’intervallo così definito avrà ampiezza 𝑎 = 2 𝑒. Per trovare il valore di 𝑧 𝛼 ⁄ 2

cerco sulle tavole il valore

corrispondente a 1 −

𝛼

2

e individuo le posizioni corrispondenti al valore di 𝑧, al contrario rispetto a quanto fatto

per trovare una certa probabilità per 𝑧 < 𝑥.

Intervallo di confidenza per media della popolazione non normale e deviazione standard non nota

Quando 𝑛 è abbastanza grande (𝑛 > 30 ) e non si conosce lo scarto quadratico medio occorre utilizzare una

stima sia per 𝜇

che per 𝜎

𝑖

2

𝑛

𝑖 = 1

Per il teorema centrale del limite 𝑇~𝑁( 0 , 1 ). Il calcolo dell’intervallo di confidenza di livello 1 − 𝛼 è identico al

precedente, con 𝑆 al posto di 𝜎.

Nel caso di 𝑛 piccolo invece

occorre introdurre un’altra distribuzione chiamata T di Student. In

questo caso si usa la statistica 𝑇, calcolata come la 𝑍 che però non è più distribuita come una normale

standard. Si dice che 𝑇 è distribuita come una T di Student con 𝑛 − 1 gradi di libertà.

Anche la 𝑇 è una variabile aleatoria continua, molto simile alla 𝑍, ma più variabile

. La sua variabilità è

legata al numero di gradi di libertà, per cui quando 𝑛 > 30 le due funzioni 𝑇 e 𝑍 sono quasi uguali.

Intervallo di confidenza: i passaggi per trovare l’intervallo e il livello di confidenza per la 𝛵 sono analoghi a

quelli fatti per 𝑍:

𝑖

𝑠

𝛼 ⁄ 2 ,𝑛− 1

Dove 𝑡 𝛼 ⁄ 2 ,𝑛− 1

è il valore della T di Student con 𝑛 − 1 gradi di libertà che lascia a destra una probabilità pari a

, analogamente a quanto visto per la 𝑧. Per trovare questo valore si usa la tabella della T , cercando il

valore dell’area tra le colonne e cercando l’incrocio con il corrispondente valore di 𝑛 − 1.

Esempio: vogliamo trovare un intervallo di confidenza del 95% per un campione di dimensione 𝑛 = 25 , quindi

con 𝑛 − 1 = 24 e 𝛼 = 0. 05 → 𝛼 2

= 0. 025. Troviamo 𝑡

  1. 025 , 24

Area della coda di destra ( 𝛼 ⁄ 2 )

Gradi di

libertà

Intervalli di confidenza per una proporzione campionaria

Vogliamo stimare la proporzione della popolazione che presenta una certa caratteristica. Detta 𝐶 tale

caratteristica, ci chiediamo quanti 𝑥 𝑖

= 𝐶, ovvero quanti elementi della popolazione presentano la caratteristica

Viene introdotto un nuovo stimatore puntuale (di 𝑝, la proporzione della popolazione) detto proporzione

campionaria 𝑝̂ :

𝑖

𝐶

𝐶

Siamo nel modello binomiale , infatti ogni prova è indipendente e i risultati possono essere riassunti in successi

𝑖

= 𝐶) oppure insuccesso (𝑥

𝑖

≠ 𝐶). La variabile casuale è il numero di successi che si verificano in 𝑛 prove

reiterate, per cui la probabilità di successo o fallimento per ogni elemento del campione è identica.

Test di ipotesi: una verifica (o test) di ipotesi è un metodo statistico che comporta la formulazione di un’ipotesi

e l’uso dei dati campionari per decidere la validità dell’ipotesi stessa.

Il test si compone di cinque fasi :

  1. Formulare l’ ipotesi nulla

𝑜

e l’ ipotesi alternativa

1

𝐴

  1. Definire la statistica test e scegliere 𝛼 (livello di significatività) e definire la “regione di rifiuto”.
  2. Raccogliere i dati, calcolare il valore della statistica test e il livello di significatività osservato (𝑝-

value).

  1. Decidere se rifiutare o meno l’ipotesi nulla. Non si dice che 𝐻

𝑜

viene accettata poiché questo

implicherebbe che abbiamo dimostrato questa ipotesi.

  1. Interpretare la decisione nel contesto di partenza.

Fase 1: formulare l’ipotesi nulla (𝐻 𝑜

) e l’ipotesi alternativa (𝐻

1

𝐴

). L’ipotesi nulla è un’affermazione fatta sul

valore di un parametro della popolazione. L’ipotesi alternativa è un’affermazione contrapposta all’ipotesi nulla.

Sia 𝜃 il parametro sul quale vogliamo formulare l’ipotesi. Dobbiamo definire lo spazio dei parametri 𝐻, definire

l’ipotesi nulla 𝐻 𝑜

𝑜

⊆ 𝐻 e definire l’ ipotesi alternativa come 𝐻

𝐴

𝑜

. Le ipotesi 𝐻

𝑜

e 𝐻

𝐴

sono

mutualmente esclusive (cioè i loro insiemi non hanno intersezioni) ed esaustive (insieme danno l’intero spazio

dei parametri 𝐻).

Di solito 𝐻 𝑜

fa riferimento ad una situazione che si vuole negare , cioè quell’ipotesi a cui si rinuncia solo in

caso di forte evidenza empirica del contrario, come ad esempio la colpevolezza di un imputato.

L’ipotesi 𝐻 1

invece è la circostanza che si vorrebbe verificare come vera , in presenza di prove empiriche

significative.

Fase 2: definire la statistica test e la significatività 𝛼. La statistica test è una funzione dei dati campionari il cui

valore è un numero che riassume le informazioni contenute nei dati campionari e si usa per scegliere tra

l’ipotesi nulla e l’ipotesi alternativa.

Il test è condotto in una condizione di incertezza. Quando questo porta al rifiuto di 𝐻 𝑜

significa che i dati non

sostengono sufficientemente 𝐻 𝑜

, ma non che tale ipotesi sia falsa. È logico pensare che rigettando l’ipotesi

si commetta inevitabilmente un errore.

Qui entra in gioco il livello di significatività. 𝛼 infatti, è la probabilità massima tollerata di rifiutare 𝐻 𝑜

quando

questa è vera (errore di I tipo). Scegliendo questo valore a priori si tiene sotto controllo questo tipo di errore.

La regione di rifiuto dell’ipotesi nulla è l’intervallo (o unione di intervalli) di valori della statistica test che portano

appunto al rifiuto di 𝐻

𝑜

  • La regione di rifiuto è definita da valori critici.
  • L’area della regione di rifiuto corrisponde ad 𝛼 (livello di significatività del test). La regione critica

dipende quindi da 𝛼.

I possibili test sono:

  • A due code: anche detti bidirezionali, si verificano quando la regione di rifiuto è individuata da due

valori critici.

  • A una coda: anche detti unidirezionali, si verificano quando la regione di rifiuto è individuata da un

solo valore critico.

Come si rifiuta (o accetta) l’ipotesi 𝐻 𝑜

Con la regione critica, verificando che il valore della statistica test cada all’interno (o all’esterno) della zona

critica, oppure con il 𝑝 - value.

Il p-value: è un valore che rappresenta l’effettiva probabilità di rifiutare l’ipotesi quando questa è vera, sulla

base dell’evidenza della statistica test. È anche detto livello di significatività osservato.

Criterio di rigetto in base al 𝑝-value:

  • Se 𝑝 < 𝛼 rigetto l’ipotesi 𝐻

𝑜

: la probabilità di rigettare l’ipotesi nulla quando in realtà è vera, date le

osservazioni raccolte, è più bassa di quello che sono disposto a tollerare.

  • Se 𝑝 > 𝛼 non rigetto 𝐻

𝑜

: la probabilità di rigettare l’ipotesi nulla quando in realtà è vera è più alta di

quello che sono disposto a tollerare.

Fase 3: dipende dal tipo di test che stiamo effettuando. In questa fase calcoliamo i valori della statistica test e

del 𝑝-value per avere tutti gli strumenti per poter decidere se rifiutare o meno 𝐻 𝑜

. La scelta del test dipende

ovviamente dalla dimensione 𝑛 del campione, dall’ipotesi che vogliamo verificare e dal tipo di campione a

disposizione.

Fase 4: si usa uno dei metodi indicati nella fase 2 per decidere se rifiutare o meno l’ipotesi nulla, utilizzando i

valori calcolati nella fase 3.

Fase 5: si interpretano le decisioni statistiche prese nella fase 4 con riferimento al contesto iniziale. Sulla base

del test effettuato, quali sono i suggerimenti o le conclusioni a cui si giunge?

Test della media a due code: 𝜎 noto o grandi campioni. Sono riportate le formule di 𝑍 per 𝜎 noto e incognito:

𝑜

𝑜

Se la media 𝑋 è esattamente 𝜇

𝑜

possiamo trovarci nei seguenti casi:

Se conosciamo lo scarto quadratico medio 𝜎:

  • 𝑋 ha distribuzione normale 𝑋~𝑁(𝜇

𝑜

, 𝜎 ), 𝑍 è una normale standard ∀𝑛.

  • 𝑋 non ha distribuzione normale ma 𝑛 > 30 , 𝑍 è una normale standard.

Se non conosciamo lo scarto quadratico medio 𝜎:

  • 𝑋 non ha distribuzione normale ma 𝑛 > 30 , 𝑍 è una normale standard.
  • 𝑋 ha distribuzione normale 𝑋~𝑁

𝑜

e 𝑛 > 30 , 𝑍 è una normale standard.

  • 𝑋 ha distribuzione normale 𝑋~𝑁(𝜇

𝑜

, 𝜎) e 𝑛 ≤ 30 , 𝑍 è una T di Student con 𝑛 − 1 gradi di libertà.

Procedura in fasi

Fase 1: formulazione dell’ipotesi. Si sa a priori che 𝑋~𝑁

𝑜

. Si formulano le ipotesi:

𝑜

𝜊

𝑜

𝜊

Fase 2: scelta della significatività e regione di rifiuto. Sotto 𝐻 𝑜

(cioè se 𝑋 = 𝜇

𝜊

) 𝑍 si distribuisce come una

normale standard. Si nota che valori per 𝑍 → 0 sono a favore di 𝐻 𝑜

, mentre valori lontani da zero (anomali)

sono a favore di 𝐻 1

. Si sceglie di 𝛼, la probabilità massima tollerata di rifiutare 𝐻

𝑜

quando questa è vera (di

solito 0. 01 , 0. 05 o 0. 1 ). Si calcola la regione di rifiuto , ovvero l’area delle code di destra e di sinistra.

Trovo i valori di ±𝑧 𝛼 ⁄ 2

sulle tavole ricordando che:

𝛼 ⁄ 2

𝛼 ⁄ 2

𝛼 ⁄ 2

Questi due valori delimitano la regione di rifiuto, ovvero l’unione degli intervalli esterni.