



















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti di statistica. Argomenti presenti: - Tipi di dati - Statistica descrittiva (dati qualitativi e quantitativi, classi e frequenze) - Distribuzione dei dati - Misure di tendenza centrale (moda, media e mediana) - Misure di dispersione e indici di variabilità (range, varianza e deviazione standard) - Misure di tendenza relativa - Analisi di dati bivariati - Probabilità - Variabili casuali continue - La gaussiana - Variabili normali standard e tabelle z - Distribuzioni campionarie e stimatori - Il teorema centrale del limite - Intervalli di confidenza - Test d'ipotesi (con esempi)
Tipologia: Appunti
1 / 27
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!




















individui fisici), solitamente indicata con 𝑁.
popolazione che può assumere diversi valori.
miniatura della popolazione (deve essere rappresentativo) e si indica con 𝑛.
Un campione può non rappresentare la popolazione. L’ errore che ne deriva dipende dall’ampiezza del
campione (+ ampiezza, + errore) oppure dalla variabilità della popolazione (+ variabilità, + errore). Questa
variabilità è espressa attraverso un grado che è misura di quanto gli elementi della popolazione differiscono
tra loro in riferimento alla variabile studiata.
La dimensione del campione dipende da diversi fattori:
del campione. (+ Variabilità, + Dim. 𝑛).
popolazione che rendono il campione stesso non rappresentativo. È quindi necessario aumentare la
dimensione del campione al diminuire dell’errore tollerabile. (- Errore, + Dim. 𝑛).
riduzione della dimensione del campione, che però a sua volta comporta un aumento dell’errore
commesso. (- Risorse, - Dim. 𝑛 → + Errore).
prelevare il campione, maggiore dovrà essere la dimensione del campione stesso. (+ Dim. 𝑁, + Dim.
Dati qualitativi: assumono un valore non numerico:
esempio il colore degli occhi o il paese di nascita.
o di accordo (molto, abbastanza, poco, per niente…).
Dati quantitativi: sono dati numerici ordinabili e si dividono in:
) e ne fanno parte
dati come il numero di figli o il numero di studenti in una scuola.
e che sono accompagnati da opportune unità di misura. Ne sono un esempio lo stipendio mensile o
l’altezza di una persona.
Siano 𝑎 1
2
3
𝑛
, 𝑛 numeri reali. La loro somma 𝑎
1
2
3
𝑛
si può indicare in forma compatta
sfruttando il simbolo di sommatoria:
𝑖
𝑛
𝑖 = 1
1
2
3
𝑛
Questa scrittura si legge “sommatoria per 𝑖 da 1 a 𝑛 di 𝑎 𝑖
” dove 𝑖 si dice indice di sommatoria, detto indice
muto poiché sostituendolo con altri indici (come 𝑗 o 𝑘) il senso dell’espressione non cambia. Al contrario,
cambia quando 𝑛 è sostituito con un altro numero 𝑚 (diverso dal primo):
𝑖
𝑛
𝑖 = 1
𝑗
𝑛
𝑗 = 1
𝑖
𝑛
𝑖 = 1
𝑖
𝑚
𝑖 = 1
È quella parte della statistica che si occupa della rappresentazione dei dati mediante l’utilizzo di tabelle e
grafici.
Il tutto parte dai dati grezzi , che vanno raccolti e organizzati in un database (o fogli di calcolo) nel quale ogni
riga rappresenta un’unità statistica (generalmente descritta da un codice detto ID) e ogni colonna una variabile.
Per tenere traccia di quante volte ricorre una certa modalità di una variabile, ovvero quante volte un dato si
ripete, si crea una tabella di frequenza che registra:
indicato con 𝑥
𝑖
𝑖
Sia P il numero delle categorie e 𝑓 𝑖
la frequenza, allora la dimensione del campione sarà data da:
𝑖
𝑃
𝑖 = 1
Esempio con dati grezzi qualitativi
𝑖
) e nella seconda la frequenza (𝑓
𝑖
secondo anno, …) e nella seconda colonna le frequenze (𝑓
𝑖
Eventualmente nell’ultima riga si inserisce la sommatoria scritta sopra che dovrà combaciare con la
dimensione (𝑛) del campione.
Esempio con dati grezzi quantitativi
e inserendo anche quelle con frequenza nulla, nella seconda colonna, ancora una volta, inseriamo le
frequenze (𝑓
𝑖
sua, poiché non possiamo usare ogni valore come una categoria per la tabella di frequenza, dato che
non sarebbe una sintesi efficace. Nella tabella compariranno degli intervalli (prima colonna) e di nuovo
le frequenze nella seconda.
Per le variabili continue è necessario definire delle classi , che dovranno comprendere tutti i valori senza
sovrapporsi.
Indici di posizione: sono valori sintetici che forniscono informazione su una distribuzione statistica, usati
generalmente per misurare i valori centrali della distribuzione. Gli indici più usati sono moda, media e mediana.
Moda: può essere calcolata per qualsiasi tipo di dato (qualitativi o quantitativi) e rappresenta la categoria
(valore) con la frequenza più alta. Nel caso di dati continui divisi in classi si parla di classe modale , ovvero
la classe con la frequenza più alta (densità di frequenza).
È possibile avere una distribuzione con più mode (nel caso in cui siano presenti due mode si dirà bimodale) o
con frequenze tutte uguali, caso in cui si dice che non c’è moda.
Mediana: può essere calcolata su dati almeno ordinabili (quindi non su dati qualitativi categoriali) e
rappresenta la categoria centrale di una distribuzione ordinata , cioè la categoria che vede il 50% delle
osservazioni prima di essa e il restante 50% dopo.
Il calcolo della mediana varia in base a 𝑛 (dimensione del campione):
𝑛+ 1
2
𝑛
2
𝑛
2
In questi casi si calcola la posizione della mediana in una distribuzione ordinata di dati. Nel caso di distribuzioni
di frequenza si cerca la classe che per prima raggiunge una frequenza cumulata maggiore del 50% e si parla
di classe mediana.
Media aritmetica: può essere calcolata solo per variabili quantitative, sia discrete che continue. Partendo da
dati grezzi (quindi non da categorie o tabelle di frequenza), è calcolata:
𝑖
𝑛
𝑖 = 1
𝑖
𝑁
𝑖 = 1
Rappresenta il punto di equilibrio dei dati. Per dimostrare questo punto e per verificare che la media calcolata
sia corretta si calcola la sommatoria degli scarti dalla media ottenendo come risultato zero:
𝑖
𝑛
𝑖 = 1
𝑖
𝑁
𝑖 = 1
Per quanto riguarda le distribuzioni di frequenza si calcola la media ponderata , seguendo lo stesso principio
ma moltiplicando ogni valore per la sua frequenza prima di calcolare la sommatoria. Nel caso di dati continui
in classi si individua il valore mediano di ciascuna classe e lo si moltiplica per la frequenza della sua classe:
𝑖
𝑖
𝑃
𝑖 = 1
𝑖
𝑖
𝑃
𝑖 = 1
Nella seconda formula è stato portato
1
𝑛
all’interno della sommatoria e calcolato 𝑟𝑓
𝑖
𝑖
1
𝑛
. Anche in questo
caso deve valere l’ annullamento degli scarti :
𝑖
𝑖
𝑃
𝑖 = 1
Questi indici sono utilizzabili solo per variabili quantitative e indicano quanto i valori si disperdono intorno a
uno degli indici di posizione visti in precedenza, generalmente intorno alla media.
Range : anche detto campo di variazione, è l’intervallo di appartenenza dei dati (solitamente del campione)
che si vogliono studiare. Più il campione è grande e più è probabile che i valori utilizzati per il calcolo del range
siano distorti o non rappresentativi. Il range è dato semplicemente da:
𝑖
𝑛
1
Ci si chiede: quanto distano, in media, tutte le osservazioni dal valore centrale (la media)? Non si possono
utilizzare gli scarti dalla media poiché la loro somma su 𝑛 risulta essere zero, eppure i dati non distano tutti
zero dall’indice di posizione scelto. Si introduce quindi un nuovo indice.
Varianza : è generalmente indicata con 𝜎
2
(popolazione) o 𝑠
2
(campione). Non si calcola la media delle
distanze delle misurazioni dall’indice di posizione sommando gli scarti, bensì sommando i loro quadrati :
2
𝑖
2
𝑁
𝑖 = 1
2
𝑖
2
𝑛
𝑖 = 1
Deviazione standard : anche chiamata scarto quadratico medio, è una misura associata alla varianza che
indica appunto quanto i dati differiscano dal valore centrale.
2
𝑖
2
𝑁
𝑖 = 1
2
𝑖
2
𝑛
𝑖 = 1
Per quanto riguarda le distribuzioni di frequenza il metodo è simile: si calcola la media dei quadrati degli scarti
pesati con la relativa frequenza assoluta (esempio con 𝜎):
2
𝑖
2
𝑁
𝑖 = 1
𝑖
2
𝑖
2
𝑁
𝑖 = 1
𝑖
La regola empirica : la deviazione standard è meno intuitiva del campo di variazione ed è sicuramente più
difficile trarre informazioni da essa. Un modo per farlo è utilizzare la regola empirica, che per distribuzioni
simmetriche a campana (gaussiana) afferma che:
trovano all’interno di un
intervallo ±𝜎 dalla media.
trovano all’interno di un
intervallo ± 2 𝜎 dalla media.
trovano all’interno di un
intervallo ± 3 𝜎 dalla media.
Tabelle di contingenza
Quando si osservano contemporaneamente due variabili di qualsiasi tipo i dati si possono organizzare
utilizzando una tabella a doppia entrata o tabella di contingenza.
Una tabella di questo tipo è costituita da:
𝑖
della prima variabile.
𝑗
della seconda variabile.
coppia di valori/categorie (dette frequenze congiunte assolute o relative).
All’interno della tabella troviamo le frequenze assolute congiunte 𝑓 𝑖𝑗
, ovvero il numero di unità statistiche che
presentano contemporaneamente la categoria 𝑖-esima (per la variabile 1) e la categoria 𝑗-esima (per la
variabile 2).
Ai margini della tabella ci sono le frequenze marginali assolute che rappresentano il numero di unità
statistiche che presentano la categoria 𝑖 oppure 𝑗 per la rispettiva variabile.
Per poter effettuare confronti tra tabelle si calcola la frequenza congiunta relativa, analogamente alla frequenza
relativa, moltiplicando eventualmente per cento se si vogliono ottenere dati percentuali:
𝑖𝑗
𝑖𝑗
Distribuzioni condizionate: calcolare una distribuzione condizionata permette di confrontare le frequenze
relative di una certa classe fissata l’altra. Si scrive 𝑋 | 𝑌 = 𝑦 𝑗
e si legge “𝑋 dato 𝑌 = 𝑦
𝑗
” e viceversa per 𝑌. In
questo modo restringo il campione alle sole unità che presentano il carattere 𝑦 𝑗
(o 𝑥
𝑖
). Queste frequenze
relative si calcolano:
𝑖|𝑗
𝑖𝑗
∙𝑗
𝑗|𝑖
𝑖𝑗
𝑖∙
Sono rispettivamente le frequenze della classe 𝑖 data la classe 𝑗 e la frequenza della classe 𝑗 data la classe 𝑖.
Inoltre, se 𝑋 (o 𝑌) è una variabile quantitativa lo è anche 𝑋 | 𝑌 = 𝑦 𝑗
e posso quindi calcolare le statistiche usuali
come media, varianza e deviazione standard.
Indipendenza: se le distribuzioni condizionate di una variabile sono uguali tra loro (valore per valore) allora
si dice che sono indipendenti, ovvero che non c’è nessuna connessione tra loro. Quando succede si ha:
𝑖|𝑗
𝑖|𝑘
𝑖∙
𝑗|𝑖
𝑗|𝑘
∙𝑗
𝑖∙
∙𝑗
𝑖𝑗
𝑖∙
∙𝑗
𝑖𝑗
Variabile 2
Categoria 1 Categoria 2 … Categoria j Totale
Variabile 1
Categoria 1 𝑓
11
12
1 𝑗
1 ∙
Categoria 2 𝑓
21
22
2 𝑗
2 ∙
Categoria i 𝑓
𝑖 1
𝑖 2
𝑖𝑗
𝑖∙
Totale 𝑓
∙ 1
∙ 2
∙𝑗
n
Se 𝑋 e 𝑌 sono entrambe variabili quantitative, si può studiare il loro comportamento congiunto. Se una variabile
cresce, l’altra come si comporta? Se esiste una relazione lineare tra le due si può scrivere (con 𝑎, 𝑏 costanti):
Per rappresentare graficamente questi
dati si utilizza il grafico a dispersione ,
in cui le coppie di numeri (𝑥 𝑖
𝑗
) sono
rappresentate come punti nel piano. In
via preliminare ci permette di intuire la
relazione tre le due variabili e il loro
andamento congiunto.
Nel caso a destra la relazione tra i dati
è lineare positiva. A seconda del grafico
che otteniamo possiamo notare
relazioni lineari , quadratiche,
esponenziali o nessun tipo di relazione
tra i dati.
Covarianza: indice usato per descrivere come i due insiemi di dati variano tra loro, ovvero per esprimere la
loro dipendenza. È un indicatore della tendenza di due fenomeni a essere sensibili a variazioni in
concomitanza. È importante ricordare che dipendenza non implica causalità e che non-correlazione non
implica indipendenza.
La formula per calcolare la covarianza è:
𝑥𝑦
𝑖
𝑖
𝑛
𝑖 = 1
𝑖
𝑖
𝑛
𝑖 = 1
Ovvero è calcolabile come media dei prodotti degli scarti o come differenza tra la media del prodotto delle
variabili (con valori 𝑥 𝑖
e 𝑦
𝑖
) e il prodotto delle medie (che non è all’interno della sommatoria!).
Una covarianza positiva indica che ha senso attendersi un aumento/diminuzione della seconda grandezza
all’aumentare/diminuire della prima. Le due serie di dati hanno quindi un andamento concorde.
Viceversa, una covarianza negativa indica che i dati hanno un andamento discorde , cioè che ci si aspetta
un aumento/diminuzione della seconda grandezza al diminuire/aumentare della prima.
Il tendere a zero della covarianza indica che la relazione dei dati è pressoché nulla.
Coefficiente di correlazione lineare: è una misura della forza di una relazione lineare. Un coefficiente pari
a 1 indica una perfetta relazione positiva, - 1 indica una perfetta relazione negativa e un coefficiente pari a zero
indica che non esiste relazione. Questo è definito come il rapporto tra la covarianza e il prodotto delle
deviazioni standard di 𝑋 e 𝑌:
𝑖
𝑖
𝑛
𝑖= 1
𝑖
𝑛
𝑖= 1
𝑖
𝑛
𝑖= 1
𝑖
2
2
𝑛
𝑖= 1
𝑖
2
2
𝑛
𝑖= 1
𝑥𝑦
𝑥
𝑦
Misura l’intensità e il segno del legame tra le variabili, ovvero quanto è vera la relazione 𝑌 = 𝑎𝑋 + 𝑏.
0
10
20
30
40
50
60
70
0 5 10 15 20
Variabile Y
Variabile X
Probabilità di un evento: la probabilità di un evento 𝐴, indicata con 𝑃(𝐴), è una misura di quanto sia
verosimile che accada l’evento 𝐴.
Quando ogni esito dello spazio campionario ha la stessa probabilità di verificarsi (esiti equiprobabili ) questa
può essere calcolata:
𝐴
Ad esempio, se lanciamo un dado e chiamiamo 𝐴 l’evento per cui otteniamo un numero pari dal lancio avremo:
Assiomi della probabilità
Conseguenze:
′
Probabilità condizionata: considerati due eventi generici 𝐴 e 𝐵 vogliamo sapere se il verificarsi di 𝐵 ha o
meno influenza sul verificarsi di 𝐴, o viceversa.
La probabilità condizionata si scrive 𝑃(𝐴|𝐵) e si calcola:
Questo ha senso, ovviamente solo se 𝑃
≠ 0. In pratica questa operazione restringe lo spazio prendendo
in considerazione soltanto gli eventi che stanno in 𝐵.
Due eventi sono indipendenti se la probabilità che uno dei due si verifichi non è modificata al verificarsi
dell’altro:
Inoltre, sono indipendenti se la probabilità della loro intersezione è uguale al prodotto delle probabilità dei
singoli eventi:
Si può dimostrare che queste due definizioni sono equivalenti, infatti:
Una variabile aleatoria (o casuale ) 𝑋 è una variabile quantitativa determinata attraverso un esperimento
casuale e i cui valori seguono le regole della probabilità.
Una variabile casuale può essere continua o discreta. L’insieme dei valori che 𝑋 può assumere è detto
supporto o range.
Distribuzione di probabilità: la distribuzione o funzione di probabilità 𝑝(𝑥) di una variabile aleatoria 𝑋 indica
la probabilità che tale variabile assuma un certo valore 𝑥, ovvero la probabilità che 𝑋 = 𝑥:
Le regole della distribuzione di probabilità sono identiche alle regole della probabilità. Detto {𝑥 𝑖
𝑖= 1
𝑃
il range di
𝑖
𝑖
𝑖
𝑖
𝑃
𝑖 = 1
Valore atteso e varianza
Il valore atteso di una variabile casuale discreta 𝑋 con distribuzione di probabilità 𝑝(𝑥) è definito come:
𝑖
𝑖
𝑃
𝑖 = 1
La varianza di una variabile aleatoria discreta 𝑋 con distribuzione di probabilità 𝑝(𝑥) è definita come:
𝑖
𝑃
𝑖 = 1
𝑖
2
Variabile casuale di Bernoulli: considerando un esperimento che può portare solo a due esiti, il “successo”
𝐴 oppure l’insuccesso 𝐴′, con probabilità rispettivamente 𝑝 e 1 − 𝑝, con 𝑝 ∈ ( 0 , 1 ). La funzione di probabilità
della variabile 𝑋 sarà quindi:
Se l’esperimento viene ripetuto 𝑛 volte indipendenti tra loro e si suppone che la probabilità 𝑝 di successo sia
costante per ogni prova, si ottiene una variabile casuale che descrive il numero di successi in 𝑛 prove. Questa
variabile è detta binomiale con parametri 𝑛 e 𝑝:
I valori che questa può assumere sono tutti i valori da zero a 𝑛, cioè il supporto di 𝑋:
In questo caso l’esperimento si compone di 𝑛 prove reiterate, operazione che corrisponde a prendere un
campione di dimensione 𝑛. La probabilità di successo e fallimento è uguale per ogni elemento del campione
in ogni prova, cioè nessuna prova influenza gli esiti delle altre.
La distribuzione di probabilità di 𝑋 dipende dal numero di prove effettuate e dalla probabilità di successi nel
campione. Questa si scrive:
𝑥
𝑛−𝑥
Dove (
) è detto coefficiente binomiale e corrisponde alla scrittura:
Variabili normali standard
Esistono diverse distribuzioni normali 𝑋~𝑁(𝜇, 𝜎) che differiscono tra loro per la scelta dei parametri 𝜇 e 𝜎,
per la posizione del picco (𝜇) o per appiattimento (𝜎 > 0 ).
Una variabile normale standard è quella con funzione di densità normale con media nulla e scarto quadratico
medio pari a 1 :
Questa è utile per calcolare la probabilità che una qualsiasi normale 𝑋~𝑁(𝜇, 𝜎) assuma valori in un certo
intervallo.
Analogamente a quanto fatto per gli z-scores , possiamo standardizzare una variabile sottraendo 𝑋 al valore
atteso e dividendo per 𝜎, ottenendo così 𝑍, una nuova variabile casuale continua che soddisfa le condizioni di
una normale standard, ovvero con media zero e deviazione standard 1.
Calcolare l’area sottesa alla funzione di una normale è
molto difficile; quindi, per ovviare a questo problema
sono state create apposite tabelle in cui sono racchiuse
le probabilità che una variabile casuale assuma un
valore minore di un dato valore 𝑥
𝑖
. Per questo è utile
ricordare che:
Tabelle normali standard: sono tabelle che riportano
l’area sotto la curva normale standard, cioè forniscono i valori delle probabilità relativi alle diverse aree. Per
valori 𝑧 ∈
la tavola riporta i valori di
Ossia ogni valore corrispondente alla probabilità che la variabile casuale 𝑍 assuma un valore minore di 𝑧. Φ(𝑧)
è la cosiddetta funzione di ripartizione della variabile casuale normale standard.
Per trovare questo valore si utilizza la tabella cercando l’incrocio dell’appropriata riga con la colonna
desiderata. Il valore di 𝑧 cercato è nella forma 𝑥. 𝑦𝑤.Sulle righe avremo le prime due cifre 𝑥. 𝑦 mentre sulle
colonne l’ultima cifra decimale 0. 0 𝑤.
Esempio: supponiamo di voler sapere la probabilità che 𝑧 < 0. 64. Andiamo a cercare la riga 0.6 e individuiamo
la colonna corrispondente a 0.04. in questo modo troviamo che la probabilità cercata è 0..
Se nell’esempio precedente avessimo voluto cercare la probabilità che 𝑧 > 0. 64 avremmo potuto
semplicemente sottrarre il valore cercato per 𝑧 < 0. 64 a 1, ovvero l’area totale sottesa alla funzione.
Per trovare invece la probabilità che 𝑧 appartenga a un intervallo si devono cercare le probabilità che 𝑧 sia
minore dei valori estremi e poi farne la differenza:
1
2
2
1
Quindi, per calcolare la probabilità di una variabile normale serve innanzitutto avere media e deviazione
standard. Si trasformano i valori di 𝑋 in valori standardizzati per 𝑍, standardizzando gli estremi dell’intervallo
su 𝑋. Infine, si cercano i valori di 𝑍 sulle tabelle e si calcola la probabilità cercata.
Esempio: si ha una distribuzione con media 75 e scarto quadratico medio 5. Qual è la probabilità che si
ottenga un valore minore di 7 8? Quindi 𝑋~𝑁
? Si inizia standardizzando il valore su cui si
vogliono ottenere informazioni, ovvero 78:
Andando a cercare sulle tabelle la probabilità che 𝑧 < 0. 60 troviamo 0.7257. questo significa che il 72.57%
delle misurazioni restituirà un valore minore (o uguale) a 78.
Statistica inferenziale: si vuole usare l’informazione campionaria per ottenere informazioni probabilistiche
sul comportamento della popolazione.
I valori dei parametri che descrivono la popolazione sono in genere sconosciuti e bisogna quindi utilizzare le
informazioni ottenute dai campioni. Per farlo si usano gli stimatori puntuali.
Stimatore puntuale: è la formula o regola (la trasformazione di dati campionari) usata per calcolare la stima
puntuale, ovvero un numero che descrive un certo parametro 𝜃 della popolazione, per un particolare set di
dati. Esempi di stimatori puntuali sono la media della popolazione
, il suo scarto quadratico medio
o la proporzione della popolazione (𝑝).
Cambiando campione cambia anche la stima, ma non lo stimatore, cioè per due campioni diversi avrò medie
diverse, ma non cambierà il metodo con cui le calcolo. Questo campione viene estratto casualmente seguendo
uno schema probabilistico. Essendo lo stimatore una variabile casuale ci chiediamo quali siano media (𝑋
deviazione standard
e distribuzione di probabilità (detta distribuzione campionaria ).
Proprietà di uno stimatore
Considerando un parametro della popolazione 𝜃 e 𝑇 uno stimatore per tale parametro, esistono delle proprietà
che 𝑇 deve avere:
parametro sconosciuto in modo sistematico. Questo vuol dire che:
stima del parametro sconosciuto. In altre parole, se lo stimatore non è distorto, la varianza di 𝑇 deve
tendere a zero per 𝑛 che tende a infinito:
1
è più efficiente di uno stimatore 𝑇
2
se:
1
2
Ne sono un esempio la media, la moda e la mediana. La prima ha variabilità minore rispetto alle altre
due ed è perciò la scelta migliore come stimatore per la media della popolazione.
Così si calcola l’intervallo simmetrico con centro 𝜇 in cui vi è il 68% di probabilità di osservare la media
campionaria.
Tuttavia, spesso non si conosce il valore vero di 𝜇, ma quello di 𝑋
, che vogliamo usare per fare inferenza su
𝜇. Si determina quindi un intervallo [𝐸 𝑖
𝑠
] (estremo superiore e inferiore) tale che la media vi appartenga con
un 95% (o una qualsiasi percentuale) di probabilità. Chiamando 𝛼 = 0. 05 :
𝑖
𝑠
Stima intervallare: considerando un parametro 𝜃, 𝑇 uno stimatore per tale parametro e fissando un valore
𝛼 ∈ ( 0 , 1 ) si vuole trovare un intervallo [𝐸 𝑖
𝑠
] tale che:
𝑖
𝑠
Se una stima puntuale è definita come un singolo valore numerico, la stima intervallare è un intervallo di valori,
che contenga il valore del parametro con una certa probabilità, detta livello di confidenza.
Un intervallo di confidenza per il parametro 𝜃 è un intervallo casuale [𝐸 𝑖
𝑠
] di valori a cui è associato un
livello di confidenza 1 − 𝛼. Questo quantifica la probabilità che l’intervallo contenga il valore vero del
parametro, l’affidabilità della stima e l’ errore intrinseco nella stima di 𝜃 tramite 𝑇.
Per calcolare questo intervallo è necessario che sia nota la funzione di probabilità di 𝑋
e che 𝑛 sia
sufficientemente grande.
Intervallo di confidenza per la media della popolazione normale e scarto quadratico medio noto
Se 𝑋~𝑁
allora è vero che 𝑋
𝜎
√𝑛
). Sia 𝛼 ∈
, si può scrivere:
𝛼
2
𝛼
2
Dove 𝛼 ⁄ 2 rappresenta l’area delle code lasciate a destra e a sinistra dell’intervallo 1 − 𝛼 e che quindi hanno
𝑎 2
⁄
come valori estremi.
Considerando 𝛼 ∈ ( 0 , 1 ) cerchiamo un intervallo tale che la probabilità di 𝑍 di trovarsi al suo interno sia
esattamente 1 − 𝛼.
𝛼 ⁄ 2
𝛼 ⁄ 2
𝛼 ⁄ 2
𝛼 ⁄ 2
𝛼 2
⁄
è quel valore tale per cui Φ(𝑧
𝛼 2
⁄
𝛼 2
⁄
𝛼
2
Come trovare gli estremi dell’intervallo (partendo dalla formula sopra):
2
2
2
2
2
2
Quindi:
𝑖
𝑠
𝛼
2
L’intervallo così definito avrà ampiezza 𝑎 = 2 𝑒. Per trovare il valore di 𝑧 𝛼 ⁄ 2
cerco sulle tavole il valore
corrispondente a 1 −
𝛼
2
e individuo le posizioni corrispondenti al valore di 𝑧, al contrario rispetto a quanto fatto
per trovare una certa probabilità per 𝑧 < 𝑥.
Intervallo di confidenza per media della popolazione non normale e deviazione standard non nota
Quando 𝑛 è abbastanza grande (𝑛 > 30 ) e non si conosce lo scarto quadratico medio occorre utilizzare una
stima sia per 𝜇
che per 𝜎
𝑖
2
𝑛
𝑖 = 1
Per il teorema centrale del limite 𝑇~𝑁( 0 , 1 ). Il calcolo dell’intervallo di confidenza di livello 1 − 𝛼 è identico al
precedente, con 𝑆 al posto di 𝜎.
Nel caso di 𝑛 piccolo invece
occorre introdurre un’altra distribuzione chiamata T di Student. In
questo caso si usa la statistica 𝑇, calcolata come la 𝑍 che però non è più distribuita come una normale
standard. Si dice che 𝑇 è distribuita come una T di Student con 𝑛 − 1 gradi di libertà.
Anche la 𝑇 è una variabile aleatoria continua, molto simile alla 𝑍, ma più variabile
. La sua variabilità è
legata al numero di gradi di libertà, per cui quando 𝑛 > 30 le due funzioni 𝑇 e 𝑍 sono quasi uguali.
Intervallo di confidenza: i passaggi per trovare l’intervallo e il livello di confidenza per la 𝛵 sono analoghi a
quelli fatti per 𝑍:
𝑖
𝑠
𝛼 ⁄ 2 ,𝑛− 1
Dove 𝑡 𝛼 ⁄ 2 ,𝑛− 1
è il valore della T di Student con 𝑛 − 1 gradi di libertà che lascia a destra una probabilità pari a
, analogamente a quanto visto per la 𝑧. Per trovare questo valore si usa la tabella della T , cercando il
valore dell’area tra le colonne e cercando l’incrocio con il corrispondente valore di 𝑛 − 1.
Esempio: vogliamo trovare un intervallo di confidenza del 95% per un campione di dimensione 𝑛 = 25 , quindi
con 𝑛 − 1 = 24 e 𝛼 = 0. 05 → 𝛼 2
= 0. 025. Troviamo 𝑡
Area della coda di destra ( 𝛼 ⁄ 2 )
Gradi di
libertà
Vogliamo stimare la proporzione della popolazione che presenta una certa caratteristica. Detta 𝐶 tale
caratteristica, ci chiediamo quanti 𝑥 𝑖
= 𝐶, ovvero quanti elementi della popolazione presentano la caratteristica
Viene introdotto un nuovo stimatore puntuale (di 𝑝, la proporzione della popolazione) detto proporzione
campionaria 𝑝̂ :
𝑖
𝐶
𝐶
Siamo nel modello binomiale , infatti ogni prova è indipendente e i risultati possono essere riassunti in successi
𝑖
= 𝐶) oppure insuccesso (𝑥
𝑖
≠ 𝐶). La variabile casuale è il numero di successi che si verificano in 𝑛 prove
reiterate, per cui la probabilità di successo o fallimento per ogni elemento del campione è identica.
Test di ipotesi: una verifica (o test) di ipotesi è un metodo statistico che comporta la formulazione di un’ipotesi
e l’uso dei dati campionari per decidere la validità dell’ipotesi stessa.
Il test si compone di cinque fasi :
𝑜
e l’ ipotesi alternativa
1
𝐴
value).
𝑜
viene accettata poiché questo
implicherebbe che abbiamo dimostrato questa ipotesi.
Fase 1: formulare l’ipotesi nulla (𝐻 𝑜
) e l’ipotesi alternativa (𝐻
1
𝐴
). L’ipotesi nulla è un’affermazione fatta sul
valore di un parametro della popolazione. L’ipotesi alternativa è un’affermazione contrapposta all’ipotesi nulla.
Sia 𝜃 il parametro sul quale vogliamo formulare l’ipotesi. Dobbiamo definire lo spazio dei parametri 𝐻, definire
l’ipotesi nulla 𝐻 𝑜
𝑜
⊆ 𝐻 e definire l’ ipotesi alternativa come 𝐻
𝐴
𝑜
′
. Le ipotesi 𝐻
𝑜
e 𝐻
𝐴
sono
mutualmente esclusive (cioè i loro insiemi non hanno intersezioni) ed esaustive (insieme danno l’intero spazio
dei parametri 𝐻).
Di solito 𝐻 𝑜
fa riferimento ad una situazione che si vuole negare , cioè quell’ipotesi a cui si rinuncia solo in
caso di forte evidenza empirica del contrario, come ad esempio la colpevolezza di un imputato.
L’ipotesi 𝐻 1
invece è la circostanza che si vorrebbe verificare come vera , in presenza di prove empiriche
significative.
Fase 2: definire la statistica test e la significatività 𝛼. La statistica test è una funzione dei dati campionari il cui
valore è un numero che riassume le informazioni contenute nei dati campionari e si usa per scegliere tra
l’ipotesi nulla e l’ipotesi alternativa.
Il test è condotto in una condizione di incertezza. Quando questo porta al rifiuto di 𝐻 𝑜
significa che i dati non
sostengono sufficientemente 𝐻 𝑜
, ma non che tale ipotesi sia falsa. È logico pensare che rigettando l’ipotesi
si commetta inevitabilmente un errore.
Qui entra in gioco il livello di significatività. 𝛼 infatti, è la probabilità massima tollerata di rifiutare 𝐻 𝑜
quando
questa è vera (errore di I tipo). Scegliendo questo valore a priori si tiene sotto controllo questo tipo di errore.
La regione di rifiuto dell’ipotesi nulla è l’intervallo (o unione di intervalli) di valori della statistica test che portano
appunto al rifiuto di 𝐻
𝑜
dipende quindi da 𝛼.
I possibili test sono:
valori critici.
solo valore critico.
Come si rifiuta (o accetta) l’ipotesi 𝐻 𝑜
Con la regione critica, verificando che il valore della statistica test cada all’interno (o all’esterno) della zona
critica, oppure con il 𝑝 - value.
Il p-value: è un valore che rappresenta l’effettiva probabilità di rifiutare l’ipotesi quando questa è vera, sulla
base dell’evidenza della statistica test. È anche detto livello di significatività osservato.
Criterio di rigetto in base al 𝑝-value:
𝑜
: la probabilità di rigettare l’ipotesi nulla quando in realtà è vera, date le
osservazioni raccolte, è più bassa di quello che sono disposto a tollerare.
𝑜
: la probabilità di rigettare l’ipotesi nulla quando in realtà è vera è più alta di
quello che sono disposto a tollerare.
Fase 3: dipende dal tipo di test che stiamo effettuando. In questa fase calcoliamo i valori della statistica test e
del 𝑝-value per avere tutti gli strumenti per poter decidere se rifiutare o meno 𝐻 𝑜
. La scelta del test dipende
ovviamente dalla dimensione 𝑛 del campione, dall’ipotesi che vogliamo verificare e dal tipo di campione a
disposizione.
Fase 4: si usa uno dei metodi indicati nella fase 2 per decidere se rifiutare o meno l’ipotesi nulla, utilizzando i
valori calcolati nella fase 3.
Fase 5: si interpretano le decisioni statistiche prese nella fase 4 con riferimento al contesto iniziale. Sulla base
del test effettuato, quali sono i suggerimenti o le conclusioni a cui si giunge?
Test della media a due code: 𝜎 noto o grandi campioni. Sono riportate le formule di 𝑍 per 𝜎 noto e incognito:
𝑜
𝑜
Se la media 𝑋 è esattamente 𝜇
𝑜
possiamo trovarci nei seguenti casi:
Se conosciamo lo scarto quadratico medio 𝜎:
𝑜
, 𝜎 ), 𝑍 è una normale standard ∀𝑛.
Se non conosciamo lo scarto quadratico medio 𝜎:
𝑜
e 𝑛 > 30 , 𝑍 è una normale standard.
𝑜
, 𝜎) e 𝑛 ≤ 30 , 𝑍 è una T di Student con 𝑛 − 1 gradi di libertà.
Procedura in fasi
Fase 1: formulazione dell’ipotesi. Si sa a priori che 𝑋~𝑁
𝑜
. Si formulano le ipotesi:
𝑜
𝜊
𝑜
𝜊
Fase 2: scelta della significatività e regione di rifiuto. Sotto 𝐻 𝑜
(cioè se 𝑋 = 𝜇
𝜊
) 𝑍 si distribuisce come una
normale standard. Si nota che valori per 𝑍 → 0 sono a favore di 𝐻 𝑜
, mentre valori lontani da zero (anomali)
sono a favore di 𝐻 1
. Si sceglie di 𝛼, la probabilità massima tollerata di rifiutare 𝐻
𝑜
quando questa è vera (di
solito 0. 01 , 0. 05 o 0. 1 ). Si calcola la regione di rifiuto , ovvero l’area delle code di destra e di sinistra.
Trovo i valori di ±𝑧 𝛼 ⁄ 2
sulle tavole ricordando che:
𝛼 ⁄ 2
𝛼 ⁄ 2
𝛼 ⁄ 2
Questi due valori delimitano la regione di rifiuto, ovvero l’unione degli intervalli esterni.