





















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
- Distribuzioni campionarie - Stima - Verifica di ipotesi - Inferenza sul modello di regressione lineare
Tipologia: Dispense
1 / 29
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!






















Finora in statistica abbiamo lavorato con popolazioni (piccole) che comprendevano le totalità delle
unità. Con questa popolazione poi avevamo fatto delle sintesi (grafici, indici, tabelle, …). Ora non
lavoreremo più con le popolazioni, ma con dei campioni (un sottoinsieme della popolazione).
Perché osservare un campione?
Per una questione di tempo in quanto riduce le tempistiche, per una questione di soldi in quanto
intervistare una intera popolazione è costoso e anche per questioni di impossibilità (popolazione
infinita). È molto più frequente osservare un campione che osservare una intera popolazione.
Il passaggio da popolazione a campione (teoria dei campioni) lo prendiamo come dato.
Come fatto per la popolazione anche per i campioni faremo delle sintesi, dette sintesi
campionarie. A cosa ci interessano? L’obiettivo è sempre la sintesi della popolazione, il campione
è uno strumento per arrivare a dire qualcosa della popolazione.
La probabilità entra in gioco perché, ad esempio, per il campione che devo osservare devo estrarre
casualmente un determinato numero della popolazione. Il campione che osservo è il risultato
dell’esperimento aleatorio che osservo, ossia l’estrazione. L’estrazione non solo porta ad un
campione che può essere diverso, ma porta anche dei risultati completamente diversi.
Quello che faremo sarà dire qualcosa sulla popolazione partendo da un campione, il quale avrà un
base di incertezza in quanto non si osserva l’intera popolazione.
DISTRIBUZIONE CAMPIONARIA DELLA MEDIA
Abbiamo una popolazione misera di 3 individui. Estraiamo un campione di 2 individui. Questa
popolazione è composta dai voti del parziale di 3 persone.
Se osservo l’intera popolazione posso fare:
!
Se si estrae casualmente per poi reinserire si parla allora di campionamento casuale semplice
con reintroduzione (CCSCR).
Qualora facessi un CCSCR nell’esempio di prima potrebbero uscirmi due 14:
o ancora:
𝑛 = { 14 , 23 }, 𝑛 = { 14 , 30 }, 𝑛 = { 23 , 14 }, 𝑛 = { 23 , 23 }, 𝑛 = { 23 , 30 }, 𝑛 = { 30 , 14 }, 𝑛 = { 30 , 23 }, 𝑛 = { 30 , 30 }
Nel risultato della prima estrazione uso dei valori possibili della variabile aleatoria associata alla
prima estrazione. Riprendendo quanto detto in precedenza, la variabile aleatoria è l’insieme
numerico associato ai risultati di un esperimento aleatorio. Alla prima estrazione io ho una variabile
aleatoria che può assumere tre valori, i valori che mi usciranno rappresenteranno la variabile
aleatoria.
"
Si tratta di una variabile discreta identicamente distribuita.
Allo stesso modo:
!
Lavorando con tutti i possibili campioni sono interessata a calcolare il valore medio:
"
!
"
!
Sapevamo già che la media dell’intera popolazione era pari a 22,33. Osservando la tabella è
possibili notare che indipendentemente dal campione di riferimento non ottengo mai la media
dell’intera popolazione.
La colonna che abbiamo chiamato media, in realtà non lo è (lo è 22,33), pertanto si indicherà la
media campionaria con 𝜇̂. La media del campione non è un numero, ma una variabile aleatoria in
quanto assume valori diversi a seconda del campione estratto (risultato dell’esperimento aleatorio).
I valori che può assumere la media campionaria sono 6:
$
#%"
$
#%"
Calcolando il valore atteso delle medie campionarie e delle rispettive probabilità è possibile
ottenere la media della popolazione. Ciò altro non è che un’applicazione del teorema centrale del
limite perché secondo tale teorema se avevamo 𝑥 "
!
&
indipendenti ed identicamente
distribuite con 𝐸(𝑥) = 𝜇 e 𝑉(𝑥) = 𝜎
!
, allora:
&
!
Tuttavia, noi consideriamo solo la prima parte del teorema poiché 𝑛 non tende ad infinito. in quanto
troppo piccolo (2). Il teorema funziona lo stesso anche se tolgo la forma distributiva. Il teorema
centrale del limite ha una formulazione, che abbiamo fatto noi, dove 𝑛 deve essere molto grade e
tendere all’infinito, questo 𝑛 è nel nostro caso la dimensione del campione (nell’esempio
piccolissimo). Il teorema non lo posso usare nella sua forma definitiva dove lavoro con una
Normale, perché piccolissimo, ma la media e la varianza della Normale rimangono anche se non
ho la forma distributiva. La cosa importante è che siano indipendenti ed identicamente distribuite.
Il campionamento casuale semplice con reintroduzione serve appunto ad avere delle variabili
aleatorie 𝑥 indipendenti ed identicamente distribuite. Questo succede per qualsiasi numerosità
della popolazione e qualsiasi numerosità del campione, inoltre, succede sempre se lavoro con un
campionamento casuale con reintroduzione.
Considerando sempre come variabile aleatoria la media campionaria (𝜇̂ ) è possibile calcolare,
inoltre, la varianza:
!
!
!
𝑛 → ∞
La numerosità grande serve come convergenza ad una Normale quando non so da quale situazione
parto, ma se le 𝑥 di partenza sono Normali, indipendentemente dalla numerosità, la somma di
Normali divisa per una costante è sicuramente una Normale.
Finora abbiamo osservato come si comporta una media campionaria. La media campionaria si
comporta come una variabile aleatoria che ha come valore atteso la media della popolazione e
come varianza la varianza della popolazione fratto 𝑛. La media campionaria tende ad una Normale
quando la numerosità è abbastanza grande oppure quando il carattere 𝑥 che sto estraendo è già
una Normale.
DISTRIBUZIONE CAMPIONARIA DELLA VARIANZA
Mentre la media della popolazione è un numero, la media campionaria è una variabile aleatoria
perché assume valori diversi a seconda del campione estratto e ogni campione è il risultato di un
esperimento aleatorio che è l’estrazione.
Una volta che ho il campione posso calcolarci moda, media, mediana, campo di variazione,
varianza e qualsiasi cosa vogliamo calcolare. Tutto quello fatto ino ad ora in descrittiva lo possiamo
rifare a livello campionario. Per il campione faremo solo tre cose: media, varianza e.
Riprendendo l’esempio dei 3 compiti, con campione 2, notiamo che tutti i 9 campioni possibili altro
non sono che lo spazio/universo campionario (Ω), quindi l’insieme dei possibili risultati.
Abbiamo calcolato la media, ora occupiamoci del calcolo della varianza campionaria.
"
!
"
!
!
1
1
!
'(")*"+,-)
!
/(!0*"+,-)
!
1
!
Si può notare che anche per la varianza, così come accadeva per la media, nessuna varianza
campionaria assume valore diverso a seconda del campione estratto. È possibile arrivare alla
conclusione che anche la varianza campionaria è una variabile aleatoria. Si può fare la sua
distribuzione di probabilità , ossia osservare tutti i possibili campioni della varianza e calcolarne
la probabilità di verificarsi.
!
!
!
!
!
!
!
!
!
Dal momento che il valore atteso della varianza campionaria è diverso dalla varianza della
popolazione. Per questo motivo è utilizzata poco, viene utilizzata invece la varianza campionaria
corretta , tramite la quale si corregge il valore atteso della varianza campionaria affinché si ottenga
un valore atteso pari alla varianza della popolazione.
Si chiama esse-quadro (𝑠̂
!
), sapendo che la varianza campionaria si calcola come:
!
2
!
&
2 %"
correggendola abbiamo:
!
2
!
&
2 %"
Proviamo a calcolarla:
!
!
!
!
!
!
!
!
!
Se sappiamo la varianza campionaria e vogliamo trovare esse-quadro basterà fare:
!
!
e viceversa:
!
!
Il fattore correttivo
&
&*"
ha importanza fintanto che 𝑛 è piccolo. 𝑠̂
!
e 𝜎P
!
si assomigliano sempre più
man mano che la dimensione campionaria aumenta. La differenza tra 𝑠̂
!
e 𝜎P
!
diventa via via
trascurabile all’aumentare della dimensione campionaria. Il fattore correttivo, infatti, quando 𝑛 è
piccolo risulta importante facendo risaltare la differenza tra 𝑠̂
!
e 𝜎P
!
Abbiamo fatto una estrazione di 𝑛 elementi da una popolazione composta da 𝑁 unità tramite
campionamento casuale semplice con reintroduzione (ogni estrazione è indipendente da quella
precedente). Abbiamo costruito poi la variabile aleatoria media campionaria e la variabile aleatoria
varianza campionaria, non solo anche la variabile aleatori esse-quadro. Di ciascuna variabile
aleatoria abbiamo calcolato il valore atteso (media) e la varianza:
34
34
!
!
!
54
! = 𝐸(𝜎P
!
!
54
!
!
!
!
6 ̂
!
!
6 ̂
!
!
!
Mentre la media campionaria a certe condizioni si distribuisce come una Normale, varianza e esse-
quadro non possono in quanto quadrati. La Normale ha un campo di variazione che va da −∞ a
+∞, mentre la varianza ha un campo di variazione che va da 0 al suo massimo. Allora sia varianza
campionaria che esse-quadro tenderanno a una Chi-quadro (presenta solo valori positivi).
La probabilità interviene nel campione solo ed esclusivamente prima di estrarre un campione. Una
volta che si è verificato l’esperimento le probabilità non esistono più.
DISTRIBUZIONE CAMPIONARIA DI UNA PROPORZIONE
Prendiamo i risultati del primo parziale, gli esiti possibili erano due: sufficiente e insufficiente.
Abbiniamo a sufficiente 1 e a insufficiente 0. Prendiamo 𝑋 come sommatoria delle 𝑦 2
2
8
2 %"
Costruisco la proporzione su tutti i 155 studenti che hanno fatto il primo parziale come 100, ossia
il numero dei sufficienti su una popolazione di 155:
2
8
2 %"
dove:
che ha:
Lavorando con la Binomiale si ottiene:
Altro modo per comprenderlo meglio è ricorrere al teorema del limite centrale. Quando si lavora
con una sommatoria fratto 𝑛 (
6
"
&
), e in questo caso 𝑝 lo è, si può distribuire come una Normale se 𝑛
tende ad infinito, ma anche se 𝑛 non tende ad infinito avrò:
&
Questo perché lavoro con 𝑠
&
(somma di Bernoulli) fratto 𝑛 che ha come valore atteso il valore atteso
della Bernoulli e come varianza la varianza della Bernoulli fratto 𝑛.
Finora abbiamo constatato che:
!
!
!
&*"
!
Queste distribuzioni saranno importanti per tutta la statistica inferenziale che affronteremo. Queste
distribuzioni (media campionaria, varianza campionaria corretta e proporzione campionaria) sono
delle distribuzioni solo dell’universo dei campioni. La probabilità si esaurisce con l’estrazione.
𝑛 → ∞
𝑛 → ∞
𝑛 → ∞
𝑛 → ∞
STATISTICA INFERENZIALE
Tutti questi calcoli effettuati sul campione sono detti statistiche campionarie. Quando si studia
una popolazione si effettuano delle sintesi (grafici, tabelle, indici, …), quando lavoriamo con le
statistiche campionarie dobbiamo sempre arrivare alla sintesi, ma questa volta non partiremo dalla
popolazione bensì dalle statistiche campionarie. Le sintesi sono delle incognite, tuttavia, non
abbiamo i mezzi per arrivare alla loro formulazione. Sappiamo che le sintesi sono dei numeri, quindi
sono parametri non noti e quello che abbiamo sono delle statistiche campionarie, pur sempre
numeri ma di variabili aleatorie. Per far ciò ricorreremo alle stime che vogliono identificare i
parametri (sintesi) della popolazione a partire dai campionari. Le stime come dice appunto la parola
stessa è una determinazione del valore che ha un grado di incertezza. La differenza tra stimare e
calcolare è che nella prima c’è dell’incertezza, non parliamo più in termini deterministici ma
probabilistici. La stima può essere di due tipi puntuale (numero) o intervallare (intervallo). Altra
cosa che possiamo fare è la verifica di ipotesi , ossia si avranno delle ipotesi che in base ai dati
del campione sarà da accettare o da rifiutare, si daranno delle percentuali sulla probabilità di
confidenza di indovinare, sempre senza conoscere la popolazione e il parametro. I parametri
saranno indicati con la lettera theta 𝜃. Il parametro è il nostro punto di riferimento che vogliamo
stimare e lo facciamo tramite uno stimatore , ossia un calcolo/formula/funzione (𝑡(𝑥
"
!
&
)) dei
valori del campione.
Riprendendo la formula della varianza campionaria corretta e sviluppandola otteniamo:
Dentro alla parentesi vi sono le variabili standardizzate. Se la variabile 𝑋 è una Normale, il lato
destro è la somma di Normali standardizzate. Le X sono indipendenti perché provengono da un
CCSCR. È possibile affermare allora che il lato destro si distribuisce come un Chi-quadro con 𝑛 −
1 gradi di libertà:
!
!
&*"
!
In realtà le 𝑋 non sono tutte indipendenti tra loro perché deve succedere che l’ultima 𝑋 collegata
alla media campionaria deve far si che la sommatoria delle 𝑥 2
− 𝜇̂ sia pari a 0. I gradi di libertà, che
sono in realtà variabili che possono assumere qualunque valore, non sono 𝑛, ma 𝑛 − 1. Si perde
un grado di libertà perché la media campionaria deve essere un numero che rende pari a 0 le
differenze tra esse.
!
2
!
&
2 %"
!
2
!
&
2 %"
!
!
!
2
!
&
2 %"
!
!
2
!
&
2 %"
divido entrambi i lati per una costante 𝜎
!
sposto
"
&*"
!
se la differenza 𝑥 − 𝜇 diventa piccola e tende a 0 significa che anche la varianza tende a 0,
a patto che la numerosità del campione tenda ad infinito.
Analizziamo ora la varianza della media campionaria che è:
!
se la dimensione del campione aumenta (𝑛), la varianza diminuisce.
Se si ragiona in forma distributiva, dato che sotto date condizioni la media campionaria
diventa una Normale, la Normale, al diminuire della varianza, diventa più stretta e lunga e, di
conseguenza, più concentrata sul parametro. Allo stesso modo all’aumentare della
dimensione campionaria si commetterà un errore sempre più piccolo.
varianza misura quanti valori si allontanano dalla media, se ha una varianza più piccola
significa che i valori sono più vicini alla media e, quindi, più vicini al parametro. Calcoliamo
la varianza di 𝑡
"
e 𝑡
!
, supponendo che 𝑛 = 4 :
"
!
!
"
"
!
"
!
"
!
!
!
!
!
Conclusione: per stimare una media si utilizza la media campionaria.
𝟏
𝒏
!
!
!
!
!
!
Lo stimatore è la formula che si applica all’unico campione di cui disponiamo, il numero che
otteniamo è la stima. La stima non è né una probabilità, né una variabile, è semplicemente un
numero.
Questi stimatori forniscono un valore, pertanto sono delle stime puntuali.
STIMA INTERVALLARE
La popolazione è distribuita normalmente. Non conosciamo la media (𝜃) della Normale, ma la
varianza. Lavoriamo con la media campionaria, che è ciò che voglio stimare e userò lo stimatore
della media campionaria. Quello che voglio trovare sono due valori (𝑣
"
e 𝑣
!
) che siano l’estremo
superiore e l’estremo inferiore di un intervallo in cui spero che sia compreso il mio parametro
incognito.
So che se la popolazione si distribuisce normalmente, anche la media campionaria si distribuirà
normalmente con media quella della popolazione varianza uguale alla varianza della popolazione
fratto 𝑛:
!
A livello grafico avremo:
una Normale centrata sulla media, cerchiamo due valori (𝑣
"
e 𝑣
!
) che comprendo il parametro
(media) in un’area pari a 1 − 𝛼, dato che le code sono pari a 𝛼/ 2. In altre parole, sto scrivendo che
la probabilità di avere la media campionaria tra 𝑣
"
e 𝑣
!
è uguale a 1 − 𝛼:
"
!
Possiamo standardizzare questa Normale:
𝑃 q
"
!
r = 1 − 𝛼
Riscrivendola avremo:
𝑃 q𝑧
"
!
r = 1 − 𝛼 ⟹ 𝑃 q−𝑧@
!
!
r = 1 − 𝛼
L’unica variabile è la media campionaria, tutto il resto sono delle costanti. Tramite una disequazione
spostiamo quello che non conosciamo, ossia la media della popolazione, e otteniamo:
!
!
Ho eliminato la probabilità perché il numero al centro (media) è una costante, non è possibile dire
che una costante ha una determinata probabilità di essere compreso tra due valori: o la costante
è compresa o non lo è.
Non so con certezza quale intervallo mi fornisce il campione, l’unica cosa che so è che prima di
estrarre il campione 95 possibilità su 100 (= 1 − 𝛼) di beccarci. Una volta estratto il limite superiore
e inferiore ci dice che copriamo un intervallo di confidenza al 95%, non ho più una probabilità del
95%, ma una fiducia.
I limiti dell’intervallo sono dati, in base al fatto che siano superiori o inferiori, dalla differenza o
somma tra la media campionaria e l’errore, il quale è dato da 𝑧
!
5
√
&
. All’aumentare di 1 − 𝛼, quindi
della confidenza, l’errore aumenta.
Se aumentiamo la dimensione campionaria, l’errore diminuisce. All’aumentare della varianza
(variabilità) l’intervallo è costretto ad essere più grande, a parità di 𝑛 e di 1 − 𝛼, e, di conseguenza,
l’errore aumenta.
Abbiamo un campione casuale di quattro unità (CCSCR) e un carattere che ci interessa (𝑋),
distribuito come una Normale, e rappresenta i pranzi fuori casa al mese della popolazione.
Sappiamo che la Normale ha uno scarto quadratico medio pari a 3 e le osservazioni sono 12, 9,
Costruire un intervallo di confidenza al 95% per la media della popolazione.
B8C
!
DEF
!
Andiamo a calcolare i limiti:
@
!
9 ,9!-
𝐴u𝜇 ≤ 𝑥 ≤ 𝑧
9 ,)G-
v = 1 , 96
B8C
!
"
!
limite inferiore limite superiore
!
!
( &*"
) ;
@
!
(!9*");
9 ,9-
!
"I; 9 ,9!-
𝐴u 0 ≤ 𝑥 ≤ 𝑡
"I,9!-
v = 2 , 093
B8C
( &*"
) ;
@
!
DEF
(&*");
@
!
TEOREMA DI ČEBYŠËV (CEBICEV)
Secondo questo teorema se si prende un qualunque stimatore (𝑡
"
&
) è sempre compreso
tra due quantità che sono:
J
J
"
&
J
J
La probabilità che ciò sia vero è sempre maggiore della probabilità di una quantità che dipende da
J
J
"
&
J
J
!
Questa probabilità è molto simile a quella vista per la stima intervallare con le sole differenze che
qui si ha il segno maggiore, e non uguale, e che la parte destra è data da 1 −
"
$
!
, e non da 1 − 𝛼.
Se usiamo alfa come
"
$
!
otteniamo un intervallo di confidenza:
!
Si tratta di un intervallo di confidenza cautelativo, è tendenzialmente sempre un po’ più grande
dato che non sappiamo come è fatta la distribuzione. Ci da’, quindi, un intervallo di confidenza
anche nei casi in cui non sapremo cosa fare poiché non sappiamo la distribuzione.
Se lo applichiamo al caso della media campionaria abbiamo che l’intervallo è dato da:
Questo intervallo di confidenza ha almeno una confidenza di 1 − 𝛼. Se al posto di 𝑡, uso
"
√@
aumenta
l’incertezza.
CHI-QUADRO
Moltiplicando 𝑠̂
!
per
&*"
5
!
, questa tenderà ad un chi-quadro (curva solo sulla parte positiva
asimmetrica, all’aumentare dei gradi di libertà, superiore a 30, l’asimmetria si avvicina alla
simmetria) con 𝑛 − 1 gradi di libertà. Quello che si vuole trovare è 𝑠̂
!
, o meglio la probabilità che
questo sia compreso tra due valori. Questa probabilità deve essere pari a 1 − 𝛼:
"
!
!
per lavorare su una chi-quadro, la probabilità si dovrà riscrivere come:
!
"
!
!
!
!
Essendo una distribuzione asimmetrica le code presenteranno valori diversi:
Quindi:
"*
@
!
!
!
@
!
Muovendo i valori è possibile ottenere un intervallo di confidenza per la varianza della popolazione:
!
( &*"
) ;
@
!
!
!
( &*"
) ;"*
@
!
Abbiamo un lanciatore di coltelli che vuole fare una polizza di responsabilità professionale per la
compagna. L’assicuratore non ha una tabella con i relativi rischi inerenti a ciò, allora decide di
chiedere al lanciatore di coltelli di fare 30 lanci nel quale dovrà centrare un bersaglio. L’assicuratore
per ciascun lancio prende la misura tra il coltello e il centro (di quanto sbaglia il lanciatore. Questa
distanza è la nostra 𝑋. L’assicuratore ha calcolato la varianza campionaria corretta che è risultata
pari a 25 cm
2
Considerando la 𝑋 come una Normale, qual è l’intervallo di confidenza al 90% della distanza?
B8C
!
( &*"
) ;
@
!
DEF
!
(&");"
@
!
( &*"
) ;
@
!
( 09 *"
) ;
9 ,"
!
!I; 9 ,9-
(&");"
@
!
( 09 *"
) ;"*
9 ,"
!
!I; 9 ,I-
B8C
!
(&*");
@
!
DEF
!
( &*"
) ;"*
@
!
STIMA DI UNA PROPORZIONE
La proporzione si applica nei campioni molto grande (𝑛 > 100 ). Quando si lavora con campioni così
grandi, si può lavorare con una Normale e anche in questo caso si calcolerà una probabilità, in
questo caso la probabilità che la proporzione campionaria sia compresi tra due valori che stanno
su una Normale:
"
!
Quando 𝑛 ≥ 100 , la 𝑝̂ si distribuisce come una Normale con media 𝑝 e varianza
:("*:)
&
. Sapendo
ciò standardizziamo la probabilità di prima:
"
!
dato che si distribuisce come una Normale e vogliamo isolare 𝑝, avremo:
@
!
@
!
Tuttavia, questi non sono i limiti, poiché noi cerchiamo di stimare 𝑝 e la varianza dello stimatore
:
( "*:
)
&
dipende anch’essa dall’incognita 𝑝. Pertanto, ne farò una stima e le 𝑝 diventeranno
campionarie 𝑝̂.
limite inferiore limite superiore
!
!
B8C
DEF
INTRODUZIONE
Che cos’è un’ipotesi?
… un’ipotesi statistica è stabilire un valore/un insieme di valori/una qualunque affermazione
riguardo ai valori che specifica o interamente o parzialmente un parametro della popolazione.
Che cos’è una verifica di ipotesi?
È un test che permette di dire se quello che osservo è compatibile o no con la mia ipotesi.
Compatibile perché l’ipotesi la facciamo sulla popolazione, mentre il test sul campione. Quello che
si dirà alla fine non sarà mai se l’ipotesi è vera o falsa perché non lo sappiamo. Quello che, invece,
è possibile concludere è che l’evidenza campionaria/empirica ci permette di dire se l’ipotesi è da
rifiutare o da non rifiutare in base al solo campione che seguiamo.
Come si fa l’ipotesi? Che tipo di ipotesi facciamo?
Ci sono due ipotesi:
nulla perché si indica con 𝐻
9
"
Sia 𝐻 9
che 𝐻
"
possono essere ipotesi semplici o composte. Ipotesi semplice significa che ha un
unico valore (ad es. la media uguale a tre), di conseguenza, ipotesi composta significa che ha un
insieme di valori (la media è inferiore a tre). Tali due ipotesi sono disgiunte, ossia non esistono valori
che sono sia ipotesi semplici che ipotesi composte.
La procedura parte da un universo campionario Ω, il quale contiene tutti i campioni possibili, su
ogni campione si può calcolare una stima. Da ogni campione possibile, quindi, discendono delle
statistiche campionarie. Quello che ci serve è una regola decisionale , ossia trovare una regola per
dividere le statistiche campionarie in due, dove una parte rifiuto 𝐻
9
e dall’altra non lo rifiuto.
VERIFICA DI IPOTESI PER LA MEDIA
Ipotizziamo che il treno Rimini-Bologna delle 14:27 ha in media un ritardo di 8 minuti:
9
La media di cui parliamo non è la media campionaria, ma è una ipotesi della media della
popolazione. 𝐻 9
non si scrive mai sui valori campionari, ma sulla popolazione.
L’ipotesi alternativa dice che il treno in media abbia un ritardo di 12 minuti
"
Si tratta in entrambi i casi di ipotesi semplici e disgiunte. Altra ipotesi che facciamo è che abbiamo
una 𝑋, che sono i minuti di ritardo, che si distribuisce come una Normale di cui non sappiamo la
media, ma conosciamo la varianza:
!
Se osserviamo per due settimane il ritardo del treno Rimini-Bologna delle 14:27, prendiamo i valori
che rappresenteranno il nostro campione. Calcoliamo la media campionaria che useremo come
stimatore. Sappiamo che la media campionaria si distribuirà come una Normale, in quanto la X è
una Normale, che avrà come media la media e come varianza la varianza fratto 𝑛.
Se l’ipotesi 𝐻 9
fosse vera, la media campionaria, che tende ad una Normale, avrà come centro 8.
Se l’ipotesi 𝐻 "
fosse vera, la media campionaria, che tende ad una Normale, avrà come centro 12.
Immaginiamo un criterio per il quale decido se il valore che
esce fuori va bene con 𝐻
9
o con 𝐻
"
Se decidiamo che il nostro criterio sia 11 , possiamo
decidere che se il valore è più piccolo di 11 allora considero
vera 𝐻
9
e che il valore è maggiore di 11 allora considero
vera 𝐻
"
Tuttavia, se osserviamo l’area colorata, si tratta di un’area
che è sotto 𝐻
9
, ma secondo il criterio adottato, in quell’area
campionaria si distribuisce come una Normale perché anche 𝑋 si distribuisce normalmente (𝑛 >
30 ). Pertanto, è possibile standardizzare la media campionaria:
!
Tuttavia, non abbiamo la varianza, ma abbiamo una stima, quindi:
!
&*"
34 * 3
L
$%
!
"
è il valore che vado a vedere sulla curva ( statistica test ), cioè il valore empirico del campione.
Se ipotizzo 𝐻
9
vera:
!
Questo è il valore che deriva dal campione, ossia la misurazione dei 60 pacchetti. È standardizzato.
Devo capire ora se - 6,715 sta in coda oppure no. 𝛼 è uguale a 0,01. Con una probabilità dell’1%
commetterò un errore di primo tipo, ma nel 99% dei casi accetterò 𝐻 9
quando 𝐻
9
è vera. Devo
vedere sulle tavole qual è quel punto che lascia in coda 𝛼/ 2. Questi valori sono - 2,57 e 2,57. Adesso
confronto il valore teorico con il valore osservato:
MDD
NOM
Il valore - 6,715 cade sulla prima coda (estremamente in coda), quindi, o si è verificato un campione
che aveva meno dell’1% di uscire oppure 𝐻 9
è falsa. Rifiuto, quindi, 𝐻
9
. La macchina va ri-tarata.
Se aumenta 𝑠̂ meno la macchina è precisa. Si lavora di solito con una ± 3 𝑠̂.
C’è un’azienda che produce pile la cui durata è una distribuzione Normale. Hanno una durata media
di 1.400 ore e uno scarto di 500 ore.
!
Arriva un ingegnere che informa di un nuovo sistema di produzione migliore di quello utilizzato
attualmente perché con questo nuovo tipo di produzione aumenta la durata. Si prova questo nuovo
sistema producendo 100 pile e poi si osserva la durata media di queste pile che è pari a 1.500 ore,
inoltre, si ipotizza che la variabilità/lo scarto sia la/o stessa/o. Produciamo le pile con il nuovo
sistema o con il vecchio?
9
"
MDD
!
!
Il livello di significativa è pari al 5%.
NOM
Rifiuto 𝐻
9
e decido di cambiare la produzione. Se aumento il livello di significatività, diminuisce il
livello di significatività (diminuire l’errore di prima specie) aumenta la probabilità di non rifiutare.
VERIFICA DI IPOTESI PER LA PROPORZIONE
Riprendendo il discorso sulla verifica di ipotesi si può applicare anche per la proporzione e, in
questo caso, avremo:
9
9
"
9
Sappiamo che la 𝑝 può essere stimata con la proporzione campionaria 𝑝̂. La proporzione
campionaria si usa per grandi campioni (𝑛 > 100 ) e si distribuisce come una Normale con media 𝑝
e varianza
:("*:)
&
Per applicare la statistica test si deve standardizzare e otteniamo così:
Tuttavia, non conoscendo 𝑝 dobbiamo sostituirlo e lo sostituiremo con 𝑝
9
(𝑝 condizionato ad 𝐻
9
9
9
9
Un direttore di marketing afferma che dalla sua esperienza il 70% delle casalinghe effettua acquisti
nei supermercati. Fa un’indagine di mercato su 600 casalinghe, di cui 406 effettuano acquisti nei
supermercati.
Si verifichi se l’affermazione del direttore di marketing si può ritenere corretta con un livello di
significatività dell’1%.
9
"
9
9
9
9
MDD
Sappiamo che 𝛼 è uguale a 0,01, dal momento che 𝐻 "
presenta il segno ≠, allora abbiamo due
code
@
!
= 0 , 005. Per trovare la 𝑧
NOM
dobbiamo cercare nella Tavola 0 , 5 − 0 , 005 = 0 , 495 e così
otteniamo:
NOM
Allora non rifiuto 𝐻 9
. Se la 𝑧 fosse caduta nelle code, ossia nell’area di rifiuto, allora rifiutavo 𝐻
9
In un test bidirezionale come questo, gli intervalli di confidenza e la verifica di ipotesi sono la stessa
costa vista l’una l’opposta dell’altra. Gli intervalli di confidenza sono i limiti che delimitano la parte
bianca, ossia 1 − 𝛼 che è il livello di confidenza nella verifica di ipotesi.
VERIFICA DI IPOTESI PER LA VARIANZA
Riprendendo il discorso sulla verifica di ipotesi ora sulla varianza avremo:
9
!
9
!
"
!
9
!
Sappiamo che se 𝑋 si distribuisce normalmente allora: