Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Inferenza Statistica: Intervalli di Confidenza per la Media - Prof. Dreassi, Appunti di Statistica

Una guida completa all'inferenza statistica, con particolare attenzione agli intervalli di confidenza per la media. Esplora i concetti chiave come la media campionaria, gli stimatori, la distribuzione campionaria e il teorema limite centrale. La costruzione di intervalli di confidenza per la media in diversi scenari, tra cui la varianza nota e la varianza non nota, e introduce la distribuzione t di student. Include esempi pratici per illustrare i concetti e le applicazioni.

Tipologia: Appunti

2021/2022

In vendita dal 15/04/2025

Chiara12345_
Chiara12345_ 🇮🇹

4.5

(2)

28 documenti

1 / 17

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Capitolo 8 - Problemi di Stima su una singola popolazione
La prima parte sarà composta dalla stima puntale, ossia cercare di stimare mu e P (tramite la media
campionaria e la proporzione campionaria). Si vuole dimostrare che i due stimatori (media e proporzione
campionaria) hanno delle proprietà e che quindi sono indicate per stimare.
Stima puntuale e per intervallo
Una stima puntuale è un’unico valore; un
intervallo di confidenza mi da un intervallo di
valori, ossia che la probabilità che l’intervallo
contenga mu è un determinato valore. Quindi
un intervallo di confidenza fornisce ulteriori
informazioni circa la variabilità —> si crea
un’intervallo intono alla stima, dove si ha una
certa probabilità che si trovi la media.
Osservo le modalità sul campione e ottengo
la media campionaria che stima mu; creo un’intervallo simmetrico intorno alla stima.
Con le distribuzioni campionarie, si riesce a definire uno stimatore —> è una variabile perché a
seconda del campione ho diversi valori della stima. Potrebbe succedere che la mia stima non sia poi così
vicina a mu, questo potrebbe indicare un eventuale costruzione del processo.
Inferenza
Tipicamente l’inferenza riguarda alcuni parametri, cioè indici relativi alla distribuzione del carattere di
interesse nella popolazione, esempio la media, la mediana, la deviazione standard.
Alcuni dei metodi di inferenza che vedremo assumono che la distribuzione del carattere nella
popolazione sia ben approssimata da una variabile aleatoria appartenente ad una certa famiglia parametrica
(es. la Normale). In tal caso tutto ciò che è incognito sono i parametri della v.a. (per la Normale: la media mu
e la deviazione standard sigma).
Sono interessata a conoscere i parametri, p o mu. Ci siamo concentrati su fenomeni che sono descritti
da distribuzione continue o binarie.
Stimatori
Ad ogni parametro della popolazione corrisponde (almeno) una statistica nel campione. Per esempio:
-al parametro mu media del carattere della popolazione corrisponde la statistica X^- la “media
campionaria”, cioè la media del carattere nel campione.
È naturale cercare di stimare un parametro di interesse (esempio mu(X)) con la corrispondente statistica
(cioè X^-). Quando una statistica viene usata a fini inferenziali per stimare un parametro viene detta
stimatore (Quindi X^- è uno stimatore per mu).
Inferenza sulla media
Spesso il parametro di interesse è la media; disponendo di un campione, lo stimatore naturale della
media della popolazione è la media campionaria:
STATISTICA
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica Inferenza Statistica: Intervalli di Confidenza per la Media - Prof. Dreassi e più Appunti in PDF di Statistica solo su Docsity!

Capitolo 8 - Problemi di Stima su una singola popolazione

La prima parte sarà composta dalla stima puntale, ossia cercare di stimare mu e P (tramite la media campionaria e la proporzione campionaria). Si vuole dimostrare che i due stimatori (media e proporzione campionaria) hanno delle proprietà e che quindi sono indicate per stimare.

Stima puntuale e per intervallo

Una stima puntuale è un’unico valore; un intervallo di confidenza mi da un intervallo di valori, ossia che la probabilità che l’intervallo contenga mu è un determinato valore. Quindi un intervallo di confidenza fornisce ulteriori informazioni circa la variabilità —> si crea un’intervallo intono alla stima, dove si ha una certa probabilità che si trovi la media. Osservo le modalità sul campione e ottengo la media campionaria che stima mu; creo un’intervallo simmetrico intorno alla stima. Con le distribuzioni campionarie, si riesce a definire uno stimatore —> è una variabile perché a seconda del campione ho diversi valori della stima. Potrebbe succedere che la mia stima non sia poi così vicina a mu, questo potrebbe indicare un eventuale costruzione del processo.

Inferenza

Tipicamente l’inferenza riguarda alcuni parametri, cioè indici relativi alla distribuzione del carattere di interesse nella popolazione, esempio la media, la mediana, la deviazione standard. Alcuni dei metodi di inferenza che vedremo assumono che la distribuzione del carattere nella popolazione sia ben approssimata da una variabile aleatoria appartenente ad una certa famiglia parametrica (es. la Normale). In tal caso tutto ciò che è incognito sono i parametri della v.a. (per la Normale: la media mu e la deviazione standard sigma). Sono interessata a conoscere i parametri, p o mu. Ci siamo concentrati su fenomeni che sono descritti da distribuzione continue o binarie.

Stimatori

Ad ogni parametro della popolazione corrisponde (almeno) una statistica nel campione. Per esempio:

- al parametro mu media del carattere della popolazione corrisponde la statistica X^- la “media

campionaria”, cioè la media del carattere nel campione. È naturale cercare di stimare un parametro di interesse (esempio mu(X)) con la corrispondente statistica (cioè X^-). Quando una statistica viene usata a fini inferenziali per stimare un parametro viene detta stimatore (Quindi X^- è uno stimatore per mu).

Inferenza sulla media

Spesso il parametro di interesse è la media ; disponendo di un campione, lo stimatore naturale della media della popolazione è la media campionaria:

Proprietà degli stimatori

Come posso scegliere lo stimatore migliore per stimare un certo parametro? Non si può valutare se una stima è buona o no. Si può però studiare come si comporta lo stimatore considerando tutti i possibili campioni. Valuteremo le proprietà dello stimatore, studiandone il comportamento nell’universo dei campioni. Proprietà desiderabili:

- Correttezza (o non distorsione)

- Efficienza

- Consistenza (per n —> ∞)

Sono stimatori corretti (o non distorti), ossia che in media tendono a dare una stima giusta. Sono efficienti perché si ha una varianza piccola Queste due sono proprietà principali. L’ultima proprietà è la consistenza. Uno stimatore p corretto o non distorto, quando il valore atteso dell’errore di stima è nullo, ossia quando: Oppure viene definito quando la media dell’errore di stima risulta pari a zero per eccesso di per difetto si compensano:

Uno stimatore è corretto quando il suo valore atteso coincide con il parametro di interesse (qualunque sia il suo valore). Osservazione 1: E(.) è il valore atteso della distribuzione campionaria, cioè è il valore medio sull’insieme dei possibili campioni (universo dei campioni). Osservazione 2: la precisazione “qualunque sia il valore del parametro” è cruciale perché in pratica il valore del parametro è incognito. Oltre alla media campionaria, altri stimatori non distorti sono:

- Proporzione campionaria (è un caso speciale di media campionaria):

- Varianza campionaria (divisore n-1 perché sia corretta):

Esempio Vogliamo stimare l’età media di una popolazione di 4 studenti da un campione di n=2 studenti. I 4 studenti hanno età: 20, 22, 24 e 23 —> mu =22.25. I possibili campioni con ripetizione di dimensione n=2 che si possono estrarre dalla popolazione di N=4 studenti sono 4×4=16. Per ogni campione, calcoliamo la media campionaria M e l’errore di stima (M-mu). Osservo che:

- In generale M diverso da mu.

- La media della media campionaria è esattamente 22.

- La media dell’errore si stima è zero.

Quindi la media campionaria è uno stimatore corretto della media della popolazione! Supponiamo due stimatori corretti, basati sullo stesso numero di osservazioni campionarie ed entrambi non distorti per teta ossia: Entrambi sono corretti, ma lo stimatore teta1 mi da una varianza minore. Quindi, in generale, se ho due stimatori corretti, si preferisce quello con varianza più piccola —> proprietà di efficienza. Ossia uno stimatore è più efficiente di un’altro, a parità di correttezza, si sceglie quello con varianza minore. Questo perché si avrà maggiore probabilità di stimare il valore teta. Si può dimostrare che la media campionaria e proporzione campionaria sono gli stimatori più efficienti; quindi tra tutti gli stimatori corretti media. E proporzione campionaria sono, sempre corretti, più efficienti. Quindi lo stimatore T1 si dice più efficiente dello stimatore T2 se ha una varianza minore: (E vale < per almeno un valore di teta). Se T1 è più efficiente di t2 —> efficienza relativa >1:

Decido di voler stimare la media con due stimatori, la media e la mediana campionaria; entrambi sono centrati su mu, ma confrontando le varianze, scelgo la media campionaria perché ha varianza minore. L’indice di efficienza relativa, metta a rapporto le varianze. Dovendo scegliere tra due stimatori non distorti si preferisce quello più efficiente , cioè quello con la varianza più piccola. Esempio : se la distribuzione del carattere nella popolazione è Normale di media qualunque mu(X) e varianza qualunque sigma quadro(X) sia la media campionaria X che la mediana campionaria M sono stimatori corretti di mu(X) (infatti nella Normale mu(X) è sia la media che la mediana). Si preferisce la media campionaria perché è più efficiente: infatti si dimostra che: Consistenza La consistenza è una proprietà asintotica, cioè riguarda il comportamento di uno stimatore al crescere dell’ampiezza campionaria. Se la popolazione ha dimensione finita N e si campiona senza ripetizione, quando l’ampiezza campionaria n raggiunge N il campione coincide con la popolazione. Ogni stimatore “sensato” stima alla perfezione il parametro di interesse (es. quando n=N, media campionaria = media della popolazione). Cosa accade se la popolazione è infinita (N =infinito)? In tal caso n non può raggiungere N (il campione non può avere ampiezza infinita) e quindi non è possibile avere stime perfette. Tuttavia se lo stimatore è consistente si possono avere stime quasi perfette, perché al crescere dell’ampiezza campionaria gli errori di stima diventano sempre più piccoli. Indicando con n l’ampiezza del campione, una condizione sufficiente affinché uno stimatore Tn di un parametro teta sia consistente è che:

  1. Sia corretto per qualunque n o almeno tenda ad essere corretto al crescere di n
  2. La sua varianza tenda a zero al crescere di n al crescere di n la distribuzione di Tn diviene sempre più concentrata attorno al parametro di interesse, quindi lo stimatore è sempre più preciso. Questo è un requisito minimo: in generale, uno stimatore non consistente non deve essere usato! La media campionaria è uno stimatore consistente perché:

- É corretto per qualunque n

- La sua varianza è (sigma quadro)/n e quindi tende a 0 al crescere di n

Intervalli di confidenza IC

L’inferenza statistica consiste nell’usare statistiche (=quantità calcolate nel campione) per stimare parametri incogniti della popolazione. L’intervallo di confidenza combina l’informazione della stima puntale e la precisione dello stimatore. Come ogni processo induttivo, l’inferenza statistica porta a conclusioni incerte: infatti, in generale la stima non coincide con il parametro obiettivo (anche se una buona stima non dovrebbe esserne troppo

La probabilità che Z sia tra -Z alfa mezzi e Z alfa mezzi è uguale a 1-alfa. Procedendo con i calcoli che sono una destandardizzazione. Dato che il mio obbiettivo non è destandardizzare, ma mettere nel mezzo mu (parametro incognito). Si cambiano i segni di tutti e quindi anche della disuguaglianza (alla fine è come scambiare i due lati). In questo modo si probabilizzano gli estremi dell’intervallo. Il parametro sta nell’intervallo e ho una determinata probabilità che gli estremi dell’intervallo contengano mu. L’intervallo è simmetrico rispetto alla media campionaria. Un intervallo di confidenza è sempre fatto da due estremi —> stima meno margine d’errore e stima più margine di errore. Per L media con varianza nota: Una volta trovati i due estremi, tra i due ci sarà probabilità 1-alfa il parametro ignoto.

L’intervallo basato su x1 e x2 contengono mu, mentre l’intervallo x3 non lo contiene. Con probabilità 1- alfa avrò campioni che mi portano a intervalli che contengono mu. Con probabilità alfa avrò campioni che mi portano ad intervalli che non contengono il valore mu. So che il 95% sono intervalli che vanno bene (vincenti), mentre il 5% sono intervalli che non contengono il parametro. Su 100 campioni, 95 campioni mi danno intervalli che contengono la mu, mentre il 5% non contiene mu —> mi danno un valore per la media campionaria così lontano che non riesce a comprendere mu. La media campionaria non si può variare molto, se si vuole apportare modifiche bisogna variare n, Z alfa/2.

Poiché la media della popolazione mu è incognita non si può sapere se il campione estratto è “vincente” (cioè include mu) o “perdente” (cioè non include mu). Tutto quello che si può dire è che, prima di estrarre il campione, questa procedura porta:

- Con probabilità (1-alfa) ad un intervallo che include la media della popolazione mu.

- Con probabilità alfa ad un intervallo che non include la media della popolazione mu.

Fissando un livello di confidenza (1-alfa) alto (cioè alfa ad un livello basso) si ottiene una procedura che con elevata probabilità fa la cosa giusta. Nella singola applicazione si può essere sfortunati, per cui l’intervallo calcolato non include mu (anche se non sapremo mai se non include mu!), ma se potessi estrarre tutti i campioni questa procedura funziona bene perché in circa (1-alfa)100% dei casi l’intervallo include mu. Esempio - IC al 95% Simulazione con 50 campioni di dimensione 16 da N(Mu=26, sigma=6). Esempio - IC per la media, varianza nota Consideriamo il processo industriale per il riempimento delle scatole di cereali. Il carattere di interesse è X = “peso in gr” dei cereali nella scatola. Il parametro di interesse è mu = “peso medio in gr” dei cereali nella scatola. Si assume che la distribuzione del peso sia Normale con una deviazione standard nota dall’esperienza sigma=15. Si dispone di un campione casuale di n=25 scatole Fissato il livello di confidenza (1-alfa)%=95% (alfa=0.05) si ottiene l’intervallo aleatorio: se la media del campione è 362.3 si ottiene 362.3±5.88 = [356.42, 368.18] se la media è invece 369.5 si ottiene 369.5±5.88 = [363.62, 375.38] Lunghezza dell’IC Quando la varianza è nota la lunghezza dell’IC è fissa (non varia da campione a campione) e pari a:

I fattori che influenzano la lunghezza dell’IC sono:

- La deviazione standard del carattere nella popolazione sigma (fattore non controllabile in alcun

modo dall’analista): all’aumentare di sigma aumenta la lunghezza dell’IC.

- L’ampiezza campionaria n (fattore controllabile in fase di progettazione dell’indagine):

all’aumentare di n diminuisce la lunghezza dell’IC (in proporzione alla radice quadrata di n)

- Il livello di confidenza 1-alfa (fattore controllabile dall’analista) che determina il fattore di

affidabilità z(alfa)/2: all’aumentare del livello di confidenza 1-alfa cresce il valore di z(alfa)/2 e quindi aumenta la lunghezza dell’IC. Assumiamo per il momento che l’ampiezza campionaria n sia data (vedremo più avanti come scegliere n in fase di progettazione dell’indagine), per cui l’unico fattore controllabile che determina la lunghezza dell’IC è il livello di confidenza 1-alfa. Di per sé il livello di confidenza dovrebbe essere il più alto possibile; tuttavia vi è un trade-off, perché un aumento del livello di confidenza comporta un incremento della lunghezza dell’IC, cioè una minore precisione. L’incremento è tanto maggiore quanto più il livello di confidenza si avvicina al 100%: per questo motivo di solito il livello di confidenza viene fissato al 95%. I livelli di confidenza più utilizzati nelle applicazioni sono 90%, 95% e 99% Ad es. se sigma= 255.102 e n=100, la lunghezza dell’IC assume i seguenti valori: Quando il livello di confidenza supera il 95% piccoli incrementi di 1- comportano notevoli incrementi della lunghezza dell’IC. IC per la media e ipotesi di normalità Ricordiamo il ruolo dell’ipotesi di Normalità: se X ~N allora la standardizzata della media campionaria ha distribuzione N(0,1) e quindi il fattore di affidabilità z(alfa)/2 va letto sulla tavola della N(0,1). In realtà il calcolo del fattore di affidabilità è basato sulla Normalità della media campionaria, cioè X^- ~N, non sulla Normalità del carattere nella popolazione (X ~N). La Normalità del carattere implica la Normalità della media campionaria, tuttavia, se valgono le condizioni del Teorema Limite Centrale (TLC) la distribuzione della media campionaria è approssimativamente Normale qualunque sia la distribuzione del carattere —> in tal caso il valore z(alfa)/2 letto sulla tavola della N(0,1) è approssimativamente corretto e quindi il livello di confidenza nominale (1-alfa)100% è circa uguale al livello effettivo. IC per la media se X non è normale IC per mu può essere usato anche quando il carattere ha una qualunque distribuzione diversa dalla Normale purché valgano le condizioni del TLC. Per caratteri quantitativi: almeno n=25 osservazioni, ma già n=10 può bastare se la distribuzione è simmetrica unimodale. Quando l’ampiezza campionaria n è molto piccola (n<10 unità) usare l’IC per mu è rischioso perché:

- Vi è poca evidenza empirica per verificare se il carattere ha distribuzione Normale;

- Ci sono troppo poche osservazioni per poter invocare con fiducia il TLC

IC per mu, X-Normale e varianza non nota

Quando si costruisce un IC per la media mu la deviazione standard sigma non è di diretto interesse, ma è comunque un ingrediente necessario perché entra nell’espressione dell’IC (in questo caso sigma è un parametro di disturbo). Nella maggior parte delle applicazioni la deviazione standard sigma non è nota e quindi per poter determinare l’IC per mu occorre rimpiazzare sigma con una sua stima. Si pone dunque il problema di come stimare la deviazione standard sigma o, equivalentemente, la varianza sigma^

La tavola deve funzionare bene per ogni grado di libertà; significa che ogni riga è una distribuzione t, dove crescono i gradi di libertà e la t si modifica, fino ai 30 —> da 30 in su si approssima con la normale. Ci sono 6 valori per ogni distribuzione, sulle colonne: sono i valori di t che tagliano a destra un’area corrispondente a ogni colonna. Per gradi di libertà che tendono all’infinito, ho una distribuzione normale. Quindi l’obiettivo è stimare la varianza. Lo stimatore usuale della varianza della popolazione sigma^2 è la varianza campionaria, quella con il divisore n-1. La varianza campionaria S^2 è uno stimatore non distorto poiché si dimostra che: Questo significa che in alcuni campioni S^2 sovrastima sigma^2, in altri sottostima, ma nel complesso non vi è una tendenza sistematica né alla sovrastima né alla sottostima. Idea: Numero di osservazioni che sono libere di variare dopo che la media campionaria è stata calcolata. Esempio Supponiamo la media di 3 numeri sia 5. Qui n=3, allora gradi di libertà =n–1=3–1=2. ( osservazioni possono assumere qualsiasi valore, ma dato il valore della media campionaria, la terza non è libera di variare). In altri termini: poiché gli scarti dalla media hanno somma nulla, gli scarti liberi sono n- (nell’esempio i primi due scarti sono -4 e -3 —> il terzo e ultimo scarto è +7). La proprietà di non distorsione è dovuta all’uso al denominatore di S^2 dei gradi di libertà (gdl) n- invece dell’ampiezza campionaria n. In questo contesto gdl = numero di scarti dalla media “liberi” = n- (infatti, dati n numeri si calcolano n scarti dalla media aritmetica; tuttavia la somma degli scarti è 0 e quindi una volta noti n-1 scarti l’n-esimo è automaticamente determinato: è quel numero che aggiunto alla somma degli altri scarti dà 0). Lo stimatore con il divisore n (varianza descrittiva) è uno stimatore distorto (sottostima), poiché il suo valore atteso è pari a sigma^2(n-1)/n. Al crescere di n la distorsione diviene trascurabile per cui in pratica l’uso del denominatore corretto n-1 è importante solo in campioni di piccola ampiezza. Per costruire un IC per la media mu quando la deviazione standard sigma non è nota si rimpiazza il valore ignoto sigma con una sua stima: a tal fine si usa la deviazione standard campionaria S (la radice quadrata della varianza campionaria), per cui l’intervallo aleatorio diventa:

Una prima conseguenza della sostituzione di sigma con S è che la lunghezza dell’IC diviene aleatoria , cioè cambia da campione a campione (la lunghezza può essere determinata solo dopo aver osservato i valori campionari e calcolato S). Un’altra conseguenza della sostituzione di sigma (una quantità fissa, certa) con S (uno stimatore, che assume valori diversi a seconda del campione estratto) è l’introduzione di una ulteriore fonte di incertezza. —> a parità di livello di confidenza l’IC si allunga per tener conto dell’aumentata incertezza. Da un punto di vista tecnico, la media campionaria standardizzata ha distribuzione:

- Normale standard quando sigma è nota:

- T di student con n-1 gol quando sigma è ignota e viene sostituita dalla deviazione standard

campionaria: La distribuzione t di student è una famiglia parametrica di variabili aleatorie continue che hanno come supporto l’intero asse dei numeri reali. Il parametro della famiglia è detto gradi di libertà (gdl). Ogni membro della famiglia (cioè, qualunque sia il numero di gdl) è una distribuzione simmetrica con media 0, varianza appena maggiore di 1 e code più pesanti rispetto alla Normale standard (cioè i valori lontani dalla media hanno maggiore probabilità nella t che nella Normale standard). La t di Student è sostanzialmente diversa dalla Normale standard quando il numero di gdl è piccolo (meno di 20); al crescere del numero di gdl la t diviene sempre più simile alla Normale standard. La t di Student ha code più pesanti della Normale standard —>per ogni data probabilità alfa da lasciare sulla coda destra il fattore di affidabilità sulla t è più grande (= spostato verso destra) rispetto alla Normale standard. La differenza nei valori critici è rilevante quando il numero di gdl è piccolo e tende a zero al crescere del numero di gdl. Nel caso dell’IC per mu si usa:

- quando sigma è nota:fattore di affidabilità z della Normale standard

- quando stigma non è nota: val fattore di affidabilità t della t di Student con gdl=n-

L’IC per mu è più lungo quando sigma non è nota (in quanto il fattore di affidabilità è più grande: questo riflette l’incertezza addizionale causata dalla necessità di stimare sigma); la differenza di lunghezza si riduce al crescere dell’ampiezza campionaria n (infatti quanto più grande è n tanto più lo stimatore S è preciso). Quando X~N(mu, sigma^2) con mu e sigma^2 entrambi ignoti e si dispone di un campione casuale di X di ampiezza n, l’intervallo aleatorio che include mu nel (1-alfa)100% dei campioni è:

Prendendo l’ultima disuguaglianza a destra e trasformandola in modo che p compaia al centro si ottiene: Intervallo aleatorio per p al livello approssimato (1-alfa). In pratica si estrae un solo campione, sul quale si calcola la proporzione. Pertanto, dopo l’estrazione del campione: Si usa il fattore di affidabilità della Normale standard come se la deviazione standard fosse è nota a priori, mentre in realtà viene stimata (l’uso di z è un’approssimazione perché per i dati dicotomici non esiste un analogo della t di 51 Student). Esempio In una indagine di mercato 90 persone su 225 intervistate (il 40%) ricordano la pubblicità di un certo prodotto. Assumendo che le risposte delle 225 persone intervistate siano un campione casuale, l’IC al livello 95% per la proporzione nella popolazione di persone che ricordano la pubblicità è:

Con un elevato livello di fiducia (95%) si può dire che la proporzione nella popolazione di persone che ricordano la pubblicità è compresa tra il 33.60% e il 46.40%.

Riassumendo