Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Distribuzioni Campionarie e Inferenza Statistica: Guida Dettagliata - Prof. Gagliardi, Appunti di Statistica

Una panoramica dettagliata delle distribuzioni campionarie, un concetto fondamentale nella statistica inferenziale. Esplora come le statistiche campionarie, come la media, variano tra diversi campioni estratti da una popolazione. La stima puntuale e intervallare, il teorema del limite centrale e come questi concetti vengono utilizzati per fare inferenze sulla popolazione basandosi sui dati campionari. Include esempi pratici e discussioni sull'accuratezza delle stime e sull'interpretazione degli intervalli di confidenza, rendendolo una risorsa preziosa per chi studia statistica.

Tipologia: Appunti

2024/2025

Caricato il 25/06/2025

maria-concetta-raimondo-1
maria-concetta-raimondo-1 🇮🇹

5

(1)

4 documenti

1 / 35

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Inferenza statistica
Per fare inferenza statistica si utilizzano le informazioni raccolte su un campione per conoscere (ovvero stimare)
parametri incogniti della popolazione
Caratteristiche della popolazione = Parametri incogniti
(ad es. il fatturato medio di una categoria di imprese o la proporzione di imprese che hanno ottenuto la
certificazione ISO)
Statistiche campionarie (o Stimatori) basate sulle osservazioni del campione
Cosa vuol dire stimare?
Stimare: attribuire un valore plausibile a un parametro incognito
Quando un parametro della popolazione è stimato attraverso un singolo valore, tale valore viene chiamato stima
puntuale del parametro.
Parametro e statistica campionaria (o Stimatore)
Parametro
costante non nota della popolazione, grandezza caratteristica oggetto di inferenza
(media (μ), deviazione standard (σ)$ e proporzione della popolazione (ϖ))
$
Statistica (o Stimatore)
funzione delle osservazioni campionarie utilizzata per stimare il parametro incognito
(media (&
'), deviazione standard (s) e proporzione campionarie (P))
Estrazione del campione
Il modo in cui il campione viene estratto è importante per tenere sotto controllo l’errore e per produrre una valida
inferenza.
Il campione deve essere rappresentativo della popolazione.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23

Anteprima parziale del testo

Scarica Distribuzioni Campionarie e Inferenza Statistica: Guida Dettagliata - Prof. Gagliardi e più Appunti in PDF di Statistica solo su Docsity!

Inferenza statistica

Per fare inferenza statistica si utilizzano le informazioni raccolte su un campione per conoscere (ovvero stimare) parametri incogniti della popolazione

Caratteristiche della popolazione = Parametri incogniti (ad es. il fatturato medio di una categoria di imprese o la proporzione di imprese che hanno ottenuto la certificazione ISO)

Statistiche campionarie (o Stimatori) basate sulle osservazioni del campione

Cosa vuol dire stimare?

Stimare : attribuire un valore plausibile a un parametro incognito

Quando un parametro della popolazione è stimato attraverso un singolo valore, tale valore viene chiamato stima puntuale del parametro.

Parametro e statistica campionaria (o Stimatore)

Parametro costante non nota della popolazione, grandezza caratteristica oggetto di inferenza (media (μ), deviazione standard (σ) e proporzione della popolazione (ϖ))

Statistica (o Stimatore) funzione delle osservazioni campionarie utilizzata per stimare il parametro incognito (media (X̅ '), deviazione standard (s) e proporzione campionarie (P))

Estrazione del campione

Il modo in cui il campione viene estratto è importante per tenere sotto controllo l’errore e per produrre una valida inferenza.

Il campione deve essere rappresentativo della popolazione.

Se un dato sottogruppo della popolazione è sovra(sotto)rappresentato nel campione, le stime saranno distorte.

Un campione probabilistico garantisce contro possibili distorsioni.

Il campione probabilistico a cui facciamo riferimento è il campionamento bernoulliano Questo campionamento simula l’estrazione casuale di n unità con rinserimento da un’urna (l’intera popolazione) contenente N unità. Inoltre, richiede la conoscenza e la reperibilità delle N unità della popolazione. Tutti i campioni di dimensione n hanno uguale probabilità di essere estratti

In sostanza, il processo inferenziale:  consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando i dati di un campione probabilistico estratto da una certa popolazione.  E’ necessario però anche aggiungere con quale grado di sicurezza, o di probabilità, riteniamo che la nostra stima o generalizzazione sia corretta.

Quindi:

  1. Si cerca di stimare un parametro di una popolazione (ogni caratteristica misurata in una popolazione) attraverso una statistica (ad esempio, il parametro può corrispondere alla media del reddito familiare e la statistica è la reddito medio delle famiglie che compongono il campione)
  2. Bisogna però definire l’incertezza della stima. Per misurare questa incertezza abbiamo due possibilità: a) stima intervallare b) verifica di ipotesi statistiche

La teoria del campionamento è necessaria per capire la statistica inferenziale

esempio: o Popolazione dei lupi scandinavi: 10.512 animali o Il peso medio di questa popolazione, μ ', è ignoto, ma supponiamo abbia una distribuzione normale e supponiamo di conoscere anche la varianza della popolazione o Un ricercatore vuole comunque giungere ad una stima di questo parametro avendo anche un’idea anche di quanto buona sia questa stima, e decide quindi di catturare e pesare 6 lupi. o La media del peso nel campione risulta pari a 20.32 kg.

 Chiaramente la media del campione non sarà pari alla media della popolazione  E’ possibile dare qualche indicazione sulla distanza tra la media del campione (che possiamo calcolare) e quella della popolazione (alla quale siamo maggiormente interessati ma che non possiamo calcolare)?

Ai fini inferenziali, si considerano ipoteticamente tutti i campioni di dimensione n che è possibile estrarre dalla popolazione (spazio campionario o universo dei campioni)

Su ogni campione calcoliamo la statistica campionaria, che, come abbiamo visto, varia a seconda del campione estratto L’insieme dei risultati costituisce la distribuzione campionaria della statistica (o stimatore)

esempio:

Popolazione di N=4 aziende Parametri di interesse:

 media μ e varianza σ^2 degli investimenti  proporzione π di SpA

Si estraggono tutti i campioni ordinati con ripetizione di n=2 unità.

Spazio campionario (N=4;n=2)

Per effetto del caso , posso essere particolarmente “fortunato” se estraggo il campione 6, con media pari a 150 (che coincide con il valore della media della popolazione). Con quale probabilità si verifica questo evento? 1 su 16

Posso essere particolarmente “sfortunato” se estraggo il campione 16, con media pari a 190 (che si discosta molto dal valore della media della popolazione). Con quale probabilità si verifica questo evento?

Distribuzione campionaria della media

Cosa sappiamo della distribuzione campionaria della media?

Se estraiamo il campione da una distribuzione normale con varianza nota come nell’esempio dei lupi. La distribuzione delle medie campionarie è normale se la variabile ha una distribuzione normale e ha media uguale alla media della popolazione e varianza uguale alla varianza della popolazione diviso n ovvero: E (X)= V (X)= 2n Cosa succede se la popolazione da cui campiono non è normale? (suppongo per il momento di conoscere la varianza della popolazione)

Si ricorre al teorema del limite centrale (TLC), per il TLC, la distribuzione delle medie campionarie è normale anche se la variabile non è normale, a patto che n sia abbastanza grande e ha: E (X)= V (X)= 2n

Caso 1:

La media campionaria segue la stessa distribuzione (Normale) della popolazione. Il valore medio coincide con la media della popolazione. La variabilità della distribuzione campionaria è minore di quella della popolazione ed è inversamente

proporzionale a n e

Caso 2: Popolazione X̅ qualunque con media μ non nota e varianza σ^2 nota, n grande. Si applica il Teorema Limite Centrale

Il TLC è importante in chiave inferenziale perché permette di stimare la media della popolazione senza dover conoscere la forma specifica della X̅ della popolazione e quindi

Quindi la distribuzione della media campionaria

  1. ha minore ampiezza al crescere di n,
  2. è centrata sulla media della variabile nella popolazione,
  3. è normale anche se la variabile non è normale ma n è grande

Cosa ci insegna la teoria statistica sulla distribuzione della media campionaria?

La deviazione standard della media campionaria è pari alla deviazione standard della variabile divisa per la radice della dimensione campionaria. Misura la precisione della stima.

La formula è logica: se la variabile nella popolazione è molto “dispersa” (alta σ) o il campione è piccolo (basso n), la precisione della stima della media è bassa.

Al contrario, se la variabile nella popolazione ha sempre valori molto vicini alla media, o il campione è molto grande, la media sarà stimata bene.

La deviazione standard della media campionaria prende il nome di Errore Standard (ES)

Cosa succede quando è necessario stimare la deviazione standard della popolazione?

(è quasi sempre così nella realtà!)

Stimatore puntuale: singola statistica che viene usata per stimare il vero valore di un parametro della popolazione. Ad esempio la media campionaria è uno stimatore puntuale della media della popolazione μ, la varianza campionaria è uno stimatore puntuale della varianza della popolazione σ^2 , ecc.

Stimatore intervallare: intervallo di valori che ha una certa probabilità o confidenza di comprendere il vero valore del parametro della popolazione.

In generale il livello di confidenza è indicato con (1-a)% dove a è la probabilità che si trova nelle code della distribuzione, al di fuori dell’intervallo di confidenza (la probabilità della coda sinistra e della coda destra coincidono e sono pari a a/2).

Stima per intervallo

quindi: Una statistica calcolata su un campione di soggetti (statistica campionaria) costituisce una stima del parametro (la statistica calcolata nella popolazione) ma la statistica campionaria è soggetta a “errore campionario” determinato dalla variabilità casuale del campionamento.

Possiamo trarre conclusioni sul valore del parametro nella popolazione a partire dai dati campionari seguendo la strada della STIMA PER INTERVALLO

È un intervallo di valori plausibili a cui associamo un dato livello di confidenza o affidabilità o fiducia (generalmente fissato al 90%, 95% o 99%)

Ci aspettiamo che l’intervallo contenga, con quel livello di fiducia, il valore incognito del parametro della popolazione.

Caso di studio:

Per programmare meglio il servizio offerto, un’azienda leader nella vendita on line di libri, Cd e DVD vuole conoscere:  L’importo medio di ogni ordine  La proporzione di pagamenti fatti con la carta di credito VISA Estrae un campione casuale di n transazioni delle quali osserva l’importo e il metodo di pagamento

Stima puntuale della media

La media campionaria dell’importo è pari a X̅ =57,

La stima puntuale non dà indicazioni sulla accuratezza del risultato La media campionaria varia da campione a campione a seconda delle unità selezionate

Per effetto del caso, posso essere stato “fortunato” e avere estratto un campione che fornisce un valore medio molto vicino a quello incognito della popolazione Ma posso anche essere stato particolarmente “sfortunato” e avere estratto un campione di osservazioni che produce una media molto distante da quella incognita

Stima per intervallo della media

Fissiamo il livello di confidenza al 95%. L’intervallo stimato comprende valori da 54,04 a 60,

L’intervallo è del tipo X̅ margine di errore

Importi medi compresi tra 54,04 € e 60,44 € li giudichiamo plausibili

Siamo confidenti al 95% che il vero valore dell’importo medio di tutte le transazioni sia compreso tra 54,04 € e 60,44 €

Stima per intervallo

Per costruire la stima intervallare del parametro θ al livello di confidenza 1-α, sulla base delle osservazioni campionarie si stimano due valori, L 1 e L 2 (gli estremi dell’intervallo) in maniera tale che

P(L1 0 L2)=1- L 1 e L 2 sono statistiche campionarie, cioè variano al variare dei campioni

L 1 =L 1 (X̅ 1 ,X̅ 2 ,…,X̅ (^) n) L 2 =L 2 (X̅ 1 ,X̅ 2 ,…,X̅ (^) n)

Interpretazione della stima per intervallo

L’affermazione “θ è compreso tra L 1 e L 2 con probabilità pari a 1-α” va interpretata nello spazio campionario, prima di estrarre il campione effettivo

In questo senso, 1-α è la frequenza relativa di campioni per i quali l’intervallo include il valore incognito θ Si accetta un rischio pari ad α che il campione estratto produca un intervallo che non contenga θ

Interpretazione del livello di confidenza

Fissiamo 1-α=0,

Ipotizziamo di estrarre successivamente più campioni indipendenti dalla stessa popolazione e costruiamo le corrispondenti stime intervallari → Per 95 campioni su 100 θ è compreso nell’intervallo stimato

Il campione estratto però potrebbe anche essere uno di quella frazione α (il 5%) per la quale l’intervallo non cattura il valore incognito θ.

Intervallo di confidenza per la media μ

Livello di confidenza 1-α=0,

Gli intervalli verdi contengono μ. Questo si verifica per 95 campioni su 100.

Qual è un insieme di valori “plausibili” per Z?

Qual è un insieme di valori "plausibili" per X̅?

L’obiettivo è scrivere un intervallo casuale per μ, i cui estremi dipendono dal campione

Intervallo di confidenza per μ:

Gli estremi dell’intervallo dipendono da:  la media campionaria X̅  la deviazione standard σ della popolazione  il valore Z/

 la dimensione campionaria n

Lunghezza dell’intervallo e errore della stima intervallare

Lunghezza (ampiezza) dell’intervallo 2z/2n non varia al variare dei campioni

Margine di errore dell’intervallo = semi-lunghezza

errore = z/2n

Il margine di errore è collegato al concetto di precisione della stima: minore è l’errore maggiore è la precisione e quindi l’accuratezza della stima per intervallo

Margine di errore

Indica di quanto, al massimo, la stima campionaria si discosta, verosimilmente, dal parametro incognito. Si sottolinea verosimilmente perché esiste una frazione α% di campioni per i quali la stima si discosta dal parametro di una quantità maggiore del margine di errore

Errore e livello di confidenza

Conoscendo σ, per una dimensione campionaria fissata n, l’errore varia direttamente al variare di z/2 che, a

sua volta, dipende direttamente dal livello di confidenza 1-α. La riduzione dell’errore si può realizzare al costo di accettare un livello di confidenza minore

Errore e dimensione campionaria

Conoscendo σ, per un dato livello di confidenza 1-α, l’errore varia inversamente al variare di n. La riduzione dell’errore si può realizzare al costo di aumentare la dimensione del campione.

Intervallo di confidenza per la media (varianza nota)

La lunghezza dell’intervallo di confidenza si ricava dalla differenza tra estremo superiore e estremo inferiore:

lunghezza = 2z/2 ( /n)

Lunghezza dell’intervallo e errore della stima intervallare

Lunghezza (ampiezza) dell’intervallo

in questo caso varia al variare dei campioni

Margine di errore dell’intervallo = semi-lunghezza

Pop. non Normale

Intervallo di confidenza per μ

o con varianza della pop. nota

o con varianza della pop. non nota

Stima per intervallo della proporzione π

Popolazione Bernoulliana

Il carattere che si studia assume due sole modalità: Presenza/Assenza di un attributo A X̅ =1 con prob. π X̅ =0 con prob. 1-π

In una popolazione finita π è la proporzione di unità che presentano l’attributo A

Come stima puntuale di π si usa la proporzione campionaria p

→ p è di fatto una media campionaria

La varianza della proporzione campionaria dipende dalla proporzione incognita π π si stima con X̅ ottenendo l’intervallo

Sondaggi elettorali. Ballottaggio tra due candidati

Problema statistico: stimare una proporzione incognita π, ossia la proporzione di elettori che intende votare per il candidato X̅ X̅ Y alle prossime elezioni

Si estrae un campione casuale di n elettori (n grande) Supponiamo che la proporzione campionaria a favore di X̅ X̅ Y sia pari al 53,2% (stima puntuale)

Il candidato X̅ X̅ Y può ritenersi sicuro di vincere?

Meglio affidarsi ad una stima per intervallo! Al livello di confidenza del 95% il margine di errore della stima intervallare è stimato da:

utilizzando 0,5 (valore prudenziale) come stima di πnell’espressione della varianza campionaria

Sondaggi elettorali

Intervistando 500 elettori, l’errore è pari al 4,4%.

Teoria dei test statistici

Caso di studio

Supponiamo che un’azienda sia interessata a stabilire se la lunghezza media osservata su un campione di n scatole prodotte da un certo processo produttivo convalidi l’affermazione che il processo produttivo sia sotto controllo (cioè che le scatole prodotte abbiano una lunghezza media pari a 10 cm).

ipotesi statistica parametrica:

Un’ipotesi statistica è un’affermazione o una congettura riguardante un parametro θ della popolazione

Nell’esempio precedente “la lunghezza media delle scatole prodotte è di 10 cm” è un’ipotesi statistica sulla media μ della popolazione. Sottoporre a test (o verifica) un’ipotesi significa valutarne la plausibilità alla luce delle informazioni campionarie.

Ipotesi nulla e alternativa

Si considera una coppia di ipotesi (sistema di due ipotesi): o ipotesi nulla (H 0 ) : coincide con lo stato attuale delle cose o con l’attuale convinzione riguardo ad un valore assunto da un parametro. Inoltre, è preesistente all’osservazione dei dati campionari, ritenuta vera fino a prova contraria;

o ipotesi alternativa (H 1 ): è specificata come ipotesi opposta e complementare a H 0

Ipotesi semplici e composte

o Ipotesi semplici: Ipotesi del tipo 0=00 oppure 0=

o Ipotesi composte: Ipotesi del tipo 0 > 00 oppure 0 < 00 o ancora 0 00

Sistema di ipotesi

Caso di studio:

Nell’esempio siamo interessati a verificare se il processo produttivo è sotto controllo (cioè se la lunghezza media delle scatole è di 10 cm) oppure se c’è qualche malfunzionamento nel processo di produzione che determina differenze significative della lunghezza media dal valore di 10 cm (tali da rendere necessaria una revisione del processo).

Verifica di ipotesi

caso di studio:

Si estrae un campione di n scatole e sulla base dell’evidenza empirica (il risultato campionario) si vuole capire se l’ipotesi nulla possa essere ritenuta plausibile oppure no.

 nel primo caso si accetta H 0  nel secondo si rifiuta H 0 a favore di H 1

Se il campione non fornisce sufficiente evidenza contro H 0 , si conclude affermando che non possiamo rifiutare H 0 (quindi la accettiamo). Altrimenti, si rifiuta H 0 e si accetta H 1

Accettare H 0

caso di studio:

Accettare un’ipotesi non significa aver dimostrato che l’ipotesi sia vera, perché la conclusione si basa solo su un campione di osservazioni. Se accettiamo (non rifiutiamo) H 0 , possiamo solo concludere che non c’è evidenza empirica sufficientemente contraria all’ipotesi stessa. I dati campionari non forniscono una prova del fatto che il processo sia fuori controllo. Possiamo quindi continuare a ritenere che il processo produttivo sia sotto controllo.

Accettare H 1

Caso di studio:

Se rifiutiamo H 0 e accettiamo H 1 vuol dire che l’ipotesi alternativa, alla luce dei dati campionari, è più verosimile dell’ipotesi nulla. Si conclude, quindi, che la lunghezza media delle scatole è significativamente diversa (maggiore o minore) da 10 cm. Di conseguenza il processo produttivo dovrebbe essere interrotto e dovrebbero essere intraprese le azioni necessarie per risolvere il problema.

esempio:

Il manager di un ufficio postale di Siena è interessato a stabilire se il tempo medio di attesa dei clienti allo sportello è cambiato nell’ultimo anno rispetto al precedente, quando era di 30 minuti.

sistema di ipotesi:

H : = 30 H1: 30 ipotesi alternativa bidirezionale

esempio:

Un’industria automobilistica acquista un lotto di batterie per autovetture della durata media di 4000 ore, secondo quanto ha dichiarato il costruttore. Sulla base di un campione l’industria acquirente vuole verificare che le batterie abbiano una durata media di almeno 4000 ore.

sistema di ipotesi H0 : 4000 H1: <