



























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica dettagliata delle distribuzioni campionarie, un concetto fondamentale nella statistica inferenziale. Esplora come le statistiche campionarie, come la media, variano tra diversi campioni estratti da una popolazione. La stima puntuale e intervallare, il teorema del limite centrale e come questi concetti vengono utilizzati per fare inferenze sulla popolazione basandosi sui dati campionari. Include esempi pratici e discussioni sull'accuratezza delle stime e sull'interpretazione degli intervalli di confidenza, rendendolo una risorsa preziosa per chi studia statistica.
Tipologia: Appunti
1 / 35
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!




























Per fare inferenza statistica si utilizzano le informazioni raccolte su un campione per conoscere (ovvero stimare) parametri incogniti della popolazione
Caratteristiche della popolazione = Parametri incogniti (ad es. il fatturato medio di una categoria di imprese o la proporzione di imprese che hanno ottenuto la certificazione ISO)
Statistiche campionarie (o Stimatori) basate sulle osservazioni del campione
Stimare : attribuire un valore plausibile a un parametro incognito
Quando un parametro della popolazione è stimato attraverso un singolo valore, tale valore viene chiamato stima puntuale del parametro.
Parametro costante non nota della popolazione, grandezza caratteristica oggetto di inferenza (media (μ), deviazione standard (σ) e proporzione della popolazione (ϖ))
Statistica (o Stimatore) funzione delle osservazioni campionarie utilizzata per stimare il parametro incognito (media (X̅ '), deviazione standard (s) e proporzione campionarie (P))
Il modo in cui il campione viene estratto è importante per tenere sotto controllo l’errore e per produrre una valida inferenza.
Il campione deve essere rappresentativo della popolazione.
Se un dato sottogruppo della popolazione è sovra(sotto)rappresentato nel campione, le stime saranno distorte.
Un campione probabilistico garantisce contro possibili distorsioni.
Il campione probabilistico a cui facciamo riferimento è il campionamento bernoulliano Questo campionamento simula l’estrazione casuale di n unità con rinserimento da un’urna (l’intera popolazione) contenente N unità. Inoltre, richiede la conoscenza e la reperibilità delle N unità della popolazione. Tutti i campioni di dimensione n hanno uguale probabilità di essere estratti
In sostanza, il processo inferenziale: consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando i dati di un campione probabilistico estratto da una certa popolazione. E’ necessario però anche aggiungere con quale grado di sicurezza, o di probabilità, riteniamo che la nostra stima o generalizzazione sia corretta.
Quindi:
La teoria del campionamento è necessaria per capire la statistica inferenziale
esempio: o Popolazione dei lupi scandinavi: 10.512 animali o Il peso medio di questa popolazione, μ ', è ignoto, ma supponiamo abbia una distribuzione normale e supponiamo di conoscere anche la varianza della popolazione o Un ricercatore vuole comunque giungere ad una stima di questo parametro avendo anche un’idea anche di quanto buona sia questa stima, e decide quindi di catturare e pesare 6 lupi. o La media del peso nel campione risulta pari a 20.32 kg.
Chiaramente la media del campione non sarà pari alla media della popolazione E’ possibile dare qualche indicazione sulla distanza tra la media del campione (che possiamo calcolare) e quella della popolazione (alla quale siamo maggiormente interessati ma che non possiamo calcolare)?
Ai fini inferenziali, si considerano ipoteticamente tutti i campioni di dimensione n che è possibile estrarre dalla popolazione (spazio campionario o universo dei campioni)
Su ogni campione calcoliamo la statistica campionaria, che, come abbiamo visto, varia a seconda del campione estratto L’insieme dei risultati costituisce la distribuzione campionaria della statistica (o stimatore)
esempio:
Popolazione di N=4 aziende Parametri di interesse:
media μ e varianza σ^2 degli investimenti proporzione π di SpA
Si estraggono tutti i campioni ordinati con ripetizione di n=2 unità.
Per effetto del caso , posso essere particolarmente “fortunato” se estraggo il campione 6, con media pari a 150 (che coincide con il valore della media della popolazione). Con quale probabilità si verifica questo evento? 1 su 16
Posso essere particolarmente “sfortunato” se estraggo il campione 16, con media pari a 190 (che si discosta molto dal valore della media della popolazione). Con quale probabilità si verifica questo evento?
Se estraiamo il campione da una distribuzione normale con varianza nota come nell’esempio dei lupi. La distribuzione delle medie campionarie è normale se la variabile ha una distribuzione normale e ha media uguale alla media della popolazione e varianza uguale alla varianza della popolazione diviso n ovvero: E (X)= V (X)= 2n Cosa succede se la popolazione da cui campiono non è normale? (suppongo per il momento di conoscere la varianza della popolazione)
Si ricorre al teorema del limite centrale (TLC), per il TLC, la distribuzione delle medie campionarie è normale anche se la variabile non è normale, a patto che n sia abbastanza grande e ha: E (X)= V (X)= 2n
Caso 1:
La media campionaria segue la stessa distribuzione (Normale) della popolazione. Il valore medio coincide con la media della popolazione. La variabilità della distribuzione campionaria è minore di quella della popolazione ed è inversamente
proporzionale a n e
Caso 2: Popolazione X̅ qualunque con media μ non nota e varianza σ^2 nota, n grande. Si applica il Teorema Limite Centrale
Il TLC è importante in chiave inferenziale perché permette di stimare la media della popolazione senza dover conoscere la forma specifica della X̅ della popolazione e quindi
Quindi la distribuzione della media campionaria
La deviazione standard della media campionaria è pari alla deviazione standard della variabile divisa per la radice della dimensione campionaria. Misura la precisione della stima.
La formula è logica: se la variabile nella popolazione è molto “dispersa” (alta σ) o il campione è piccolo (basso n), la precisione della stima della media è bassa.
Al contrario, se la variabile nella popolazione ha sempre valori molto vicini alla media, o il campione è molto grande, la media sarà stimata bene.
La deviazione standard della media campionaria prende il nome di Errore Standard (ES)
Stimatore puntuale: singola statistica che viene usata per stimare il vero valore di un parametro della popolazione. Ad esempio la media campionaria è uno stimatore puntuale della media della popolazione μ, la varianza campionaria è uno stimatore puntuale della varianza della popolazione σ^2 , ecc.
Stimatore intervallare: intervallo di valori che ha una certa probabilità o confidenza di comprendere il vero valore del parametro della popolazione.
In generale il livello di confidenza è indicato con (1-a)% dove a è la probabilità che si trova nelle code della distribuzione, al di fuori dell’intervallo di confidenza (la probabilità della coda sinistra e della coda destra coincidono e sono pari a a/2).
quindi: Una statistica calcolata su un campione di soggetti (statistica campionaria) costituisce una stima del parametro (la statistica calcolata nella popolazione) ma la statistica campionaria è soggetta a “errore campionario” determinato dalla variabilità casuale del campionamento.
Possiamo trarre conclusioni sul valore del parametro nella popolazione a partire dai dati campionari seguendo la strada della STIMA PER INTERVALLO
È un intervallo di valori plausibili a cui associamo un dato livello di confidenza o affidabilità o fiducia (generalmente fissato al 90%, 95% o 99%)
Ci aspettiamo che l’intervallo contenga, con quel livello di fiducia, il valore incognito del parametro della popolazione.
Caso di studio:
Per programmare meglio il servizio offerto, un’azienda leader nella vendita on line di libri, Cd e DVD vuole conoscere: L’importo medio di ogni ordine La proporzione di pagamenti fatti con la carta di credito VISA Estrae un campione casuale di n transazioni delle quali osserva l’importo e il metodo di pagamento
La media campionaria dell’importo è pari a X̅ =57,
La stima puntuale non dà indicazioni sulla accuratezza del risultato La media campionaria varia da campione a campione a seconda delle unità selezionate
Per effetto del caso, posso essere stato “fortunato” e avere estratto un campione che fornisce un valore medio molto vicino a quello incognito della popolazione Ma posso anche essere stato particolarmente “sfortunato” e avere estratto un campione di osservazioni che produce una media molto distante da quella incognita
Fissiamo il livello di confidenza al 95%. L’intervallo stimato comprende valori da 54,04 a 60,
L’intervallo è del tipo X̅ margine di errore
Importi medi compresi tra 54,04 € e 60,44 € li giudichiamo plausibili
Siamo confidenti al 95% che il vero valore dell’importo medio di tutte le transazioni sia compreso tra 54,04 € e 60,44 €
Per costruire la stima intervallare del parametro θ al livello di confidenza 1-α, sulla base delle osservazioni campionarie si stimano due valori, L 1 e L 2 (gli estremi dell’intervallo) in maniera tale che
P(L1 0 L2)=1- L 1 e L 2 sono statistiche campionarie, cioè variano al variare dei campioni
L 1 =L 1 (X̅ 1 ,X̅ 2 ,…,X̅ (^) n) L 2 =L 2 (X̅ 1 ,X̅ 2 ,…,X̅ (^) n)
L’affermazione “θ è compreso tra L 1 e L 2 con probabilità pari a 1-α” va interpretata nello spazio campionario, prima di estrarre il campione effettivo
In questo senso, 1-α è la frequenza relativa di campioni per i quali l’intervallo include il valore incognito θ Si accetta un rischio pari ad α che il campione estratto produca un intervallo che non contenga θ
Fissiamo 1-α=0,
Ipotizziamo di estrarre successivamente più campioni indipendenti dalla stessa popolazione e costruiamo le corrispondenti stime intervallari → Per 95 campioni su 100 θ è compreso nell’intervallo stimato
Il campione estratto però potrebbe anche essere uno di quella frazione α (il 5%) per la quale l’intervallo non cattura il valore incognito θ.
Livello di confidenza 1-α=0,
Gli intervalli verdi contengono μ. Questo si verifica per 95 campioni su 100.
Qual è un insieme di valori “plausibili” per Z?
Qual è un insieme di valori "plausibili" per X̅?
L’obiettivo è scrivere un intervallo casuale per μ, i cui estremi dipendono dal campione
Intervallo di confidenza per μ:
Gli estremi dell’intervallo dipendono da: la media campionaria X̅ la deviazione standard σ della popolazione il valore Z/
la dimensione campionaria n
Margine di errore dell’intervallo = semi-lunghezza
Il margine di errore è collegato al concetto di precisione della stima: minore è l’errore maggiore è la precisione e quindi l’accuratezza della stima per intervallo
Indica di quanto, al massimo, la stima campionaria si discosta, verosimilmente, dal parametro incognito. Si sottolinea verosimilmente perché esiste una frazione α% di campioni per i quali la stima si discosta dal parametro di una quantità maggiore del margine di errore
sua volta, dipende direttamente dal livello di confidenza 1-α. La riduzione dell’errore si può realizzare al costo di accettare un livello di confidenza minore
Conoscendo σ, per un dato livello di confidenza 1-α, l’errore varia inversamente al variare di n. La riduzione dell’errore si può realizzare al costo di aumentare la dimensione del campione.
La lunghezza dell’intervallo di confidenza si ricava dalla differenza tra estremo superiore e estremo inferiore:
lunghezza = 2z/2 ( /n)
Lunghezza (ampiezza) dell’intervallo
in questo caso varia al variare dei campioni
Margine di errore dell’intervallo = semi-lunghezza
Intervallo di confidenza per μ
o con varianza della pop. nota
o con varianza della pop. non nota
Popolazione Bernoulliana
Il carattere che si studia assume due sole modalità: Presenza/Assenza di un attributo A X̅ =1 con prob. π X̅ =0 con prob. 1-π
In una popolazione finita π è la proporzione di unità che presentano l’attributo A
Come stima puntuale di π si usa la proporzione campionaria p
La varianza della proporzione campionaria dipende dalla proporzione incognita π π si stima con X̅ ottenendo l’intervallo
Sondaggi elettorali. Ballottaggio tra due candidati
Problema statistico: stimare una proporzione incognita π, ossia la proporzione di elettori che intende votare per il candidato X̅ X̅ Y alle prossime elezioni
Si estrae un campione casuale di n elettori (n grande) Supponiamo che la proporzione campionaria a favore di X̅ X̅ Y sia pari al 53,2% (stima puntuale)
Il candidato X̅ X̅ Y può ritenersi sicuro di vincere?
Meglio affidarsi ad una stima per intervallo! Al livello di confidenza del 95% il margine di errore della stima intervallare è stimato da:
utilizzando 0,5 (valore prudenziale) come stima di πnell’espressione della varianza campionaria
Sondaggi elettorali
Intervistando 500 elettori, l’errore è pari al 4,4%.
Caso di studio
Supponiamo che un’azienda sia interessata a stabilire se la lunghezza media osservata su un campione di n scatole prodotte da un certo processo produttivo convalidi l’affermazione che il processo produttivo sia sotto controllo (cioè che le scatole prodotte abbiano una lunghezza media pari a 10 cm).
Un’ipotesi statistica è un’affermazione o una congettura riguardante un parametro θ della popolazione
Nell’esempio precedente “la lunghezza media delle scatole prodotte è di 10 cm” è un’ipotesi statistica sulla media μ della popolazione. Sottoporre a test (o verifica) un’ipotesi significa valutarne la plausibilità alla luce delle informazioni campionarie.
Si considera una coppia di ipotesi (sistema di due ipotesi): o ipotesi nulla (H 0 ) : coincide con lo stato attuale delle cose o con l’attuale convinzione riguardo ad un valore assunto da un parametro. Inoltre, è preesistente all’osservazione dei dati campionari, ritenuta vera fino a prova contraria;
o ipotesi alternativa (H 1 ): è specificata come ipotesi opposta e complementare a H 0
o Ipotesi semplici: Ipotesi del tipo 0=00 oppure 0=
o Ipotesi composte: Ipotesi del tipo 0 > 00 oppure 0 < 00 o ancora 0 00
Caso di studio:
Nell’esempio siamo interessati a verificare se il processo produttivo è sotto controllo (cioè se la lunghezza media delle scatole è di 10 cm) oppure se c’è qualche malfunzionamento nel processo di produzione che determina differenze significative della lunghezza media dal valore di 10 cm (tali da rendere necessaria una revisione del processo).
caso di studio:
Si estrae un campione di n scatole e sulla base dell’evidenza empirica (il risultato campionario) si vuole capire se l’ipotesi nulla possa essere ritenuta plausibile oppure no.
nel primo caso si accetta H 0 nel secondo si rifiuta H 0 a favore di H 1
Se il campione non fornisce sufficiente evidenza contro H 0 , si conclude affermando che non possiamo rifiutare H 0 (quindi la accettiamo). Altrimenti, si rifiuta H 0 e si accetta H 1
caso di studio:
Accettare un’ipotesi non significa aver dimostrato che l’ipotesi sia vera, perché la conclusione si basa solo su un campione di osservazioni. Se accettiamo (non rifiutiamo) H 0 , possiamo solo concludere che non c’è evidenza empirica sufficientemente contraria all’ipotesi stessa. I dati campionari non forniscono una prova del fatto che il processo sia fuori controllo. Possiamo quindi continuare a ritenere che il processo produttivo sia sotto controllo.
Caso di studio:
Se rifiutiamo H 0 e accettiamo H 1 vuol dire che l’ipotesi alternativa, alla luce dei dati campionari, è più verosimile dell’ipotesi nulla. Si conclude, quindi, che la lunghezza media delle scatole è significativamente diversa (maggiore o minore) da 10 cm. Di conseguenza il processo produttivo dovrebbe essere interrotto e dovrebbero essere intraprese le azioni necessarie per risolvere il problema.
esempio:
Il manager di un ufficio postale di Siena è interessato a stabilire se il tempo medio di attesa dei clienti allo sportello è cambiato nell’ultimo anno rispetto al precedente, quando era di 30 minuti.
sistema di ipotesi:
H : = 30 H1: 30 ipotesi alternativa bidirezionale
esempio:
Un’industria automobilistica acquista un lotto di batterie per autovetture della durata media di 4000 ore, secondo quanto ha dichiarato il costruttore. Sulla base di un campione l’industria acquirente vuole verificare che le batterie abbiano una durata media di almeno 4000 ore.
sistema di ipotesi H0 : 4000 H1: <