






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una spiegazione dettagliata del campionamento e dell'inferenza statistica, illustrando i concetti chiave attraverso esempi pratici. Viene introdotto il concetto di campione casuale, la media campionaria e la sua distribuzione, nonché l'errore standard della media. Anche la proporzione campionaria e la sua distribuzione, fornendo esempi di applicazione in contesti reali.
Tipologia: Appunti
1 / 10
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







Si divide la statistica descrittiva, quella che raccoglie, presenta e descrive i dati, dalla statistica inferenziale —> si basa sul trarre conclusioni e/o prendere decisioni riguardanti una popolazione sulla base dei dati campionari. Una popolazione è l’insieme di tutte le unità o individui oggetto di studi. Per esempio : tutti i potenziali votanti alle prossime elezioni, tutti i pezzi prodotti oggi o tutti gli scontrini del mese di novembre. Un campione è un sottoinsieme della popolazione; per esempio : alcuni votanti a caso per un’intervista, alcuni pezzi selezionati per un test di d’istituzione, alcuni scontrini selezionati a caso per una verifica. Con campionamento facciamo riferimento alla modalità di estrazione del campione dalla popolazione. Quando parliamo di inferenza , ci riferiamo a quel processo di generalizzazione per il quale i risultati ottenuti su un campione vengono estesi alla popolazione. Quando facciamo inferenza statistica sulla popolazione esaminiamo i risultati campionari (metodo induttivo). I parametri sono le caratteristiche della popolazione, non sono noti, ma possono essere stimati a differenza delle statistiche note, caratteristiche note del campione. Si può analizzare la natura del campione considerando l’esperimento aleatorio che consiste nel estrarre le unità e osservare i valori. Prima dell’esperimento il campione è un vettore di n variabili aleatorie X1, X2, …, Xn (lettere maiuscole). Dopo l’esperimento il campione è un vettore di n numeri x1, x2, …, xn (lettere minuscole). Tutto ciò è vero a prescindere dal fatto che la popolazione sia finita o infinita; naturalmente la natura finita o infinita cambia il modo di estrarre il campione.
Tipicamente l’inferenza riguarda alcuni parametri (indici relativi alla distribuzione del carattere di interesse nella popolazione, es. media, mediana, deviazione std.). Poiché il campionamento casuale genera una variabile aleatoria X con la stessa distribuzione del carattere X, si chiamano parametri anche gli indici della distribuzione della variabile aleatoria X. Se assumiamo che la variabile aleatoria X appartenga ad una certa famiglia parametrica (es. Normale, Binomiale) i parametri della famiglia rappresentano gli aspetti ignoti della popolazione. Esempio : se X ha distribuzione Normale gli aspetti ignoti sono ricondotti a due soli parametri, la media e la deviazione standard (se si conoscono questi due parametri allora si conosce l’intera distribuzione).
La teoria statistica di base si basa sulla nozione di campione casuale. Indichiamo con X la variabile aleatoria che descrive la distribuzione del carattere nella popolazione e supponiamo di estrarre un campione di dimensione n. Prima di effettuare l’estrazione, il valore che mostrerà la i-ma unità estratta è ignoto, è una variabile aleatoria che indichiamo con Xi. Il campione è quindi un vettore di n variabili aleatorie X1, X2,..., Xn. Il campione si dice campione casuale quando le n variabili aleatorie X1, X2,... Xn sono iid-X , cioè indipendenti e identicamente distribuite come X. Indipendenti: la distribuzione di probabilità di un elemento campionario Xi non dipende dai valori assunti dagli altri elementi campionari. Questo accade se vi è indipendenza nella popolazione e il metodo di campionamento preserva tale indipendenza. Identicamente distribuite come X: tutti gli elementi campionari hanno la stessa distribuzione (sono dei cloni) e tale distribuzione è la stessa del carattere nella popolazione (= ogni Xi ha la stessa distribuzione di X). Questo accade se le probabilità di estrazione sono identiche per tutte le unità della popolazione e non vi sono problemi di mancata risposta o errore di misurazione. Dire che X1, X2,... Xn è un campione casuale da una popolazione Normale significa dire che:
sono ignote).
e coincide con quella del carattere nella popolazione. Esempio
Tipicamente il parametro di interesse primario è la media della popolazione. Disponendo di un campione, lo stimatore naturale della media della popolazione è la media campionaria. Una distribuzione campionaria è una distribuzione di tutti i possibili valori di una statistica ottenuti da campione della stessa ampiezza estratti dalla popolazione: consideriamo la distribuzione campionaria delle media. Esempio 1 Supponiamo che l’intera popolazione di interesse sia composta da N=4 individui, sui quali di misura la variabile “numero di libri letti nell’ultimo mese. Analizziamo anche la distribuzione della variabile di interesse nella popolazione.
Per convenienza si usa la lettera latina maiuscola per lo stimatore e la corrispondente lettera minuscola è la stima. La stima è un procedimento inferenziale (induttivo) e quindi è soggetto ad errore —> occorre quantificare l’errore. Errore di stima Ogni campione è caratterizzato da un errore di stima , ad esempio : se viene estratto il campione n. 3 la stima è 0.5, è una sottostima di -0.75; se viene estratto il campione n. 4 la stima è 1.5, abbiamo una sovrastima di +0.25. Una volta estratto il campione la stima è nota, ma il valore del parametro di interesse no, per cui di fatto l’errore di stima è ignoto (non si può nemmeno sapere se l’errore è per eccesso o per difetto). Stimatore non distorto Quindi non si può valutare se una specifica stima è buona o no, ma si possono valutare le proprietà dello stimatore: in generale, cioè considerando tutti i possibili campioni, lo stimatore come si comporta? Definizione: uno stimatore si dice corretto o non distorto quando il valore atteso dell’errore di stima (= errore di stima medio nell’insieme dei possibili campioni) è nullo. Nell’esempio il valore atteso dell’errore di stima è: È un caso fortunato? No, è vero in generale, qualunque sia la distribuzione del carattere nella popolazione, che la media campionaria è uno stimatore non distorto della media della popolazione —> in alcuni campioni sovrastima, in altri sottostima, ma nell’insieme dei campioni sovrastime e sottostime si compensano, per cui lo stimatore non ha una tendenza sistematica né alla sovrastima né alla sottostima. Formalmente la proprietà di non distorsione si scrive come: In alternativa, per la proprietà del valore atteso si può scrive anche: Uno stimatore è non distorto quando il suo valore atteso coincide con il parametro di interesse, qualunque sia il suo valore. Nell’esempio : E(X)=1.25, che coincide con la media della popolazione mu=1.25. Osservazione 1: E() è il valore atteso della distribuzione campionaria, cioè il valore medio nell’insieme dei possibili campioni. Osservazione 2: la precisazione “qualunque sia il valore del parametro” è cruciale perché in pratica il valore del parametro è ignoto. Variabilità dello stimatore Supponiamo che lo stimatore in questione sia non distorto = nell’insieme dei campioni sovrastime e sottostime si compensano. Questa è una buona proprietà, ma non garantisce una stima accurata. Infatti, in
pratica si dispone di un solo campione, al quale è associato un errore di stima ignoto che potrebbe anche essere enorme. Si pongono allora domande del tipo:
Occorre dunque quantificare il livello di incertezza associato allo stimatore, cioè quanto le stime (e quindi gli errori di stima) variano da campione a campione —> varianza ed errore standard.
La varianza della media campionaria è: Nell’esempio la varianza è 0.59375 che effettivamente coincide con il rapporto tra la varianza della popolazione (1.1875) e la numerosità campionaria (2). La deviazione standard di X è detta errore standard della media campionaria e descrive la variabilità di X intorno a mu(X): Derivazione media, varianza e deviazione standard della media campionaria La media e la varianza delle media campionaria possono essere derivate pensando che la statistica (stimatore) media campionaria non è altro che una nuova variabile che nasce come combinazione lineare delle n variabili campionarie: Quindi: In generale l’errore standard della media campionaria è:
il carattere varia nella popolazione, tanto più la media varia da campione a campione.
grande è il campione, tanto meno la media varia da campione a campione. La media campionaria è una statistica relativa all’osservazione di un campione composto da n unità. Nel calcolare la media i valori grandi e piccoli si compensano: la media è meno variabile delle singole osservazioni.
ha distribuzione approssimativamente Normale. A l c r e s c e r e d e l l a d i m e n s i o n e c a m p i o n a r i a n l’approssimazione diventa sempre migliore. Problema pratico: quanto grande deve essere la dimensione campionaria n affinché l’approssimazione sia buona? Infatti nelle applicazioni si dispone di un campione di una certa ampiezza n e si deve valutare se l’approssimazione è accettabile: in caso di risposta affermativa si usa l’approssimazione alla Normale, altrimenti occorre seguire altre strade (alquanto impervie, che noi non vedremo). Distribuzione della media campionaria per campioni di diversa ampiezza (n =2, 5, 30) estratti da tre popolazioni con diversa distribuzione. Quanto più la distribuzione del carattere nella popolazione è simmetrica e campanulare tanto più bassa è la dimensione campionaria per la quale l’approssimazione alla Normale è buona (nei casi favorevoli n=5 è sufficiente). Regola pratica prudenziale: un campione di ampiezza n=25 o 30 è sufficiente per una buona approssimazione nella maggior parte dei casi. Esempio 1 Supponiamo che (un carattere X in) una popolazione abbia media μ = 8 e scarto quadratico medio σ =
Media campionaria: probabilità di non superare una certa soglia Dunque in moltissimi casi la distribuzione della media campionaria è (almeno approssimativamente) Normale:
In molte applicazioni il carattere di interesse è qualitativo con due modalità (sì/no, conforme/non conforme, soddisfatto/insoddisfatto, acquista/non acquista). Si dice anche che i dati sono binari o dicotomici. In tal caso la distribuzione del carattere nella popolazione è necessariamente Bernoulli (successo/insuccesso) —> successo = presenza della caratteristica di interesse (sì, conforme, soddisfatto). L’unico parametro è p = probabilità di successo = “probabilità che un’unità a caso della popolazione presenti la caratteristica di interesse”. Popolazione finita —> p = proporzione di successi = “proporzione di unità della popolazione che presentano la caratteristica di interesse”. Lo stimatore naturale della proporzione nella popolazione, p , è il corrispondente nel campione, cioè la proporzione campionaria: Codificando il successo con 1 e l’insuccesso con 0 il campione X1, X2, …, Xn è una sequenza di numeri 0 e 1. Allora la proporzione campionaria coincide con la media campionaria calcolata sugli elementi X1, X2, …Xn. La proporzione campionaria è un tipo di media campionaria —> valgono tutte le proprietà viste in generale per la media campionaria. La proporzione campionaria è uno stimatore non distorto della proporzione nella popolazione:
Esempio Supponiamo che il 75% dei clienti sia soddisfatto del servizio. La popolazione è infinita: si tratta dei clienti in astratto, quelli effettivi e quelli potenziali, quelli di ieri e quelli di domani. Il carattere di interesse è dicotomico; ponendo “successo”=“cliente soddisfatto” la distribuzione del carattere nella popolazione è Bernoulli con probabilità di successo (= di cliente soddisfatto) p =0.75 : X~Be(0.75). Supponiamo di intervistare n=200 clienti; in tal caso l’errore standard della proporzione campionaria è: Inoltre la distribuzione è ben approssimata dalla Normale (infatti 200x0.75x0.25>9). La proporzione di clienti soddisfatti cambia da campione a campione: in alcuni è superiore a quella vera del 75%, in altri è inferiore. Qual è la probabilità di osservare un campione in cui i clienti soddisfatti sono non più del 70%?