













Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Il concetto di media campionaria e come verificare l'ipotesi di una media popolazione utilizzando formule di inferenza statistica. Il documento illustra il campionamento casuale semplice e la distribuzione campionaria, inclusa la distribuzione della varianza campionaria e la distribuzione standardizzata Z. Vengono inoltre presentate proprietà delle distribuzioni campionarie e l'approssimazione di grandi campioni.
Tipologia: Appunti
1 / 21
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!














Questo argomento è un ponte tra la statistica descrittiva e quella inferenziale. La statistica descrittiva raccoglie i dati, li presenta e li descrive calcolando delle semplici statistiche, quella inferenziale invece ha l’obiettivo di determinare conclusioni e di prendere delle decisioni riguardo una popolazione, partendo però da dei dati che riguardano un campione di quella popolazione. In un lavoro inferenziale si raccolgono e si esaminano i dati di un campione: ciò che noi sappiamo è quindi solo ciò che ci dice il campione. L’obiettivo dell’inferenza è utilizzare il campione per stimare parametri o proprietà di una popolazione che non conosciamo. Nella statistica inferenziale sono fondamentali 2 processi:
Il campionamento casuale semplice può essere realizzato in molti modi. Lo schema di riferimento è quello dell’urna: alle unità della popolazione, numerate con gli interi da 1 a N, si fanno corrispondere altrettante palline recanti detti numeri, si inseriscono le palline in un’urna, mescolandole bene e si procede all’estrazione, una dopo l’altra, senza re-immissione, di n palline; faranno parte del campione le n unità individuate dai numeri delle palline estratte. Nella realtà, il processo di estrazione descritto viene simulato mediante la generazione automatica di numeri casuali. Con il campionamento casuale si evita il rischio di ottenere un campione non rappresentativo della popolazione. Se infatti si estraessero dalla popolazione, in modo ripetuto e indipendente, molti campioni casuali, nessun particolare sottogruppo della popolazione sarebbe sovra rappresentato o sottorappresentato nel campione. Inoltre, il concetto di distribuzione campionaria ci permetterà di determinare le probabilità di ottenere un particolare campione. Quindi il campione che viene scelto fa parte di una distribuzione campionaria, ovvero una distribuzione di probabilità di tutti i possibili campioni. Es. se vogliamo stimare la media del peso corporeo della popolazione italiana possiamo prendere un campione di 1000 persone, poi un altro di 1000 persone, poi un altro ancora di 1000 persone e così via. Si calcola la media del primo campione, poi del secondo, del terzo ecc fino a 500 campioni. Questa media viene detta “distribuita” ed è una distribuzione di probabilità (una delle tante possibili) Es. Chiamato anche “campione di Bernoulli”
Il campione è evidenza di una distribuzione campionaria: ciò che si deve fare è analizzare e verificare le proprietà delle distribuzioni campionarie, ciò è visibile in 3 casi (i più frequenti):
Ciascuna distribuzione è centrata nella media ma, al crescere della dimensione del campione, la distribuzione risulta essere più concentrata intorno alla media della popolazione, poiché, al crescere della dimensione del campione, la deviazione standard della media campionaria diminuisce. Di conseguenza, la probabilità che la media campionaria differisca dalla media della popolazione per almeno una quantità prefissata diminuisce al crescere della dimensione del campione. Supponiamo di avere un campione costituito da n osservazioni su un xn, la media campionaria è la somma di tutti i valori fratto il numero di osservazioni. Se però noi abbiamo più campioni delle stesse dimensioni , prelevati dalla stessa popolazione, ciascun campione darà una media diversa: le medie campionarie sono quindi distribuite, seguono una distribuzione, quindi a loro volta avranno una media e un indice di espressione, come la deviazione standard, che nel caso del campione si chiama “errore standard delle medie” e viene calcolato così: Si nota come l’errore standard della media è minore (e anche di molto) dell’errore standard del campione. Più grande è n (il campione) minore è la dispersione e quindi l’errore; detto in altro modo sigma si chiama “errore standard” perché in un qualche modo misura l’errore di campionamento, il quale viene appunto determinato calcolando il rapporto tra la deviazione
standard del campione fratto radice di n, quindi più grande è la radice di n minore è l’errore che viene commesso. Da qui deriva l’importanza di avere dei campioni grandi. Tornando all’esempio di prima della popolazione formata da 4 persone La media è 21 mentre sigma è 2.236. si può vedere nella distribuzione delle medie in rosso che la media delle medie è ancora 21, ma la sua deviazione standard è 1.58, è inferiore rispetto a sigma. I calcoli fatti sono questi: Il punto interrogativo significa “tutti, da lì in poi”
La variabile standardizzata Z è una variabile particolare che ha media 0 e varianza 1, perciò semplifica i calcoli da fare. Proprietà delle distribuzioni campionarie (alcune)
- il valore atteso della media campionaria coincide proprio con il valore della media della popolazione (la media è quindi una statistica non distorta). Se la popolazione ha una distribuzione normale (come nel primo grafico verde) allora la distribuzione delle medie è ancora normale ma è anche molto più stretta, perché la variazione standard è minore e ciò è visibile nella seconda immagine gialla (nonostante ciò hanno sempre lo stesso valore della media). È più stretta perché sigma della media è calcolato facendo il rapporto tra sigma della popolazione fratto la radice di n. La X ha quindi una deviazione standard ridotta rispetto a quella della popolazione. Tutto ciò che è appena stato detto è visibile anche sovrapponendo le 2 curve, partendo dalla proprietà che l’area sottesa sotto la curva è sempre 1 (l’area deve essere sempre conservata, quindi può essere che una curva sia bassa ma deve essere più larga, come una curva stretta deve essere più alta). Questo dipende dalla radice di n: n è il numero di oggetti nel campione, quindi se abbiamo campioni più grandi la radice di n è un numero più alto, mentre sigma di X medie è un numero più piccolo, invece se abbiamo campioni piccoli la radice di n è più piccola mentre sigma delle medie è più grande. Ricordiamo sempre che più grande è il campione e minore è l’errore che viene effettuato sulla stima della media. Noi stiamo stimando la media, ma in realtà siamo capaci di determinare la distribuzione della media, quindi sappiamo anche di quanto possiamo sbagliare nel fare quella stima. Quindi l’errore che possiamo commettere è esattamente pari a sigma X medie (che si chiama errore standard proprio per questo).
Afferma che la somma di un campione casuale, estratto da una popolazione con una distribuzione qualsiasi (quindi anche per le popolazioni non normali), è approssimativamente distribuita come una normale, con media e varianza , purché l’ampiezza del campione sia abbastanza grande. Ciò vuol dire che tutto ciò che noi facciamo sulla stima delle medie lo possiamo fare utilizzando le proprietà della forma normale. Supponiamo che la curva blu sia la distribuzione della popolazione (che non è normale), se il campione diventa abbastanza grande allora la distribuzione campionaria diventa all’incirca normale (figura rossa)
Qual è l’intervallo entro cui si può accettare il valore della media campionaria? In molte applicazioni sarebbe utile determinare l’intervallo entro il quale cadono i valori delle medie campionarie. Un intervallo di accettazione è un intervallo entro il quale, se si conoscono media e varianza della popolazione, la media campionaria ha ottime probabilità di trovarsi. Se la media campionaria appartiene a questo intervallo, allora possiamo accettare la conclusione che il campione casuale provenga dalla popolazione con la media e la varianza considerate. La probabilità che la media campionaria si trovi entro un particolare intervallo può essere calcolata se la sua distribuzione è approssimativamente normale. Ipotizzando di conoscere la media della popolazione e la varianza, possiamo costruire un intervallo di accettazione simmetrico: La domanda principale è: all’interno di quale intervallo la media di un singolo campione deve cadere per far in modo che la mia statistica sia accettabile? La prima cosa che si deve fare è capire quanta probabilità siamo disposti a lasciare indietro e a perdere. Es. poniamo un valore di accettabilità alfa= 0.05 e significa che siamo disposti a perdere il 5% delle osservazioni per cui 1-alfa = 0.95 , perciò l’intervallo di accettazione è tutta l’area in rosso che corrisponde al 95% della probabilità Più alfa è grande e più siamo tolleranti, mentre più alfa è piccolo e meno siamo tolleranti. Quindi determinare il valore di alfa significa determinare quanta probabilità delle code della distribuzione normale noi andiamo ad eliminare. Quando il processo è regolato in modo da avere una varianza piccola, si determina un intervallo di accettazione per la media campionaria, chiamato intervallo di controllo , e lo si rappresenta sotto forma di carta di controllo. Periodicamente si estraggono dei campioni casuali e i risultati ottenuti si confrontano con l’intervallo di controllo: se la media campionaria si trova al suo interno, il processo si assume sotto controllo e non si interviene, se invece la media campionaria si trova al di fuori dell’intervallo di controllo, si conclude che il processo non è sotto controllo e si deve intervenire per correggerlo. Probabilità = 31% Se vogliamo stime più fini poniamo il livello di accettabilità a livelli più bassi (es. alfa = 0.01 che significa che le stime vanno al 99%) oppure se tolleriamo livelli di accettabilità inferiori poniamo alfa a 0.10, ossia 1-alfa pari al 90%. In sintesi siamo noi che nella scelta di alfa andiamo a determinare l’ampiezza dell’intervallo.
A questo punto dobbiamo andare a determinare i valori corrispondenti ai 2 punti in blu che vengono chiamati Z alfa/2 (Z alfa mezzi) e – Z alfa/2(- Z alfa mezzi) e in entrambi i punti al di là della coda vi è una probabilità di alfa/2: la somma delle probabilità delle 2 code è alfa.
Visto che sappiamo che la distribuzione campionaria segue una normale passiamo alla variabile standardizzata Z perché semplifica notevolmente i calcoli Esempio Se vale l’approssimazione di grandi campioni la distribuzione binomiale può essere sostituita e approssimata da quella normale, quindi questa probabilità si determina andando a calcolare una probabilità all’interno di un intervallo di una distribuzione normale standardizzata. Si fa così: La probabilità che P cappello si trovi compreso tra 0.40 e 0.45 è uguale alla probabilità che la variabile Z standardizzata si trovi tra 0.40 – 0.40 fratto la deviazione standard e 0.45 – 0.40 fratto sempre la deviazione standard. La probabilità finale ottenuta dai calcoli può essere determinata come probabilità di un intervallo della distribuzione normale. Ci si chiede qual è la probabilità che un campione di dimensione 200 produca una proporzione campionaria compresa tra 0.40 e 0.
Ci dobbiamo chiedere qual è l’area compresa tra 0 e 1.44 della funzione normale standardizzata. Se facciamo i calcoli abbiamo che P (Z ≤ 1.44) – P (Z ≤ 0). Se andiamo a vedere sulle tavole troviamo che P (Z ≤ 1.44) = 0.9251 mentre P (Z ≤ 0) = 0. Quindi ora abbiamo 0.9251 – 0. Ricordare bene che lo standard error diminuisce al crescere dell’ampiezza campionaria e quindi la distribuzione diventa molto meno dispersa, come si può vedere in figura La radice quadrata della varianza campionaria è detta deviazione standard campionaria. Per ogni campione casuale si può calcolare la varianza campionaria e questa, in genere, varia da campione a campione, a causa delle diverse osservazioni presenti. Ciò vuol dire che anche la varianza campionaria è una variabile casuale.
Esempio Abbiamo un campione di 14 congelatori e su esso andiamo a studiare la variabilità della temperatura di questi congelatori; troveremo una distribuzione di valori e ci dovremmo chiedere qual è il valore più alto di varianza campionaria che possiamo accettare in modo tale da avere una probabilità bassa che tutti i congelatori della popolazione eccedano questa varianza? La distribuzione non è normale, quindi si deve fare riferimento alla distribuzione vista prima: La deviazione standard non deve essere superiore a 4 gradi, ciò vuol dire che la temperatura media di un congelatore deve essere superiore a media –4 o media +4 (deve mantenersi all’interno di questo range).
Il valore soglia (parte segnata in rosso nel grafico) si deve determinare con l’utilizzo di tavole (ed è 22.36) Ci dobbiamo chiedere la probabilità di avere una varianza e qual è il limite più alto in modo tale che la probabilità di eccedere dal limite sia inferiore a 0.05. 14 (campione) – 1 = 13 Ci si chiede la probabilità che S quadro (varianza campionaria) sia maggiore di un certo valore (K), ossia dobbiamo imporre che la probabilità e la nostra variabile n- ecc sia uguale a 0.05 oppure dobbiamo imporre la seconda formula riportata dove K= 27.