Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica: Distribuzioni Campionarie e Media Campionaria, Appunti di Statica

Il concetto di media campionaria e come verificare l'ipotesi di una media popolazione utilizzando formule di inferenza statistica. Il documento illustra il campionamento casuale semplice e la distribuzione campionaria, inclusa la distribuzione della varianza campionaria e la distribuzione standardizzata Z. Vengono inoltre presentate proprietà delle distribuzioni campionarie e l'approssimazione di grandi campioni.

Tipologia: Appunti

2021/2022

Caricato il 23/06/2022

paolo-gazzotti
paolo-gazzotti 🇮🇹

11 documenti

1 / 21

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CAPITOLO 7 – CAMPIONAMENTO E DISTRIBUZIONI CAMPIONARIE
Questo argomento è un ponte tra la statistica descrittiva e quella inferenziale. La statistica
descrittiva raccoglie i dati, li presenta e li descrive calcolando delle semplici statistiche, quella
inferenziale invece ha l’obiettivo di determinare conclusioni e di prendere delle decisioni riguardo
una popolazione, partendo però da dei dati che riguardano un campione di quella popolazione.
In un lavoro inferenziale si raccolgono e si esaminano i dati di un campione: ciò che noi sappiamo è
quindi solo ciò che ci dice il campione. L’obiettivo dell’inferenza è utilizzare il campione per
stimare parametri o proprietà di una popolazione che non conosciamo.
Nella statistica inferenziale sono fondamentali 2 processi:
1. La stima: prevede di stimare ad esempio la media del peso corporeo di una popolazione
utilizzando la media del peso corporeo di un campione.
2. Test delle ipotesi: supponiamo che la stima della popolazione ci abbia indicato che la media
sia 120 pounds (circa 60/64 kg) e ci dobbiamo chiedere quanto questa stima sia valida,
questo è il test di ipotesi. Il fatto che la media del peso della popolazione sia 120 pounds
utilizzando la media del campione è solo un’ipotesi, dal punto di vista statistico si deve fare
un passo ulteriore verificando l’ipotesi con formule di inferenza statistica.
Popolazione = insieme di tutti gli individui e di tutte le proprietà di interesse di un’analisi statistica.
Campione = sottoinsieme della popolazione, spesso molto ridotto.
Perché utilizzare un campione?
- Tempo: un campione richiede molto meno tempo rispetto alla popolazione intera
- Costo: lavorare con un campione costa meno
- Precisione: è possibile ottenere risultati con una precisione alta anche basandosi
semplicemente su dei campioni.
Importante: in questo esempio vi è solo un
campione, ma dalla popolazione si possono
estrarre più campioni: in funzione di campioni
diversi si possono ottenere risultati diversi
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15

Anteprima parziale del testo

Scarica Statistica: Distribuzioni Campionarie e Media Campionaria e più Appunti in PDF di Statica solo su Docsity!

CAPITOLO 7 – CAMPIONAMENTO E DISTRIBUZIONI CAMPIONARIE

Questo argomento è un ponte tra la statistica descrittiva e quella inferenziale. La statistica descrittiva raccoglie i dati, li presenta e li descrive calcolando delle semplici statistiche, quella inferenziale invece ha l’obiettivo di determinare conclusioni e di prendere delle decisioni riguardo una popolazione, partendo però da dei dati che riguardano un campione di quella popolazione. In un lavoro inferenziale si raccolgono e si esaminano i dati di un campione: ciò che noi sappiamo è quindi solo ciò che ci dice il campione. L’obiettivo dell’inferenza è utilizzare il campione per stimare parametri o proprietà di una popolazione che non conosciamo. Nella statistica inferenziale sono fondamentali 2 processi:

  1. La stima: prevede di stimare ad esempio la media del peso corporeo di una popolazione utilizzando la media del peso corporeo di un campione.
  2. Test delle ipotesi: supponiamo che la stima della popolazione ci abbia indicato che la media sia 120 pounds (circa 60/64 kg) e ci dobbiamo chiedere quanto questa stima sia valida, questo è il test di ipotesi. Il fatto che la media del peso della popolazione sia 120 pounds utilizzando la media del campione è solo un’ipotesi, dal punto di vista statistico si deve fare un passo ulteriore verificando l’ipotesi con formule di inferenza statistica. Popolazione = insieme di tutti gli individui e di tutte le proprietà di interesse di un’analisi statistica. Campione = sottoinsieme della popolazione, spesso molto ridotto. Perché utilizzare un campione?
  • Tempo: un campione richiede molto meno tempo rispetto alla popolazione intera
  • Costo: lavorare con un campione costa meno
  • Precisione: è possibile ottenere risultati con una precisione alta anche basandosi semplicemente su dei campioni. Importante: in questo esempio vi è solo un campione, ma dalla popolazione si possono estrarre più campioni: in funzione di campioni diversi si possono ottenere risultati diversi

Il campionamento casuale semplice può essere realizzato in molti modi. Lo schema di riferimento è quello dell’urna: alle unità della popolazione, numerate con gli interi da 1 a N, si fanno corrispondere altrettante palline recanti detti numeri, si inseriscono le palline in un’urna, mescolandole bene e si procede all’estrazione, una dopo l’altra, senza re-immissione, di n palline; faranno parte del campione le n unità individuate dai numeri delle palline estratte. Nella realtà, il processo di estrazione descritto viene simulato mediante la generazione automatica di numeri casuali. Con il campionamento casuale si evita il rischio di ottenere un campione non rappresentativo della popolazione. Se infatti si estraessero dalla popolazione, in modo ripetuto e indipendente, molti campioni casuali, nessun particolare sottogruppo della popolazione sarebbe sovra rappresentato o sottorappresentato nel campione. Inoltre, il concetto di distribuzione campionaria ci permetterà di determinare le probabilità di ottenere un particolare campione. Quindi il campione che viene scelto fa parte di una distribuzione campionaria, ovvero una distribuzione di probabilità di tutti i possibili campioni. Es. se vogliamo stimare la media del peso corporeo della popolazione italiana possiamo prendere un campione di 1000 persone, poi un altro di 1000 persone, poi un altro ancora di 1000 persone e così via. Si calcola la media del primo campione, poi del secondo, del terzo ecc fino a 500 campioni. Questa media viene detta “distribuita” ed è una distribuzione di probabilità (una delle tante possibili) Es. Chiamato anche “campione di Bernoulli”

Il campione è evidenza di una distribuzione campionaria: ciò che si deve fare è analizzare e verificare le proprietà delle distribuzioni campionarie, ciò è visibile in 3 casi (i più frequenti):

  1. Distribuzione delle medie campionarie
  2. Distribuzione delle proporzioni campionarie
  3. Distribuzione della varianza campionaria

Ciascuna distribuzione è centrata nella media ma, al crescere della dimensione del campione, la distribuzione risulta essere più concentrata intorno alla media della popolazione, poiché, al crescere della dimensione del campione, la deviazione standard della media campionaria diminuisce. Di conseguenza, la probabilità che la media campionaria differisca dalla media della popolazione per almeno una quantità prefissata diminuisce al crescere della dimensione del campione. Supponiamo di avere un campione costituito da n osservazioni su un xn, la media campionaria è la somma di tutti i valori fratto il numero di osservazioni. Se però noi abbiamo più campioni delle stesse dimensioni , prelevati dalla stessa popolazione, ciascun campione darà una media diversa: le medie campionarie sono quindi distribuite, seguono una distribuzione, quindi a loro volta avranno una media e un indice di espressione, come la deviazione standard, che nel caso del campione si chiama “errore standard delle medie” e viene calcolato così: Si nota come l’errore standard della media è minore (e anche di molto) dell’errore standard del campione. Più grande è n (il campione) minore è la dispersione e quindi l’errore; detto in altro modo sigma si chiama “errore standard” perché in un qualche modo misura l’errore di campionamento, il quale viene appunto determinato calcolando il rapporto tra la deviazione

standard del campione fratto radice di n, quindi più grande è la radice di n minore è l’errore che viene commesso. Da qui deriva l’importanza di avere dei campioni grandi. Tornando all’esempio di prima della popolazione formata da 4 persone La media è 21 mentre sigma è 2.236. si può vedere nella distribuzione delle medie in rosso che la media delle medie è ancora 21, ma la sua deviazione standard è 1.58, è inferiore rispetto a sigma. I calcoli fatti sono questi: Il punto interrogativo significa “tutti, da lì in poi”

La variabile standardizzata Z è una variabile particolare che ha media 0 e varianza 1, perciò semplifica i calcoli da fare. Proprietà delle distribuzioni campionarie (alcune)

- il valore atteso della media campionaria coincide proprio con il valore della media della popolazione (la media è quindi una statistica non distorta). Se la popolazione ha una distribuzione normale (come nel primo grafico verde) allora la distribuzione delle medie è ancora normale ma è anche molto più stretta, perché la variazione standard è minore e ciò è visibile nella seconda immagine gialla (nonostante ciò hanno sempre lo stesso valore della media). È più stretta perché sigma della media è calcolato facendo il rapporto tra sigma della popolazione fratto la radice di n. La X ha quindi una deviazione standard ridotta rispetto a quella della popolazione. Tutto ciò che è appena stato detto è visibile anche sovrapponendo le 2 curve, partendo dalla proprietà che l’area sottesa sotto la curva è sempre 1 (l’area deve essere sempre conservata, quindi può essere che una curva sia bassa ma deve essere più larga, come una curva stretta deve essere più alta). Questo dipende dalla radice di n: n è il numero di oggetti nel campione, quindi se abbiamo campioni più grandi la radice di n è un numero più alto, mentre sigma di X medie è un numero più piccolo, invece se abbiamo campioni piccoli la radice di n è più piccola mentre sigma delle medie è più grande. Ricordiamo sempre che più grande è il campione e minore è l’errore che viene effettuato sulla stima della media. Noi stiamo stimando la media, ma in realtà siamo capaci di determinare la distribuzione della media, quindi sappiamo anche di quanto possiamo sbagliare nel fare quella stima. Quindi l’errore che possiamo commettere è esattamente pari a sigma X medie (che si chiama errore standard proprio per questo).

Afferma che la somma di un campione casuale, estratto da una popolazione con una distribuzione qualsiasi (quindi anche per le popolazioni non normali), è approssimativamente distribuita come una normale, con media e varianza , purché l’ampiezza del campione sia abbastanza grande. Ciò vuol dire che tutto ciò che noi facciamo sulla stima delle medie lo possiamo fare utilizzando le proprietà della forma normale. Supponiamo che la curva blu sia la distribuzione della popolazione (che non è normale), se il campione diventa abbastanza grande allora la distribuzione campionaria diventa all’incirca normale (figura rossa)

Qual è l’intervallo entro cui si può accettare il valore della media campionaria? In molte applicazioni sarebbe utile determinare l’intervallo entro il quale cadono i valori delle medie campionarie. Un intervallo di accettazione è un intervallo entro il quale, se si conoscono media e varianza della popolazione, la media campionaria ha ottime probabilità di trovarsi. Se la media campionaria appartiene a questo intervallo, allora possiamo accettare la conclusione che il campione casuale provenga dalla popolazione con la media e la varianza considerate. La probabilità che la media campionaria si trovi entro un particolare intervallo può essere calcolata se la sua distribuzione è approssimativamente normale. Ipotizzando di conoscere la media della popolazione e la varianza, possiamo costruire un intervallo di accettazione simmetrico: La domanda principale è: all’interno di quale intervallo la media di un singolo campione deve cadere per far in modo che la mia statistica sia accettabile? La prima cosa che si deve fare è capire quanta probabilità siamo disposti a lasciare indietro e a perdere. Es. poniamo un valore di accettabilità alfa= 0.05 e significa che siamo disposti a perdere il 5% delle osservazioni per cui 1-alfa = 0.95 , perciò l’intervallo di accettazione è tutta l’area in rosso che corrisponde al 95% della probabilità Più alfa è grande e più siamo tolleranti, mentre più alfa è piccolo e meno siamo tolleranti. Quindi determinare il valore di alfa significa determinare quanta probabilità delle code della distribuzione normale noi andiamo ad eliminare. Quando il processo è regolato in modo da avere una varianza piccola, si determina un intervallo di accettazione per la media campionaria, chiamato intervallo di controllo , e lo si rappresenta sotto forma di carta di controllo. Periodicamente si estraggono dei campioni casuali e i risultati ottenuti si confrontano con l’intervallo di controllo: se la media campionaria si trova al suo interno, il processo si assume sotto controllo e non si interviene, se invece la media campionaria si trova al di fuori dell’intervallo di controllo, si conclude che il processo non è sotto controllo e si deve intervenire per correggerlo. Probabilità = 31% Se vogliamo stime più fini poniamo il livello di accettabilità a livelli più bassi (es. alfa = 0.01 che significa che le stime vanno al 99%) oppure se tolleriamo livelli di accettabilità inferiori poniamo alfa a 0.10, ossia 1-alfa pari al 90%. In sintesi siamo noi che nella scelta di alfa andiamo a determinare l’ampiezza dell’intervallo.

A questo punto dobbiamo andare a determinare i valori corrispondenti ai 2 punti in blu che vengono chiamati Z alfa/2 (Z alfa mezzi) e – Z alfa/2(- Z alfa mezzi) e in entrambi i punti al di là della coda vi è una probabilità di alfa/2: la somma delle probabilità delle 2 code è alfa.

  • Z alfa/2 corrisponde ad una probabilità di 0.025, mentre Z alfa/2 corrisponde ad una probabilità di 0.975. Per calcolare l’ampiezza dell’intervallo tra i 2 punti (riga blu) si deve usare la formula precedentemente descritta Per prima cosa vi è una popolazione, della quale abbiamo una proporzione p (o frequenza relativa) che possiede una certa caratteristica oggetto di studio (es. porzione della popolazione che oggi è vestita di giallo). Dalla popolazione poi viene estratto un campione, la cui proporzione campionaria viene definita con P “con il cappello” la quale fornisce una stima della proporzione della popolazione. p = proporzione della popolazione = proporzione campionaria X = numero di unità nel campione aventi le caratteristiche oggetto di studio n = dimensione del campione Caratteristiche:
    • la proporzione campionaria è un numero che va da 0 a 1 e non può essere diversamente
    • X ha una distribuzione binomiale, ma può essere approssimata da una distribuzione normale quando np(1 – p) > 9. Questa distribuzione è detta “per grandi campioni”

Visto che sappiamo che la distribuzione campionaria segue una normale passiamo alla variabile standardizzata Z perché semplifica notevolmente i calcoli Esempio Se vale l’approssimazione di grandi campioni la distribuzione binomiale può essere sostituita e approssimata da quella normale, quindi questa probabilità si determina andando a calcolare una probabilità all’interno di un intervallo di una distribuzione normale standardizzata. Si fa così: La probabilità che P cappello si trovi compreso tra 0.40 e 0.45 è uguale alla probabilità che la variabile Z standardizzata si trovi tra 0.40 – 0.40 fratto la deviazione standard e 0.45 – 0.40 fratto sempre la deviazione standard. La probabilità finale ottenuta dai calcoli può essere determinata come probabilità di un intervallo della distribuzione normale. Ci si chiede qual è la probabilità che un campione di dimensione 200 produca una proporzione campionaria compresa tra 0.40 e 0.

Ci dobbiamo chiedere qual è l’area compresa tra 0 e 1.44 della funzione normale standardizzata. Se facciamo i calcoli abbiamo che P (Z ≤ 1.44) – P (Z ≤ 0). Se andiamo a vedere sulle tavole troviamo che P (Z ≤ 1.44) = 0.9251 mentre P (Z ≤ 0) = 0. Quindi ora abbiamo 0.9251 – 0. Ricordare bene che lo standard error diminuisce al crescere dell’ampiezza campionaria e quindi la distribuzione diventa molto meno dispersa, come si può vedere in figura La radice quadrata della varianza campionaria è detta deviazione standard campionaria. Per ogni campione casuale si può calcolare la varianza campionaria e questa, in genere, varia da campione a campione, a causa delle diverse osservazioni presenti. Ciò vuol dire che anche la varianza campionaria è una variabile casuale.

Esempio Abbiamo un campione di 14 congelatori e su esso andiamo a studiare la variabilità della temperatura di questi congelatori; troveremo una distribuzione di valori e ci dovremmo chiedere qual è il valore più alto di varianza campionaria che possiamo accettare in modo tale da avere una probabilità bassa che tutti i congelatori della popolazione eccedano questa varianza? La distribuzione non è normale, quindi si deve fare riferimento alla distribuzione vista prima: La deviazione standard non deve essere superiore a 4 gradi, ciò vuol dire che la temperatura media di un congelatore deve essere superiore a media –4 o media +4 (deve mantenersi all’interno di questo range).

Il valore soglia (parte segnata in rosso nel grafico) si deve determinare con l’utilizzo di tavole (ed è 22.36) Ci dobbiamo chiedere la probabilità di avere una varianza e qual è il limite più alto in modo tale che la probabilità di eccedere dal limite sia inferiore a 0.05. 14 (campione) – 1 = 13 Ci si chiede la probabilità che S quadro (varianza campionaria) sia maggiore di un certo valore (K), ossia dobbiamo imporre che la probabilità e la nostra variabile n- ecc sia uguale a 0.05 oppure dobbiamo imporre la seconda formula riportata dove K= 27.