Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica: inferenza statistica su popolazione e campionamento, Appunti di Statistica

Come utilizzare una statistica campionaria per inferire su una popolazione, con un esempio di inferenza non parametrica. Viene discusso il concetto di stimatore, stima e variabilità, e come la media campionaria può essere utilizzata per stimare un parametro sconosciuto. Il documento include anche un esempio pratico con calcoli e tabella.

Tipologia: Appunti

2020/2021

Caricato il 17/04/2022

cinerealg
cinerealg 🇮🇹

1 documento

1 / 33

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
21/10/21
Variabili Casuali = modelli probabilistici che ci permettono di avere una rappresentazione sintetica
di un fenomeno collettivo reale.
Esistono diverse variabili casuali codificate tra cui:
BERNOULLI: variabile casuale discreta utilizzata per descrivere tutti quei fenomeni che si
manifestano con una dicotomia di due risultati.
ESEMPIO vero o falso: l’esito dell’esperimento può realizzarsi in due risultati.
Supporto: tipicamente si assegna il valore 0 all’evento elementare “insuccesso” e il valore 1
all’evento elementare “successo”.
P porzione di popolazione che presenta ad esempio la caratteristica “successo”; è il
parametro caratteristico della variabile bernoulli, ovvero una quantità costante della popolazione,
se si conosce il parametro abbiamo descritto la popolazione, quando non conosciamo i parametri
usiamo l’inferenza.
BINOMIALE: è un’estensione della bernoulli ma si assume di estrarre n soggetti dalla
popolazione e si calcola la probabilità che su n soggetti, x di loro abbiamo la caratteristica
“successo”, nella bernoulli invece facciamo una sola estrazione.
NORMALE
P µ;
σ2
INFERENZA
Deduttiva: è un metodo per derivare informazioni da fatti accertati; le conclusioni cui si arriva con
l’inferenza deduttiva sono definitive. È l’inferenza che in matematica si usa per dimostrare i
teoremi.
Induttiva: si generalizza l’esperimento singolo a tutti gli esperimenti simili operando una estensione
dal particolare al generale. Le generalizzazioni però non sono certe e l’incertezza viene misurata in
termini probabilistici.
INFERENZA STATISTICA PARAMETRICA:
INFERENZA INDUTTIVA
INFERENZA STATISTICA NON PARAMETRICA:
Y: 0,1
P(Y=0): 1-p
P(Y=1) = p
P(Y=y)=
Pg(1P)1g
Assumo di conoscere la
tipologia di variabile casuale
ma non conosco i parametri.
Non si conosce
neanche la forma della
distribuzione.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21

Anteprima parziale del testo

Scarica Statistica: inferenza statistica su popolazione e campionamento e più Appunti in PDF di Statistica solo su Docsity!

Variabili Casuali = modelli probabilistici che ci permettono di avere una rappresentazione sintetica

di un fenomeno collettivo reale.

Esistono diverse variabili casuali codificate tra cui:

BERNOULLI : variabile casuale discreta utilizzata per descrivere tutti quei fenomeni che si

manifestano con una dicotomia di due risultati.

ESEMPIO  vero o falso: l’esito dell’esperimento può realizzarsi in due risultati.

Supporto : tipicamente si assegna il valore 0 all’evento elementare “insuccesso” e il valore 1

all’evento elementare “successo”.

P  porzione di popolazione che presenta ad esempio la caratteristica “successo”; è il

parametro caratteristico della variabile bernoulli, ovvero una quantità costante della popolazione,

se si conosce il parametro abbiamo descritto la popolazione, quando non conosciamo i parametri

usiamo l’inferenza.

BINOMIALE : è un’estensione della bernoulli ma si assume di estrarre n soggetti dalla

popolazione e si calcola la probabilità che su n soggetti, x di loro abbiamo la caratteristica

“successo”, nella bernoulli invece facciamo una sola estrazione.

NORMALE

P  μ; σ

2

INFERENZA

 Deduttiva: è un metodo per derivare informazioni da fatti accertati; le conclusioni cui si arriva con

l’inferenza deduttiva sono definitive. È l’inferenza che in matematica si usa per dimostrare i

teoremi.

 Induttiva: si generalizza l’esperimento singolo a tutti gli esperimenti simili operando una estensione

dal particolare al generale. Le generalizzazioni però non sono certe e l’incertezza viene misurata in

termini probabilistici.

INFERENZA STATISTICA PARAMETRICA :

INFERENZA INDUTTIVA

INFERENZA STATISTICA NON PARAMETRICA :

Y: 0,

P(Y=0): 1-p

P(Y=1) = p

P(Y=y)= P

g ( 1 − P )

1 − g

Assumo di conoscere la

tipologia di variabile casuale

ma non conosco i parametri.

Non si conosce

neanche la forma della

distribuzione.

Esempio di inferenza statistica parametrica:

(Y  N) =(?;?) So che la popolazione ha una forma normale ma non conosco i parametri μ; σ

2

SCOPO: utilizzare i risultati dell’esperimento campionario per giungere alla conoscenza dei parametri

della Popolazione che ha generato quei risultati.

Dai dati osservati sul campione

Ad affermazioni che riguardano la popolazione

Esempio di inferenza statistica non parametrica:

(Y  ?) = (?;?) Non so né la distribuzione della popolazione né i parametri.

I PARAMETRI DELLA POPOLAZIONE

sono delle costanti che descrivono aspetti caratteristici della distribuzione del carattere nella popolazione

stessa. Es: media e varianza della popolazione

Parametri più comuni

 Totali (es. occupati)

Medie (es. reddito)

Proporzioni o percentuali (es. % di laureati)

 Rapporti (es. peso medio, rapporto tra totali)

L’inferenza si serve di 2 strumenti:

 Stima: ci permette di fornire una misura del parametro incognito, si divide a sua volta in

  • Stima puntuale  mi pongo il problema di fornire una misura del parametro incognito (povera

come capacità informativa es. non ci fornisce info sugli errori)

  • Stima di intervallo  intervallo di valori sulla misura del parametro

 Verifica di ipotesi: facciamo affermazioni sul parametro incognito e vogliamo capire se

queste sono affidabili oppure no.

In entrambi i casi ci serviamo dei dati campionari, facendo riferimento ad un campione

probabilistico che ci permette di misurare l’errore campionario.

NB: tutte le affermazioni della statistica inferenziale sono incerte, ma certe probabilisticamente.

Il campione casuale

Supponiamo l’ipotesi di voler misurare il reddito degli italiani, quindi devo estrarre un campione

casuale dalla popolazione.

Dai dati osservati su un campione

Ad affermazioni sulla popolazione

Di nostro interesse

Y (media campionaria)

P (proporzione campionaria) Statistica Campionaria  Variabile Casuale.

S (varianza)

Se faccio la media delle medie campionarie il risultato è μ. Ciò significa che se potessi estrarre un

numero molto grande di campioni di cui calcolo per ognuno la media, facendo poi la media delle

medie ottengo μ, che è il parametro su cui sto facendo inferenza, quindi uso uno strumento

corretto. Altrimenti se si usasse un’altra statistica che tende a sottostimare o sovrastimare il

parametro allora sarebbe uno strumento distorto.

Perché non si usa ad esempio la mediana campionaria o la moda campionaria, dato che anche

queste sono variabili casuali? Devo vedere se anche i loro valori attesi corrispondono a μ. Noi

sappiamo che:

Moda campionaria  valore atteso ≠ μ  non può essere utilizzata come statistica

Mediana campionaria  valore atteso = μ  può essere utilizzata come statistica

-Quando utilizzo una statistica per stimare un parametro incognito allora si parla di stimatore

-Il valore (numero reale) che lo stimatore assume su uno specifico campione osservato è la stima

-La media campionaria è lo stimatore che utilizzo per stimare μ; dunque, lo stimatore essendo una

statistica è una variabile casuale.

-i valori che Y potrà assumere saranno in numero uguale al numero dei campioni e varieranno in funzione di

tali campioni

  • la distribuzione di Y dipenderà dalla distribuzione della Popolazione Y e sarà caratterizzata, come tutte le

distribuzioni di probabilità, da una sua media, una sua varianza, …

Quindi avrà una sua

Distribuzione

Varianza

Media (o valore atteso E)

T=(y1;y2;y3….yn) è una variabile casuale

T=( y1;y2;y3….yn) è un numero, una stima del parametro incognito

Sintesi

Per fare inferenza ci serve un campione casuale e, prima di procedere all’estrazione delle unità, il

campione e qualsiasi funzione di sintesi sono variabili casuali perché il valore che esse assumono

varia al variare del campione. Dopo l’estrazione la funzione diventa una funzione matematica che

assume come valore un numero reale. La statistica campionaria più comune è la media

campionaria o valore atteso (E) ed è uguale a μ. Questa è una proprietà generale che ci permette

con tale statistica di individuare il parametro incognito, in questo caso la nostra statistica è quindi

uno stimatore (v.c.) che assume il valore reale del parametro incognito, ovvero una stima.

Tuttavia, cambiando campione cambia il valore, ad esempio, della media campionaria, quindi, non

esiste un metodo di stimare in maniera esatta il parametro perché c’è sempre l’errore

campionario ovvero differenza tra valore vero del parametro (t) e il valore della stima (θ)

L’errore campionario si può misurare attraverso il calcolo delle probabilità ma non è eliminabile

per cui la mia preoccupazione deve essere quella di usare lo stimatore corretto. per capire la bontà

di uno stimatore devo utilizzare dei criteri:

Primo criterio : calcolo il valore atteso dello stimatore e lo confronto con il valore vero del

parametro incognito e se il valore dello stimatore è uguale al valore del parametro

incognito allora lo stimatore è corretto.

E(T)= θ

Quindi STIMATORE CORRETTO

E(Y)=μ

ERRORE CAMPIONARIO

d=t-θ

ESEMPIO

STIMATORE: MEDIA

CAMPIONARIA

CONFRONTO CON

PARAMETRO INCOGNITO: μ

Le unità vengono scelte CASUALMENTE dalla lista e ogni unità ha la stessa probabilità di

entrare a far parte del campione.

CASUALMENTE però non vuol dire A CASACCIO. Il termine “CASUALE” è infatti

strettamente connesso con quello di probabilità.

CON REINSERIMENTO

Il campionamento si può realizzare

SENZA REINSERIMENTO

ESEMPIO

Popolazione di 4 soggetti (N=4) su cui si osserva l’età, dove Y è la v.c. che descrive l’età e che

assume i valori:

Y= 18,20,22,

Voglio un campione di ampiezza n=2 (Y1, Y2) entrambe variabili casuali.

Con reinserimento : estraggo la prima unità, la rimetto dentro ed estraggo la seconda quindi le v.c.

sono indipendenti e ciascuna di essa

 assume gli stessi valori della popolazione (Y1=Y; Y2=Y…)

 hanno la stessa distribuzione della variabile Y

Y Pro

b

Tabella con tutte le possibili coppie di unità della popolazione con le corrispondenti probabilità di

essere estratte (che sono tutte le stesse).

(Y1,Y2) PROB.

Y1 PROB

Y2 PROB

18 4/16 = 1/

20 4/16 = 1/

22 4/16 = 1/

25 4/16 = 1/

-Y1 può assumere i valori: 18,20,22,25 gli stessi di Y.

Con le stesse probabilità

-Y2 può assumere i valori: 18,20,22,25 gli stessi di Y

ESEMPIO

P(Y1=18) = P [(18,18) o (18,20) o (18,22) o (18,25)] sono eventi incompatibili  somma

= P [(18,18) +(18,20)+(18,22)+(18,25)]= ¼ stessa probabilità dei valori di Y

N.B. poiché i campioni si distinguono per la natura e non per l’ordine, in caso di reimmissione

invece l’universo dei campioni { s } è di fatto formato da 10 campioni:

(Y1,Y1); (Y1,Y2); (Y1,Y3); (Y1,Y4); (Y2,Y2); (Y2,Y3); (Y2,Y4); (Y3,Y3); (Y3,Y4); (Y4,Y4)

Attenzione: NON tutti con la stessa probabilità di essere estratti.

  • Se si ha la stessa unità nel campione la probabilità rimane 1/16: p^ (^18 ;^18 )=^
  • Se si hanno unità differenti la probabilità è 2/16: p^ (^18 ;^^20 )=^

Senza reinserimento : gli elementi campionari sono v.c. e sono dipendenti, l’esito della seconda

estrazione dipende da cosa si è realizzato nella prima. Nonostante ciò:

 ogni elemento campionario può assumere sempre gli stessi valori di Y con le stesse

probabilità. Nella tabella dei possibili campioni di ampiezza n non trovo più i campioni

 avrà una distribuzione esattamente identica a quella della variabile Y.

Y Pro

b

Varianza nel CCS

Se entrambi gli stimatori sono corretti si deve preferire quello che varia meno.

  • In quello senza reimmissione i valori della media campionaria variano da 19 a

23,

  • In quello con reimmissione i valori della media campionaria variano da 18 a 25

Già dal range si vede che nel campionamento con reimmissione è più ampio e già a

occhio si può intuire quale sia meglio.

Calcolo della varianza dello Stimatore media campionaria quando il campionamento è

con e senza reimmissione.

CCS con reimmissione:

Var ( y )= Var (

i = 1

n

Y

i

n

)=^

σ

2

n

All’aumentare della dimensione del campione si riduce la variabilità.

CCS senza reimmissione:

c’è anche la covarianza

Var ( y )= Var (

i = 1

n

Y

i

n

)=^

σ

2

n

Nn

N − 1

Questa quantità è sicuramente <1 (tranne quando estraggo n=1)

  1. Se questa quantità è più piccola di 1 tutta la varianza della media campionaria

senza reimmissione è minore della varianza della media campionaria con

reimmissione.

  1. Se la Popolazione N è molto grande rispetto alla dimensione del campione,

questo rapporto si avvicina molto ad 1

Es. N=

n=

Nn

N − 1

Se invece n=

Nn

N − 1

Si chiama fattore di correlazione per

Popolazioni finite.

N= ampiezza popolazione

n= ampiezza campione

Il CCS senza reimmissione da in generale stime più precise, ma in realtà quando la

popolazione è grande questa differenza diminuisce perché il fattore di correlazione

tende ad 1. In genere si lavora con popolazioni molto grandi.

Conviene il campionamento senza rimmissione quando si fanno studi su popolazioni

molto piccole.

CAMPIONAMENTO CASUALE STRATIFICATO

Rimangono delle varianti di campionamento tra cui il campionamennto casuale stratificato nel

quale si suddivide la popolazione in un certo numero di strati individuando in funzione di uno o più

caratteri. Gli strati sono:

 Esaustivi  ogni unità statistica cade in uno degli strati, quindi l’unione di tutti gli strati mi

dà l’intera popolazione P1 E P2 E….PH=P

 Mutuamente escludentesi (disgiunti/incompatibili)  l’intersezione di due qualsiasi di

questi sottoinsiemi è un’insieme vuoto perché ogni unità statistica appartiene a uno e uno

solo di questi strati P1 ∩ P2= Ꝋ

Obiettivi del campionamento casuale stratificato:

 Ottenere maggior precisione nelle stime e quindi avere stimatori che hanno varianza più

piccola

 Garantire la rappresentatività anche di sottoinsiemi piccoli della popolazione (domini di

studio)

N.B. Gli strati devono essere definiti in funzione di caratteri correlati al carattere che noi vogliamo

studiare.

Nh=dimensione dello strato

nh=quanti sono gli individui dello strato h che entrano a far parte del mio campione

Partizione della

popolazione in H

strati

P1 P…

P

PH

Da ogni strato si seleziona un CCS di unità (con reimmissione tipicamente), quindi

questa non è altro che la varianza dello stimatore media campionaria con

reimmissione.

Var (Yh)=

Sh

2

nh

rapporto tra varianza della popolazione Y nello strato h e nh

ovvero la dimensione del campione selezionato dallo strato h

Se io costruisco strati omogenei all’interno rispetto alla variabile di studio, le varianze al quadrato

dei singoli strati tenderanno ad essere più piccole rispetto a quella della popolazione e quindi la

varianza dello stimatore media campionaria tende ad essere più piccolo rispetto a quello del

campione casuale semplice. Ecco perché il campionamento stratificato è più utilizzato.

Sh

2 < σ

2

La possibilità di ridurre la varianza dello stimatore è quindi legata a quella di ottenere strati che

risultino (rispetto alla variabile d’indagine) più omogenei della Popolazione presa nel suo

complesso.

CAMPIONAMENTO STRATIFICATO

Bisogna distinguere due varianti del campionamento stratificato. Fin ora ci siamo focalizzati sulla

media campionaria ma c’è anche Wh ovvero la quota di soggetti della popolazione che

appartengono allo strato h, ma quale frazione di campionamento scelgo dai vari strati?

Devo decidere se mantenere la frazione di campionamento costante nei vari strati oppure

scegliere frazioni di campionamento diversi per ogni strato.

Es. voglio un campione che rispecchi il 5% della popolazione - seleziono il 5% per ogni strato

oppure no?

Nel primo caso si parla di campionamento stratificato proporzionale mentre nel secondo di

campionamento stratificato non proporzionale

Campionamento stratificato proporzionale

La quota di unità che seleziono dal primo strato è uguale a quella che seleziono da tutti gli altri

strati quindi corrisponde alla frazione di campionamento complessiva. Quindi è caratterizzato da

frazione di campionamento costante:

fh=

nh

Nh

n

N

= f

Varianza di Y nello strato h

Campione stratificato PROPORZIONALE

n 1

N 2

n 2

N 2

nh

Nh

n μ

N μ

n

N

Nel campionamento proporzionale si ha che:

n h

N (^) h

n

N

→ sostituendo nominatore e denominatore viene :

n h

Nh

N

h

N

= W

h

Vantaggi

La stratificazione proporzionale è molto diffusa e dà luogo a stimatori molto semplici e

di precisione non inferiore a quella he si otterrebbe con il CCS. Da ogni strato, infatti,

si seleziona la stessa quota di soggetti.

Svantaggio

Questo campionamento non sempre può essere attuato ed è conveniente. Spesso il

principale obbiettivo che si persegue con la stratificazione è quello di ottenere stime di

adeguata precisione per particolari popolazioni, dette domini di studio , che vengono

fatte coincidere con gli strati.

Se un dominio è rappresentato da strati molto piccoli con il campionamento

proporzionale (in valore assoluto) si selezionano poche unità da quegli strati. Per cui, si

rischia di perdere precisione nello Stimatore e di non rappresentare adeguatamente e

in maniera sufficiente quello strato piccolo.

Se ho delle sottopopolazioni in cui il carattere è poco diffuso e procedo con Campionamento

Stratificato Proporzionale rischio di perdere precisione nello stimatore.

Var ( y ¿¿ h )=

Sh

2

n

quindi è bene ricorrere a un sovracampionamento nello strato piccolo, ovvero è meglio procedere

con un campionamento stratificato non proporzionale in modo che si abbiano stime più precise

perché si riduce la variabilità dello stimatore perché si applica in quello strato una frazione

di campionamento diversa (maggiore) delle altre.

Il Campionamento Stratificato NON Proporzionale e le sue modalità

esistono vari metodi per stabilire le frazioni di campionamento nei singoli strati, ma

una logica che si può seguire è la ripartizione ottimale.

F1 F2 Fh F

Se n è piccolo la varianza sale e si rischia di

avere stime poco precise per quella

sottopopolazione.

  1. Si seleziona un numero casuale r compreso tra 1 e k: 1≤r≤k;
  2. Il valore che si estrae indica la posizione della prima unità che entrerà a far

parte del campione (es. r=2, si seleziona l’unità che occupa quella posizione);

  1. Una volta individuata la prima unità le altre vengono individuate in maniera

sistematica facendo dei passi uguali a k fino a quando non si arriva alla fine.

Proseguo quindi con passo K, cioè effettuo R+K=R2 - R2+K= R3 ….

Quindi è utile avere la lista delle unità e molto dipende da come esse sono ordinate:

 se sono ordinate in modo casuale il campionamento sistematico ha la stessa precisione del

CCS

 se si ordinano le unità per il valore della y (teoricamente perché non conosco y) quindi

diciamo per una variabile che conosco e che è correlata ad y, allora il CS ha una precisione

maggiore del CCS perché la rappresentatività non è minore del CCS.

Nel Campionamento Sistematico

 ogni unità ha la stessa probabilità di essere estratta

 non tutti i campioni n hanno la stessa probabilità di essere selezionati.

Ad esempio le unità che occupano una posizione minore rispetto a K oppure unità

consecutive non saranno mai estratte (es. K=15 R=2 - 15+2=17)  non è posibile

selezionare 18,19,20 perché dovrò fare 17+15=

Campionamento stratificato: Si divide la popolazione in strati (sottoinsiemi) e da a ogni

strato si etrae un ccs. È opportuneo che siano omogenei all’interno ed eterogenei tra loro.

Perché se la varianza all’interno è piccola la varianza della popolazione tende ad essere più

piccola che nel ccs

Campionamento a grappoli: popolazione divisa sempre in sottoinsiemi però selezioniamo

un ccs di grappoli e osserviamo tutte le unità statistiche al suo interno

28/10/

CAMPIONAMENTO A GRAPPOLI

Grappoli e Stadi

Strati: raggruppamenti di unità utilizzati come strati al cui interno estrarre unità;

Grappoli: raggruppamenti utilizzati come vere e proprie unità di selezione.

Gli stessi aggregati di popolazione possano essere utilizzati come strati e come

grappoli. Però gli scopi che si perseguono con la stratificazione sono profondamente

diversi da quelli che si perseguono con la stadificazione.

Strati

Nel campionamento stratificato la popolazione viene suddivisa in strati, che sono

sottoinsiemi della Popolazione stessa e da ogni strato si seleziona un CCS di unità. Gli

strati per avere un migliore campionamento devono essere:

Eterogenei (diversi) tra loro Perché all’interno si prende solo un CCS, se le

varianze all’interno degli strati sono piccole, la

varianza complessiva dello stimatore è minore di

quella nel CCS.

Omogenei al loro interno

Grappoli

Nel campionamento a grappoli, invece, si ha sempre la solita Popolazione divisa in

sottoinsiemi, che teoricamente possono essere gli stessi di prima, ma in questo caso si

seleziona un CCS di questi grappoli. Si osservano, poi, tutte le unità statistiche

appartenenti ai grappoli selezionati.

Per non perdere precisione a livello di stima i grappoli selezionati dovrebbero

rappresentare anche quelli esclusi dalla selezione. L’ideale sarebbe che i grappoli

fossero:

Omogenei tra loro

Eterogenei al loro interno

Se questa situazione si verifica il campionamento a grappoli può portare a stimatori

più precisi del CCS. In ipotesi estrema se i grappoli fossero tutti uguali, ciascuno

sarebbe una copia ridotta della Popolazione; sarebbe, quindi, sufficiente selezionarne

solo uno per avere la stessa informazione che si otterrebbe da un’indagine completa.

Grappoli VS. Stadi

Gli strati sono definiti da chi fa l’indagine mentre i grappoli sono aggregazioni

preesistenti nella popolazione (es. province, comuni ecc.). Proprio perché sono

preesistenti normalmente i grappoli non sono molto omogenei tra di loro e le unità

appartenenti a grappoli diversi hanno caratteristiche generali diverse tra di loro.

Se non si ha un’omogeneità tra grappoli si ha una perdita di precisione. Per

compensare la perdita di precisione ed ottenere stimatori caratterizzati dalla stessa

precisione che hanno quelli di un CCS di dimensione n, nel campionamento a grappoli

si deve aumentare la dimensione campionaria n(al denominatore).

CAMPIONAMENTO A DUE O PIU’ STADI

Nel campione vengono incluse solo alcune unità selezionate da ciascun dei grappoli

estratti. Numero degli stadi è dato dal numero dei livelli gerarchici di aggregazione

delle unità che vengono individuati per effettuare la selezione.

Esempio

Un campione di italiani potrebbe essere estratto selezionando inizialmente alcune

regioni, da ognuna di queste alcune province, da ciascuna provincia dei comuni, da

questi delle famiglie e, infine, dalle famiglie, le persone che sono oggetto di studio.

Dato che si osservano tutte le unità del

grappolo

STIMA PUNTUALE

Stimatori in uso

Per la media

Gli Stimatori di uso frequente nel caso di variabili indipendenti identicamente

distribuite (I.I.D) sono:

Per la media μ:

Y =

n

i = 1

n

Y

i

Per la varianza (^) σ

2

Un altro Stimatore che serve è quello per la varianza, che spesso non è nota. Si sa che

la varianza nella popolazione è uguale a:

σ

2

N

I = 1

n

( Y^ i − Y^ )

2

In realtà si può dimostrare che il valore atteso dello Stimatore è diverso dal valore

vero della varianza e, in particolare, è minore. Questo vuol dire che lo Stimatore è uno

Stimatore distorto di (^) σ

2 e tende a sottostimare in maniera sistematica il valore del

parametro incognito:

E (^

^

σ

2 )< σ

2

Se su ciascun campione calcoliamo la varianza e poi facciamo le medie di tutte le varienze non

avrò la varianza della popolazione

La media campionaria è lo stimatore più efficiente e

preciso che è stato individuato per la media μ ( non

distorto ) e mediamente ne dà il valore corretto:

Ha una varianza pari a:

Lo Stimatore della varianza potrebbe essere:

^

σ

2

n

I = 1

n

( Y^ i − Y^ )

2

Nella pratica si utilizza la varianza campionaria che è uno stimatore corretto di (^) σ

2 ed è

indicato con il simbolo (^) s

2 :

s

2

n − 1

I = 1

n

( Y^ i − Y^ )

2 =(

n − 1

n

^

σ

2 )

E (^ s

2

2

Teoremi utili

Teorema 1

Assumiamo che Y, il fenomeno di nostro interesse, sia una normale con una sua media

e varianza. Se si definisce una trasformazione lineare di Y (es. Y è reddito, si

moltiplica Y per una certa costante e si somma o sottrae a tutti una certa costante), si

può dimostrare che, come risultato, si ottiene sempre una normale che ha come

media la stessa trasformazione lineare applicata al parametro μ e come varianza ha (^) b

2

moltiplicato per la varianza della Y originaria:

Se Y N (^) ( μY , σY

2 ) ^ allora : W^ = a +^ bY^ − N^ (^ a + b^ μY ;^ b

2 σ (^) Y

2 )

Quindi si può trasformare linearmente qualsiasi carattere, sotto l’ipotesi di normalità,

e come risultato si ottiene sempre una normale di cui si conoscono sia la media che la

varianza (in funzione di quelle originarie).

Teorema 2

Si ha un CCS che può essere indicato come una sequenza di n variabili casuali e dove:

y =( y 1 , y 2 … , yi … , yn )

y 1

y

y 2

y

y i

y

Se si definisce una trasformazione lineare particolare, cioè si definisce una nuova

variabile casuale W come somma degli elementi campionari:

W = y 1

  • y 2

  • + y i

  • + y n

=∑

I = 1

n

y i

W =∑

I = 1

n

y i

N (∑

I = 1

n

μ i

,

I = 1

n

σ i

2 )

La differenza rispetto all’altro è che si

deve dividere per n −1.

Ipotesi

iniziale:

Y N (^ μ , σ

2

I.I.D.

y i

N ( μ , σ

2 ) y i

N ( nμ , nσ

2

La nuova variabile casuale W è ancora

una normale che ha come media la

somma delle medie (che è sempre

uguale a μ) e come varianza si ha la

somma delle varianze:

I = 1

n

μ i

= μ , (^) ∑

I = 1

n

σ i

2 = σ

2