

























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Come utilizzare una statistica campionaria per inferire su una popolazione, con un esempio di inferenza non parametrica. Viene discusso il concetto di stimatore, stima e variabilità, e come la media campionaria può essere utilizzata per stimare un parametro sconosciuto. Il documento include anche un esempio pratico con calcoli e tabella.
Tipologia: Appunti
1 / 33
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


























Variabili Casuali = modelli probabilistici che ci permettono di avere una rappresentazione sintetica
di un fenomeno collettivo reale.
Esistono diverse variabili casuali codificate tra cui:
BERNOULLI : variabile casuale discreta utilizzata per descrivere tutti quei fenomeni che si
manifestano con una dicotomia di due risultati.
ESEMPIO vero o falso: l’esito dell’esperimento può realizzarsi in due risultati.
Supporto : tipicamente si assegna il valore 0 all’evento elementare “insuccesso” e il valore 1
all’evento elementare “successo”.
P porzione di popolazione che presenta ad esempio la caratteristica “successo”; è il
parametro caratteristico della variabile bernoulli, ovvero una quantità costante della popolazione,
se si conosce il parametro abbiamo descritto la popolazione, quando non conosciamo i parametri
usiamo l’inferenza.
BINOMIALE : è un’estensione della bernoulli ma si assume di estrarre n soggetti dalla
popolazione e si calcola la probabilità che su n soggetti, x di loro abbiamo la caratteristica
“successo”, nella bernoulli invece facciamo una sola estrazione.
P μ; σ
2
Deduttiva: è un metodo per derivare informazioni da fatti accertati; le conclusioni cui si arriva con
l’inferenza deduttiva sono definitive. È l’inferenza che in matematica si usa per dimostrare i
teoremi.
Induttiva: si generalizza l’esperimento singolo a tutti gli esperimenti simili operando una estensione
dal particolare al generale. Le generalizzazioni però non sono certe e l’incertezza viene misurata in
termini probabilistici.
P(Y=0): 1-p
P(Y=1) = p
P(Y=y)= P
g ( 1 − P )
1 − g
Assumo di conoscere la
tipologia di variabile casuale
ma non conosco i parametri.
Non si conosce
neanche la forma della
distribuzione.
Esempio di inferenza statistica parametrica:
(Y N) =(?;?) So che la popolazione ha una forma normale ma non conosco i parametri μ; σ
2
SCOPO: utilizzare i risultati dell’esperimento campionario per giungere alla conoscenza dei parametri
della Popolazione che ha generato quei risultati.
Dai dati osservati sul campione
Ad affermazioni che riguardano la popolazione
Esempio di inferenza statistica non parametrica:
(Y ?) = (?;?) Non so né la distribuzione della popolazione né i parametri.
sono delle costanti che descrivono aspetti caratteristici della distribuzione del carattere nella popolazione
stessa. Es: media e varianza della popolazione
Parametri più comuni
Totali (es. occupati)
Medie (es. reddito)
Proporzioni o percentuali (es. % di laureati)
Rapporti (es. peso medio, rapporto tra totali)
L’inferenza si serve di 2 strumenti:
Stima: ci permette di fornire una misura del parametro incognito, si divide a sua volta in
come capacità informativa es. non ci fornisce info sugli errori)
Verifica di ipotesi: facciamo affermazioni sul parametro incognito e vogliamo capire se
queste sono affidabili oppure no.
In entrambi i casi ci serviamo dei dati campionari, facendo riferimento ad un campione
probabilistico che ci permette di misurare l’errore campionario.
NB: tutte le affermazioni della statistica inferenziale sono incerte, ma certe probabilisticamente.
Il campione casuale
Supponiamo l’ipotesi di voler misurare il reddito degli italiani, quindi devo estrarre un campione
casuale dalla popolazione.
Dai dati osservati su un campione
Ad affermazioni sulla popolazione
Di nostro interesse
Y (media campionaria)
P (proporzione campionaria) Statistica Campionaria Variabile Casuale.
S (varianza)
Se faccio la media delle medie campionarie il risultato è μ. Ciò significa che se potessi estrarre un
numero molto grande di campioni di cui calcolo per ognuno la media, facendo poi la media delle
medie ottengo μ, che è il parametro su cui sto facendo inferenza, quindi uso uno strumento
corretto. Altrimenti se si usasse un’altra statistica che tende a sottostimare o sovrastimare il
parametro allora sarebbe uno strumento distorto.
Perché non si usa ad esempio la mediana campionaria o la moda campionaria, dato che anche
queste sono variabili casuali? Devo vedere se anche i loro valori attesi corrispondono a μ. Noi
sappiamo che:
Moda campionaria valore atteso ≠ μ non può essere utilizzata come statistica
Mediana campionaria valore atteso = μ può essere utilizzata come statistica
-Quando utilizzo una statistica per stimare un parametro incognito allora si parla di stimatore
-Il valore (numero reale) che lo stimatore assume su uno specifico campione osservato è la stima
-La media campionaria è lo stimatore che utilizzo per stimare μ; dunque, lo stimatore essendo una
statistica è una variabile casuale.
-i valori che Y potrà assumere saranno in numero uguale al numero dei campioni e varieranno in funzione di
tali campioni
distribuzioni di probabilità, da una sua media, una sua varianza, …
Quindi avrà una sua
Distribuzione
Varianza
Media (o valore atteso E)
Sintesi
Per fare inferenza ci serve un campione casuale e, prima di procedere all’estrazione delle unità, il
campione e qualsiasi funzione di sintesi sono variabili casuali perché il valore che esse assumono
varia al variare del campione. Dopo l’estrazione la funzione diventa una funzione matematica che
assume come valore un numero reale. La statistica campionaria più comune è la media
campionaria o valore atteso (E) ed è uguale a μ. Questa è una proprietà generale che ci permette
con tale statistica di individuare il parametro incognito, in questo caso la nostra statistica è quindi
uno stimatore (v.c.) che assume il valore reale del parametro incognito, ovvero una stima.
Tuttavia, cambiando campione cambia il valore, ad esempio, della media campionaria, quindi, non
esiste un metodo di stimare in maniera esatta il parametro perché c’è sempre l’errore
campionario ovvero differenza tra valore vero del parametro (t) e il valore della stima (θ)
L’errore campionario si può misurare attraverso il calcolo delle probabilità ma non è eliminabile
per cui la mia preoccupazione deve essere quella di usare lo stimatore corretto. per capire la bontà
di uno stimatore devo utilizzare dei criteri:
Primo criterio : calcolo il valore atteso dello stimatore e lo confronto con il valore vero del
parametro incognito e se il valore dello stimatore è uguale al valore del parametro
incognito allora lo stimatore è corretto.
E(T)= θ
Quindi STIMATORE CORRETTO
E(Y)=μ
ERRORE CAMPIONARIO
d=t-θ
ESEMPIO
STIMATORE: MEDIA
CAMPIONARIA
CONFRONTO CON
PARAMETRO INCOGNITO: μ
Le unità vengono scelte CASUALMENTE dalla lista e ogni unità ha la stessa probabilità di
entrare a far parte del campione.
CASUALMENTE però non vuol dire A CASACCIO. Il termine “CASUALE” è infatti
strettamente connesso con quello di probabilità.
Il campionamento si può realizzare
Popolazione di 4 soggetti (N=4) su cui si osserva l’età, dove Y è la v.c. che descrive l’età e che
assume i valori:
Voglio un campione di ampiezza n=2 (Y1, Y2) entrambe variabili casuali.
Con reinserimento : estraggo la prima unità, la rimetto dentro ed estraggo la seconda quindi le v.c.
sono indipendenti e ciascuna di essa
assume gli stessi valori della popolazione (Y1=Y; Y2=Y…)
hanno la stessa distribuzione della variabile Y
Y Pro
b
Tabella con tutte le possibili coppie di unità della popolazione con le corrispondenti probabilità di
essere estratte (che sono tutte le stesse).
18 4/16 = 1/
20 4/16 = 1/
22 4/16 = 1/
25 4/16 = 1/
-Y1 può assumere i valori: 18,20,22,25 gli stessi di Y.
Con le stesse probabilità
-Y2 può assumere i valori: 18,20,22,25 gli stessi di Y
P(Y1=18) = P [(18,18) o (18,20) o (18,22) o (18,25)] sono eventi incompatibili somma
= P [(18,18) +(18,20)+(18,22)+(18,25)]= ¼ stessa probabilità dei valori di Y
N.B. poiché i campioni si distinguono per la natura e non per l’ordine, in caso di reimmissione
invece l’universo dei campioni { s } è di fatto formato da 10 campioni:
Attenzione: NON tutti con la stessa probabilità di essere estratti.
Senza reinserimento : gli elementi campionari sono v.c. e sono dipendenti, l’esito della seconda
estrazione dipende da cosa si è realizzato nella prima. Nonostante ciò:
ogni elemento campionario può assumere sempre gli stessi valori di Y con le stesse
probabilità. Nella tabella dei possibili campioni di ampiezza n non trovo più i campioni
avrà una distribuzione esattamente identica a quella della variabile Y.
Y Pro
b
Varianza nel CCS
Se entrambi gli stimatori sono corretti si deve preferire quello che varia meno.
23,
Già dal range si vede che nel campionamento con reimmissione è più ampio e già a
occhio si può intuire quale sia meglio.
Calcolo della varianza dello Stimatore media campionaria quando il campionamento è
con e senza reimmissione.
CCS con reimmissione:
∑
i = 1
n
i
n
σ
2
n
All’aumentare della dimensione del campione si riduce la variabilità.
CCS senza reimmissione:
c’è anche la covarianza
∑
i = 1
n
i
n
σ
2
n
N − n
Questa quantità è sicuramente <1 (tranne quando estraggo n=1)
senza reimmissione è minore della varianza della media campionaria con
reimmissione.
questo rapporto si avvicina molto ad 1
Es. N=
n=
N − n
Se invece n=
N − n
Si chiama fattore di correlazione per
Popolazioni finite.
N= ampiezza popolazione
n= ampiezza campione
Il CCS senza reimmissione da in generale stime più precise, ma in realtà quando la
popolazione è grande questa differenza diminuisce perché il fattore di correlazione
tende ad 1. In genere si lavora con popolazioni molto grandi.
Conviene il campionamento senza rimmissione quando si fanno studi su popolazioni
molto piccole.
Rimangono delle varianti di campionamento tra cui il campionamennto casuale stratificato nel
quale si suddivide la popolazione in un certo numero di strati individuando in funzione di uno o più
caratteri. Gli strati sono:
Esaustivi ogni unità statistica cade in uno degli strati, quindi l’unione di tutti gli strati mi
dà l’intera popolazione P1 E P2 E….PH=P
Mutuamente escludentesi (disgiunti/incompatibili) l’intersezione di due qualsiasi di
questi sottoinsiemi è un’insieme vuoto perché ogni unità statistica appartiene a uno e uno
solo di questi strati P1 ∩ P2= Ꝋ
Obiettivi del campionamento casuale stratificato:
Ottenere maggior precisione nelle stime e quindi avere stimatori che hanno varianza più
piccola
Garantire la rappresentatività anche di sottoinsiemi piccoli della popolazione (domini di
studio)
N.B. Gli strati devono essere definiti in funzione di caratteri correlati al carattere che noi vogliamo
studiare.
Nh=dimensione dello strato
nh=quanti sono gli individui dello strato h che entrano a far parte del mio campione
Partizione della
popolazione in H
strati
P1 P…
P
PH
Da ogni strato si seleziona un CCS di unità (con reimmissione tipicamente), quindi
questa non è altro che la varianza dello stimatore media campionaria con
reimmissione.
Var (Yh)=
Sh
2
nh
rapporto tra varianza della popolazione Y nello strato h e nh
ovvero la dimensione del campione selezionato dallo strato h
Se io costruisco strati omogenei all’interno rispetto alla variabile di studio, le varianze al quadrato
dei singoli strati tenderanno ad essere più piccole rispetto a quella della popolazione e quindi la
varianza dello stimatore media campionaria tende ad essere più piccolo rispetto a quello del
campione casuale semplice. Ecco perché il campionamento stratificato è più utilizzato.
Sh
2 < σ
2
La possibilità di ridurre la varianza dello stimatore è quindi legata a quella di ottenere strati che
risultino (rispetto alla variabile d’indagine) più omogenei della Popolazione presa nel suo
complesso.
Bisogna distinguere due varianti del campionamento stratificato. Fin ora ci siamo focalizzati sulla
media campionaria ma c’è anche Wh ovvero la quota di soggetti della popolazione che
appartengono allo strato h, ma quale frazione di campionamento scelgo dai vari strati?
Devo decidere se mantenere la frazione di campionamento costante nei vari strati oppure
scegliere frazioni di campionamento diversi per ogni strato.
Es. voglio un campione che rispecchi il 5% della popolazione - seleziono il 5% per ogni strato
oppure no?
Nel primo caso si parla di campionamento stratificato proporzionale mentre nel secondo di
campionamento stratificato non proporzionale
Campionamento stratificato proporzionale
La quota di unità che seleziono dal primo strato è uguale a quella che seleziono da tutti gli altri
strati quindi corrisponde alla frazione di campionamento complessiva. Quindi è caratterizzato da
frazione di campionamento costante:
fh=
nh
Nh
n
= f
Varianza di Y nello strato h
Campione stratificato PROPORZIONALE
n 1
n 2
nh
Nh
n μ
N μ
n
Nel campionamento proporzionale si ha che:
n h
N (^) h
n
→ sostituendo nominatore e denominatore viene :
n h
Nh
h
h
Vantaggi
La stratificazione proporzionale è molto diffusa e dà luogo a stimatori molto semplici e
di precisione non inferiore a quella he si otterrebbe con il CCS. Da ogni strato, infatti,
si seleziona la stessa quota di soggetti.
Svantaggio
Questo campionamento non sempre può essere attuato ed è conveniente. Spesso il
principale obbiettivo che si persegue con la stratificazione è quello di ottenere stime di
adeguata precisione per particolari popolazioni, dette domini di studio , che vengono
fatte coincidere con gli strati.
Se un dominio è rappresentato da strati molto piccoli con il campionamento
proporzionale (in valore assoluto) si selezionano poche unità da quegli strati. Per cui, si
rischia di perdere precisione nello Stimatore e di non rappresentare adeguatamente e
in maniera sufficiente quello strato piccolo.
Se ho delle sottopopolazioni in cui il carattere è poco diffuso e procedo con Campionamento
Stratificato Proporzionale rischio di perdere precisione nello stimatore.
Var ( y ¿¿ h )=
Sh
2
n
quindi è bene ricorrere a un sovracampionamento nello strato piccolo, ovvero è meglio procedere
con un campionamento stratificato non proporzionale in modo che si abbiano stime più precise
perché si riduce la variabilità dello stimatore perché si applica in quello strato una frazione
di campionamento diversa (maggiore) delle altre.
Il Campionamento Stratificato NON Proporzionale e le sue modalità
esistono vari metodi per stabilire le frazioni di campionamento nei singoli strati, ma
una logica che si può seguire è la ripartizione ottimale.
F1 F2 Fh F
Se n è piccolo la varianza sale e si rischia di
avere stime poco precise per quella
sottopopolazione.
parte del campione (es. r=2, si seleziona l’unità che occupa quella posizione);
sistematica facendo dei passi uguali a k fino a quando non si arriva alla fine.
Proseguo quindi con passo K, cioè effettuo R+K=R2 - R2+K= R3 ….
Quindi è utile avere la lista delle unità e molto dipende da come esse sono ordinate:
se sono ordinate in modo casuale il campionamento sistematico ha la stessa precisione del
se si ordinano le unità per il valore della y (teoricamente perché non conosco y) quindi
diciamo per una variabile che conosco e che è correlata ad y, allora il CS ha una precisione
maggiore del CCS perché la rappresentatività non è minore del CCS.
Nel Campionamento Sistematico
ogni unità ha la stessa probabilità di essere estratta
non tutti i campioni n hanno la stessa probabilità di essere selezionati.
Ad esempio le unità che occupano una posizione minore rispetto a K oppure unità
consecutive non saranno mai estratte (es. K=15 R=2 - 15+2=17) non è posibile
selezionare 18,19,20 perché dovrò fare 17+15=
Campionamento stratificato: Si divide la popolazione in strati (sottoinsiemi) e da a ogni
strato si etrae un ccs. È opportuneo che siano omogenei all’interno ed eterogenei tra loro.
Perché se la varianza all’interno è piccola la varianza della popolazione tende ad essere più
piccola che nel ccs
Campionamento a grappoli: popolazione divisa sempre in sottoinsiemi però selezioniamo
un ccs di grappoli e osserviamo tutte le unità statistiche al suo interno
28/10/
CAMPIONAMENTO A GRAPPOLI
Grappoli e Stadi
Strati: raggruppamenti di unità utilizzati come strati al cui interno estrarre unità;
Grappoli: raggruppamenti utilizzati come vere e proprie unità di selezione.
Gli stessi aggregati di popolazione possano essere utilizzati come strati e come
grappoli. Però gli scopi che si perseguono con la stratificazione sono profondamente
diversi da quelli che si perseguono con la stadificazione.
Strati
Nel campionamento stratificato la popolazione viene suddivisa in strati, che sono
sottoinsiemi della Popolazione stessa e da ogni strato si seleziona un CCS di unità. Gli
strati per avere un migliore campionamento devono essere:
→ Eterogenei (diversi) tra loro Perché all’interno si prende solo un CCS, se le
varianze all’interno degli strati sono piccole, la
varianza complessiva dello stimatore è minore di
quella nel CCS.
→ Omogenei al loro interno
Grappoli
Nel campionamento a grappoli, invece, si ha sempre la solita Popolazione divisa in
sottoinsiemi, che teoricamente possono essere gli stessi di prima, ma in questo caso si
seleziona un CCS di questi grappoli. Si osservano, poi, tutte le unità statistiche
appartenenti ai grappoli selezionati.
Per non perdere precisione a livello di stima i grappoli selezionati dovrebbero
rappresentare anche quelli esclusi dalla selezione. L’ideale sarebbe che i grappoli
fossero:
→ Omogenei tra loro
→ Eterogenei al loro interno
Se questa situazione si verifica il campionamento a grappoli può portare a stimatori
più precisi del CCS. In ipotesi estrema se i grappoli fossero tutti uguali, ciascuno
sarebbe una copia ridotta della Popolazione; sarebbe, quindi, sufficiente selezionarne
solo uno per avere la stessa informazione che si otterrebbe da un’indagine completa.
Grappoli VS. Stadi
Gli strati sono definiti da chi fa l’indagine mentre i grappoli sono aggregazioni
preesistenti nella popolazione (es. province, comuni ecc.). Proprio perché sono
preesistenti normalmente i grappoli non sono molto omogenei tra di loro e le unità
appartenenti a grappoli diversi hanno caratteristiche generali diverse tra di loro.
Se non si ha un’omogeneità tra grappoli si ha una perdita di precisione. Per
compensare la perdita di precisione ed ottenere stimatori caratterizzati dalla stessa
precisione che hanno quelli di un CCS di dimensione n, nel campionamento a grappoli
si deve aumentare la dimensione campionaria n(al denominatore).
CAMPIONAMENTO A DUE O PIU’ STADI
Nel campione vengono incluse solo alcune unità selezionate da ciascun dei grappoli
estratti. Numero degli stadi è dato dal numero dei livelli gerarchici di aggregazione
delle unità che vengono individuati per effettuare la selezione.
Esempio
Un campione di italiani potrebbe essere estratto selezionando inizialmente alcune
regioni, da ognuna di queste alcune province, da ciascuna provincia dei comuni, da
questi delle famiglie e, infine, dalle famiglie, le persone che sono oggetto di studio.
Dato che si osservano tutte le unità del
grappolo
STIMA PUNTUALE
Stimatori in uso
Per la media
Gli Stimatori di uso frequente nel caso di variabili indipendenti identicamente
distribuite (I.I.D) sono:
Per la media μ:
n
∑
i = 1
n
i
Per la varianza (^) σ
2
Un altro Stimatore che serve è quello per la varianza, che spesso non è nota. Si sa che
la varianza nella popolazione è uguale a:
σ
∑
I = 1
n
2
In realtà si può dimostrare che il valore atteso dello Stimatore è diverso dal valore
vero della varianza e, in particolare, è minore. Questo vuol dire che lo Stimatore è uno
Stimatore distorto di (^) σ
2 e tende a sottostimare in maniera sistematica il valore del
parametro incognito:
E (^
σ
2 )< σ
2
Se su ciascun campione calcoliamo la varianza e poi facciamo le medie di tutte le varienze non
avrò la varianza della popolazione
La media campionaria è lo stimatore più efficiente e
preciso che è stato individuato per la media μ ( non
distorto ) e mediamente ne dà il valore corretto:
Ha una varianza pari a:
Lo Stimatore della varianza potrebbe essere:
σ
n
∑
I = 1
n
2
Nella pratica si utilizza la varianza campionaria che è uno stimatore corretto di (^) σ
2 ed è
indicato con il simbolo (^) s
2 :
s
n − 1
∑
I = 1
n
2 =(
n − 1
n
σ
2 )
2
2
Teoremi utili
Teorema 1
Assumiamo che Y, il fenomeno di nostro interesse, sia una normale con una sua media
e varianza. Se si definisce una trasformazione lineare di Y (es. Y è reddito, si
moltiplica Y per una certa costante e si somma o sottrae a tutti una certa costante), si
può dimostrare che, come risultato, si ottiene sempre una normale che ha come
media la stessa trasformazione lineare applicata al parametro μ e come varianza ha (^) b
2
moltiplicato per la varianza della Y originaria:
Se Y N (^) ( μY , σY
2 ) →^ allora : W^ = a +^ bY^ − N^ (^ a + b^ μY ;^ b
2 σ (^) Y
2 )
Quindi si può trasformare linearmente qualsiasi carattere, sotto l’ipotesi di normalità,
e come risultato si ottiene sempre una normale di cui si conoscono sia la media che la
varianza (in funzione di quelle originarie).
Teorema 2
Si ha un CCS che può essere indicato come una sequenza di n variabili casuali e dove:
y =( y 1 , y 2 … , yi … , yn )
y 1
y
y 2
y
y i
y
Se si definisce una trasformazione lineare particolare, cioè si definisce una nuova
variabile casuale W come somma degli elementi campionari:
W = y 1
y 2
… + y i
… + y n
=∑
I = 1
n
y i
W =∑
I = 1
n
y i
N (∑
I = 1
n
μ i
, ∑
I = 1
n
σ i
2 )
La differenza rispetto all’altro è che si
deve dividere per n −1.
Ipotesi
iniziale:
2
I.I.D.
y i
2 ) → ∑ y i
2
La nuova variabile casuale W è ancora
una normale che ha come media la
somma delle medie (che è sempre
uguale a μ) e come varianza si ha la
somma delle varianze:
∑
I = 1
n
μ i
= μ , (^) ∑
I = 1
n
σ i
2 = σ
2