Domande e risposte di teoria - Statistica Complementi (Prof. Zini - Ecomark - Unimib), Domande di esame di Statistica. Università degli Studi di Milano-Bicocca
cecilia2112
cecilia2112
Questo è un documento Store
messo in vendita da cecilia2112
e scaricabile solo a pagamento

Domande e risposte di teoria - Statistica Complementi (Prof. Zini - Ecomark - Unimib), Domande di esame di Statistica. Università degli Studi di Milano-Bicocca

PDF (757 KB)
13 pagine
6Numero di download
306Numero di visite
1Numero di commenti
Descrizione
Vengono riportate le domande di teoria più frequenti all'esame di Statistica Complementi, tratte dai temi d'esame del prof. Zini, con relative risposte dettagliate (incluse dimostrazioni)
3.99
Prezzo del documento
Scarica il documento
Questo documento è messo in vendita dall'utente cecilia2112: potrai scaricarlo in formato digitale subito dopo averlo acquistato! Più dettagli
Anteprima3 pagine / 13
Questa è solo un'anteprima
3 pagine mostrate su 13 totali
Scarica il documento
Questa è solo un'anteprima
3 pagine mostrate su 13 totali
Scarica il documento
Questa è solo un'anteprima
3 pagine mostrate su 13 totali
Scarica il documento
Questa è solo un'anteprima
3 pagine mostrate su 13 totali
Scarica il documento

ELENCO DOMANDE-RISPOSTE (Prof. Zini – Statistica complementi): 1) Linearizzazione 2) Si enuncino e si dimostrino le proprietà dei residui del piano dei minimi quadrati: 3) Le variabili casuali t di Student e F di Fisher: proprietà e impieghi nell’inferenza statistica 4) La funzione generatrice dei momenti: definizione, proprietà e impieghi nella deduzione dei teoremi

dell’inferenza 5) Test di uguaglianza fra due varianze - confronto fra varianze campionarie nel campionamento da

popolazione normale 6) 6)La v.c. gamma: definizione, proprietà, casi particolari e impeghi nell’inferenza statistica: 7) 7)Test di uguaglianza su una e su due proporzioni

8) Si dimostrino le distribuzioni X̅ = 1

n ∑ Xi n i=1 e di U =

∑ (Xi−X̅) 2n

i=1

σ2 , nell’ipotesi che le variabili casuali Xi

costituiscano un campione casuale da distribuzione normale 9) Coefficienti di REGRESSIONE GREZZI E PARZIALI: 10) Sia X una v.c. normale standardizzata, si dimostri la distribuzione della variabile casuale Y = X2 11) Si dimostri la funzione generatrice dei momenti della variabile casuale normale 12) La verifica dell’ipotesi di uguaglianza di due aspettative. Costruzione del test: nel campionamento da

distribuzione normale; per grandi campioni (= caso asintotico) 13) Sia X una variabile casuale con funzione generatrice dei momenti mX(t). Si ricavi la funzione generatrice dei

momenti della v.c. Y=a+bX 14) Si dimostri che se Y=a+bX, con X distribuito normalmente, anche Y è distribuito normalmente (V proprietà): 15) Si deduca la funzione generatrice dei momenti della variabile casuale gamma: 16) Si dimostri la legge debole dei grandi numeri:

17) Si dimostri la distribuzione �� = ∑ (����−�̅�)

2�� ��=1

��2 essendo (��1, … , ����) un campione casuale dalla distribuzione

normale 18) Costruzione degli intervalli di confidenza e verifiche d’ipotesi dei parametri del modello lineare con una

variabile esplicativa: 19) Coefficienti di CORRELAZIONE GREZZI E PARZIALI: 20) Inferenza su due proporzioni 21) Verifiche d’ipotesi sui parametri del modello lineare con due variabili esplicative: assunzioni statistiche e

costruzioni dei test:

22) Verifiche d’ipotesi e intervalli di confidenza per i parametri del piano �̂�1 = �� + ��12.3��2 + ��13.2��3 23) VERIFICA DELLE IPOTESI SULLA MEDIA DELLA POPOLAZIONE (σ noto e ignoto) 24) CONFRONTO FRA LE MEDIE DI DUE CAMPIONI: VERIFICHE D’IPOTESI DI EGUAGLIANZA DI MEDIE DI DUE

POPOLAZIONI: 25) L’approccio del P-VALUE 26) VERIFICA DELLE IPOTESI SULLA VARIANZA DELLA POPOLAZIONE: 27) La variabile casuale ipergeometrica: definizione, proprietà e impieghi. 28) Le verifiche d’ipotesi: definizione del problema, caratteristiche salienti, un esempio. 29) Si DIMOSTRI a cosa è uguale la funzione generatrice dei momenti della trasformazione lineare di una

variabile casuale. 30) Si dimostri come si distribuisce la variabile casuale media campionaria nel campionamento da distribuzione

normale. 31) Verifica dell’ipotesi di uguaglianza fra due varianze: ipotesi e costruzione del test: CONFRONTO FRA

VARIANZE CAMPIONARIE NEL CAMPIONAMENTO DA POPOLAZIONE NORMALE 32) Si elenchino, commentando opportunamente, le proprietà statistiche appetibili per uno stimatore. Si

forniscano inoltre, gli stimatori che godono di tali proprietà. 33) La funzione generatrice dei momenti: definizione, proprietà e impieghi. 34) La variabile casuale chi quadrato. Definizione, proprietà e impieghi. 35) Si deduca (=DIMOSTRARE!!!!) uno stimatore corretto per la varianza di una distribuzione. + PAG 55 LIBRO

ROSSO 36) Si dimostri che la media campionaria è stimatore consistente per l’aspettativa di una distribuzione.

1)LINEARIZZAZIONE: in alcuni casi interessa impiegare modelli non lineari nei parametri. In economia viene spesso

impiegato il modello X̂1 = α1X2 α2X3

α3 (α1 > 0, X2 > 0, X3 > 0). Volendo applicare il principio dei minimi quadrati,

si tratta di minimizzare la quantità D(α1, α2, α3) = ∑(x1i − α1 x2i α2x3i

α3)2 rispetto ai parametri α1, α2, α3.

Uguagliando a 0 le derivate parziali ∂D

∂αj (j = 1,2,3) si ottiene {

∑(x1i − α1 x2i α2x3i

α3)x2i α2x3i

α3 = 0

∑(x1i − α1 x2i α2x3i

α3)α1x2i α2x3i

α3 log x2i = 0

∑(x1i − α1 x2i α2x3i

α3)α1x2i α2x3i

α3 log x3i = 0

Si tratta di un sistema non lineare che si può risolvere iterativamente mediante calcolo numerico. Il seguente artifico permette di trovare un’interpolante molto prossima a quella dei minimi quadrati. Si considerino i logaritmi di

entrambi i membri del modello: log X̂1 = logα1 + α2 log X2 +α3 log X3. Ponendo log X̂1 = Ŷ1, log X2 = Y2, log X3 =

Y3 , log α1 = p1, α2 = p2, α3 = p3, la relazione precedente diventa: Ŷ1 = p1 + p2Y2 + p3Y3. Per determinare i parametri p1, p2, p3 bisogna minimizzare la quantità G(p1, p2, p3) = ∑(y1i −p1 − p2y2i − p3y3i)

2 essendo y1i = log x1i y2i = log x2i y3i = log x3i . Si tratta di ricavare i parametri del piano interpolatore relativo alle nuove variabili Y1, Y2, Y3. I valori dei parametri che minimizzano G(p1, p2, p3) sono:

p̂2 = σ33σ12−σ13σ23

σ22σ33−σ23 2 p̂3 =

σ22σ13−σ12σ23

σ22σ33−σ23 2 p̂1 = y̅1 − p̂2y̅2 − p̂3y̅3

I valori dei parametri p1, p2, p3 sono tali da minimizzare G(p1, p2, p3) = ∑(y1i −p1 − p2y2i − p3y3i) 2 e non

D(α1, α2, α3) = ∑(x1i − α1 x2i α2x3i

α3)2, conseguentemente le proprietà dei residui riguardano le variabili

Y1, Y2, Y3 e non le variabili originarie X1, X2, X3. Risulta: {

∑(log x1i − log x̂1i) = 0

∑(log x1i − log x̂1i)logx2i = 0 ∑(log x1i − log x̂1i)logx3i = 0

Dai valori dei parametri p1, p2, p3 si passa ai valori dei parametri richiesti α1, α2, α3: α1 = e p1 , α2 = p2, α3 = p3

2)SI ENUNCINO E SI DIMOSTRINO LE PROPRIETÀ DEI RESIDUI DEL PIANO DEI MINIMI QUADRATI:

X̂1i = ∑ αjgj(x2i; x3i) k j=1 g1(x2i; x3i) = 1 zi = x1i − x̂1i → residui

1° proprietà: la loro somma è uguale a zero. La variabile residua Z = X1 − X̂1 ha media aritmetica pari a zero:

M1 = 0 1

N ∑zi =

1

N ∑(x1i − x̂1i) = 0 allora

∑x1i

N = ∑ x̂1i

N

∑x1i

N⏟ x̅1

= ∑ x̂1i

N = Nα̂1

N + α̂2

∑ x̂2i

N⏟ x̅2

+ α̂3 ∑ x̂3i

N⏟ x̅3

2° proprietà: { Cov(Z, X2) = 0

Cov(Z, X3) = 0 Cov(Z, X2) =

1

N ∑zix2i − z̅x̅2⏟

=0

Cov(Z, X3) = 1

N ∑zix3i − 0

i residui sono incorrelati con ciascuna delle variabili esplicative (la covarianza tra loro è pari a zero)

3° proprietà: i residui sono incorrelati anche con la variabile X̂1

Cov(Z, X̂1) = 1

N ∑zix̂1i − z̅x̅1⏟

=0

x̂1i = α̂1 + α̂2x2i + α̂3x3i

∑zix̂1i = α̂1∑zi⏟ 0

+ α̂2 ∑zi⏟ 0

x̂2i + α̂3∑zi⏟ 0

x̂3i

3)LE VARIABILI CASUALI T DI STUDENT E F DI FISHER: PROPRIETÀ E IMPIEGHI NELL’INFERENZA STATISTICA DISTRIBUZIONE t di STUDENT: la v.c. X ha la distribuzione t di Student, con k>0 gdl, se la sua densità è la seguente

f(x) = Γ( k+1

2 )

Γ( k

2 ) ∙ 1

√kπ ∙

1

(1+ x2

k )

k+1 2

, x ∈ R . E’ unicampanulare e simmetrica rispetto allo zero.

Si può dimostrare che: E(X) = 0 (k > 1); Var(X) = k

k−2 (k > 2)

Inoltre μr esiste per r<k. Ne consegue che la v.c. t di Student non ha fgm (perchè non ha tutti i momenti) Teorema: sia Z una v.c. distribuita come una normale standardizzata. Sia U una v.c. distribuita come una chi-

quadrato con k gdl. Siano Z e U indipendenti in probabilità. Allora la v.c. X = Z

√U/k si distribuisce secondo una t di

Student con k gdl. Corollario: sia (X1, X2, … , Xn) un campione casuale proveniente dalla vc. Normale di aspettativa μ e varianza σ

2.

Allora la v.c. T = X̅−μ

√S2 n⁄

ha distribuzione t di student con (n-1) gdl.

Dim: si considerino le variabili casuali Z = X̅−μ

σ √n⁄ e U =

(n−1)S2

σ2 . Poichè sono indipendenti, si può applicare il teorema

precedente, ottenendo la v.c. T =

X̅−μ

σ √n⁄

√ (n−1)S2

σ2 n−1 ⁄

= X̅−μ

√S2 n⁄

la cui distribuzione è t di Student con (n-1) gdl.

DISTRIBUZIONE F di FISHER: la v.c. X ha distribuzione F di Fisher con m e n gdl se ha la seguente funzione di densità

f(x) = {

Γ( m+n

2 )

Γ( m

2 )Γ(

n

2 ) ( m

n )

m−2

2 ∙

x m−2 2

(1+ m

n x)

m+n 2

, x > 0

0 altrove

m=gdl del numeratore; n=gdl del denominatore

Si può dimostrare che: E(X) = n

n−2 (n > 2); Var(X) =

2n2(m+n−2)

m(n−2)2(n−4) (n > 4); μr = E(Xr) esiste solo

per r < n

2 -> la v.c. F di Fisher non ha la fgm

Teorema: siano U e V due v.c. chi-quadrato indipendenti con m e n gdl rispettivamente. Allora la v.c. X = U m⁄

V n⁄ è

distribuita come una v.c. F con m e n gdl.

Corollario 1: Sia (X1, X2, … , Xn) un campione casuale proveniente dalla v.c. normale di aspettativa μX e varianza σ 2.

Sia (Y1, Y2, … , Yn) un campione casuale proveniente dalla v.c. normale di aspettativa μY e varianza σ 2. Siano i due

campioni indipendenti, cioè estratti da popolazioni differenti, allora la v.c. X =

∑ (Xi−X̅) 2m

1 σ2

(m−1) ⁄

∑ (Y−Y̅)2n1 σ2

(n−1) ⁄

= SX 2

SY 2 ha

distribuzione F con (m-1) e (n-1) gdl

Corollario 2: se X ha distribuzione F con m e n gdl, allora y = 1

X ha distribuzione F con n e m gdl. Si supponga di voler

determinare il quantile yα. Esso è definito come P{Y ≤ yα}. 4)LA FUNZIONE GENERATRICE DEI MOMENTI: DEFINIZIONE, PROPRIETÀ E IMPIEGHI NELLA DEDUZIONE DEI

TEOREMI DELL’INFERENZA: sia X una variabile casuale e t un numero reale. La v.c. g(X) = etX è non negativa. Per t=0 la v.c. etX è uguale a 1. Riveste un ruolo rilevante nello studio delle v.c. l’aspettativa E(etX). Ovviamente:

E(etX) = { ∫ etXf(x)dx nel caso continuo ∞

−∞

∑ etxip(xi)i nel caso discreto

Definizione: si dice che la v.c. X possiede la funzione generatrice dei momenti se esiste un δ > 0 tale che mX(t) < ∞ per ogni −δ < t < δ. Allora mX(t), −δ < t < δ, è detta la funzione generatrice dei momenti di X.

Teorema 1: sia X una v.c. fornita di fgm mX(t). Siano a e b due costanti. Allora la v.c. Y=a+bX è fornita di funzione generatrice dei momenti mY(t) = e

atmX(bt). Dimostrazione: per ipotesi esiste δ > 0 tale che per −δ < t < δ risulta mX(t) < ∞.

Si consideri E(etY) = eatE(ebtX). Si ponga bt=v. Per ipotesi E(evX) = mX(v) converge per −δ < t < δ,

ovvero converge per −δ < bt < δ e quindi E(ebtX) = mX(bt) converge per − δ

b < t <

δ

b . Si è così dimostrato

che nelle condizioni poste mY(t) = e atmX(bt)

Teorema 2: sia X una v.c. tale che E(etX) < ∞ per 0 < |t| < δ > 0. Allora X ha momenti di ogni ordine e per ogni

−δ < t < δ risulta mX(t) = ∑ tr

r! μr ′∞

r=0 . inoltre μr ′ =

dr

dtr mX(t)|

t=0 .

Teorema 3 (unicità della fgm): siano mX(t) e mY(t) le fgm rispettivamente delle v.c. X e Y. Si supponga che esista δ > 0 tale che per ogni −δ < t < δ si abbia mX(t) = mY(t). Allora le due v.c. hanno la stessa distribuzione, cioè FX(v) = FY(v) per ogni v. 5)TEST DI UGUAGLIANZA FRA DUE VARIANZE - CONFRONTO FRA VARIANZE CAMPIONARIE NEL CAMPIONAMENTO DA POPOLAZIONE NORMALE: Sia (X11, X12, … , X1n1) un campione casuale da una v.c. normale di aspettativa μ1 e

varianza σ1 2. Sia (X21, X22, … , X2n2) un campione casuale da una v.c. normale di aspettativa μ2 e varianza σ2

2. Siano

fra loro indipendenti. { H0: σ1

2 = σ2 2

H1: σ1 2 ≠ σ2

2 . E’ noto che (ni−1)Si

2

σi 2 ~χ

2(ni − 1) i = 1,2

Sotto H0, indicato con σ 2 il valore (non noto) comune della varianza delle due popolazioni, vale:

V = (n1−1)S1

2

σ2 (n1−1)⁄

(n2−1)S2 2

σ2 (n2−1)⁄

= S1 2

S2 2~F[(n1 − 1); (n2 − 1)]

Appare ragionevole rifiutare H0 se: S1 2

S2 2 ∉ {Fα

2

[(n1 − 1); (n2 − 1)]; F1−α 2

[(n1 − 1); (n2 − 1)]}

Oss.: si deve considerare come primo campione quello con varianza campionaria maggiore

S1 2

S2 2 <

1

F 1− α 2 [(n1−1);(n2−1)]

S2 2

S1 2 > F1−α

2

[(n1 − 1); (n2 − 1)]

6)LA V.C. GAMMA: DEFINIZIONE, PROPRIETÀ, CASI PARTICOLARI E IMPEGHI NELL’INFERENZA STATISTICA:

collegata con la funz. gamma, Γ(α) = ∫ xα−1e−xdx ∞

0 . Se α = 1: Γ(1) = ∫ e−xdx

0 = | − e−x|0

∞ = 1 Se α > 1: Γ(α) = (α − 1)Γ(α − 1) l’ultimo integrale converge purchè α − 1 > 0. Se α sia un numero intero > 1: Γ(α) = (α − 1) ∙ (α − 2) ∙ … ∙ (α − s) ∙ Γ(1) = (α − 1)! Distribuzione gamma: la v.c. Y è distribuita secondo una gamma di parametri α > 0 se la funzione di densità è data

da f(y) = { 1

Γ(α) ϑαyα−1e−ϑy per y > 0

0 altrove . Var(X) =

1

ϑ2 (α + 1)α −

1

ϑ2 α2 =

α

ϑ2

Fgm: mY(t) = ∫ e ty 1

Γ(α) ϑαyα−1e−ϑydy =

ϑα

Γ(α) ∫ yα−1e−(ϑ−t)ydy ∞

0

0 l’ultimo integrale è chiaramente

uguale a 1, per cui mY(t) = ϑ α(ϑ − t)−α è la funzione generatrice di momenti della v.c. gamma di parametri

α > 0 e ϑ > 0. Casi particolari:

 con α = 1, la v.c. gamma si può approssimare a una v.c. esponenziale di parametro ϑ.

f(x, ϑ) = {ϑe −ϑx x > 0; ϑ > 0 0 altrove

 con α = k

2 , ϑ =

1

2 (con k intero), la v.c. gamma si può approssimare a una chi-quadrato con k gdl.

f(y, k) = { ( 1

2 ) k/2

Γ( 1

2 ) y k

2 −1e−

1

2 y y > 0; k = 1,2,…

0 altrove

E(X) = k/2

1/2 = k Var(X) =

k/2

1/4 = 2k

Fgm: mχ2(t) = (1 − 2t) − k

2

7)TEST DI UGUAGLIANZA SU UNA E SU DUE PROPORZIONI: sia (X1, … , Xn) un campione casuale da una v.c. indicatore di parametro p (probabilità di successo). Allora la v.c. y = ∑xi~Binomiale(n, p). y

n = x̅ = p̂ ; E (

y

n ) =

E(y)

n = np

n = p Var (

y

n ) =

Var(y)

n2 = np(1−p)

n2 = p(1−p)

n

I.C. [p̂ ∓ z1−α 2

√ p̂(1−p̂)

n ] n ≥ 100 Per “n grande”, la v.c.

x̅−μ

σ/√n =

y

n −p

√p(1−p)/n =

p̂−p

√p(1−p)/n ~N(0,1)

H0: p̂ ≤ p0 rifiuto se p̂−p0

√ p0(1−p0)

n

> z1−α H0: p̂ = p0 rifiuto se |p̂−p0|

√ p0(1−p0)

n

> z1−α 2

H0: p̂A = p̂B rifiuto se |p̂A−p̂B|

√ p̂A(1−p̂A)

n + p̂B(1−p̂B)

n

> z1−α 2

8)SI DIMOSTRINO LE DISTRIBUZIONI �̅� = ��

�� ∑ ���� �� ��=�� E DI �� =

∑ (����−�̅�) ����

��=��

���� , NELL’IPOTESI CHE LE VARIABILI CASUALI

���� COSTITUISCANO UN CAMPIONE CASUALE DA DISTRIBUZIONE NORMALE: U = ∑ (Xi−X̅)

2n i=1

σ2 ~χ2(n) : essendo

le v.c. yi = xi−μ

σ indipendenti e con distribuzione normale standardizzata, il loro quadrato

(xi−μ) 2

σ2 ha distribuzione

χ2 con 1 gdl. Per la proprietà additiva della χ2, la loro somma ha distribuzione χ2 con n gdl. Proprietà additiva della

χ2: se le v.c. indipendenti X e Y hanno distribuzione χ2 rispettivamente con r e s gdl, la v.c. (X+Y) ha distribuzione χ2 con (r+s) gdl.

X̅ = 1

n ∑ Xi~N(μ,

σ2

n )ni=1 : mY(t) = ∏ mXi(t) = [mX(t)]

n = [etμ+ 1

2 t2σ2]

n

= enμt+ 1

2 t2σ2nn

i=1

x̅ = y

n trasformazione lineare a=0 b=1/n mX̅(t) = e

tμ+ 1

2 t2σ2/n

Per il teorema di unicità della fgm x̅ ha distribuzione normale con aspettativa μ e Var = σ2/n 9)COEFFICIENTI DI REGRESSIONE GREZZI E PARZIALI:

I coefficienti di regressione parziali: { α̂12 =

σ12

σ22

â = x̅1 − α̂12x̅2 {

α̂13 = σ13

σ33

b̂ = x̅1 − α̂13x̅3

I parziali si riferiscono al piano.

α12 = α12.3⏟ possono avere valori diversi

{1 − r23 2 } + r13r23

σ1

σ2 rij =

σij

σiσj σi = √σij

α13 = α13.2{1 − r23 2 } + r13r23

σ1

σ2 Se r23 = 0 → α13 = α13.2

α12.3 = σ12σ33−σ13 σ23 σ22σ33−σ23

2 indica la variazione di X1 in corrispondenza di un aumento unitario di X2,

nell’ipotesi che X3 rimanga costante.

α13.2 = σ13σ22−σ12 σ23

σ22σ33−σ23 2 indica la variazione di X1 in corrispondenza di un aumento unitario di X3,

nell’ipotesi che X2 rimanga costante. Quelli si riferiscono grezzi alla retta:

α12 = σ12 σ22

indica la variazione di X1 in corrispondenza di un aumento unitario in corrispondenza di un

aumento unitario di X2, al lordo di una variazione di X3

α13 = σ13 σ33

indica la variazione di X1 in corrispondenza di un aumento unitario in corrispondenza di un

aumento unitario di X3, al lordo di una variazione di X2 α12 = α12.3 solo se X3 è incorrelato con le variabili X1 e X2. 10)SIA X UNA V.C. NORMALE STANDARDIZZATA, SI DIMOSTRI LA DISTRIBUZIONE DELLA VARIABILE CASUALE

�� = ����: Sia X una v.c. normale standardizzata. Allora la v.c. Y = X2 è una v.c. chi-quadrato con 1 gdl. Dimostrazione:

FY(Y) = P{Y ≤ y} = P{z 2 ≤ y} = P{−√y ≤ z ≤ +√y} = ∫

1

√2π e−

x2

2 dx = +√y

−√y

2∫ 1

√2π e−

x2

2 dx = 2∫ 1

√2

1

√π

1

2√v e−

v

2dv = ∫ ( 1

2 )

1

2 1

Γ( 1

2 ) v (1−

1

2 ) e v

2dv 2

0

y

0

+√y

0 che è funzione cumulata della

probabilità di una v.c. chi-quadrato con 1 gdl. 11)SI DIMOSTRI LA FUNZIONE GENERATRICE DEI MOMENTI DELLA VARIABILE CASUALE NORMALE:

mX(t) =

∫ etx 1

σ√2π e − 1

2 ( x−μ

σ ) 2

dx = +∞

−∞

1

σ√2π ∫ e

− 1

2

x2

σ2 − 1

2

μ2

σ2 + 1

2

2xμ

σ2 +xt

2σ2

2σ2dx = +∞

−∞

1

σ√2π ∫ e

− 1

2

[x−(μ+tσ2)]2

σ2 e 1

2 σ2t2+μtdx

+∞

−∞ =

eμt+ 1

2 σ2t2

∫ 1

σ√2π e −

1

2σ2 [x−(μ+tσ2)]2

dx = eμt+ 1

2 σ2t2+∞

−∞

12)LA VERIFICA DELL’IPOTESI DI UGUAGLIANZA DI DUE ASPETTATIVE. COSTRUZIONE DEL TEST: NEL CAMPIONAMENTO DA DISTRIBUZIONE NORMALE; PER GRANDI CAMPIONI (= CASO ASINTOTICO)

 Distribuzione normale: σ nota

H0: μ1 = μ2 σ1 2 = σ2

2 = σ2 H1: μ1 ≠ μ2 σ1 2 = σ2

2 ≠ σ2 Rifiuto H0 se |x̅1−x̅2|

σ√ n1+n2 n1n2

> z1−α 2

σ non nota:

H0: μ1 = μ2 σ1 2 = σ2

2 = σ2 H1: μ1 ≠ μ2 σ1 2 = σ2

2 ≠ σ2 Rifiuto H0 se |x̅1−x̅2|

S√ n1+n2 n1n2

> t1−α 2 (n1 + n2 − 2)

 Per grandi campioni (n1, n2 ≥ 100):

H0: μ1 = μ2 σ1 2 = σ2

2 = σ2 non nota H1: μ1 ≠ μ2 σ1 2 = σ2

2 ≠ σ2 non nota

Rifiuto H0 se |x̅1−x̅2|

S√ n1+n2 n1n2

> z1−α 2

Se σ1 2 ≠ σ2

2 ≠ σ2 non nota: H0: μ1 = μ2 H1: μ1 ≠ μ2 Rifiuto H0 se |x̅1−x̅2|

√ S1 2

n1 + S2 2

n2

≥ z1−α 2

13)SIA X UNA VARIABILE CASUALE CON FUNZIONE GENERATRICE DEI moMENTI ����(��). SI RICAVI LA FUNZIONE GENERATRICE DEI MOMENTI DELLA V.C. Y=a+bX: sia X una v.c. fornita di fgm mX(t). Siano a e b due costanti. Allora

la v.c. Y=a+bX è fornita di funzione generatrice dei momenti mY(t) = e atmX(bt).

Dimostrazione: per ipotesi esiste δ > 0 tale che per −δ < t < δ risulta mX(t) < ∞.

Si consideri E(etY) = eatE(ebtX). Si ponga bt=v. Per ipotesi E(evX) = mX(v) converge per −δ < t < δ,

ovvero converge per −δ < bt < δ e quindi E(ebtX) = mX(bt) converge per − δ

b < t <

δ

b . Si è così dimostrato che

nelle condizioni poste mY(t) = e atmX(bt)

14)SI DIMOSTRI CHE SE Y=a+bX, CON X DISTRIBUITO NORMALMENTE, ANCHE Y È DISTRIBUITO NORMALMENTE (V proprietà):

Dim. della V proprietà: mY(t) = e ta ∙ mX(bt) = e

ta ∙ ebtμ+ 1

2 σ2(bt)2 = et

(a+bμ)+ 1

2 t2(b2σ2) = e

Le trasformazioni lineari preservano la normalità. 15)SI DEDUCA LA FUNZIONE GENERATRICE DEI MOMENTI DELLA VARIABILE CASUALE GAMMA:

mY(t) = ∫ 1

Γ(α) ϑαyα−1e−ϑydy =

ϑα

Γ(α) ∫ yα−1e−(ϑ−t)ydy ∞

0

+∞

−∞ . L’integrale converge purchè t < ϑ.

Moltiplicando la funzione integranda (ϑ − t)α/(ϑ − t)α si ha:

mY(t) = ϑα

(ϑ−t)α ∫ (ϑ − t)αyα−1e−(ϑ−t)ydy ∞

0 . L’ultimo integrale è uguale a 1, per cui: mY(t) =

ϑα(ϑ − t)−α è la funzione generatrice di momenti della v.c. gamma di parametri α > 0 e ϑ > 0. 16)SI DIMOSTRI LA LEGGE DEBOLE DEI GRANDI NUMERI:

Pr{|X − μ| ≥ c} ≤ σ2

c2 → tesi della disuguaglianza di Cebicev

X~Bin{n, p} → probabilità di successo . Applico la disuguaglianza di Cebicev a X

n → fr. relativa di successi che posso avere in questo modello dicotomico

Dim: E ( X

n ) =

1

n E(X) =

1

n ∙ n ∙ p = p → per la linearità di M1

V ( X

n ) =

1

n2 V(X) =

1

n2 ∙ n ∙ p ∙ q =

pq

n ; P {|

X

n − p| ≥ c} ≤

pq

nc2⏟ per n→+∞, vale 0

limn→+∞ P {| X

n − p| ≥ c} = 0 ; limn→+∞ P {|

X

n − p| < c} = 1

Dunque ∀c > 0, ∀ε > 0, ∃ n̅(ε): ∀n > n̅(ε) → P {| X

n − p| ≥ c} < ε , P {|

X

n − p| < c} > 1 − ε

17)Si dimostri la distribuzione �� = ∑ (����−�̅�)

���� ��=��

���� essendo (����, … , ����) un campione casuale dalla distribuzione

normale: U = ∑ (Xi−X̅)

2n i=1

σ2 di distribuisce come una χ2 con (n-1) gdl.

Dimostrazione: ∑ ( xi−μ

σ ) 2

n i=1⏟

è la somma di n v.c.χ2indipendenti

~χ2(n)

∑ (xi − A) 2n

i=1 = ∑ (xi − μ1) 2 + N(μ1 − A)

2n i=1 A = μ; μ1 = x̅ ∑ (

xi−μ

σ ) 2

n i=1⏟ ~χ2(n)

= ∑ (xi−x̅)

2

σ2 n i=1 +

n(x̅−μ)2

σ2⏟

=( x̅−μ σ

√n

)

2

Si ha U2 = V2 + Z2 essendo U2 e Z2 indipendenti e distribuite come due χ2 rispettivamente con n e 1 gdl:

mU2(t) = m(V2+Z2)(t) = mV2(t)mZ2(t) da cui mV2(t) = m U2 (t)

mZ2(t)

La fgm di una χ2(r) è ( 1

1−2t )

r

2 : mV2(t) =

( 1

1−2t )

n 2

( 1

1−2t )

1 2

= ( 1

1−2t )

n−1

t , quindi

∑ (Xi−X̅) 2n

i=1

σ2 = U~χ2(n − 1)

18)COSTRUZIONE DEGLI INTERVALLI DI CONFIDENZA E VERIFICHE D’IPOTESI DEI PARAMETRI DEL MODELLO LINEARE CON UNA VARIABILE ESPLICATIVA:

I.C. per β1: [β̂1 ∓ t1−α 2

(n − 2)√ σ̂2

n

1

Var(x) ]; I.C. per β0: [β̂0 ∓ t1−α

2

(n − 2)√ σ̂2

n (1 +

x̅2

Var(x) )];

I.C. per σ2:[ (n−2)σ̂2

χ 1− α 2

2 (n−2) ; (n−2)σ̂2

χα 2

2 (n−2) ]; I.C. per μ(x): [μ̂(x) ∓ t1−α

2 √ σ̂2

n [1 +

(x̅−x)2

Var(x) ]];

I.C. per Var(x): [ ∑(yi−β̂0−β̂1x)

2

χ 1− α 2

2 (n−2) ; ∑(yi−β̂0−β̂1x)

2

χα 2

2 (n−2) ]

Verifiche d’ipotesi:

per β1: H0: β1 ≤ β10 H1: β1 > β10 rifiuto H0 se β1−β10

√ σ̂2

n

1

Var(x)

> t1−α (n−2)

H0: β1 ≥ β10 H1: β1 < β10 rifiuto H0 se β1−β10

√ σ̂2

n

1

Var(x)

< −t1−α (n−2)

H0: β1 = β10 H1: β1 ≠ β10 rifiuto H0 se |β1−β10|

√ σ̂2

n

1

Var(x)

> t 1−

α

2

(n−2)

Per β0: H0: β0 ≤ β00 H0: β0 > β00 rifiuto H0 se β0−β00

√ σ̂2

n

x̅2

Var(x)

> t1−α (n−2)

Se σ2: H0: σ 2 = σ0

2 H1: σ 2 ≠ σ0

2 rifiuto H0 se: (n−2)σ̂2

σ0 2 non ∈ {χα

2

2(n − 2); χ 1−

α

2

2 (n − 2)}

19)COEFFICIENTI DI CORRELAZIONE GREZZI E PARZIALI:

c.d.c. grezzi sono r12 e r13: rij = σij

σiσj σi = √σij

r12 = σ12

√σ11√σ22 indica la correlazione tra X1 e X2 al lordo delle variazioni di X3

r13 = σ13

√σ11√σ33 indica la correlazione tra X1 e X3 al lordo delle variazioni di X2

r12 2 = I12

2 ; r13 2 = I13

2

r12 = {

0 se la retta di regressione è ortogonale 1 se i valori della varianza stanno su una retta inclinata positivamente −1se i valori della varianza stanno su una retta inclinata negativamente

c.d.c. parziali sono:

r12.3 = sgn(α12.3)√α12.3 ∙ α13.2 = r12−r13r23

√(1−r23 2 )(1−r13

2 )

indica la correlazione tra X1 e X2 tolta l’influenza

lineare di X3

r13.2 = r13−r12r23

√(1−r23 2 )(1−r13

2 )

indica la correlazione tra X1 e X3 tolta l’influenza lineare di X2

r12 = r12.3 solo se X1 e X2 sono incorrelati con X3

r12 = r12.3√1 − r23 2 √1 − r13

2 + r13 ∙ r23 r13 = r13.2√1 − r23 2 √1 − r12

2 + r12 ∙ r23

Relazione: I1.23 2 −I12

2

1−I12 2 = r13.2

2 I1.23 2 −I13

2

1−I13 2 = r12.3

2

20)INFERENZA SU DUE PROPORZIONI: Sia (X11, X12, … , X1n1) un campione casuale da una v.c. indicatore di

parametro p1. Sia (X21, X22, … , X2n2) un campione casuale da una v.c. indicatore di parametro p2. Siano fra loro

indipendenti. Le frequenze campionarie sono:

p̂1 = 1

n ∑ X1i n i=1 ; p̂2 =

1

m ∑ X2i m i=1 ; D = p̂1 − p̂2 ; E(D) = p1 − p2 ; Var(D) =

p1(1−p1)

n + p2(1−p2)

m ;

Al divergere di m e n p̂1−p̂2−(p1−p2)

√ p̂1(1−p̂1)

n + p̂2(1−p̂2)

m

tende a distribuirsi come la v.c. normale standardizzata.

I.C. asintotico al 100(1 − α)% per (p1 − p2): (p̂1 − p̂2) ± z1−α 2

√ p̂1(1−p̂1)

n + p̂2(1−p̂2)

m

Sotto l’ipotesi H0: p1 = p2 la statistica p̂1−p̂2

√ p̂1(1−p̂1)

n + p̂2(1−p̂2)

m

tende a distribuirsi, al divergere di m e n, come una v.c.

normale standardizzata. La regione critica è data da: |p̂1−p̂2|

√ p̂1(1−p̂1)

n + p̂2(1−p̂2)

m

> z1−α 2

Sotto l’ipotesi H0: p1 = p2 = p la stima della varianza di D è pari a p̂(1 − p̂) ( 1

n +

1

m )

dove p̂ = np̂1+mp̂2

n+m = ∑ x1i+∑ x2i

m i=1

n i=1

n+m . Pertanto:

p̂1−p̂2

√ p̂1(1−p̂1)

n + p̂2(1−p̂2)

m

= p̂1−p̂2

√p̂(1−p̂)( 1

n + 1

m )

.

Le approssimazioni si ritengono soddisfacenti qualora ciascunao dei due campioni abbia almeno 100 osservazioni. 21)VERIFICHE D’IPOTESI SUI PARAMETRI DEL MODELLO LINEARE CON DUE VARIABILI ESPLICATIVE: ASSUNZIONI

STATISTICHE E COSTRUZIONI DEI TEST: X̂1i = α1 + α12.3x2i + α13.2x3i + εi Sotto le ipotesi: E(εi) = 0 , v(εi) = σ

2 Vale: E(X1i) = α1 + α12.3x2i + α13.2x3i , V(X1i) = σ 2

εi~NiD(0, σ 2)

Buoni stimatori sono: α̂12.3 = σ33σ12−σ13σ23

σ22σ33−σ23 2 α̂13.2 =

σ22σ13−σ12σ23

σ22σ33−σ23 2 α̂ = x̅1 − α̂12.3x̅2 − α̂13.2x̅3

Sono combinazioni lineari di normali, dunque sono normali.

E(α̂12.3) = α12.3 E(α̂13.2) = α13.2 Var(α̂12.3) = σ2

n ∙

σ33

σ22σ33−σ23 2 Var(α̂13.2) =

σ2

n ∙

σ22

σ22σ33−σ23 2

Si può dimostrare che { ∑ (x1i−α−α12.3x2i−α13.2)

2n i=1

σ2 }~χ2(n − 3).

L’aspettativa di una χ2 è uguale ai suoi gdl.

E ({ ∑ (x1i−α−α12.3x2i−α13.2)

2n i=1

σ2 }) = n − 3 E {

∑ (x1i−α−α12.3x2i−α13.2) 2n

i=1

n−3 } = σ2

σ̂2 = ∑ (x1i−α−α12.3x2i−α13.2)

2n i=1

n−3 = Dev(Res)

n−3 = σ11(1−I1.23

2 )

n−3

(n−3)σ̂2

σ2 ~χ2(n − 3)

Test bilaterale per la varianza: H0: σ 2 = σ0

2 H1: σ 2 ≠ σ0

2 Rifiuto H0 se Dev(Res)

σ0 2 ∉ [χα

2

2(n − 3); χ 1−

α

2

2 (n − 3)]

H0: α12.3 = A T = α̂12.3−α12.3

√ σ̂2

n ∙

σ33

σ22σ33−σ23 2

~t(n− 3)

Se H1: α12.3 > A rifiuto H0 se T > t1−α(n − 3) Se H1: α12.3 < A rifiuto H0 se T < t1−α(n − 3) Se H1: α12.3 ≠ A rifiuto H0 se |T| > t1−α

2 (n − 3)

H0: α13.2 = A T2 = α̂13.2−α13.2

√ σ̂2

n ∙

σ22

σ22σ33−σ23 2

~t(n − 3)

Se H1: α13.2 > B rifiuto H0 se T2 > t1−α(n − 3) Se H1: α13.2 < B rifiuto H0 se T2 < t1−α(n − 3) Se H1: α13.2 ≠ B rifiuto H0 se |T2| > t1−α

2 (n − 3)

H0: α12.3 = α13.2 = 0 H1: α12.3 ≠ 0 ∪ α13.2 ≠ 0 DS

σ2 ~⏟ H0

χ2(3 − 1) ∐ DR

σ2 ~⏟ H0

χ2(n − 3)

V = DS

σ2 (3−1)⁄

DR

σ2 (n−3)⁄

~⏟ H0

F(2; n − 3) -> σ2 si semplifica per l’ipotesi di omoschedasticità

Posso riscrivere la V, dividendo entrambi i membri per 1

DT :

I1.23 2 2⁄

1−I1.23 2 (n−3)⁄

→ Rifiuto H0 se V > F1−α(2; n − 3)

22)VERIFICHE D’IPOTESI E INTERVALLI DI CONFIDENZA PER I PARAMETRI DEL PIANO �̂��� = �� + ������.������ + ������.������

I.C. al 100(1 − α)% per la varianza: [ Dev(Res)

χ 1− α 2

2 (n−3) ; Dev(Res)

χα 2

2 (n−3) ]

Test bilaterale per la varianza: H0: σ 2 = σ0

2 H1: σ 2 ≠ σ0

2 Rifiuto H0 se Dev(Res)

σ0 2 ∉ [χα

2

2(n − 3); χ 1−

α

2

2 (n − 3)]

H0: α12.3 = A T = α̂12.3−α12.3

√ σ̂2

n ∙

σ33

σ22σ33−σ23 2

~t(n− 3)

Se H1: α12.3 > A rifiuto H0 se T > t1−α(n − 3) Se H1: α12.3 < A rifiuto H0 se T < t1−α(n − 3) Se H1: α12.3 ≠ A rifiuto H0 se |T| > t1−α

2 (n − 3)

I.C. al 100(1 − α)% per α12.3: α̂12.3 ± t1−α 2 (n − 3)√

σ̂2

n ∙

σ33

σ22σ33−σ23 2

H0: α13.2 = A T2 = α̂13.2−α13.2

√ σ̂2

n ∙

σ22

σ22σ33−σ23 2

~t(n − 3)

Se H1: α13.2 > B rifiuto H0 se T2 > t1−α(n − 3) Se H1: α13.2 < B rifiuto H0 se T2 < t1−α(n − 3) Se H1: α13.2 ≠ B rifiuto H0 se |T2| > t1−α

2 (n − 3)

I.C. al 100(1 − α)% per α13.2: α̂13.2 ± t1−α 2 (n − 3)√

σ̂2

n ∙

σ22

σ22σ33−σ23 2

H0: α12.3 = α13.2 = 0 H1: α12.3 ≠ 0 ∪ α13.2 ≠ 0 DS

σ2 ~⏟ H0

χ2(3 − 1) ∐ DR

σ2 ~⏟ H0

χ2(n − 3)

V = DS

σ2 (3−1)⁄

DR

σ2 (n−3)⁄

~⏟ H0

F(2; n − 3) -> σ2 si semplifica per l’ipotesi di omoschedasticità

Posso riscrivere la V, dividendo entrambi i membri per 1

DT :

I1.23 2 2⁄

1−I1.23 2 (n−3)⁄

→ Rifiuto H0 se V > F1−α(2; n − 3)

23)VERIFICA DELLE IPOTESI SULLA MEDIA DELLA POPOLAZIONE (σ noto):

{ H0: μ ≤ μ0 H1: μ > μ0

si rifiuta H0 se X̅−μ0

σ/√n > z1−α o se, equivalentemente, X̅ > μ0 + z1−α

σ

√n

{ H0: μ ≥ μ0 H1: μ < μ0

si rifiuta H0 se X̅−μ0

σ/√n < −z1−α o se, equivalentemente, X̅ < μ0 − z1−α

σ

√n

{ H0: μ = μ0 H1: μ ≠ μ0

si rifiuta H0 se |X̅−μ0|

σ/√n > z1−α

2 o se, equivalentemente, X̅ ∉ [μ0 − z1−α

2

σ

√n ; μ0 + z1−α

2

σ

√n ]

VERIFICA DELLE IPOTESI SULLA MEDIA DELLA POPOLAZIONE (σ ignoto):

{ H0: μ ≤ μ0 H1: μ > μ0

si rifiuta H0 se X̅−μ0

S/√n > t1−α(n − 1) o se, equivalentemente, X̅ > μ0 + t1−α(n − 1)

S

√n

{ H0: μ ≥ μ0 H1: μ < μ0

si rifiuta H0 se X̅−μ0

S/√n < −t1−α(n − 1) o se, equivalentemente, X̅ > μ0 − t1−α(n − 1)

S

√n

{ H0: μ = μ0 H1: μ ≠ μ0

si rifiuta H0 se |X̅−μ0|

S/√n > t1−α

2 (n − 1) o se X̅ ∉ [μ0 − t1−α

2 (n − 1)

σ

√n ; μ0 + t1−α

2 (n − 1)

σ

√n ]

24)CONFRONTO FRA LE MEDIE DI DUE CAMPIONI - VERIFICHE D’IPOTESI DI EGUAGLIANZA DI MEDIE DI DUE POPOLAZIONI:

Teorema: sia (X11, X12, … , X1n1) un campione casuale da una v.c. normale di aspettativa μ1 e varianza σ1 2. sia

(X21, X22, … , X2n2) un campione casuale da una v.c. normale di aspettativa μ2 e varianza σ2 2. Siano fra loro

indipendenti. Allora la v.c. D = X̅1 − X̅2 ha distribuzione normale di aspettativa μ1 − μ2 e varianza σ1 2

n1 + σ2 2

n2 .

Dim: X̅i~N(μi; σi 2) -> X̅1 + (−X̅2) i = 1,2

Nel seguito si utilizzerà la seguente simbologia: S1 2 =

1

n−1 ∑ (X1i − X̅1)

2n1 i=1 ; S2

2 = 1

n−1 ∑ (Xi − X̅2)

2n1 i=1

Si consideri il seguente problema di verifica d’ipotesi:

{ H0: μ1 = μ2 σ1

2 = σ2 2 = σ2 nota

H1: μ1 ≠ μ2 σ1 2 = σ2

2 = σ2 nota Si rifiuta H0 se:

|X̅1−X̅2−(μ1−μ2)|

√σ2( 1

n1 + 1

n2 )

= |X̅1−X̅2−0|

σ√( n1+n2 n1∙n2

) > z1−α

2

Nella pratica è molto raro conoscere il valore comune di σ2

Si consideri il seguente problema di verifica d’ipotesi:{ H0: μ1 = μ2 σ1

2 = σ2 2 = σ2 non nota

H1: μ1 ≠ μ2 σ1 2 = σ2

2 = σ2 non nota

In tal caso si propone per la stima di σ2 lo stimatore S2 = (n1−1)S1

2+(n2−1)S2 2

n1+n2−2 che risulta corretto per σ2

nell’ipotesi σ1 2 = σ2

2 = σ2, infatti: E(S2) = (n1−1)E(S1)

2 +(n2−1)E(S2 2)

n1+n2−2 = σ2

(n1−1)+(n2−1)

n1+n2−2 = σ2

Dal fatto che, sotto H0 la v.c. (ni−1)Si

2

σ2 ha distribuzione chi-quadrato con (ni − 1) gdl, 1=1,2 , segue che la v.c.

(n1−1)S1 2+(n2−1)S2

2

n1+n2−2 ha distribuzione chi-quadrao con (n1 + n2 − 2) gdl.

Sotto H0 , dunque, vale:

(X̅1−X̅2) σ√ n1+n2 n1∙n2

√ [(n1−1)S1

2+(n2−1)S2 2] σ2⁄

n1+n2−2

= X̅1−X̅2

√S2√ n1+n2 n1∙n2

= X̅1−X̅2

S√ n1+n2 n1∙n2

che ha distribuzione t di Student con (n1 + n2 − 2) gdl.

Si può ritenere ragionevole rifiutare l’ipotesi H0 se: X̅1−X̅2

S√ n1+n2 n1∙n2

> t1−α 2 (n1 + n2 − 2).

25)L’approccio del P-VALUE Esiste un altro approccio alla verifica di ipotesi: l’approccio del pvalue. Il p-value rappresenta la probabilità di osservare un valore della statistica test uguale o più estremo del valore che si calcola a partire dal campione, quando l’ipotesi H0 è vera. Un p-value basso porta a rifiutare l’ipotesi nulla H0. Il p-value è anche chiamato livello di significatività osservato, in quanto coincide con il più piccolo livello di significatività in corrispondenza del quale H0 è rifiutata. In base all’approccio del p-value, la regola decisionale per rifiutare H0 è la seguente: Se il p-value è ≥ α, l’ipotesi nulla non è rifiutata. Se il p-value è < α, l’ipotesi nulla è rifiutata. Dicesi p-value il valore minimo (/massimo) della probabilità dell’errore di prima specie per il quale si rifiuta (/si accetta) l’ipotesi nulla H0. X~N(μ; σ

2) con σ2 nota

{ H0: μ ≤ μ0 H1: μ > μ0

si rifiuta H0 se X̅−μ0

σ/√n > z1−α∗ Se α > α∗ rifiuto H0; se α < α∗ accetto H0

26)VERIFICA DELLE IPOTESI SULLA VARIANZA DELLA POPOLAZIONE: �� NOTA:

{ H0: σ

2 ≤ σ0 2

H1: σ 2 > σ0

2 si rifiuta H0 se vale ∑ (Xi−μ)

2n i=1

σ0 2 > χ1−α

2 (n)

{ H0: σ

2 ≥ σ0 2

H1: σ 2 < σ0

2 si rifiuta H0 se vale ∑ (Xi−μ)

2n i=1

σ0 2 < χα

2(n)

{ H0: σ

2 = σ0 2

H1: σ 2 ≠ σ0

2 si rifiuta H0 se vale ∑ (Xi−μ)

2n i=1

σ0 2 ∉ [χα

2

2(n − 1); χ 1−

α

2

2 (n − 1)]

�� NON NOTA:

{ H0: σ

2 ≤ σ0 2

H1: σ 2 > σ0

2 si rifiuta H0 se vale ∑ (Xi−X̅)

2n i=1

σ0 2 > χ1−α

2 (n − 1)

{ H0: σ

2 ≥ σ0 2

H1: σ 2 < σ0

2 si rifiuta H0 se vale ∑ (Xi−X̅)

2n i=1

σ0 2 < χα

2(n − 1)

{ H0: σ

2 = σ0 2

H1: σ 2 ≠ σ0

2 si rifiuta H0 se vale ∑ (Xi−X̅)

2n i=1

σ0 2 ∉ [χα

2

2(n − 1); χ 1−

α

2

2 (n − 1)]

27)LA VARIABILE CASUALE IPERGEOMETRICA: DEFINIZIONE, PROPRIETÀ E IMPIEGHI. V.c. ipergeometrica: è definita dalla seguente funzione di probabilità

p(X = x) = (rx)(

N−r n−x)

(Nn) , Max(0, n + r − N) ≤ x ≤ Min(r, n). E(X) = n

r

N , Var(X) = n

r

N (1 −

r

N ) N−n

N−1 .

La v.c. ipergeometrica esprime il numero di successi in n estrazioni senza reimmissione o in blocco.

Essa è ben approssimata dalla v.c. binomiale se n < n/10 -> In formula: (rx)(

N−r n−x)

(Nn) ≈ (n

x ) (

r

N ) x

.

Supponiamo di avere una popolazione N, di cui r unità posseggono la caratteristica d’interesse. Se ne scelgano n in blocco(/senza riposizione). X = {n° di unità statistiche che posseggono la caratteristica d′interesse, in n estrazioni}

P{X = x} = (rx)∙(

N−r n−x)

(Nn) con Max{0, n + r − N} ≤ Min{r, n} (B

A ) = 0 se A > B (per convenzione)

E(X) = n ∙ r

n → E(X)ipergeometrica = E(X)binomiale

V(X) = n ∙ r

N ∙ (1 −

r

N ) ∙

N−n

N−1⏟ fattore di correzione

Approssimazione della distribuzione ipergeometrica alla distribuzione binomiale: se n < N

10 assumo l’ipotesi più

semplice (binomiale), anche se non c’è indipendenza. Il campionamento senza riposizione, o in blocco, è ben approssimata da campionamento con riposizione. 28) LE VERIFICHE D’IPOTESI: DEFINIZIONE DEL PROBLEMA, CARATTERISTICHE SALIENTI, UN ESEMPIO. VERIFICHE D’IPOTESI: si considerino n variabili casuali (X1, X2, … , Xn) indipendenti e aventi la medesima funzione di densità f(x, ϑ) (v.c. continua), oppure la medesima funzione di probabilità p(x, ϑ) (v.c. discreta).allora si dirà che (X1, X2, … , Xn) è un campione casuale proveniente dalla funzione di densità f(x, ϑ), oppure dalla funzione di probabilità p(x, ϑ). Per ipotesi statistica si intende una congettura sulla forma della distribuzione dalla quale provengono i dati. Teoria classica:

 H0: ipotesi nulla -> ipotesi statistica oggetto di verifica

 H1: ipotesi alternativa -> ipotesi contraria, scelta dal decisore Si dice test statistico una partizione dello spazio dei possibili risultati campionari in due sottoinsiemi disgiunti:

 Regione critica (C): insieme dei risultati campionari per cui il test prescrive di rifiutare l’ipotesi nulla

 Regione di accettazione (C̅): insieme dei risultati campionari per cui il test prescrive di accettare l’ipotesi nulla.

Si possono compiere due tipologie d’errore statistico:

 Errore di I specie: consiste nel rifiutare l’ipotesi nulla quando essa è vera

 Errore di II specie: consiste nell’accettare l’ipotesi nulla quando essa è falsa D= ipotesi scelta; V= ipotesi vera Data la natura statistica dell’esperimento, tali errori si possono commettere con una certa probabilità: −α ≡ Pr (errore I specie). Un test ideale sarebbe quello che rende minimi contemporaneamente le due probabilità d’errore. Sfortunatamente, le due probabilità di errore hanno andamenti

contrapposti.

V D

H0 H1

H0 - II specie

H1 I specie -

Ipotesi statistica si dice: 1)Semplice, se specifica completamente la distribuzione da cui provengono i dati; 2) Composta. Il lemma di Neymann-Pearson fornisce la regione critica del test più potente, qualora si considerino 2 ipotesi semplici. Generalizzando opportunamente la teoria è possibile ricavare regioni critiche di test che possiedono buone proprietà statistiche. Per il CAMPIONAMENTO DA DISTRIBUZIONE NORMALE, ecco le regioni critiche dei test sui parametri, per vari problemi di verifica d’ipotesi.

VERIFICHE D’IPOTESI su �� ���� NOTA:

{ H0: μ ≤ μ0 H1: μ > μ0

si rifiuta H0 se X̅−μ0

σ/√n > z1−α o se, equivalentemente, X̅ > μ0 + z1−α

σ

√n

{ H0: μ ≥ μ0 H1: μ < μ0

si rifiuta H0 se X̅−μ0

σ/√n < −z1−α o se, equivalentemente, X̅ < μ0 − z1−α

σ

√n

{ H0: μ = μ0 H1: μ ≠ μ0

si rifiuta H0 se |X̅−μ0|

σ/√n > z1−α

2 o se, equivalentemente, X̅ ∉ [μ0 − z1−α

2

σ

√n ; μ0 + z1−α

2

σ

√n ]

29) SI DIMOSTRI A COSA È UGUALE LA FUNZIONE GENERATRICE DEI MOMENTI DELLA TRASFORMAZIONE LINEARE

DI UNA VARIABILE CASUALE: Teorema 1: sia X una v.c. fornita di fgm mX(t). Siano a e b due costanti. Allora la v.c.

Y=a+bX è fornita di funzione generatrice dei momenti mY(t) = e atmX(bt).

Dimostrazione: per ipotesi esiste δ > 0 tale che per −δ < t < δ risulta mX(t) < ∞.

Si consideri E(etY) = eatE(ebtX). Si ponga bt=v. Per ipotesi E(evX) = mX(v) converge per −δ < t < δ,

ovvero converge per −δ < bt < δ e quindi E(ebtX) = mX(bt) converge per − δ

b < t <

δ

b . Si è così dimostrato

che nelle condizioni poste mY(t) = e atmX(bt)

30)SI DIMOSTRI COME SI DISTRIBUISCE LA VARIABILE CASUALE MEDIA CAMPIONARIA NEL CAMPIONAMENTO DA DISTRIBUZIONE NORMALE. Teorema: siano (X1, X2, … , Xn) n variabili casuali normali di aspettativa μ e varianza σ

2

e indipendenti in probabilità. Allora: La v.c. X̅ = 1

n ∑ Xi n i=1 (media campionaria) si distribuisce come una normale di

aspettativa μ e varianza σ2

n .

Dim: Yn = X1 + X2 +⋯+ Xn , Yn~N(nμ, nσ 2), X̅ = V =

Yn

n , a = 0, b =

1

n

mV(t) = e 0t ∙ mYn (

1

n t) = e

t

n nμ+

1

2 nσ2

t2

n2 = etμ+ 1

2 t2 σ2

n → X̅~N(μ, σ2

n )

31) VERIFICA DELL’IPOTESI DI UGUAGLIANZA FRA DUE VARIANZE: IPOTESI E COSTRUZIONE DEL TEST - CONFRONTO FRA VARIANZE CAMPIONARIE NEL CAMPIONAMENTO DA POPOLAZIONE NORMALE: Sia (X11, X12, … , X1n1) un

campione casuale da una v.c. normale di aspettativa μ1 e varianza σ1 2. Sia (X21, X22, … , X2n2) un campione casuale

da una v.c. normale di aspettativa μ2 e varianza σ2 2. Siano fra loro indipendenti.

{ H0: σ1

2 = σ2 2

H1: σ1 2 ≠ σ2

2 . E’ noto che (ni−1)Si

2

σi 2 ~χ

2(ni − 1) i = 1,2

Sotto H0, indicato con σ 2 il valore (non noto) comune della varianza delle due popolazioni, vale:

V = (n1−1)S1

2

σ2 (n1−1)⁄

(n2−1)S2 2

σ2 (n2−1)⁄

= S1 2

S2 2~F[(n1 − 1); (n2 − 1)]

Appare ragionevole rifiutare H0 se: S1 2

S2 2 ∉ {Fα

2

[(n1 − 1); (n2 − 1)]; F1−α 2

[(n1 − 1); (n2 − 1)]}

Oss.: si deve considerare come primo campione quello con varianza campionaria maggiore S1 2

S2 2 <

1

F 1− α 2 [(n1−1);(n2−1)]

S2 2

S1 2 > F1−α

2

[(n1 − 1); (n2 − 1)]

32) SI ELENCHINO, COMMENTANDO OPPORTUNAMENTE, LE PROPRIETÀ STATISTICHE APPETIBILI PER UNO STIMATORE. SI FORNISCANO INOLTRE, GLI STIMATORI CHE GODONO DI TALI PROPRIETÀ. STIMA PUNTUALE: (X1, X2, … , Xn) iid ~f(x; ϑ) ~p(x; ϑ)

Dicesi stimatore di un parametro ϑ, T = t(X1, X2, … , Xn) -> t = t(x1, x2, … , xn) →stima Proprietà: Correttezza: si dice che lo stimatore è corretto per ϑ se E(T) = ϑ , ∀ϑ

Stimatori corretti: E ( X

n ) = p → fr. relativa campionaria E(X̅) = μ(≡ E(X)) → media campionaria

E(T1) = E(T2) = ϑ -> 2 stimatori corretti per ϑ: quale scelgo? E(T − ϑ) 2 -> T1 ≽ T2 se Var(T1) ≤ Var(T2) ∀ ϑ

Consistenza: Tn = t(X1, X2, … , Xn) è consistente per ϑ se: limn→+∞ P{| Tn − ϑ|≥ c} = 0 ∀c > 0 limn→+∞ P{| Tn − ϑ|< c} = 1 ∀c > 0 Stimatori consistenti noti:

limn→+∞ P{| X

n − p|≥ c} = 0 → fr. rel campion. limn→+∞ P{| X̅ − μ|≥ c} = 0 → media campionaria

Dim: ∑(xi − A) 2 = ∑(xi −M1)

2 + N(A −M1) 2 → ∑(xi − μ)

2 = ∑(xi − X̅) 2 + n(X −μ)2 →

∑(xi − X̅) 2 = ∑(xi − μ)

2 − n(X̅ −μ)2 E{∑ (xi − X̅)

2} = E{∑(xi − μ) 2} − E{n(X̅ − μ)2} = ∑ E[(xi − μ)

2] − nE[ni=1 (X̅ − μ) 2] =

nσ2 − n σ2

n = (n − 1)σ2 . E [

∑(xi−X̅) 2

n−1 ] =

n−1

n−1 σ2 .

Quindi, è stimatore corretto per la varianza: S2 = 1

n−1 ∑(xi − X̅)

2 = 1

n−1 [xi 2ni − nx̅

2] 33) LA FUNZIONE GENERATRICE DEI MOMENTI: DEFINIZIONE, PROPRIETÀ E IMPIEGHI: si consideri la seguente

espressione mX(t) ≡ E(e tx) = {

∫ etxf(x)dx +∞

−∞ (caso continuo)

∑ etxip(xi) (caso discreto)i

Def.: si dice che la v.c. X possiede la funzione generatrice dei momenti se esiste δ > 0 tale che mX(t), t ∈ (−δ, δ), è detta f.g.m.

Teorema: sia X una v.c. tale che E(etx) < ∞ per ogni t ∈ (−δ, δ). Allora X ha momenti di ogni ordine e, per

ogni t ∈ (−δ, δ), risulta: mX(t) = ∑ tr

r! μr

∞ r=0 . Inoltre μr =

dr

dtr mX(t)|

t=0

Teorema dell’unicità della f.g.m (no dim.): siano mX(t) e mY(t) le f.g.m. delle v.c. X e Y. Si supponga che esista δ tale che per ogni t ∈ (−δ, δ) valga mX(t) = mY(t). Allora le due v.c. hanno la stessa distribuzione, cioè: FX(v) = FY(v) per ogni v reale. Teorema: sia mXi(t) la f.g.m. della v.c. Xi, i = 1,2, … , n. Siano le v.c. Xi indipendenti.

Allora mY(t) = ∏ mXi(t) n i=1 con Y = ∑ Xi

n i=1 .

34) LA VARIABILE CASUALE CHI QUADRATO. DEFINIZIONE, PROPRIETÀ E IMPIEGHI. k=gradi di libertà (gdl). È una v.c. gamam con parametri α = k/2 e ϑ = 1/2 essendo k=1,2,3...

f(y; k) = { ϑ k 2⁄

Γ(k 2⁄ ) y k

2 −1e−

y

2, y > 0 e k = 1,2,…

0 altrove

; E(Y) = k 2⁄

1 2⁄ = k V(Y) =

k 2⁄

1 22⁄ = 2k

La fgm della v.c. chi-quadrato con k gdl è data da mχ2(t) = ( 1

2 )

k

2 ( 1

2 − t)

− k

2 = (1 − 2t)−

k

2

Soddisfa il teorema: siano Y1 e Y2 due v.c. chi-quadrato indipendenti rispettivamente con k1 e k2 gdl, allora la v.c. Y = Y1 + Y2 ha una distribuzione chi-quadrato con k1 + k2 gdl. 35)SI DEDUCA (=DIMOSTRARE!!!!) UNO STIMATORE CORRETTO PER LA VARIANZA DI UNA DISTRIBUZIONE

Dim: ∑(xi − A) 2 = ∑(xi −M1)

2 + N(A −M1) 2 → ∑(xi − μ)

2 = ∑(xi − X̅) 2 + n(X −μ)2 →

→ ∑(xi − X̅) 2 = ∑(xi − μ)

2 − n(X̅ −μ)2 E{∑ (xi − X̅)

2} = E{∑(xi − μ) 2} − E{n(X̅ − μ)2} = ∑ E[(xi − μ)

2] − nE[ni=1 (X̅ − μ) 2] =

nσ2 − n σ2

n = (n − 1)σ2. E [

∑(xi−X̅) 2

n−1 ] =

n−1

n−1 σ2 . Quindi, è stimatore corretto per la varianza:

S2 = 1

n−1 ∑(xi − X̅)

2 = 1

n−1 [xi 2ni − nx̅

2] SI DIMOSTRI CHE LA MEDIA CAMPIONARIA È STIMATORE CONSISTENTE PER L’ASPETTATIVA DI UNA

DISTRIBUZIONE. Sia X1, … , X2 un campione casuale da una qualsiasi v.c. X avente E(X) = μ e Var(X) = σ 2 finite. È

facile dimsotrare che X̅n uno stimatore corretto per μ. Si sa che ��(X̅n) = �� e Var(X̅n) = σ2

n , applicando la

disuguaglianza di Cebiceff alla v.c. X̅n, si ha:

P{X̅n − μ ≥ c} ≤ Var(X̅n)

c2 e limn→0 P{X̅n − μ ≥ c} ≤ limn→0

1

c2 1

n σ2

Al divergere di n la parte di destra della disuguaglianza tende a zero. Conseguentemente tende a zero anche ��{X̅n − �� ≥ ��}

molto utile
Questa è solo un'anteprima
3 pagine mostrate su 13 totali
Scarica il documento