Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Schemi formule statistica, Formulari di Statistica

Schemi di formule di statistica

Tipologia: Formulari

2019/2020

Caricato il 11/06/2020

marco-ciardiello-1
marco-ciardiello-1 🇮🇹

3 documenti

1 / 2

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Variabili categoriche: qualità, proprietà,
ecc... (non sono quantità misurabili)
Numero ottimale di classi: n
STIMATORI PUN-
TUALI
Metodo dei momenti (momenti empirici
contro momenti teorici)
Metodo di massima verosimiglianza
Metodo dei momenti
XΓ(α,β)
E[x] = αβ
Var(x) = α β 2
M(n)
x=E[xn]
M(1)
x=E[x]
E[x2] = Var(x) + (E[x] )2=αβ 2+α2β2=
αβ 2(1+α)
ˆ
α=n
i=1x2
i
n
i=1x2
i(n
i=1xi)2
ˆ
β=n
i=1xi(n
i=1x2
i(n
i=1xi)2)
nn
i=1x2
i
(ˆ
αeˆ
βsono detti stimatori)
Metodo di massima
verosimiglianza
XEs p(λ)
fx(x) = λeλx(con x>0)
L(x1,...,xn)(λ) = n
i=1λeλxi
logL(x1,...,xn)(λ) = nlog λλn
i=1xi
δlogL(x1,...,xn)(λ)
δλ =n
λn
i=1xi=0
ˆ
λ=n
n
i=1xi=1
x l’inverso della media)
Intervalli di confidenza
(I.C.)
x=n
i=1xi
n(la media campionaria è uno
stimatore corretto della media)
E[x] = 1
n[n
i=1xi
n] = 1
nnE[xi] = µ
S2=n
i=1(xix)2
n(stimatore non corretto della
varianza)
S2
c=n
i=1(xix)2
n1(stimatore corretto della
varianza)
E[S2
c] = σ2=Var(x)
XiN(µ,σ2)XN(µ,σ2
n)
Var(x) = nσ2
n2=σ2
n
Proprietà:
Var(ax) = a2Var(x)
I.C. per popol. normale
con σ2non noto
T=xµ
S
nTn1
I.C. =[x±t1α
2(n1)S
n]
Distribuzione T di
Student
ZN(0,1)Xχ2(n)
Tn=z
x
n
(v.a. tangradi di libertà)
fTn(x) = 1
nπ
Γ(n+1
2)
Γ(n
2)(1+x2
n)n+1
2(densità,
con <x<)
E[Tn] = 0Var(Tn) = n
n2(con n>2)
NOTA:
al crescere di n, Student si avvicina
alla Normale.
FREQUENZE
Frequenza assoluta: Numero di volte che
appare un elemento.
Caso continuo: fi={#x/xi-esima classe}
Caso discreto: fi={#x/x=xi}
Frequenza relativa: Numero di volte che
appare un elemento diviso il numero di prove
totali.
fr
i=fi
N
Frequenza assoluta cumulata: Fi=n6ifn
Frequenza relativa cumulata: Fr
i=n6i
Fi
N
Frequenza assoluta doppia: fi,k= n. di
elementi del campione con valore (Sj,µk)
Frequenza relativa doppia: fr
i,k=fi,k
n
Frequenza cumulativa assoluta doppia:
Fj,k=fril(con r:Sr6Sjel:µl6µk)
Frequenza cumulativa relativa doppia:
Fj,k=fril
Principali indici statistici
Di posizione
Moda: valore con frequenza più alta
Media: x=n
i=1xi
n
Mediana: valore al di sotto del quale cadono
la metà dei valori campionari
Di dispersione
Range: |ximax ximin|
Scarto medio assoluto: 1
nn
i=1|xix|
Media dei quadrati degli scarti:
1
nn
i=1(xix)2
Varianza campionaria:
S2=1
n1n
i=1(xix)2
Media e var. campionarie per dati raggr.
in classi:
x=k
i=1ixi
S2=1
nn
i=1(xix)2fi=1
nn
i=1(x2
ifi)(x)2
Di forma
Indice di asimmetria: n
i=1
(xix)3
nσ2
Curtosi: n
i=1
(xix)4
nσ4
Indici di variazione
bidimensionale
Covarianza campionaria
Cx,y=1
nn
i=1xiyixy
xiyixy =<0xieyicorrel. negativ.
>0xieyicorrel. positiv.
Indice di correlazione campionario
r=Cx,y
S2(x)S2(y)(se r=0, allora xeynon
sono correlate)
Funzione di
verosimiglianza
x1,..., xncampione casuale di popolazione con
densità ϕ(0,θ)
fx1,...,xn(x1,..., xn,θ) = n
i=1ϕ(xi,θ)
INTERVALLI DI
CONFIDENZA (I.C.)
α= fiducia dell’intervallo
1α= confidenza
Intervalli unilaterali
Con il 95% di confidenza, vedo quando µè
superiore (x,) o inferiore (,x)
Taglia del campione
n>z1α
2
σ
I
22
(I
2=e2)
Errore massimo:
I
2=z1α
2
σ
n(questo è un esempio)
I.C. per la media
Pop. normale o camp. di t. grande, σnota
Var. casuale:
xµ
σ
n
=ZN(0,1)
I.C.1α= [x±z1α
2
σ
n]
(se il campione è <30 si usa T di Student)
Pop. normale, σnon nota
Var. casuale:
xµ
S
nT(n1)(con n>30 tende alla
Normale)
I.C.1α= [x±t1α
2(n1)S
n]
I.C. per la varianza
Pop. normale
Var. casuale:
(n1)S2
σ2χ2(n1)
I.C.1α="(n1)S2
χ2
1α
2
(n1),(n1)S2
χ2
α
2
(n1)#
I.C. per il rapp. tra
varianze
Var. casuale:
S2
1/σ2
1
S2
2/σ2
2F
I.C.1α="S2
1
S2
2
F1α
2
,
S2
1
S2
2
Fα
2#
I.C. per la diff. tra 2
medie
Pop. normale, σ1eσ2note
Var. casuale:
x1x2(µ1µ2)
sσ2
1
n1+σ2
2
n2Sp
N(0,1)
I.C.1α="x1x2±z1α
2rσ2
1
n1+σ2
2
n2#
Pop. normale, σ1eσ2non note ma =
Var. casuale:
x1x2(µ1µ2)
r1
n1+1
n2SpT(n1+n22)
Stimatore "pooled":
S2
p=(n11)S2
1+(n21)S2
2
n1+n22
Pop. normale, σ1eσ2non note e 6=
Var. casuale: non segue la T di Student
x1x2(µ1µ2)
S2
1
n1+S2
2
n2
I.C.1α="x1x2±t0
1α
2rS2
1
n1+S2
2
n2#
t0
1α
2
=
S2
1
n1t1+S2
2
n2t2
S2
1
n1+S2
2
n2
t1=t1α
2(n11)t2=t1α
2(n21)
I.C. per proporzioni
Var. casuale:
Sn
nE(Sn
n)
qVar(Sn
n)=ZN(0,1)
I.C.1α="ˆp±z1α
2qˆp(1ˆp)
n#
p=E(Sn
n)Var(Sn
n) = p(1p)
n
NOTA:
si usa in caso si presentino degli errori.
EMAX =
z1α
2
2
n>z1α
2
2pe2
(dove peè la prob. di errore)
n>S z1α
2
pe2
(quando SoS2è data)
I.C. per diff. tra prop.
con n1ed n2grandi
I.C.1α=
"ˆp1ˆp2±z1α
2qˆp1(1ˆp1)
n1+ˆp2(1ˆp2)
n2#
G2
ˆp1ˆp2=ˆp1(1ˆp1)
n1+ˆp2(1ˆp2)
n2
TEST PARA-
METRICI
Caso della media di una
distr. Normale
C. estr. da pop. norm. con var. nota
Livello di significatività:
z=xµ0
σ
n
(µ0è la media da verificare)
H0H1Rifiuto H0se
µ=µ0µ6=µ0|z|>z1α
2
µ6µ0µ>µ0z>z1α
µ>µ0µ<µ0z<z1α
C. estr. da pop. norm. con var. non nota
Livello di significatività:
t(n) = xµ0
S
n
(µ0è la media da verificare)
H0H1Rifiuto H0se
µ=µ0µ6=µ0|t|>t1α
2(n1)
µ6µ0µ>µ0t>t1α(n1)
µ>µ0µ<µ0t<t1α(n1)
Per la var. di una pop.
normale
(n1)S2
σ2
0χ2(n1)
H0H1Rifiuto H0se
σ2=σ2
0σ26=σ2
0χ2>χ2
1α
2
(n1)o
χ2<χ2
α
2
(n1)
σ26σ2
0σ2>σ2
0χ2>χ2
1α(n1)
σ2>σ2
0σ2<σ2
0χ2<χ2
α(n1)
Per la dev. standard con
camp. normale
S26σ2
(n1)χ2(n1)
Test per proporzioni
(pop. binomiali di taglia
grande)
x
nP
0
rP
0(1P
0)
nN(0,1)
H0H1Rifiuto H0se
P=P
0P6=P
0|z|>z1α
2
P6P
0P>P
0z>z1α
P>P
0P<P
0z<zα
Test per la diff. tra
proporzioni
ˆp1ˆp2(p1p2)0
rˆp1(1ˆp1)
n1+ˆp2(1ˆp2)
n2
N(0,1)
Testa 2 code Coda dx Coda sx
H0:p1p2= (p1p2)0H06H0>
H1:p1p26= (p1p2)0H1>H1<
NOTA:
Per la R.C. vedi la tabella sopra.
La differenza tra le frequenze relativerilevate su due campioni
casuali estratti dalle due popolazioni è statisticamente
significativao invece si può ritenere puro effetto del caso?
Test per il confronto tra
medie (con var. nota)
x1x2δ
sσ2
1
n1+σ2
2
n2
N(0.1)
NOTA:
se n>30, δ=30.
Se σ2
1eσ2
2non sono note e il campione è di taglia grande,
vengono stimate tramite S2
1eS2
2.
H0H1RifiutoH0se
µ1=µ2+δ µ16=µ2+δ|z|>z1α
2
µ16µ2+δ µ1>µ2+δz>z1α
µ1>µ2+δ µ1<µ2+δz<zα
Var. non nota uguale
x1x2(µ1µ2)0
rS2
P(1
n1+1
n2)T(n1+n22)
H0H1RifiutoH0se
µ1=µ2µ16=µ2|t|>t1α
2
(n1+n22)
µ16µ2µ1>µ2t>t1α(n1+n22)
µ1>µ2µ1<µ2t<tα(n1+n22)
S2
p=(n11)S2
1+(n21)S2
2
n1+n22
1
pf2

Anteprima parziale del testo

Scarica Schemi formule statistica e più Formulari in PDF di Statistica solo su Docsity!

Variabili categoriche: qualità, proprietà,

ecc... (non sono quantità misurabili)

Numero ottimale di classi:

n

STIMATORI PUN-

TUALI

• Metodo dei momenti (momenti empirici

contro momenti teorici)

• Metodo di massima verosimiglianza

Metodo dei momenti

X ∼ Γ(α, β )

E[x] = αβ

Var(x) = αβ

M

(n)

x

= E[x

n

]

M

x

= E[x]

E[x

] = Var(x) + (E[x])

n

i= 1

x

i

n

i= 1

x

i

n

i= 1

x i

n

i= 1

x i

n

i= 1

x

i

n

i= 1

x i

n ∑

n

i= 1

x

i

( αˆ e

β sono detti stimatori)

Metodo di massima

verosimiglianza

X ∼ Esp(λ )

f

x

(x) = λ e

−λ x

(con x > 0)

L

(x 1

,...,xn )

n

i= 1

λ e

−λ x i

log L

(x 1 ,...,xn )

(λ ) = n log λ − λ

n

i= 1

x

i

δ log L (x 1

,...,xn )

(λ )

δ λ

n

λ

n

i= 1

x

i

n

n

i= 1

x i

x

(è l’inverso della media)

Intervalli di confidenza

(I.C.)

x =

n

i= 1

x i

n

(la media campionaria è uno

stimatore corretto della media)

E[x] =

n

[

n

i= 1

x i

n

] =

n

nE[x

i

] = μ

S

n

i= 1

(x i −x)

n

(stimatore non corretto della

varianza)

S

c

n

i= 1

(x i −x)

n− 1

(stimatore corretto della

varianza)

E[S

c

] = σ

= Var(x)

X

i

∼ N(μ, σ

) X ∼ N(μ,

σ

n

Var(x) =

n

σ

n

Proprietà:

Var(ax) = a

Var(x)

I.C. per popol. normale

con σ

non noto

T =

x−μ

S

n

∼ T

n− 1

I.C. = [x ± t

α

2

(n − 1 )

S

n

]

Distribuzione T di

Student

Z ∼ N(0, 1) X ∼ χ

(n)

T

n

z

x

n

(v.a. t a n gradi di libertà)

f

Tn

(x) =

n+ 1

n

2

x

n

n+ 1

2

(densità,

con −∞ < x < ∞)

E[T

n

] = 0 Var(T

n

n

n− 2

(con n > 2)

NOTA: al crescere di n, Student si avvicina

alla Normale.

FREQUENZE

Frequenza assoluta: Numero di volte che

appare un elemento.

Caso continuo: f

i

= {#x/x ∈ i-esima classe}

Caso discreto: f

i

= {#x/x = x

i

Frequenza relativa: Numero di volte che

appare un elemento diviso il numero di prove

totali.

f

r

i

f i

N

Frequenza assoluta cumulata: F

i

n 6 i

f

n

Frequenza relativa cumulata: F

r

i

n 6 i

F

i

N

Frequenza assoluta doppia: f

i,k

= n. di

elementi del campione con valore (S

j

k

Frequenza relativa doppia: f

r

i,k

f i,k

n

Frequenza cumulativa assoluta doppia:

F

j,k

= ∑ f

r i l

(con r : S

r

6 S

j

e l : μ

l

k

Frequenza cumulativa relativa doppia:

F

j,k

= ∑ f

r i l

Principali indici statistici

• Di posizione

Moda: valore con frequenza più alta

Media: x =

n

i= 1

x i

n

Mediana: valore al di sotto del quale cadono

la metà dei valori campionari

• Di dispersione

Range: |x

imax

− x

imin

Scarto medio assoluto:

n

n

i= 1

|x

i

− x|

Media dei quadrati degli scarti:

n

n

i= 1

(x

i

− x)

Varianza campionaria:

S

n− 1

n

i= 1

(x

i

− x)

Media e var. campionarie per dati raggr.

in classi:

x = ∑

k

i= 1

i

x

i

S

n

n

i= 1

(x

i

− x)

f

i

n

n

i= 1

(x

i

f

i

) − (x)

• Di forma

Indice di asimmetria:

n

i= 1

(x i

−x)

Curtosi: ∑

n

i= 1

(x i −x)

Indici di variazione

bidimensionale

• Covarianza campionaria

C

x,y

n

n

i= 1

x

i

y

i

− xy

x

i

y

i

−xy =

< 0 x

i

e y

i

correl. negativ.

> 0 x

i

e y

i

correl. positiv.

• Indice di correlazione campionario

r =

Cx ,y

S

(x)S

(y)

(se r = 0, allora x e y non

sono correlate)

Funzione di

verosimiglianza

x

, ..., x

n

campione casuale di popolazione con

densità ϕ(0, θ )

f

x 1

,...,xn

(x

, ..., x

n

n

i= 1

ϕ(x

i

INTERVALLI DI

CONFIDENZA (I.C.)

α = fiducia dell’intervallo

1 − α = confidenza

Intervalli unilaterali

Con il 95% di confidenza, vedo quando μ è

superiore (x, ∞) o inferiore (−∞, x)

Taglia del campione

n >

z 1 −

α

σ

I

I

= e

Errore massimo:

I

= z

α

2

σ √ n

(questo è un esempio)

I.C. per la media

Pop. normale o camp. di t. grande, σ nota

Var. casuale:

x−μ

σ √ n

= Z ∼ N(0, 1)

I.C.

1 −α

= [x ± z

α

2

σ √ n

]

(se il campione è < 30 si usa T di Student)

• Pop. normale, σ non nota

Var. casuale:

x−μ

S

n

∼ T (n − 1 ) (con n > 30 tende alla

Normale)

I.C.

1 −α

= [x ± t

α

2

(n − 1 )

S

n

]

I.C. per la varianza

• Pop. normale

Var. casuale:

(n− 1 )S

σ

(n − 1 )

I.C.

1 −α

[

(n− 1 )S

χ

α

2

(n− 1 )

(n− 1 )S

χ

α

2

(n− 1 )

]

I.C. per il rapp. tra

varianze

Var. casuale:

S

S

∼ F

I.C.

1 −α

[

S

S

F

α

2

S

S

F

α

2

]

I.C. per la diff. tra 2

medie

• Pop. normale, σ

e σ

note

Var. casuale:

x 1

−x 2

−(μ 1

−μ 2

σ

n 1

σ

n 2

Sp

∼ N(0, 1)

I.C.

1 −α

[

x

− x

± z

α

2

σ

n 1

σ

n 2

]

• Pop. normale, σ

e σ

non note ma =

Var. casuale:

x 1

−x 2

−(μ 1

−μ 2

n 1

n 2

Sp

∼ T (n

+ n

Stimatore "pooled":

S

p

(n 1

− 1 )S

+(n 2

− 1 )S

n 1

+n 2

• Pop. normale, σ

e σ

non note e 6 =

Var. casuale: non segue la T di Student

x 1 −x 2 −(μ 1 −μ 2

S

n 1

S

n 2

I.C.

1 −α

[

x

− x

± t

α

S

n 1

S

n 2

]

t

α

2

S

n 1

t 1

S

n 2

t 2

S

n 1

S

n 2

t

= t

α

(n

− 1 ) t

= t

α

(n

I.C. per proporzioni

Var. casuale:

Sn

n

−E(

Sn

n

Var(

Sn

n

= Z ∼ N(0, 1)

I.C.

1 −α

[

p ˆ ± z

α

2

pˆ( 1 − pˆ)

n

]

p = E(

Sn

n

) Var(

Sn

n

p( 1 −p)

n

NOTA: si usa in caso si presentino degli errori.

E

MAX

z 1 −

α

n >

z 1 −

α

2

2 pe

(dove p

e

è la prob. di errore)

n >

S z 1 −

α

2

pe

(quando S o S

è data)

I.C. per diff. tra prop.

con n

ed n

grandi

I.C.

1 −α

[

p ˆ

− pˆ

± z

α

pˆ 1 ( 1 − pˆ 1

n 1

pˆ 2 ( 1 − pˆ 2

n 2

]

G

p ˆ 1

− ˆp 2

pˆ 1

( 1 − ˆp 1

n 1

ˆp 2

( 1 − pˆ 2

n 2

TEST PARA-

METRICI

Caso della media di una

distr. Normale

• C. estr. da pop. norm. con var. nota

Livello di significatività:

z =

x−μ 0 σ √ n

è la media da verificare)

H

H

Rifiuto H

se

|z| > z

α

2

z > z

1 −α

z < −z

1 −α

• C. estr. da pop. norm. con var. non nota

Livello di significatività:

t(n) =

x−μ 0

S √

n

è la media da verificare)

H

H

Rifiuto H

se

|t| > t

α

(n − 1 )

t > t

1 −α

(n − 1 )

t < −t

1 −α

(n − 1 )

Per la var. di una pop.

normale

(n− 1 )S

σ

(n − 1 )

H

H

Rifiuto H

se

α

(n − 1 ) o

α

(n − 1 )

1 −α

(n − 1 )

α

(n − 1 )

Per la dev. standard con

camp. normale

S

σ

(n− 1 )

(n − 1 )

Test per proporzioni

(pop. binomiali di taglia

grande)

x

n

−P

P

( 1 −P

n

∼ N(0, 1)

H

H

Rifiuto H

se

P = P

P 6 = P

|z| > z

α

P 6 P

P > P

z > z

1 −α

P > P

P < P

z < z

α

Test per la diff. tra

proporzioni

p ˆ 1

− pˆ 2

−(p 1

−p 2

pˆ 1 ( 1 − ˆp 1

n 1

pˆ 2 ( 1 − ˆp 2

n 2

∼ N(0, 1)

Test a 2 code Coda dx Coda sx

H

: p 1 − p 2 = (p 1 − p 2

H

6 H

H

: p 1

− p 2

= (p 1

− p 2

H

> H

NOTA: Per la R.C. vedi la tabella sopra.

La differenza tra le frequenze relative rilevate su due campioni

casuali estratti dalle due popolazioni è statisticamente

significativa o invece si può ritenere puro effetto del caso?

Test per il confronto tra

medie (con var. nota)

x 1

−x 2

−δ √

σ

n 1

σ

n 2

∼ N(0.1)

NOTA: se n > 30, δ = 30.

Se σ

e σ

non sono note e il campione è di taglia grande,

vengono stimate tramite S

e S

H

H

Rifiuto H 0 se

μ 1

= μ 2

  • δ μ 1

= μ 2

  • δ |z| > z 1 −

α

2

μ 1 6 μ 2

  • δ μ 1

μ 2

  • δ z > z 1 −α

μ 1

μ 2

  • δ μ 1

< μ 2

  • δ z < z α

Var. non nota uguale

x 1

−x 2

−(μ 1

−μ 2

S

P

n 1

n 2

∼ T (n 1

  • n 2

H

H

Rifiuto H 0

se

μ 1

= μ 2

μ 1

= μ 2

|t| > t 1 −

α

(n 1

  • n 2

μ 1

6 μ 2

μ 1

μ 2

t > t 1 −α

(n 1

  • n 2

μ 1

μ 2

μ 1 < μ 2 t < t α (n 1

  • n 2

S

p

(n 1

− 1 )S

+(n 2

− 1 )S

n 1

+n 2

Test di significatività per

la diff. tra medie

Devo verificare l’uguaglianza delle varianze. Non si fa se due

campioni sono ti taglia grande, si considerano le varianze note

sostituendole alle varianze campionarie. Se i campioni sono di

taglia piccola e le varianze sono incognite, si effettua

preliminariamente il test sull’uguaglianza tra le varianze.

Considero x − y > 0 → considero D = ∑

n

i= 1

(x i − y i ) (media

campionaria delle differenze )

S

D

n

i= 1

((x i −y i

)−D)

n− 1

(var. campion. delle diff.)

T =

D− 0

S

D

n

∼ T (n − 1 )

H

H

Rifiuto H 0 se

D = 0 D 6 = 0 |T | > t 1 −

α

2

(n − 1 )

Test per il rapp. tra

varianze

S

S

∼ F(n − 1, m − 1 ) (ho due campioni di taglia m ed n)

H

H

Rifiuto H 0

se

σ

= σ

σ

= σ

F > F

α

(n − 1, m − 1 )

o F < F α

2

(n − 1, m − 1 )

σ

6 σ

σ

σ

F > F

1 −α (n − 1, m − 1 )

σ

σ

σ

< σ

F < F

α (n − 1, m − 1 )

TEST NON PARA-

METRICI

Si usano quando non si hanno informazioni preliminari sul tipo

e sulla forma della distribuzione e/o quando non si è certi della

normalità della distribuzione.

Test dei segni per la

mediana

Si applica ad una popolazione qualunque di taglia n e mediana

M

Ipotesi di test:

H

: M = M

H

: M 6 M

H

: M > M

H

: M = M

H

: M > M

H

: M < M

Le differenze x i

− M

hanno probabilità di essere negative

⇒ Q

), positive (=

⇒ Q

) o nulle (= 0).

H

: Q

∼ B(n,

Test per l’indipendenza

dei caratteri qualitativi:

test del χ

per

l’indipendenza

Usato per vedere l’indipendenza di due fattori in una tabella di

contingenza con r righe e c colonne.

f 0

= freq. osservate in una cella della tabella

fe = freq. teoriche o attese in una cella della tabella nel caso in

cui H 0

di indipendenza sia vera

H

: le due var. categoriche sono indipendenti

Statistica per il test:

χ

tutte le celle

( f 0

− fe )

fe

Attribuita a χ

con (r − 1 )(c − 1 ) gradi di libertà

(Rc : χ

χ

1 −α

Test di bontà

dell’adattamento ad una

distribuzione: test del χ

per l’adattamento

Usato per verificare H 0

, dato un campione estratto/adattato da/a

una specifica distribuzione, che può essere specificata

completamente o non specificata completamente (parametri

stimati prima dei dati del campione)

Distribuzione

multinominale

Si usa quando di vogliono confrontare campioni con una

probabilità teorica.

(x 1

, ..., xn ) v. a. multinom. di parametri n, p 1

, ..., p k

ε = ∑

k

i= 1

(x i

−np i

np i

(per n grande)

x i = numero di prove che danno i come risultato (si denota con

O

i o N i

np i = E[x i

] = E

i = numero atteso di prove che danno i come

risultato

k

i= 1

(O

i

−E

i

E

i

= χ

(k − 1 ) (k è il numero di classi)

Si vuole eseguire una distr. campionaria F ad una distr. nota F

H

: F ∼ F

H

: F ∼ F

R.C. : χ

χ

1 −α

(k − 1 )

La frequenza attesa dev’essere almeno 5, sennò raggruppo le

classi.

Distribuzione non

multinominale

E

i = np i

Usata se i parametri della distribuzione ipotizzata non sono

specificati, ma devono essere stimati preliminarmente del

campione.

n = k − d − 1 (n = gradi di libertà della χ

, k = numero di

classi, d = numero di parametri stimati)

Test per l’adattamento

di una distr. Normale

(normal probability plot)

Problema: stabilire se il campione a disposizione è estratto da

una popolazione normale senza usare test parametrici o non

parametrici.

Errori nei test

Errore di 1

a specie (con probabilità α): si rifiuta H 0

quando

invece è vera

Errore di 2

a specie (con probabilità β ): si accetta H 0

quando

invece è falsa

Test di significatività: si calcola il p-value, e con il p-value

< 0, 05 si rifiuta H 0

REGRESSIONE

LINEARE

Serve per riconoscere l’esistenza di un legame tra due variabili

casuali.

Modello lineare

y = μ(x) = β 0

  • β 1

x 1 , ..., xn è l’n-pla associata alla n-pla campionaria y 1 , ..., yn

y i ∼ fy i

y i = β 0

  • β 1 x + εi (eq. di regressione semplice)

E[y i ] = β 0

  • β 1 x i E[εi] = 0

Var(y i

) = σ

Var(εi) = σ

Curva interpolante con il

metodo dei minimi

quadrati: caso lineare

Obiettivo: determino b 0 e b 1 (stime di β 0 e β 1 ) ottimali

affinchè la retta ottenuta costituisca il miglior fit possibile per i

dati sperimentali.

Regressione lineare:

ε ∼ N(0, σ

y = αx + β + ε αˆ = b 0

β = b 1

y = b 0

  • b 1 x

b 1

σ xy

σ

x

x i

y i

x i

y i

)/n)

x

i

x i

/n)

b 0

= y − b 1

x =

y i n

− b 1

x i n

t =

b 1 √

S

e

σ

x

S

e

σ

y −(σ

xy )/σ

x

n− 2

t ∼ t(n − 2 )

H

H

Rifiuto H 0 se

b 1 = 0 b 1

b 1

S

σ x > t 1 −

α

(n − 2 )

ANOVA (ANalysis Of

VAriance)

Confronto tra n > 2 medie di popolazioni normali.

H

: μ 1

= μ 2

= ... = μ k

H 1

i, j

/ esiste almeno una coppia con μ i

= μ j

(ai livelli

α = 0, 05 o 0, 01 o 0, 1)

NOTA: Se si fanno test a coppie, aumentano notevolmente gli

errori di 1

a specie.

La var. aleatoria è una F di Fisher.

Nel test ANOVA, ci sono due varianze: una è in funzione dei

livelli del fattore, l’altra è interna (generica).

Condizioni: Tutte le pop. devono essere normali, e tutte le

varianze delle pop. devono essere uguali (σ

= σ

...σ

k

x i j

= μ j

  • e i j

(dove x i j

sono gli elementi della tabella con i

righe/elementi e j colonne/livelli, e e i j

indica l’errore)

μ grandmean

k

j= 1

μ j

k

(media di tutte le medie)

τ j

= μ j

− μ grandmean

(τ j

ci dà una variabilità sui livelli)

x i j

= μ grandmean

  • τ j

  • e i j

Statistica del test:

V R =

SSA

(k− 1 )

SSW

(N−k)

∼ F(k − 1, N − k)

SST = SSW + SSA MSA =

SSA

(k− 1 )

, MSW =

SSW

(N−k)

NOTA: il test ANOVA si fa solo a coda destra.

C.V. S.d.Q. G.L. M.Q. VR

T.C. SSA k − 1 MSA VR

I.C. SSW N − k MSW.

TOT. SST N − 1..

ES.

Domande generiche

Quando occorre usare la correzione di continuità, e in cosa

consiste? Quando si utilizza l’approssimazione normale per

variabili casuali discrete. Consiste nell’arrotondare i valori

estremi delle classi al mezzo punto superiore.

In quali situazioni si effettua uno z-test e in quali un t-test?

Dettagliare tutti i casi possibili. z-test: media di v.c. normali

con varianza nota; differenza tra medie di v.c. normali con

varianze note. t-test: media di v.c. normali con varianza non

nota; differenza tra medie di v.c. normali con varianze non

note, ma uguali.

A parità di livello di condenza, qual’è leffetto della taglia del

campione sullintervallo di condenza per un parametro di una

data distribuzione? L’aumento della taglia rende l’intervallo

più preciso.

Se l’ipotesi nulla è vera, il solo aumento della dimensione

campionaria aumenterà la probabilità di rifiutare lipotesi nulla.

V

In quali test si impiega una regione critica che costituisce una

sola coda? Test del chi-quadro e analisi della varianza.

Se si aumenta il livello di signicatività (es: da 0.01 a 0.05),

l’ampiezza dellintervallo di condenza... a parità di taglia e

varianza diminuisce.

La quantità

( yˆ−μ) √

σ

/n

ha distribuzione t con n − 1 gradi di

libertà. F

Il test t può essere applicato senza nessun assunto riguardo alla

distribuzione della popolazione. F

Il valore z della distribuzione normale standard può essere

sempre usato per procedure inferenziali riguardanti proporzioni

di popolazioni. F

Si può utilizzare la statistica F per vericare l’uguaglianza di più

medie solo se le dimensioni campionarie sono identiche. F Le

popolazioni devono avere distribuzione nota? Sì, normale.

Se una retta di regressione viene calcolata su dati in cui x varia

da 0 a 30, si può predire y per x = 32. V

Date le 2 variabili statistiche X e Y , con r(X,Y ) molto vicino a

+1 o a 1, allora c’è una relazione di causa ed effetto tra X e Y. F

Nel caso in cui la popolazione sia normale è preferibile usare il

test di adattamento del chi-quadro oppure un test parametrico

per verificare che μ = μ 0 ? Un test parametrico.

Qual’è lo stimatore di massima verosimiglianza del parametro

λ di una distribuzione di Poisson? La media campionaria.

Qual’è lo stimatore di massima verosimiglianza del parametro θ

di una distribuzione uniforme continua nell’intervallo (0, θ )?

(0, θ ) = max(X 1

, ..., Xn )

Domande su Regr.

Lineare

Il modello di regressione lineare assume che al variare del

valore della variabile esplicativa la varianza dell’errore

aumenta. F

Con il metodo dei minimi quadrati si ottengono le stime dei

coefficienti di regressione. V

Il segno di b 1

dipende dalla covarianza tra X e Y. V

Il coefficiente di determinazione indica la proporzione di

variabilità totale dovuta all’errore. V

Il valore atteso dello stimatore b 1 è pari a β 1

. F

Se Y è indipendente da X, il coefficiente regressione è sempre

positivo. F

Un coefficiente di determinazione pari a 0.88 indica un buon

adattamento della retta di regressione ai dati campionari. V

La funzione di regressione descrive la relazione tra la X e il

valore medio di Y. F

Nel modello di regressione lineare si assume che le osservazioni

della variabile risposta siano dipendenti. F

Tra il peso e la statura degli individui di una popolazione esiste

una relazione funzionale. F

Domande su ANOVA

Per applicare il test ANOVA è necessario che tutti i campioni

relativi ai diversi trattamenti abbiano la stessa varianza. F

Le taglie dei campioni relativi ai diversi trattamenti nel test

ANOVA devono essere uguali. F

Il test ANOVA consente di stabilire quale o quali trattamenti

originino delle risposte medie anomale. F

La distribuzione delle popolazioni è indifferente per l’uso del

test ANOVA. F

Il nome del test ANOVA deriva dal fatto che significa "Analysis

Of Variance".

La tabella ANOVA illustra la decomposizione della varianza

totale della variabile risposta Y. V

Nella tabella ANOVA il valore di SSW è sempre minore del

valore di SSA. F

Un valore che si presenta raramente è sempre un dato anomalo.

F

Es. su ANOVA

SST = 162.54282, SSW = 41.35739, SSA = 121.

MSW =

SSW

(N−k)

= 1.5317552, MSA =

SSA

(k− 1 )

C.V. S.d.Q. G.L. M.Q. VR

T.C. 121.18543 4 30.296358 19.

I.C. 41.35739 27 1..

TOT. 162.54282 31..