Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Schemi Statistica III (corso SSE), Schemi e mappe concettuali di Statistica

Schemi riassuntivi della teoria del corso Statistica III dell' A.S. 2025-26

Tipologia: Schemi e mappe concettuali

2025/2026

Caricato il 16/01/2026

sofia-amodeo-2
sofia-amodeo-2 🇮🇹

4

(2)

7 documenti

1 / 16

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
RIPASSO
vettore
di
covariate/
esplicative
Yi
=
f(i
i
b)
+
Ei
EiN(0
,
02
Bas
=
argini
-
f
.
di
perdita
i
=
ETyi)
=
f(xi
,
)
v
.
previsti
E(Yi)
=
XiB
Notazione
matriciale
:
y
=
XB
+
E
·
v
.
C
.
risposta
:
Y
=
(Ye
,
...,
Yn)
>
realizzazioni
:
y
=
(y1
,
...,
yn)
·
matrice
disegno
X
11
...
X
+
p
X
=
I
:...
:
I
Xm
..
.
Xnp
S
S
Se
c'è
intercetta
e
un
vettore
colonna
di
1
1
=
1
norma
eucl
.
D(p)
=
(y
-
xB)T(y
-
Xp)
=
11y
-
XBll
?
I
RSS
&
=
(XX)
Xy
se
X
ha
vango
pieno
(L
.
1
,
no
ridondanze
y
=
X
=
X(x
x)
-
x
y
=
Hy
hi
:
LEVERAGE
var
(yi
-
Yi)
=
02(1
-
hi)
HAT-MATRIX
(idempotente)
-
>
elementi
diagonali
,
D(5)
=
11y
-
y()
=
y3(In
-
H)y
precisione
della
prev
stima
della
varianza
residuale
:
>
=
Di
Elyi-X
R
=
1
-
A
=
1
qui
n p
:
altrimenti
stima
als
non
esiste
perché
x
non
invert
.
=
~
Np(B
,
02(xix)
-
1)
residui
grezzi
ris
yi
-
Xi
RESIDUI
STANDARDIZZATI
:
V
=
32/1
-
hi)
DISTANZA
Di
COOR
-
p
.
Ci
=
(5-p-i)
var() +
( -
p
-
1)
=
2
hi
funzione
crescente
dei
leverage
&
p(1
-
hi)
distanza
di
Mahalano
bis
-
pesata
tra
Be
i
Punto
influente
:
hi
e
ri
alti
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica Schemi Statistica III (corso SSE) e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

RIPASSO

vettore di covariate/

esplicative

Yi

f(i i b)

  • Ei EiN(

,

02

Bas

=

argini

f .

di

perdita

i

= ETyi) =

f(xi ,

v .

previsti

E(Yi)

=

XiB

Notazione matriciale : y

=

XB

E

· v . C . risposta

: Y

=

(Ye

, ...,

Yn)

>

realizzazioni :

y

=

(y1 , ..., yn)

· matrice

disegno

X 11

... X + p

X

I

:... :

I

Xm ...

Xnp

S S

Se c'è intercetta e un

vettore colonna di 1

= 1 norma eucl .

D(p)

=

(y

xB)T(y

Xp)

=

11y

XBll

I

RSS

= (XX) Xy

se X ha

vango pieno

(L.

1 ,

no ridondanze

y

=

X

=

X(x x)

x

y

=

Hy

↓ hi

:

LEVERAGE var (yi

  • Yi)

= 02(1 -

hi)

HAT-MATRIX

(idempotente)

  • > elementi

diagonali

,

D(5)

=

11y

y()

=

y3(In

H)y

precisione

della prev

stima della varianza residuale

: >

=

Di

Elyi-X

R

= 1

A

= 1

qui

n p

: altrimenti stima als

non esiste perché

x non invert.

~

Np(B ,

02(xix)

residui grezzi

ris yi

Xi

RESIDUI STANDARDIZZATI

: V

=

  • hi)

DISTANZA

Di COOR

p.

Ci

=

(5-p-i) var() + ( - p

=

2 hi

funzione crescente

dei

leverage

p(

  • hi)

distanza di Mahalano bis

pesata tra Bei

Punto

influente

: hi e ri alti

ASSUNZIONI DEI MODELLI LINEARI

(A

.

struttura lineare

: Y

=

XB

E

(A

.

omosched

. e incor: var(E)

= d'In

(A

.

Gaussianità

: EvNn (

,

0 "In

3 E(y)

=

XB

1 rk(x)

=

p (pieno

Cosa succede

se cadono le assunzioni?

(A

.

  1. Yi

=

Xi

B

Ei var(zi)

=

Elei)

= 0

per

simm .

= (x -x)

x

y

E(b)

= (xX)

x

XB

=

B

var(5)

= (x(x)

x

var(y)

= 0

(x-x) + x x((xx) - )"

= 0'(xix) xix(xix)" =

= 04(XX)

  • 1

=

non ha distr normale

ma per

il

TC

:

** Np(B ,

0 (xx)-1)

per

un campione

di

ampiezza

elevata

(A.

  1. c'è

eterosched. ·

var(2)

c

=

diag/o2, ...,

onl

E(b)

=

B

var()

=

(x

+x)

=

x [X(x x)

EvNn

,

[)

B

Np(p ,

(x

+x)

=

x [x(xx)

)

unbiased e consistente ,

ma non di max verosimiglianza

INEFFICIENTE

var (ri)

= 02 (1 - hi)

=

STANDARD ERROR CONSISTENTI DI WHITE

ar(g)

=

(x(x)

"

x - X(x -X)

  • 1

&

diag

/We

,

...

,

Wnl

var(2)

=

=

Var(Yi)

matrice

dei

pesi

(noti

Y

2 - YeX

= 22 X

E(y

)

= 2

E(y)

=

e

Xp

= X

B

var(y

= 2

"

var(y)

= 011

1

  • = d'In we omosched

=> (A .

1) e /A

.

valgono

nella scala trasformata

> Dwis(p)

=

(y

  • X

b) "(y

  • X

B)

= (1y

  • 1

XB)"(

y

  • 1

XB)

=

&

devianza

= [f) (y

XB)]

1(y

XB)

=

=

(Y-XB) l

(Y-

XB)

v distanza di

Mahalanobis

=

[Wi(yi

Xi)

no funzione di perdita

nella scala

media

pond

se

=

originale pesata per

la varianza

2 Yin BiN (ti

,

mi)

N(miTi

,

mitti(1-Ti)

9mi (4)

= Mi

.

arcein(m -1)

Mi

var

(9mi

(i)) =

(MD-21 m

2 )

mitti (1- Ti)

=

cambia interpretazione

dei parametri

g(E(Mi))

E(g(Yi))

=

E(Yi)

g"(xiB)

[Jensen]

=i valore previsto per

Ti

ma non stima per

la media

·

g

(E(g(Yi)))

=

g

(xi

B)

=

exp(xi B)

= E(Yi)

=

exp(xi B

GLM

=

classe di modelli in cui y

è modellata come una funzione

su un vettore di covariate e non e vincolata alla gaussianita

X

: matrice disegno ,

non stocastica

,

a

rango

pieno

rk(x)

p

In

nxp

ind

Si N

BiN(mi

,

Ti

E(m)

= Ti

=

Mi

(Mi)

=

log) 1

(i)

=

Be

paxi

=> Mi =

g

(pe

Bexi)

BB

Se il

2

Di e 10 ,

perché

è la prob

.

di successo

LINEAR

PROBABILITY MODEL

: Yi

=

=

+BeXE

  • > D .

Bi

Baxi

è

non

ristretta

può produrre

valori non acc.

per

le

proporzioni

· la

struttura additiva non

supporta

errori

iid

perché

Y: e

discreta - errori

eterosched

EMPIRICAL

LOGIT

Logit

(Ti)

=

Logit

(Sitos)

=

log(03)

=

p

paxi

+ Ei

11

#i

g

[E(g(Yi)))

=

g

(Bn

B2xi)

=

exp(Be

paxi)

1

exp(B + 52xi)

&

questo approccio

non è compatibile con l'assunzione Si

~ BiN(mi

,

Mi

y:

in poi

(Mi)

g(ui)

=

log(Mi)

=

Be

Bzxi

=

Mi

=

g (B

Baxi)

=

exp(B

Bzxi)

> O

var(Yi)

=

Mi

=

exp(B

Baxi)

  • > Yi eterosched

perché

var dipende

da Xi

I

trasf

. che

stabilizza la

var non è compatibile con l'assunzione

Yi ~

Poi (Mi)

ed è solo valida come

approssimazione

asintotica

COMPONENTI

DEL GLM

·

componente

randomica : Yi variabile risposta

con osservazioni indipendenti

distribuita come una famiglia

di distribuzioni esponenziali

·

componente

sistematica :

n

=

XB

predittore

lineare

·

funzione legame

:

g(

. ) funzione invertibile ,

differenziabile e monotona

g(Mi)

=

Mi

=

Xi

=

Mi

=

g (mi)

=

g

.

(xi

)

caratterizzate

da :

·

funzione

varianza

v(M)

> o

·

aild)

/wi

o con

parametro

di

dispersione

>o

  • >

pesi

noti

=>

YiED(Mi

,

ai

(d)v(Mi))

con

glui)

=

Xi

:

Mie

M

eterosched .

TEORIA GENERALE

FAMIGLIA

ESPONENZIALE

(parz . esatti)

TEORIA

NORMALE

FAMIGLIA DELLA DISTRIBUZIONE ESPONENZIALE

plyi

i

di

, d)

=

exp(di biyi

Il

parametro

naturale

Supporto

Y

di Yi non dipende

da o

di e

b)

può

essere

differenziatà infinite volte

=> MODELLO

STATISTICO REGOLARE

ai

(d)

= 1 =>

c(yi , d)

=

c(yi)

=

p(yi

;

bi)

=

exp(yi0i

  • b(oi) +

c(yi))

FAMIGLIA EXP

.

NATURALE di Ordine 1

Poisson

plyi : Mil

=

Mi Mexp(yilog(Mi)

Mi

Lg(yi

! ))

· Oi

=

Log (Mi)

· d'(0i)

= e =

E(ki)

=

Mi

·

ai(d)

=

p

= 1

·

/bi)

=

goi

· bloi)

=

Mi

= e

& i

· var(yi)

=

ai(d)b"(oi)

= e

=

Mi

·

c(yi ,

p)

= -

log(yi

·

v/Mi)

= b"

(8i)

=

goi=

Mi

Gamma

p(Yi :

a

,

Xi)

Diyide-disi

con yis

↓ ↑ (a)

costante

=

exp[a(logdi

  • yi)

(a

    1. log(yi)

Log

(a))

=

=

exp((log()

diyi)

(p

1)coq(yi)

194(t))

=

=

exp(diyi

-1-1q)

  • bi))

log(d)

(

1)coq(yi)

1gt())

·

ai(d)

=

=

b

= a

=

Sep

= 1 = a = 1 :

·

=-

Xi

=

  • pix

=-

no la distr .

esponenziale

·

b(0i)

=

log)

  • (i) = b'(d)

= -

=

  • =

Mi

=>

b"(oi)

=

Xi 8?

2

·

vau (yi)

= ai (d)

b"(Oi)

=

Pri

  • al crescere della media ,

la

varianza cresce più velocemente

Binomiale

Si ~

Bin/mi

,

Mil Ps(Si :

Mi ,

il

= (*) (1-tilmisi

Yi

=

Si Pi :

mi

i)

=

(mm)

mini-mini(mi) (Timi-

=

exp(minivog) ,ni)

milog(1-mi)

Log ( mini)]

=

exp[m

(4i8i-1g(

ex))

c(yi , mil)

·

oi

=

log (1)

=

Logit

(Mi)

· ga

i

ne -Dila-ti noti

=

inversa

della

1

  • Ti

Logistica

= 1

  • π

=

ga)

  • 1

·

ai(d)

= 1/Mi

·

b(0i)

=

log(

  • e)

·

b'(0i)

=e

= i

=

E(Yi)

·

u/0i)

=

e

·

osmi)

=

log) i)

·

var(yi)

=

ai (d) b"(Oil-

.

+e) e

e0i)

FUNZIONE Di VEROSIMIGLIANZA

Y

ED(Mi , ai(d)v(Mi))

con g(Mi)

=

Xiß

Distr. congiunta

:

P(y : p

. d) = plui

. d) = exp[bl

Log-ver.

:

elB , d)

ioi-bi

c(yi

,

b)

ai(p)

1 (Ui-Mi) Xir

Funzione score : er (Bid)

=

e(d)

=

w

:

(i-Mi) Xi

=

V(Mi) g'(Mi)

var(Yi)

g'Mil

1

non dipende

da e

in notazione

=

/wi

ai a)

matriciale e Dv" (y-m)

= 0

Con il legame

canonico : er

(B

, d)

= [ci

(4i-Mil

Xir

in notazione matriciale

: ex

(p

. d)

= x

1(y

m)

INFORMAZIONE OSSERVATA e ATTESA

&

dev . 29 di

2(B

,

d)

jrs

=

-(p

. p))

=

  • = Miyi)

·

[Mi i-Mir)

irs

=

E(jrs)

=

[ ( Mi Mi =I

Mi

Xir Xis

=

[

Xis

.

Xir

: E

ai(p)

g(Mi) v(Mi) g(ui)

var()

.

g'(Mi)

1

in notazione matriciale I

= X'WX con =diag

/We , ...,

Wn) e Wi

=

var(y)g'(Mi)

Sotto il

legame

canonico

O-Bexiet

..

BXip

=

8

= 0 = irs

=

jus

e perché

se

GBrußs

non stocastica

e

vM

=

g(Mi)

= irs

= [VIMi) XirXis

=

[Wiv(Mi)

Xir Xis

ai

(b)

· J

I e W dipendono

da

Bed

· Se X è a

rango

pieno,

I è definita

positiva

· sotto il

legame

canonico

,

3

I e sono entrambe definite positive

se rk(x)

=

p

la funzione di log-ver . è concava

quindi

ogni

soluzione è un massimo globale

MINIMi QUADRATi PESATi

D V

(y-M)

= o non può

essere risolta in forma chiusa ma serve un metodo numerico

che sfrutta un algoritmo

iterativo ,

che viene inizializzato con un arbitrario

il

quale

viene

aggiustato

ad ogni

interazione fino a convergenza

Distribuzione

asintotica ~Np(B ,

(xWX) )

per

n

  • > asint. non distorto e con varianza asintotica

nota

w dipende

da

B

ed

=

vr()

= (XX)

  • 1

75E/57] ;

= 0 [ (XWx) "Tis

TEST

Di WALD

Ho

:

Bi

=

Bo

vs M

:

Biso

: Nel caso

gaussiano

Bi

Bo

I

Bi

Bo

W

= 02

In

zi

:

( v < (Xx)" 3 ,

o

N(

.

5

~

Np(B ,

0'(xx)

)

p-value

=

Ross

=

P(z)(z i

= 2(

  • E(1z j

Zj No

tn-p

I)

=

Bi

= z qu2(Xx)"]ii

No approssimazioni

TEST iPOTESi GENERALE

p

=

(B) B

Ho

:

Ba

=

Bo

VS H

:

BB

Bo

Bo

= 0

: confronto tra modello ristretto e completo

Di Esi

> WALD : We

=

(

Bol var(B) (B3- B0)

X (a

= 1 => zi

= We

2 RAPPORTO Di MAX-VER : W =

2[e( :

e( ,

,

Xa

> O

con

=

( , BB)

e

Bo

=

/Pao , Bol quindi

testando Ho

:

BB

= 0 Stiamo

prevedendo

sia il

modello ristretto che

quello completo

3

RAO

:

Wu

=

/B

" var()

e

(0)

Ma

  • >

i 3 test

sono asintoticamente

equivalenti

:

We

= w +

op(1)

= Wa

per

ne + c

,

(0p(1)

1 dipende

dalla

parametrizzazione

: se considero una trasformazione di

B ,

devo

aggiustare

il test col metodo delta

2 e 3 sono invarianti rispetto

alla

parametrizzazione

quindi

devo solo trasformare

gli

estremi dell'intervallo originale

Nel modello lineare gaussiana ,

se p- or ,

W = We

=

Wi

=

"Y-Xoll-11Y-Xpl

~

X

&

2

Se or non e noto : W =

17-Xoll"-114-Xp

g(117-xoll"

  • 11Y -Xp11)/a

=

qFiXq(ne

I

11Y

Xp

/ /(n

p) ↓

i3 test sono una sua

generalizzazione

DEVIANZA

trasf . del prev

. lin .,

vincolate

ese

·

log-ver

.

del modello ridotto

:

em( , d)

= [a :

:0/Mil

b(0(Mi)

c(yi ,

d)

d

·

log-ver.

del modello saturo

:

em(y , b)

= [ :

": 0/yi)

  • b(0(i)

c(yi ,

d)

d

Mi ,

sat

=

yi

se p

= n

D(y,m)

=

pV

= &27ey(y ,

2n(y ,

p))

=

2[wi(ui(0(yi)

o(i))

(b(0(yi))

b(o(i))))

devianza = o

: misura discrepanza

dal fit

perfetto

(m. saturo

I

dipende

da

u

ma non dalla funzione legame

D(y :

)/q

devianza

scalata : test rapporto

di

log-ver

.

che testa modello

modello modello con modello saturo

pieno

ridotto

W

=

D(Y , i)

D(Y

, Mo)

i

X

TEST CON DEVIANZA

&

Modello

nullo

no covariate ,

solo intercetta - più semplice

e con devianza

maggiore

Mnr

=

(9 (3) ,

.. .

. g

:

(i)

[4i-Mi)

TEST Di RAO

:

Wu

= X

= E Wi

↓ vui)

statistica

chi-quadrato

di Pearson

·

Poisson

D(yi)

=

[yi)logyi

Logi)

yi

m)

=

2[[4i(9()

yi

mi)

X =

/Yi-Mi)

approssimazione quadratica

per

ne +o

i

· BINOMIALE

em(u)

=

[[miyilog(mi)

mi (1 -

yi) log(

Mi))

Sotto la convenzione Xlogx

= o

SELEZIONE DEL MODELLO

Aic

=

-2l(b)

2k

penalizzano per complessità

del modello

Bic

= -

2l()

Klogn

Procedure

stepwise

: forward vs backward

↓ ↓

Non garantisce

aggiunge parametri toglie

i parametri

con

dei modelli verificando ad ogni p-value più grande

significativi

stadio se quelli già ↓

presenti

sono necessari

PREFERITA

perché

evidenzia problemi

di interazione dovuti all'

aggiunta

di variabili

P-value significativo

mi dice che c'è evidenza di un

effetto ma non

l'entita

Aggiungendo

una variabile irrilevante aumenta la varianza ,

ma escluderne una

vilevante aumenta la distorsione

In alcuni casi meglio

inserire variabili anche non significative nel modello

Non conservare variabili solo

perché

significative

-> modello più

semplice può

essere

preferibile perché più interpretabile

REGRESSIONE BINARIA e BINOMIALE

Yi BER) Ti

Si

=

Yi

~ Bin (Mi ,

i

1 Modello binomiale prò

essere espanso

come un vettore binario di

lunghezza

mi

,

con i primi

Si elementi pari

a 1 e i restanti mi-si pari

a 0

2 Modello binario può

essere

raggruppato

se le osservazioni

presentano gli

stessi valori per

le variabili esplicative , posso

quindi

viscriverlo in termini di tentativi e successi

&

e gli

standard error sono uguali,

ma la devianza e i residui sono diversi

implicazioni

sui test di bontá di adattamento e diagnostica

FUNZIONI

LEGAME

9))

=

F - 1)

. ) Con F : /R +(

,

funzione di ripartizione

↓ monotona crescente ,

continua ,

diff .

funzione

quantile

·

Logit

:

gipi)

=

log()

=

xirp

Ti

=

exp(xiB)

  • > f . di

rip

. della

1 + exp/xiB) distr . Logistica

· PROBiT

:

g(tti)

=

(iti)

=

Xip

Mi

=

G(xi B)

·

CLOG10G

:

g(Ti)

=

log)

log(Ti))

=

XiB

Ti

= 1

exp)

exp(xip))

·

CAUCHy

:

g(i)

= tan(h(xi -E))

=

Xi

Ti

=

1

arctan(xi)

T

VARIABILI

LATENT

con EF vlatente e contine se

Osserviamo solo una variabile binaria che a dice se Yi

supera

una

soglia

Yi

=(Yi

T)

~ BER(Til

Mi

P(yi

=

=

p(yi

(T)

=

p(xiB

  • 2i)

= 1

  • p(di

= T

Xip)

= 1

F(T

xip)

Posso fissare

T

o senza perdita

di

generalità

  • considero la V. latente centrata

=> altrimenti sarebbe

incorporato

nell'intercetta

Errori simmetrici

:

F(z)

= 1

  • F(-z) => Mi

= 1

  • F) -

XiB)

=

F(xi

B)

e F -

(Mi)

=

g(

+i)

Xiß

Equazioni di verosimiglianza

:

mi(Yi-Ti)

xirf(g)

= 0

i = 1 Mi(

  • Pi)

per la

regr

.

Logistica

+(yi)

= F

(Mi)

F(yi))

= Mi (

Ti)

Quindi

posso

semplificare

:

[milyi-Mi)

Xir

= 0 => [Sixir

=

[Elsi)

Xir

INTERPRETAZIONE DEi PARAMETRI

:

voglio compare

due probabilità

stimate corrispondenti

a diverse covariate [T(x)

=

F(x b)

e T(x)

=

F(x) B)

·

RISCHIO ASSOLUTO = P(x)

(x)

· RISCHIO RELATIVO

= (x)

  • Y(x)

(x)

M

· ODDS RATIO

=

od(X)

=

π(X)

1

π(x)/f(x)

od(x)

1

  • π(x)

nel caso della

regu

. Logistica

e pari

a exp(c)

=

exp((X)

x)

perché

od(x)

P(x) exp(xi

B) 1

1

  • 5(x)

=

1

exp(x

p)(

exp(x

))

La diagnostica

non è informativa

quindi

di

solito

si

raggruppano

i dati

QUASi

-VEROSIMIGLIANZE

relazione

media della tra media e

per

gestive sorradispersione risposta

/

Varianza

Non specifico

interamente distr .

della

risposta

ma solo

assunzioni del # ord

·

E(Yi)

=

Mi

·

var(yi)

=

QV(Mi)

·

Yi + Y

;

con itj

MODELLO

Q-V e

Semi-parametrico

  • costituito da tutte le distr. che soddisfano

le assunzioni ,

non indicizzabile con

un numero finito di parametri ,

ma con

assunzioni parametriche

su media e varianza

REGRESSIONE POISSON

Mi

=

exp(xip)

=

exp()

exp(p)

dove a

=

exp(Bi)

Incremento

unitario di

una covariata :

Tnew

= an "... ... ap

=

aj)an*

...

app)

=

ajMi

=

exp(Bj) Mi

aj

  • 1 =

exp(pi)

  • 1

=

Mnew-

=

Un

il

  • > variazione rispetto

alla baseline

Mi

MODELLI Di

valore

atteso della

visposta proporzionale

a ti

sotto il legame logaritmico log()

=

Xi

=>

LogMi

=

Xip

Logti

1

Quindi

Mi

=

tiexp(xiB)

OFFSET

la

media

e

proporzionale

per

una non è una covariata perche

costante del previsore

lineare

il coef . e forzatamente

posto

uguale

a 1

La

frequenza

di osservazioni nulle è

spesso superiore

al valore atteso

Nei modelli

poisson ,

la

moda

e

pari

alla parte

intera della

media

Se la media e

relativamente

grande

e la moda

e

pari

a 0

,

un

GLM

non e'

adeguato

->

INFLAZIONE Di ZERI

=>

si risolve con

un

modello di mistura