Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Capitolo 20 statistica, Appunti di Economia Politica

Statistica capitolo aggiuntivo online n. 20

Tipologia: Appunti

2019/2020

Caricato il 15/05/2020

Solo858668
Solo858668 🇮🇹

5

(1)

2 documenti

1 / 18

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
S. Borra, A. Di Ciaccio – Statistica, metodologie per le scienze economiche e sociali,
McGraw Hill, 2004, ISBN 88-386-6162-6
S. Borra, A. Di Ciaccio – Statistica, metodologie per le scienze economiche e sociali,
McGraw Hill, 2004, ISBN 88-386-6162-6
Cap. 20 - 1
Cenni di regressione non-parametrica
funzione non-lineare non-linearità nei parametri o nelle variabili overfitting funzioni
linearizzabili funzione additiva bias-variance tradeoff funzioni parametriche e non-
parametriche smoother kernel e bin smoother kernel smoother gaussiano k-nearest neighbors
cross-validation 10-fold cross-validation smoother multidimensionale curse of
dimensionality GAM PPR MARS
20.1 – Funzioni non-lineari e misura dell’adattamento
20.2 - La contrapposizione tra distorsione e variabilità
20.3 - Funzioni non-parametriche - smoother
20.4 - Smoother per due o più variabili esplicative
20.1 Funzioni non-lineari e misura dell’adattamento
Nell’approccio classico alla regressione lineare semplice e multipla si ipotizza che la
relazione tra la variabile dipendente e le variabili esplicative possa essere sintetizzata
attraverso una funzione lineare nei parametri. Generalmente vengono comunque adottati
modelli di regressione che sono lineari anche rispetto alle variabili. In alcuni casi, tali
assunzioni di linearità rappresentano una eccessiva semplificazione.
ESEMPIO 20.1.1 – Relazioni non-lineari
Si pensi alla relazione tra l’Età (X) di un individuo e il suo Tasso di crescita nella statura (Y). È
evidente che la relazione tra queste due variabili nel primo anno di vita è molto diversa da quella che
si ha quando l’individuo è adulto. In generale, si è osservato che la relazione tra queste due variabili
può essere espressa più correttamente attraverso una funzione esponenziale negativa, ossia
considerando come componente deterministica la funzione non-lineare
() ( )
bXXf = exp .
Poiché le determinazioni delle variabili sono note (anche in questo capitolo considereremo
variabili esplicative non-stocastiche) mentre i parametri sono incogniti, è evidente che
ipotesi di non-linearità sui parametri sono più difficili da trattare matematicamente. In effetti,
se la non-linearità riguarda le variabili esplicative e non i parametri abbiamo una situazione
relativamente semplice: in tutti i casi in cui la funzione adottata è fissata, il procedimento di
calcolo dei parametri mediante il metodo di interpolazione dei minimi quadrati è del tutto
simile a quello visto per la regressione lineare semplice e multipla (si veda l’esempio 20.1.2).
Se invece si considera una funzione non-lineare nei parametri, il calcolo dei parametri risulta
assai complesso e necessita spesso di procedure computazionali iterative.
20
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12

Anteprima parziale del testo

Scarica Capitolo 20 statistica e più Appunti in PDF di Economia Politica solo su Docsity!

McGraw Hill, 2004, ISBN 88-386-6162-

S. Borra, A. Di Ciaccio – Statistica, metodologie per le scienze economiche e sociali, McGraw Hill, 2004, ISBN 88-386-6162-

Cenni di regressione non-parametrica

funzione non-lineare — non-linearità nei parametri o nelle variabili — overfitting — funzioni linearizzabili — funzione additiva — bias-variance tradeoff — funzioni parametriche e non- parametriche — smoother — kernel e bin smoother — kernel smoother gaussiano — k-nearest neighbors — cross-validation — 10-fold cross-validation — smoother multidimensionale — curse of dimensionality — GAM — PPR — MARS

20.1 – Funzioni non-lineari e misura dell’adattamento 20.2 - La contrapposizione tra distorsione e variabilità 20.3 - Funzioni non-parametriche - smoother 20.4 - Smoother per due o più variabili esplicative

20.1 Funzioni non-lineari e misura dell’adattamento

Nell’approccio classico alla regressione lineare semplice e multipla si ipotizza che la relazione tra la variabile dipendente e le variabili esplicative possa essere sintetizzata attraverso una funzione lineare nei parametri. Generalmente vengono comunque adottati modelli di regressione che sono lineari anche rispetto alle variabili. In alcuni casi, tali assunzioni di linearità rappresentano una eccessiva semplificazione.

ESEMPIO 20.1.1 – Relazioni non-lineari Si pensi alla relazione tra l’ Età (X) di un individuo e il suo Tasso di crescita nella statura (Y). È evidente che la relazione tra queste due variabili nel primo anno di vita è molto diversa da quella che si ha quando l’individuo è adulto. In generale, si è osservato che la relazione tra queste due variabili può essere espressa più correttamente attraverso una funzione esponenziale negativa, ossia considerando come componente deterministica la funzione non-lineare f ( X) = exp( −bX).

Poiché le determinazioni delle variabili sono note (anche in questo capitolo considereremo variabili esplicative non-stocastiche) mentre i parametri sono incogniti, è evidente che ipotesi di non-linearità sui parametri sono più difficili da trattare matematicamente. In effetti, se la non-linearità riguarda le variabili esplicative e non i parametri abbiamo una situazione relativamente semplice: in tutti i casi in cui la funzione adottata è fissata, il procedimento di calcolo dei parametri mediante il metodo di interpolazione dei minimi quadrati è del tutto simile a quello visto per la regressione lineare semplice e multipla (si veda l’esempio 20.1.2). Se invece si considera una funzione non-lineare nei parametri, il calcolo dei parametri risulta assai complesso e necessita spesso di procedure computazionali iterative.

McGraw Hill, 2004, ISBN 88-386-6162-

S. Borra, A. Di Ciaccio – Statistica, metodologie per le scienze economiche e sociali, McGraw Hill, 2004, ISBN 88-386-6162-

ESEMPIO 20.1.2 – Esempi di funzioni lineari nei parametri e non-lineari nelle variabili

Esempi di funzioni non-lineari nelle variabili e lineari nei parametri: f ( X )=a +bX+cX^2 oppure

f ( X 1 ,X 2 ) =a+ bX^41 +clog( X 2 ). Si noti che i parametri presenti (a, b, c) sono tutti lineari di primo

grado. Se conosciamo i valori assunti dalla X allora conosciamo anche i valori X

2 , X

4 e log(X). Se per

esempio poniamo Z = X

2 e sostituiamo nella prima funzione otteniamo f ( X )=a +bX+cZ, poiché i valori di Z sono noti allora la funzione è lineare nei parametri e nelle variabili (si veda anche l’ultima nota del par. 19.2).

Come mostrato nell’esempio 20.1.2, se abbiamo una funzione lineare nei parametri ma non nelle variabili, possiamo facilmente trasformarla in una funzione lineare sia nelle variabili che nei parametri. Tale caso non introduce quindi nulla di nuovo dal punto di vista della stima dei parametri, rispetto a quanto già detto nei capitoli 16, 17 e 19. D’altra parte si possono porre dei nuovi problemi che in precedenza non avevamo mai considerato, ciò è chiarito meglio dal successivo esempio.

ESEMPIO 20.1.3 – Adattamento di funzioni non-lineari nelle variabili

Consideriamo il seguente grafico di dispersione, relativo alla variabile dipendente Y e alla variabile esplicativa X, in cui abbiamo anche tracciato la retta di regressione stimata.

-25 -20 -15 -10 -5 0 5 10 15 20 X

**-

-**

0

1000

2000

3000

Y

Figura 20.1.

-25 -20 -15 -10 -5 0 5 10 15 20 X

**-

-**

0

1000

2000

3000

Y

Figura 20.1.

L’equazione della retta di regressione stimata, rappresentata nella figura 20.1.1, è data da: Y = - 337 , 1 + 116 , 8 X Non è però difficile notare nel grafico che la relazione tra le due variabili potrebbe essere meglio descritta da una funzione non-lineare. Se consideriamo la seguente polinomiale di grado 3

Y = - 213 + 80 , 2 X - 1 , 3 X^2 + 0 , 22 X^3 otteniamo il grafico di figura 20.1.2. Tale funzione sembra cogliere in maniera soddisfacente le caratteristiche della relazione tra la Y e la X. D’altra parte potremmo considerare una funzione ancora più complessa per ottenere un adattamento ancora maggiore ai dati osservati.

McGraw Hill, 2004, ISBN 88-386-6162-

S. Borra, A. Di Ciaccio – Statistica, metodologie per le scienze economiche e sociali, McGraw Hill, 2004, ISBN 88-386-6162-

Tale problema non si era mai posto nei precedenti capitoli, perché avevamo sempre utilizzato delle funzioni talmente rigide da impedire qualsiasi forma di overfitting: in tale situazione potevamo porci come obiettivo semplicemente l’individuazione della funzione lineare che presentava il massimo adattamento. Nel momento in cui introduciamo funzioni più duttili occorre riconsiderare seriamente questo aspetto, tenendo conto che il nostro obiettivo non può più essere solo quello di ricercare la funzione con il massimo adattamento. Sappiamo infatti che aumentando la complessità della funzione utilizzata si ottiene un maggiore adattamento ai dati osservati ma al contempo si può ottenere un modello di difficile interpretazione e che potrebbe avere scarsa capacità previsiva.

Nota In realtà anche nel capitolo 19 abbiamo in qualche modo già affrontato questa problematica: abbiamo infatti visto che aumentando il numero delle variabili tende ad aumentare anche l’adattamento del modello ai dati (misurato attraverso il coefficiente di determinazione multiplo) ma che questo può non essere conveniente. Il coefficiente di determinazione multiplo corretto (19.5.2) è stato introdotto proprio per tener conto del numero di variabili utilizzate, con l’assunzione implicita che un modello più semplice è preferibile ad uno più complesso se ciò non porta ad una significativa riduzione dell’adattamento.

Occorre anche considerare che la complessità di un modello dipende da diversi fattori, ad esempio un modello additivo è meno complesso di un modello non-additivo. Chiariamo il senso di questi termini. Se abbiamo due o più variabili esplicative e nell’espressione del modello le variabili compaiono come singoli termini, non vi sono cioè termini moltiplicativi o di interazione tra due o più variabili esplicative, la somma degli effetti delle singole variabili esplicative ci fornisce il valor medio della variabile dipendente Y.

Una espressione generale di funzione additiva è data da

∑^ (^ )

= +

J

j 1

f(X 1 , X 2 , X 3 ...,XJ) a βjfjXj

in cui f 1 , f 2 , f 3 ecc. sono funzioni delle J variabili esplicative.

Un modello in cui la componente deterministica è una funzione additiva delle variabili esplicative, viene detto additivo (nelle variabili). Le funzioni f (^) j possono essere note a priori,

come nel modello di regressione lineare dove sono poste tutte uguali a funzioni identità

f j^ (^ Xj )^ = Xj , oppure non note, come vedremo nel paragrafo 20.4.

Una funzione lineare nei parametri ma non additiva è ad esempio la funzione Y = a+bX 1 +cX 2 +dX 1 X 2. Funzioni che sono non-additive e non-lineari nelle variabili

possono essere estremamente flessibili, come mostrato nella figura 20.1.5 in cui abbiamo

graficizzato la funzione Y = 5 X 1 + 0_._ 01 X^22 − 0_._ 1 X^21 X 2.

McGraw Hill, 2004, ISBN 88-386-6162-

S. Borra, A. Di Ciaccio – Statistica, metodologie per le scienze economiche e sociali, McGraw Hill, 2004, ISBN 88-386-6162-

Figura 20.1.5 – Grafico di una funzione non-additiva, con due variabili esplicative

Se consideriamo tutte le possibili funzioni lineari nei parametri o linearizzabili abbiamo in effetti a disposizione una grandissima varietà di funzioni, tra cui è probabile che esista una funzione che si adatti in modo soddisfacente ai dati osservati e che potrebbe essere adeguata a descrivere la relazione tra la variabile dipendente e quelle esplicative. Se la funzione più adatta non è lineare e non è linearizzabile, ma è nota, è comunque possibile applicare degli opportuni metodi di calcolo per la stima dei parametri. D’altra parte se le conoscenze del fenomeno non sono sufficienti ad individuare un preciso schema interpretativo, non vi è una metodologia efficace in grado di individuare, tra tutte le possibili funzioni (lineari o linearizzabili), quella che meglio si adatta ai nostri dati. Oltre a ciò, occorre considerare che alcune funzioni, come ad esempio le polinomiali, possono adattarsi molto bene ai dati ma al prezzo di una forte instabilità e di una complessa interpretabilità del modello. Questo implica che piccole variazioni nei dati possono generare polinomiali completamente diverse. Si confrontino, a questo proposito, i coefficienti delle polinomiali dell’esempio 20.1.3.

20.2 - La contrapposizione tra distorsione e variabilità

Ipotizziamo che il fenomeno in esame sia descritto in maniera “adeguata” dal modello:

Y= f ( X)+ε

in cui per semplicità stiamo considerando una sola variabile esplicativa e supponiamo inoltre che sia E( ) ε = 0. Supponiamo inoltre di avere a disposizione un campione di n osservazioni:

D ={ ( x 1 , y 1 ) ( , x 2 , y 2 ) ,..., ( xn , yn)}

McGraw Hill, 2004, ISBN 88-386-6162-

S. Borra, A. Di Ciaccio – Statistica, metodologie per le scienze economiche e sociali, McGraw Hill, 2004, ISBN 88-386-6162-

Quindi si tratta di minimizzare contemporaneamente la distorsione e la varianza, ma ciò non è affatto semplice. In effetti, per minimizzare la varianza basta scegliere una funzione approssimante costante y ˆ^ (^) i =c, dove c è una costante qualsiasi, in tal modo la varianza sarà

necessariamente uguale a zero mentre la distorsione sarà necessariamente molto alta. D’altra parte se il nostro modello interpola perfettamente i dati del campione (ciò è possibile se non vi sono valori uguali delle xi) allora avremo che

E { y ˆi } = f ( xi ) e quindi B( yˆi ) 2 = E {( f ( xi ) − E { (^) i })^2 } = 0

Mentre la Var {y ˆ^ i} diviene uguale alla Var { }ε , che può essere in alcuni casi piuttosto

elevata.

Tale problema viene definito nella letteratura inglese bias-variance tradeoff : minimizzare eccessivamente il bias può far aumentare troppo la varianza e viceversa. Come si può vedere dalla figura 20.2.1, l’uso di modelli troppo complessi ( overfitting ) produrrà una bassa distorsione ed una elevata varianza, mentre l’utilizzo di modelli troppo semplici ( underfitting ) produrrà una elevata distorsione e una bassa varianza. Avendo a disposizione solo un campione, non si può conoscere la soluzione ottimale; soluzioni accettabili possono essere individuate tramite metodologie quali ad esempio la cross-validation , di cui diamo cenno nel paragrafo successivo.

modello migliore

underfitting overfitting

complessità

EQM

E { EQM^ }

EQM nel campione

Figura 20.2.1Confronto tra il valore atteso dell’EQM e il valore calcolato nel campione, al variare della complessità del modello.

McGraw Hill, 2004, ISBN 88-386-6162-

S. Borra, A. Di Ciaccio – Statistica, metodologie per le scienze economiche e sociali, McGraw Hill, 2004, ISBN 88-386-6162-

20.3 - Funzioni non-parametriche - smoother

Consideriamo innanzitutto una applicazione dell’approccio parametrico classico a dei dati reali.

ESEMPIO 20.3.1 – Indagine sul diabete mellito In un’indagine sul diabete mellito si vuole indagare la dipendenza del livello del siero C-peptide da altre variabili, tra cui l’età e il deficit basico. Il logaritmo della concentrazione del C-peptide è la variabile dipendente (per maggiori dettagli cfr. Hastie e Tibshirani 1990). Nel grafico di dispersione di Figura 20.3.1 abbiamo considerato come variabile esplicativa l’età riportando sia la retta di regressione di equazione: f(X) = 1,377 + 0,019 X sia la polinomiale di equazione: f(X) = 1,05 + 0,170 X + 0,017 X

2

  • 0,001 X

3 . Si può notare un evidente miglioramento nell’adattamento ai dati utilizzando la polinomiale; questo modello mette in luce una relazione tra l’età e il logaritmo della concentrazione C-peptide crescente sino a circa 7 anni e poi pressoché costante.

X

Y

0 2 4 6 8 10 12 14 16

1,

1,

1,

1,

1,

1,

1,

1,

1,

1,

2,

retta di regressione

Polinomiale

Figura 20.3.1 - Grafico di dispersione e funzioni parametriche

Nei capitoli precedenti, per descrivere il tipo di relazione esistente tra la variabile dipendente e le variabili esplicative, si è innanzitutto ipotizzata una generica funzione parametrica, quindi si sono determinati i valori dei suoi parametri mediante il metodo dei minimi quadrati in modo da trovare la funzione che si “accosta meglio” ai dati. In sostanza, la scelta della funzione da adottare avviene necessariamente nel momento iniziale, prima del calcolo dei parametri.

ESEMPIO 20.3.2 – Funzione parametrica

Se assumiamo che la relazione tra la Y e la X può essere espressa da una funzione esponenziale negativa f(X) = exp(bX) allora il problema diventa la determinazione del parametro b in modo che la funzione si accosti il più possibile ai dati osservati.

McGraw Hill, 2004, ISBN 88-386-6162-

S. Borra, A. Di Ciaccio – Statistica, metodologie per le scienze economiche e sociali, McGraw Hill, 2004, ISBN 88-386-6162-

Nadaraya-Watson smoother. Data una funzione g(t) decrescente in |t|, per ogni x 0 interno al campo di variazione di X, un kernel smoother può essere definito:

n i=

i i

n i=

i λ

x x y c g λ

x x g c

s(x) (^) 1 0 1 0

con

in cui c 0 è una costante di normalizzazione, mentre λ è un parametro fissato a priori , chiamato bandwidth o parametro di smoothing, che, in sostanza, definisce l’ampiezza dell’intervallo intorno a x.

Un altro tipo di kernel smoother è il seguente.

Gasser-Müller smoother. Data una funzione g(t) decrescente in |t|, per ogni x 0 interno al campo di variazione di X, un kernel smoother può essere definito:

du λ

x u s(x) y g

n i=

s i s

i

∑ ∫ i −

λ

1

in cui s (^) i = ( xi + xi + 1 ) / 2 ; s 0 = 0 ; sn = 1

La funzione g definisce il kernel , ossia il sistema dei pesi adottato nella media ponderata della Y. Ambedue gli smoother possono infatti essere scritti come:

s(x) ( x ) y

n

= ∑ i= 1 ω i,n i

Questo implica che è necessario scegliere g in modo che sia verificata la condizione:

( x )

n

∑ i= 1 ω i,n =^1

È possibile scegliere tra numerose funzioni, tra le quali viene spesso utilizzata la funzione di densità della distribuzione Normale standardizzata, con media nulla e varianza unitaria. In particolare

( ) (^) ⎟⎟ ⎠

π

1 z^2 gz exp

NOTA Il parametro λ definisce la semi-ampiezza dell’intervallo centrato nel punto x 0 in cui si vuole

stimare la funzione. Ad esempio, prendiamo la funzione Kernel triangolare :

( ) ⎩

altrove

u u g u 0

che attribuisce pesi decrescenti via via che ci si allontana dal punto da stimare e dove in questo caso u = ( xxi ) λ. Si voglia stimare la funzione nel punto x (^) 0 = 3 e sia λ = 2. Allora i pesi

1 i

x − sono non nulli per tutti i valori osservati x (^) i all’interno dell’intervallo 1 ≤ x (^) i ≤ 5 che è

centrato nel punto x 0 = 3 e di semi-ampiezza pari a λ = 2.

McGraw Hill, 2004, ISBN 88-386-6162-

S. Borra, A. Di Ciaccio – Statistica, metodologie per le scienze economiche e sociali, McGraw Hill, 2004, ISBN 88-386-6162-

Ad ogni modo si dimostra che non è tanto la scelta della funzione g a determinare la qualità

dell’approssimazione, quanto il valore del parametro di smoothing λ che, in sostanza, regola l’ampiezza del kernel. E’ anche interessante osservare che, sotto opportune condizioni, i kernel smoother sono degli stimatori consistenti della “vera” funzione f(X). Poiché questi stimatori sono delle somme ponderate di v.c., si può applicare il teorema del limite centrale e si può assumere che tali stimatori abbiano una distribuzione Normale. Per questa ed altre proprietà si veda Härdle (1994).

ESEMPIO 20.3.3 – Kernel smoother e bin smoother Nella Figura 20.3.2 è riportato il grafico di dispersione del logaritmo della concentrazione del C- peptide (Y) e dell’età (X) relativi ad un collettivo di individui e il corrispondente Kernel smoother e il Bin smoother. Entrambe le funzioni evidenziano tra i due caratteri una relazione prima crescente e poi costante.

Figura 20.3.2 - Kernel e Bin smoothers

X

Y

-2 0 2 4 6 8 10 12 14 16 18

1,

1,

1,

1,

1,

1,

1,

1,

1,

1,

2,

Bin smoother

Kernel smoother

Per comprendere meglio la logica del kernel smoother, concentriamoci sul valore x i e determiniamo il corrispondente valore s(x i ). Si noti che per ogni x i calcoliamo un nuovo

valore y^ *i =^ s(xi) che si ottiene come media ponderata della Y nell’intorno di x i. Nella figura

20.3.3 abbiamo messo in evidenza la logica di funzionamento dello smoother in riferimento al solo punto x i.

McGraw Hill, 2004, ISBN 88-386-6162-

S. Borra, A. Di Ciaccio – Statistica, metodologie per le scienze economiche e sociali, McGraw Hill, 2004, ISBN 88-386-6162-

0,0 0,2 0,4 0,6 0,8 1, X

0,

0,

0,

0,

0,

1,

1,

Y

0,0 0,2 0,4 0,6 0,8 1, X

0,

0,

0,

0,

0,

1,

1,

Y

0,0 0,2 0,4 0,6 0,8 1, X

0,

0,

0,

0,

0,

1,

1,

Y

Figura 20.3.4Bias-variance trade-off. La funzione rossa tratteggiata è quella “vera”, lo smoother (blu) è stato considerato con: a) un λ molto piccolo (in alto, lo smoother passa per tutti i punti), b) un λ intermedio (al centro, si ottiene una buona approssimazione), c) un λ molto grande (in basso, lo smoother ha una variabilità molto bassa ma una forte distorsione).

McGraw Hill, 2004, ISBN 88-386-6162-

S. Borra, A. Di Ciaccio – Statistica, metodologie per le scienze economiche e sociali, McGraw Hill, 2004, ISBN 88-386-6162-

Tale obiettivo si può ottenere introducendo una penalizzazione alla eccessiva irregolarità della curva: in termini computazionali, per una funzione g che sia almeno due volte

differenziabile, una quantità che presenta alcuni vantaggi come penalizzazione è (^) ∫ ( g ′′ )^2 dx.

In tal caso si definisce somma dei quadrati dei residui penalizzata la quantità:

( ) =∑ { − ( )} +λ∫( ′′)

P λ (^) g y gx g dx

n

i

i i

2 1

2

Si cercherà quindi la funzione spline g che minimizza P λ ( g ). Il parametro λ determina il

trade-off tra adattamento e regolarità della curva, si considerino i casi estremi: se λ= 0 allora la funzione g non ha vincoli e passa per tutti i punti (se non vi sono valori uguali di X), se λ =∞allora la funzione g è una retta. Per una introduzione all’argomento si veda Green & Silverman(1994).

La suddivisione del campione è un metodo spesso efficace per la scelta del livello di smoothing e per la valutazione complessiva del modello. Il metodo consiste essenzialmente nella suddivisione (eventualmente ripetuta) del campione di dati a disposizione, in due parti: il sottocampione di training e il sottocampione di test. Il sottocampione di training viene utilizzato per stimare il modello, il sottocampione di test viene utilizzato per verificare la bontà di adattamento del modello a dei dati non utilizzati nella stima e quindi ottenere una stima più affidabile dell’EQM.

modello migliore

underfitting overfitting

complessità

EQM

EQM nel test

EQM nel training

bias elevato varianza bassa

bias basso varianza alta

Figura 20.3.5 – Confronto tra l’EQM nel Test set e l’EQM nel Training set, al variare della complessità del modello.

Nella figura 20.3.5 possiamo vedere il valore dell’errore quadratico medio calcolato nel sottocampione di training e nel sottocampione di test. Si può notare che all’aumentare della complessità del modello l’EQM calcolato nel sottocampione di training tenda sempre a

McGraw Hill, 2004, ISBN 88-386-6162-

S. Borra, A. Di Ciaccio – Statistica, metodologie per le scienze economiche e sociali, McGraw Hill, 2004, ISBN 88-386-6162-

20.4 Smoother per due o più variabili esplicative

L’esposizione precedente si può estendere al caso di due o più variabili esplicative seguendo due diversi approcci. Una prima possibilità richiede la definizione di uno smoother multidimensionale , ad esempio nel caso di due variabili esplicative

f ( X 1 ,X 2 ) =a+bs( X 1 ,X 2 )

Una seconda possibilità, molto più restrittiva, consiste nel supporre l’additività della funzione f(.) e quindi l’utilizzo dei soli smoother univariati: f ( X 1 ,X 2 ) =a+bs 1 ( X 1 ) +cs 2 ( X 2 )

Ambedue tali approcci portano, per due variabili esplicative, all’individuazione di una superficie di regressione, di cui mostriamo un esempio, con due sole variabili esplicative, nella figura 20.4.1.

Figura 20.4.1 Esempio di Kernel smoother bidimensionale

Il primo approccio, che include le interazioni tra le variabili, è spesso difficile da applicare in quanto richiede un numero molto elevato di osservazioni all’aumentare del numero di variabili esplicative. E’ il problema denominato “the curse of dimensionality”.

Per curse of dimensionality si intende il rapido incremento di volume che si ha aggiungendo ulteriori dimensioni allo spazio di riferimento.

McGraw Hill, 2004, ISBN 88-386-6162-

S. Borra, A. Di Ciaccio – Statistica, metodologie per le scienze economiche e sociali, McGraw Hill, 2004, ISBN 88-386-6162-

Per meglio descrivere il fenomeno, ipotizziamo di avere a disposizione 100 osservazioni relative ad una variabile quantitativa continua. Se dividiamo il range della variabile in 10 intervallini, siamo in grado di analizzare la distribuzione della variabile abbastanza bene, tramite ad esempio un istogramma. Ogni intervallino avrà due intervallini vicini, che conterranno presumibilmente qualche osservazione. Se le osservazioni si riferiscono invece a 10 variabili, ed effettuiamo la stessa suddivisione in intervallini per ciascuna variabile, otteniamo 10 10 celle nello spazio a 10 dimensioni e ogni cella avrà 3^10 -1= 59048 celle vicine: le osservazioni diventano quindi dei punti isolati in un ampio spazio di celle vuote. Per ottenere una situazione equivalente a quella che avevamo nel caso unidimensionale, sarebbero ora necessarie ben 10^20 osservazioni. L’aumento delle dimensioni provoca in definitiva un incremento generalizzato delle distanze tra i punti che tendono quindi a divenire lontani ed equispaziati.

Per ovviare a tale problema sono stati proposti modelli quali ad esempio PPR, MARS o il modello additivo generalizzato (GAM), (si veda Hastie, Tibshirani & Friedman, 2001). Il modello GAM è una variante del modello additivo già visto nel paragrafo 20.1. e si basa sulla somma di J funzioni, in questo caso non-parametriche e non note, delle J variabili Xj (più l’intercetta). La differenza sta essenzialmente nell’aggiunta della funzione link parametrica che collega la somma delle funzioni alla variabile dipendente:

= = +∑

J

j 1

E Y| X f(X 1 ,X 2 ,X 3 ...,XJ) G a sjXj

L’additività del modello permette un procedimento di stima abbastanza agevole in quanto le funzioni sono tutte univariate. Occorre però considerare che le funzioni non-parametriche s (^) j sono incognite e quindi è richiesta una procedura di stima iterativa. La Projection Pursuit Regression utilizza trasformazioni di proiezioni ottime dei dati originali in sottospazi di dimensione ridotta. Più precisamente, la variabile dipendente è legata ad un insieme di J variabili esplicative, tramite una combinazione di M funzioni smooth unidimensionali di combinazioni lineari delle variabili esplicative:

( ) ( (^) m1 1 m2 2 mJ J) 1

E Y| = f(X 1 ,X 2 ,X 3 ...,XJ)=∑s α X +α X + +α X

M

m

X m

Quando il numero di variabili esplicative è alto e tra esse sussiste un elevato grado di collinearità, questo modello è più parsimonioso rispetto al GAM e può considerare (anche se non esplicitamente) interazioni di variabili esplicative. MARS (multivariate adaptive regression splines) può essere visto come una generalizzazione del Recursive Partition Regression method. Questo metodo utilizza una espansione di prodotti di funzioni base (ad es. spline cubiche) per costruire funzioni spline multivariate ed una procedura stepwise per ottenere una selezione automatica di questa base di funzioni. E’ possibile scrivere il modello MARS in forma additiva, raggruppando le funzioni in questo modo:

( | ) , ( ) ( , ) ( , h , k ) " K 3

h ihk i K 2

ih i K 1

EY f(X 1 , X 2 , X 3 ...XJ) 0 giXi g X X g X X X m m m

∑ ∑ ∑ = = =

X = =α + + +

In cui la prima sommatoria riguarda tutte le funzioni che si riferiscono ad una sola variabile esplicativa; la seconda sommatoria riguarda tutte le funzioni che si riferiscono a due variabili esplicative, e così via. Occorre fissare a priori alcuni parametri: il numero di funzioni base, il massimo grado di interazione ed il grado delle spline. Tramite questi parametri si può determinare il grado desiderato di complessità del modello.