Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Dispensa machine learning SGI, Dispense di Machine learning

Una panoramica su come valutare e ridurre l'overfitting nei modelli statistici, con un focus sui metodi di cross-validation e sulla regressione ridge e lasso. Il testo include una spiegazione dettagliata delle metriche utilizzate per valutare l'overfitting, come l'ase (average squared error), e delle tecniche di cross-validation come la hold-out method e la repeated cross-validation. Inoltre, vengono presentate le idee dietro la regressione ridge e lasso, due approcci per ridurre la dimensionalità dei parametri e migliorare la stabilità dei modelli.

Tipologia: Dispense

2023/2024

In vendita dal 28/02/2024

federico-clerici-3
federico-clerici-3 🇮🇹

5

(1)

2 documenti

1 / 53

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Machine Learning
A.A. 2023/2024
FEDERICO CLERICI
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35

Anteprima parziale del testo

Scarica Dispensa machine learning SGI e più Dispense in PDF di Machine learning solo su Docsity!

Machine Learning

A.A. 2023/

FEDERICO CLERICI

Indice

  • STEP 1: TUNING MODELLI
  • GESTIRE LA COMPLESSITÀ
  • STRATEGIE PER GESTIRE LA COMPLESSITÀ
  • VALUTARE LA GENERALIZZAZIONE DEI RISULTATI
  • TECNICHE DI MODEL VALIDATION (VALUTAZIONE OVERFITTING)
  • MODELLI CLASSIFICATIVI CON TARGET QUALITATIVO
  • DECISION THEORY
  • DECISION THEORY: ASSUNTO
  • DECISION THEORY: ASSUNTO
  • DECISION THEORY ASSUNTO 3: RAPPRESENTATIVITÀ DEL DATASET DI LAVORO
  • PERFORMANCE PREDITTIVA (BONTÀ DI ADATTAMENTO)
  • PERFORMANCE CLASSIFICATIVA
  • COSTI PER MISCLASSIFICATION
  • STEP 2: ASSESSMENT TRA MODELLI
  • STEP 3: SCELTA DELLA SOGLIA
  • STEP 4: SCORE DI NUOVI CASI
  • RIDGE REGRESSION
  • LASSO REGRESSION
  • PRINCIPAL COMPONENT REGRESSION (PCR)
  • PARTIAL LEAST SQUARES (PLS)
  • NAIVE BAYES
  • DISCRIMINANT ANALYSIS (DA)
  • NEAREST NEIGHBOR (KNN)
  • ALBERI DECISIONALI/DECISION TREE.........................................................................................................
  • RISOLUZIONE INSTABILITÀ ALBERI: PERTURB AND COMBINE
  • ENSEMBLE METHODS
  • BOOSTED TREES
  • ADABOOST (NO TARGET CONTINUO)
  • GRADIENT BOOSTING...............................................................................................................................
  • RIASSUNTO MODELLI COMBINATI
  • NEURAL NETWORKS
  • PERCETTRONE
  • MULTILAYER PERCEPTRON MLP
  • RADIAL BASIS FUNCTION RBF

Problema : EPE dipende dalla varianza dell’errore 𝜀, che non possiamo stimare

→ decidiamo quindi di utilizzare l’ ASE (Average Squared Error) come stima di EPE

ASE è come EPE, ma viene stimato solo sulle osservazioni del dataset in uso (è semplicemente

la media dei residui al quadrato, come MSE) invece che su tutti i dataset possibili.

Strategie per gestire la complessità

1. Model selection

Conosciamo già metodi per fare model selection, tramite subset e/o significatività con p-value.

In machine learning si utilizzano anche algoritmi che fanno naturalmente model selection (es.

tree, Random Forest, Boruta)

2. Shrinkage/regularization

Regolarizzare significa ridurre le stime dei coefficienti, con una conseguente riduzione della

varianza e miglioramento della stabilità del modello. Alcuni coefficienti potrebbero ridursi

esattamente a zero, facendo naturalmente model selection (es. Lasso)

3. Riduzione della dimensionalità

I metodi più utilizzati sono PCR (Principal Component Regression) e PLS (Partial Least

Squares). Possono essere usati per

  • Ridurre la dimensionalità dei dati, quindi come input per altri algoritmi
  • Come algoritmi in sé

Valutare la generalizzazione dei risultati

Il problema dell’overfitting

L’overfitting si ha quando l’errore di un modello o di un algoritmo continua a diminuire

drasticamente al crescere della complessità → il modello si adatta troppo ai dati disponibili,

che potrebbero avere anomalie dovute ad outliers/errori.

La procedura di previsione non è attendibile!!!

Condizioni necessarie per un modello adatto per classificazione/previsione:

a) Modello robusto su nuovi dati → no overfitting su dataset diverso da training

b) Modello che fitta/classifica bene

Dati indipendenti

Se i dati utilizzati per stimare il modello vengono utilizzati anche per stimare le previsioni,

queste ultime saranno distorte (e di conseguenza le metriche associate), in quanto troppo

ottimistiche perché già utilizzate per la stima dei parametri/training del modello

Generalizzazione

È il processo di scelta della complessità appropriata del modello per generare previsioni

accurate, separando i dati usati per stimare il modello e quelli usati per effettuare previsioni

→ fasi di stima e di valutazione del modello

Un metodo tipicamente utilizzato è quello di dividere il dataset in training (fase di stima del

modello) e validation (fase di valutazione del modello).

In pratica, si valuta per ogni modello tunato l’ASE sul dataset di training e validation in modo

da valutare l’overfitting.

→se ASE aumenta nel dataset di validation quando la complessità aumenta, allora oltre quel

grado di complessità si ha overfitting

Metriche per valutare l’overfitting (ce ne sono anche altre)

  • Average Squared Error (ASE)

Può essere usato sia per target quantitativo che qualitativo

→misura performance predittiva

→è da minimizzare

𝑖

𝑖

2

𝑖

Abbiamo overfitting se

𝐴𝑆𝐸

𝑡𝑟𝑎𝑖𝑛

−𝐴𝑆𝐸

𝑣𝑎𝑙𝑖𝑑

𝐴𝑆𝐸

𝑡𝑟𝑎𝑖𝑛

10%, ovvero se l’ error rate è >10%

  • Performance classificativa

Si utilizza la matrice di confusione

Target previsto

Target osservato

Class=Yes Class=No

Class=Yes a c

Class=No b d

→possiamo calcolare, ad esempio, l’ accuracy , che misura la performance classificativa

(true positive+ true negative sul totale, ciò che è stato classificato correttamente)

Tecniche di model validation (valutazione overfitting)

  • Validazione esterna : si valida il modello su un dataset nuovo (n grande >1000).

È detto anche Holdout method

  • Valutazione interna : si valida il modello sul dataset corrente (n piccolo

<1000/2000/3000) con:

o Cross-validation k fold

o Cross-validation Jackknife

  • Bootstrap

1. Holdout method (validazione esterna)

Consiste nell’utilizzare un insieme di dati indipendenti dal training set come validation set per

stimare la performance del modello (quanto esso lavora bene su dati nuovi/overfitting).

Confronto ASE (target quantitativo) o errore di classificazione (target qualitativo) su dataset di

training e su dataset di validation.

𝑖

𝑖

( −𝑖

)

2

𝐶𝑉 1

𝑛

𝑖= 1

→ anche in questo caso 𝑦̂ 𝑒 𝑝̂ previsti sono indipendenti dai dati usati per stimare il modello

𝐶𝑉 1

è una misura robusta per valutare il modello one-shot. Faccio 𝐴𝑆𝐸

𝑇𝑅𝐴𝐼𝑁

𝐶𝑉 1

Cross validation risulta molto utile per tunare i modelli (scegliere i parametri che regolano la

complessità di un modello), in quanto uso le diverse partizioni come “validation” per il tuning

del modello, evitando di usare un validation set.

Potrei scegliere la complessità che, ad esempio, minimizza ASE crossvalidato o ASE Jackknife

Riassunto cross validation

  1. Con campioni piccoli, CV permette di valutare l’overfitting dei modelli stimati, anche

senza avere a disposizione un dataset di validation

→ si confronta l’errore nel training e l’errore crossvalidato (es. ASE)

  1. Con campioni grandi, CV può essere usato per tunare i modelli (valutiamo poi

overfitting su dataset validation)

  1. Introduce una variabilità artificiale, in quanto valuta il modello su diverse porzioni di

dati (fold) fornendo una visione più completa delle sue prestazioni rispetto ad un

singolo split dei dati → utile per training

Repeated CV

Consiste nell’effettuare cross validation N volte, per poi calcolare la media degli errori

crossvalidati, così da ottenere una valutazione globale della performance del modello

3. Bootstrap

Come data mining.

Si stima lo stesso modello R volte e si valutano le sue performance come media delle

performance degli R modelli. I validation sets sono ottenuti come complementare dei training

sets estratti casualmente

Validation .632 Bootstrap

È il metodo più utilizzato per ottenere una performance robusta del modello in analisi.

Abbiamo tunato il modello mediante Bootstrap sul 63.2% dei dati, mentre il restante 36.8%

dei dati viene usato come dataset di validation → qui calcoliamo solo accuracy per modelli

Boot, il modello l’abbiamo già stimato!!!

L’accuracy di un modello M all’r-esima iterazione è pari a

𝑟

𝑣𝑎𝑙𝑖𝑑

Dove

  • 𝑎𝑐𝑐(𝑀) è l’accuracy del modello M applicato all’intero dataset (sovra ottimistica)

𝑟

𝑣𝑎𝑙𝑖𝑑

è l’accuracy ottenuta applicando il modello M all’r-esimo training set e

trovando la relativa accuracy sul validation set (sotto ottimistica)

Terminate le R iterazioni, calcoliamo l’accuracy .632 Bootstrap nel seguente modo

𝑏𝑜𝑜𝑡

∑[ 0. 632 𝑎𝑐𝑐

𝑟

𝑣𝑎𝑙𝑖𝑑

]

𝑅

𝑟= 1

→è un’accuracy media pesata in cui diamo più peso all’accuracy sul validation (pessimistica)

rispetto a quella sul campione Bootstrap (ottimistica) in modo da trovare un compromesso.

Modelli classificativi con target qualitativo

I modelli classificativi hanno due principali caratteristiche:

  1. Metodologie differenti , in cui i parametri di tuning indicano la complessità del

modello, a cui sono associati dei limiti decisionali ( decision boundaries )

  1. Pre-processing differente , ovvero una preparazione dei dati diversa, che dipende dalla

metodologia utilizzata

Obiettivo : avere un classificatore che è in grado di separare le classi nel modo più preciso

possibile e che sia in grado di generalizzare il risultato su dataset diversi dal training

Tipi di pre-processing

  • Osservazioni : si rimuovono outliers, punti influenti, missing data
  • Numero di covariate : si effettua model selection (se richiesto dall’algoritmo)
  • Trasformazione covariate : si trasformano le covariate se richiesto con GAM, PC, PLS

Tipi di pre-processing richiesti dai vari modelli:

H=alta resistenza HM=resistenza medio/alta ML=resistenza medio/bassa

M=resistenza media L=bassa resistenza

Modello logistico

Decision boundary : lineare con covariate lineari, quadratica con covariate al quadrato/cubo

Parametri di tuning : coefficienti associati alle covariate

Decision theory: assunto 2

La logica principale della classificazione è basata sull’ approccio della funzione discriminante.

Ciò significa che per ogni osservazione x i

, scegliamo una classe 𝜔

𝑗

che massimizza (o

minimizza, in base alla funzione che scegliamo) una funzione 𝑔

𝑗

assegniamo x ad una classe 𝝎 𝒋

se 𝒈

𝒋

𝒕

Questa funzione discriminante non è solamente la funzione di probabilità, ma può essere

anche, ad esempio, la funzione di costo , soprattutto in ambito economico.

Essa restituisce un punteggio, non un valore di probabilità. Tale valore dovrà essere quindi

interpretato e contestualizzato.

→ fornisce una regola di discriminazione

Esempio:

abbiamo una regressione logistica con y=(0,1).

La regola basata sulla funzione discriminante (vista in data mining) è la seguente

𝑖

𝑻

𝒊

𝟎

→ chiamiamo la funzione 𝑔

𝑗

𝑖

𝑻

𝒊

𝟎

funzione discriminante, in quanto ci fornisce

una regola di classificazione

Esempi: Fisher Discriminant Analysis (FDA) e PCA

  • PCA : trova una combinazione lineare delle covariate che rappresenti i dati in uno

spazio di dimensione inferiore e che massimizzi la varianza

  • FDA : usa una classificazione mediante segnali, ovvero trova una rappresentazione che

massimizza la discriminazione tra le classi in uno spazio di dimensione inferiore

→entrambe i metodi hanno delle funzioni discriminanti associate da massimizzare (in quanto

si tratta di distanze dal centroide)

Osservazione : diversi modelli di classificazione restituiscono un punteggio per ogni classe 𝜔 𝑗

che non è necessariamente una probabilità → sarà necessaria un’interpretazione

Funzione Softmax

È una funzione utilizzata per trasformare un punteggio discriminatorio in valori simili a

probabilità ( quasi-probability ), in modo che possano essere interpretati come classi di

probabilità.

𝑖𝑗

𝑔

𝑖𝑗

𝑔

𝑖𝑗

𝐽

𝑗= 1

Dove g ij

è lo score dell’i-esima osservazione per il target di classe j e J è il numero totale delle

classi del target. Viene utilizzata nel modello logistico per calcolare le posteriors.

Decision theory assunto 3: Rappresentatività del dataset di lavoro

Le priors 𝝅 𝒋

definiscono la prevalenza del livello j del target nella popolazione, non nel

campione che si sta analizzando!!!

→se il dataset non è rappresentativo della popolazione, la stima dell’error rate è distorta.

→quindi le priors vanno stimate opportunamente da tutti i dati storici

1) Gestione eventi rari e priors

Nel caso di eventi molto rari (tipicamente classe target con < 5 %), cioè la norma nei dataset di

machine learning, i modelli classificherebbero tutti le osservazioni come non rare , ottenendo

un’accuracy molto elevata, ma misclassificano gli eventi rari, che sono quelli che ci interessano

(es. cattivi creditori).

→con classi sbilanciate, nella cross-validation potrebbero esserci fold che non contengono

osservazioni per tutte le classi, generando separation/quasiseparation e creando problemi.

Soluzione eventi rari

Si modifica il dataset di lavoro, bilanciando maggiormente i casi rari con i non rari. Come?

  • Undersampling (migliore strategia) : si campionano nel dataset da analizzare una

quota molto inferiore di casi non rari per bilanciare il campione tra le due modalità del

target

  • Oversampling : si ricampionano nel dataset da analizzare una quota molto superiore

di eventi rari per bilanciare il campione con eventi non rari

Importante : dopo aver bilanciato il campione e aver stimato il modello è importante

correggere le priors , in modo che riflettano la reale composizione delle modalità del target

nella popolazione

→le proporzioni del campione e le proporzioni all’interno della popolazione possono essere

diverse

Passaggi da fare una volta bilanciato il dataset e aver stimato il modello :

a) Correggere la confusion matrix del modello stimato con le prior bilanciate, tornando

al vero valore delle prior. Anche le misure di classificazione (escluse sensitivity e

specificity, in quanto dipendono entrambe dalla stessa prior) e di costo cambiano

b) Devo correggere le posterior , utilizzando le prior corrette

c) Devo correggere gli Expected Profit (EPi) che si calcolano con le nuove posterior

adjusted

1) Correggere la confusion matrix

Per correggere la matrice di confusione correggo le prior associate ad ogni cella. Ottengo le

unadjusted priors p 0

*** e p 1**

→ ricordarsi di correggere anche accuracy ed error rate (usando sempre priors corrette)

Ora ricaviamo le adjusted posteriors come

1

𝑛𝑒𝑤

1

1

1

0

0

0

1

1

1

0

𝑛𝑒𝑤

1

0

0

0

0

0

1

1

1

Dove 𝜌

𝑡

=sample prior e 𝜋

𝑡

=true prior

𝐴

𝑎

+𝑑

𝑁

→Accuracy teorica

𝐴

𝐴

, 𝑘 ∈ [− 1 , 1 ]

3) Misclassification Error/Error rate

𝐸𝑟𝑟𝑜𝑟 𝑟𝑎𝑡𝑒 = [

] 𝜋

𝑦𝑒𝑠

+ [

] 𝜋

𝑛𝑜

4) Sensitivity (True Positive Rate TPR o Recall)

È una metrica che minimizza i falsi negativi (FN) e massimizza i true positive (TP)

5) Specificity (True Negative Rate TNR)

È una metrica che minimizza i falsi positivi (FP) e massimizza i true negative (TN)

→Sensitivity e Specificity non cambiano dopo il bilanciamento delle classi

→valgono solo per target binario

6) Precision

7) F1 statistic

È una metrica che misura l’accuratezza tenendo conto di Sensitivity e Precision

1

Tutte le misure classificative dipendono da:

  • Priors 𝜋

𝑗

(tranne sensitivity e specificity)

  • Soglia per trovare il target previsto (da decidere)

Nella pratica : scelgo una metrica da massimizzare in base al contesto di lavoro, per ottenere

il miglior risultato possibile rispetto agli obiettivi del progetto.

Costi per misclassification

Non sempre è sufficiente valutare solo la performance classificativa, in quanto ad ogni

misclassification possono essere associati dei costi di cui bisogna tenere conto, soprattutto in

ambito economico → utile per capire quanto pesa la misclassification di un’osservazione

Possono esserci due tipi di costi per misclassification:

  • C(1/2) costo di misclassification in classe 𝜔

1

per classe reale 𝜔

2

(False Negative)

  • C( 2 / 1 ) costo di misclassification in classe 𝜔

2

per classe reale 𝜔

1

(False Positive)

Possiamo calcolare l’ Expected Cost of Misclassification (ECM) , ovvero il costo atteso totale

1

2

Matrice di costi e profitti

Partiamo da un esempio per capire

Classe prevista

Credit risk monetary cost

Classe osservata

C(i|j) Good Bad

Good 1 1$ C(1/1) 0 C(2/1)

Bad 2 - 5$ C(1/2) 0 C(2/2)

→una banca ogni 5$ prestati ne guadagna 1 (non molto conveniente)

Non abbiamo profitti/costi se la banca prevede un cliente come Bad (se non da soldi non può

guadagnare, ma nemmeno perdere).

Se invece prevede un cliente in modo corretto ha profitto pari a 1$, ma se sbaglia a prevedere

(classifica un cliente Bad come Good) allora perde 5$ → voglio minimizzare questo caso e

massimizzare la previsione di buoni creditori

Come cambia la regola classificativa con costi e profitti?

x i

viene classificata come classe 1 se

𝑃(𝑦= 1 |𝑥)

𝑃(𝑦= 2 |𝑥)

[𝐶( 1 | 2 )−𝐶( 2 | 2 )]

[𝐶( 2 | 1 )−𝐶( 1 | 1 )]

→anche questa nuova regola minimizza il Bayes rate mediante criterio MAP

→restituisce quante volte la posterior relativa alla classe 1 dev’essere superiore alla posterior

relativa alla classe 2 per essere classificata come classe 1 (contorto ma si capisce, rileggi bene)

Esempio:

x i

viene classificata come “good” (y=1) se

𝑃(𝑦= 1 |𝑥)

𝑃(𝑦= 2 |𝑥)

[𝐶( 1 | 2 )−𝐶( 2 | 2 )]

[𝐶( 2 | 1 )−𝐶( 1 | 1 )]

cioè la posterior(good) dev’essere almeno 5 volte più grande della posterior(bad) (esempio)

Eventi rari e matrice di profitti

Quando sono presenti eventi rari (es. >2 incidenti all’anno per compagnia assicurativa), è

necessario assegnare un costo alto alla loro misclassification , in quanto l’effetto che potrebbe

avere in termini di costi/profitti è elevato.

→in presenza di costi, i modelli dovrebbero avere la possibilità di essere tunati considerando

metriche che dipendono da costi di misclassificazione o profitti

Criterio di costi/profitti della classificazione

Con profitti

Profit Target previsto

Target osservato

Class=Yes Class=No

Class=Yes 𝛿

𝑇𝑃

𝐹𝑁

Class=No 𝛿

𝐹𝑃

𝑇𝑁

Possiamo calcolare:

  • Total Expected Profit

𝑇𝑃

𝐹𝑃

𝐹𝑁

𝑇𝑁

  • Average Profit

𝑝𝑟𝑜𝑓𝑖𝑡

Costi/profitti come criterio di scelta delle covariate

La minimizzazione del costo totale o la massimizzazione del profitto totale diventano criteri di

model selection di un modello M.

Come cambia la decision boundary con la matrice di costi?

B1 regola classificativa con costi 𝛿

𝐹𝑁

𝐹𝑃

B2 regola classificativa con costi 𝛿 𝐹𝑁

𝐹𝑃

(se classifico un’osservazione come falsa negativa

il costo aumenta molto di più rispetto a classificare un’osservazione come falsa positiva)

B1: dentro cerchio blu classifico tutti come + fuori tutti come

→ci sono quattro + classificati come – che porterebbero ad un

alto costo totale atteso , in quanto FN ha un costo elevato

B2: dentro cerchio rosso classifico tutti come + fuori tutti come

→è la regola classificativa migliore, in quanto non

misclassifica mai + come – (FN, costo elevato), ma il contrario

(- come +, FP), che porterà ad avere un costo totale atteso

minore

La model selection si può vedere come individuazione del best subset che minimizza il costo

totale → dipenderà dalle covariate scelte per il modello (model selection)

Expected Profit (EPi) e nuova regola decisionale per il target previsto

EPi è una nuova metrica cambia la regola che ci permette di stabilire il valore del target

previsto

Essa indica i profitti attesi per ogni decisione/classificazione.

Esempio:

𝑖

1 𝑖

𝑇𝑃

0 𝑖

𝐹𝑃

𝑖

1 𝑖

𝐹𝑁

0 𝑖

𝑇𝑁

Un soggetto è classificato come “yes” se 𝐸𝑃 𝑖

𝑖

, ovvero per la classe con il

profitto atteso massimo.

La decisione di classificare un soggetto in base al profitto atteso massimo corrisponde ad una

precisa soglia per le posterior:

Bayesian optimal decision threshold (soglia da scegliere allo step 3)

→consiste nel trovare 𝑝 1 𝑖

(posterior) che assicura di avere 𝐸𝑃

𝑖

𝑖

Se risolviamo la disequazione per 𝑝

1 𝑖

otteniamo

1 𝑖

𝑇𝑃

𝐹𝑁

𝑇𝑁

𝐹𝑃

→in questo modo tutti coloro che hanno una probabilità superiore a tale soglia hanno anche

𝑖

𝑖

( 0 ), pertanto verranno classificati come “1”.

Esempi su slides

Criterio di valutazione del modello con costi/profitti

Abbiamo visto che il criterio con cui si decide come classificare il target previsto si basa su

costi/profitti, in particolare sull’Expected Profit (EPi). Non si usano le posterior da sole.

Per valutare i modelli e confrontarli si usa l’ Average Computed Profit visto in precedenza

𝑝𝑟𝑜𝑓𝑖𝑡

𝑇𝑃

𝐹𝑃

𝐹𝑁

𝑇𝑁

→è il migliore strumento di confronto di modelli in presenza della matrice di costi/profitti

È un indicatore di bontà classificativa che può portare a conclusioni diverse da quelle fornite

delle misure di classificazione legate alle sole unità statistiche (accuracy, sensitivity, ecc.)

Le misure di classificazione con unità e costi/profitti sono applicabili anche a target categoriali

(non binari)

Recap costi/profitti (possibile domanda orale)

Avere costi/profitti o priors modifica la gran parte degli elementi di un processo di

classificazione.

In quali step il ruolo di costi/profitti è fondamentale?

  • Step 1: tuno il modello/faccio model selection con costo medio/totale
  • Step 2: valuto se il profitto è elevato (uso Average Computed Profit)
  • Step 3: viene tunata la soglia (Bayesian optimal decision threshold, che deriva da EP i
  • Step 4: non utile

In quali step il ruolo delle priors è fondamentale?

  • Step 0: capire se le priors rappresentano il dataset (bilanciamento)
  • Step 1: il dataset dev’essere bilanciato per poter allenare correttamente il modello
  • Step 2: correggo posterior ottenute dal modello stimato (e prior)
  • Step 3: guardo confusion matrix corretta
  • Step 4: correggo anche posterior su nuovi dati (scoring)

Step 2: assessment tra modelli

In questa fase vediamo come confrontare le performance classificative dei modelli.

Ricordiamo che l’ accuracy NON è una metrica di confronto modelli , in quanto dipende

fortemente della soglia stabilita per tunare il modello → se cambio soglia cambia anche

l’accuracy

Ci sono diversi metodi per il confronto di modelli, nessuno di essi dipende dalla soglia.

Vanno tutti applicati sul dataset di validation

a) Validation ASE

Si calcola l’ Average Square Error sul dataset di validation (o crossvalidato per dataset piccoli)

e si vede quale modello lo rende minimo

𝑖

𝑖

2

𝑛

𝑖= 1

→misura la distanza media tra target previsto e target osservato, non dipende dalla soglia

È più un criterio di bontà di adattamento, non classificativo

→ se la ROC è la bisettrice il modello non discrimina

→ se la curva ROC coincide con l’asse y (sale subito), ho miglior classificazione

Per poter costruire la curva ROC è sufficiente avere il target osservato e le posterior, in modo

da riuscire a costruire la matrice di confusione → guardo per capire metriche complementari

Area under ROC Curve (AUC)

La rapidità della crescita della curva ROC che misura la bontà classificativa si può

approssimare con l’area sottostante alla curva ROC (AUC). È una variabile compresa tra 0.

(modello non discriminante) e 1 (modello classifica perfettamente).

Interpretazione: indica la probabilità di un soggetto preso a caso dal dataset di essere

classificato correttamente.

Se effettuo il confronto tra modelli in questo modo non ho bisogno di correggere le posterior,

in quanto sensitivity e specificity non dipendono dalle priors (i coefficienti di correzione

applicati si semplificherebbero in ogni caso).

Ora che conosciamo questo metodo, dobbiamo fare assessment con AUC , non più con le

misure di bontà che si basano su soglie.

Nota bene : se troviamo modelli perfetti (AUC circa 1), spesso abbiamo incluso covariate che

in realtà sono variabili target. Vanno rimosse!!!

→ dobbiamo capire se ha senso mantenere in analisi la covariata più importante (in un albero,

ad esempio, crea nodi puri, è facile da individuare)

Fare attenzione anche a separation tra le classi delle covariate → se c’è, la variabile

discriminerà perfettamente i soggetti, ottenendo una curva ROC perfetta.

Talvolta possono esserci alcuni casi non chiari, in cui non capiamo quale modello performa

meglio degli altri

→in questo caso usiamo le curve lift

c) Curve Lift (target qualitativi)

Questo metodo si basa sulle posterior e sulla soglia → vanno corrette se necessario

  1. Fittiamo un modello e stimiamo sul dataset di validation la probabilità di successo per

ogni i (quanti eventi sono stati catturati sul totale) p i

→ uso le prior per calcolare queste

probabilità. Viene ottenuta con un rapporto, senza alcun modello

  1. Ordiniamo i soggetti (sempre dataset di validation) rispetto a p i

decrescente e

dividiamoli in decili (es. 1° decile=maggiore propensione ad acquistare)

  1. Guardiamo la % cumulata di eventi catturati: se la maggior parte si concentra nei

primi 2 o 3 decili abbiamo un buon modello.

Se il target è equidistribuito nei decili significa che il modello ha una pessima capacità

discriminatoria

Il valore di Lift indica la probabilità di evento in più rispetto alla probabilità totale senza

modello. Es. 2° decile Lift=1.3 significa che nel primo 20% dei soggetti la probabilità di evento

con il modello è del 30% più elevata rispetto alla probabilità senza il modello.

→le curve lift sono molto utilizzate in ambito marketing, in quanto le risposte sono delle

Sensitivity e se c'è, ad esempio, un vincolo di budget, possiamo scegliere di mandare la

pubblicità al primo 30% di soggetti con probabilità prevista di evento più alta e aspettarmi di

osservare una parte elevata di successi sul totale

Possiamo inoltre creare degli scenari sulle soglie (un sottoinsieme) per lo step 3, in modo da

capire come si evolve il modello in base alla soglia scelta e a diversi vincoli (es. budget)

d) Average computed profit

È una misura di assessment calcolata usando il criterio degli Expected Profit (EPi) → già visto

in precedenza

e) Curve lift of expected/computed profit

Per ogni decile j si ricava la confusion matrix e i relativi Total/Average Expected Profit (non

cumulativo)

→utile e semplice da costruire per scenari di marketing