Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


BUSINESS DATA ANALYTICS MODULO 2, Dispense di E-Business

DISPENSA COMPLETA DEL MODULO 2

Tipologia: Dispense

2024/2025

Caricato il 27/02/2026

riccardo-salardino
riccardo-salardino 🇮🇹

3 documenti

1 / 55

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
INFERENZA CAUSALE
L'inferenza causale è una scienza che cerca di rispondere a domande che
vertono su relazioni di causa-effetto.
Esempio:
È stato il nuovo management aziendale a ridurre i costi di produzione?
È stata la nuova campagna pubblicitaria ad incrementare le vendite?
L'attività di export è un driver dell'innovazione?
Fino a poco tempo fa, le discipline scientifiche non erano in grado di darci alcun
mezzo anche solo per articolare propriamente tali quesiti!
La Difficile Identificazione dei Rapporti Causali
Per apprezzare la rilevanza di questa mancanza, pensiamo ad una relazione
molto semplice: supponiamo che i lavoratori L di un'azienda siano proporzionali
al suo fatturato F.
Possiamo esprimere questa semplice relazione come
L
=
kF
, dove
k
è una
costante di proporzionalità
Le regole dell'algebra ci consentono di scrivere, per esempio,
F
=
L
/
k ,k
=
L
/
F
oppure
L
kF
=0
.
Il significato è sempre il medesimo: se conosciamo due delle tre variabili
possiamo determinare la terza. Tuttavia, nessuna delle «lettere» della relazione
è «privilegiata» rispetto alle altre.
Come possiamo affermare dalla formula che è l'aumento del fatturato che
causa il cambiamento nel numero di lavoratori e non viceversa?
L'esercizio di determinare rapporti causali non è banale neanche quando le
variabili possono essere matematicamente formalizzate, come nell'esempio
precedente.
I limiti dei dati
Immaginate di avere due aziende, una che ha implementato un nuovo orario di
lavoro e l'altra no.
Guardando puramente ai loro dati di produttività potremmo confrontarli tramite
la statistica «classica» e trovare che la produttività dell'impresa che ha
implementato il nuovo orario di lavoro è maggiore, ma non il perché.
La statistica classica:
può aiutarci a trovare una correlazione tra produttività e nuovo orario di
lavoro!
ci avverte che correlazione non è causazione, ma non ci dice
esattamente cosa è la causazione e come si identifica.
Le risposte a questa domanda non risiedono nei meri dati
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37

Anteprima parziale del testo

Scarica BUSINESS DATA ANALYTICS MODULO 2 e più Dispense in PDF di E-Business solo su Docsity!

INFERENZA CAUSALE

L'inferenza causale è una scienza che cerca di rispondere a domande che

vertono su relazioni di causa-effetto.

Esempio:

È stato il nuovo management aziendale a ridurre i costi di produzione?

È stata la nuova campagna pubblicitaria ad incrementare le vendite?

L'attività di export è un driver dell'innovazione?

Fino a poco tempo fa, le discipline scientifiche non erano in grado di darci alcun

mezzo anche solo per articolare propriamente tali quesiti!

La Difficile Identificazione dei Rapporti Causali

Per apprezzare la rilevanza di questa mancanza, pensiamo ad una relazione

molto semplice: supponiamo che i lavoratori L di un'azienda siano proporzionali

al suo fatturato F.

Possiamo esprimere questa semplice relazione come

L = kF

, dove k

è una

costante di proporzionalità

Le regole dell'algebra ci consentono di scrivere, per esempio, F = L / k , k = L / F

oppure L − kF = 0.

Il significato è sempre il medesimo: se conosciamo due delle tre variabili

possiamo determinare la terza. Tuttavia, nessuna delle «lettere» della relazione

è «privilegiata» rispetto alle altre.

Come possiamo affermare dalla formula che è l'aumento del fatturato che

causa il cambiamento nel numero di lavoratori e non viceversa?

L'esercizio di determinare rapporti causali non è banale neanche quando le

variabili possono essere matematicamente formalizzate, come nell'esempio

precedente.

I limiti dei dati

Immaginate di avere due aziende, una che ha implementato un nuovo orario di

lavoro e l'altra no.

Guardando puramente ai loro dati di produttività potremmo confrontarli tramite

la statistica «classica» e trovare che la produttività dell'impresa che ha

implementato il nuovo orario di lavoro è maggiore, ma non il perché.

La statistica classica:

 può aiutarci a trovare una correlazione tra produttività e nuovo orario di

lavoro!

 ci avverte che correlazione non è causazione, ma non ci dice

esattamente cosa è la causazione e come si identifica.

 Le risposte a questa domanda non risiedono nei meri dati

La comprensione del fenomeno che stiamo analizzando è fondamentale per

prendere decisioni corrette

 Tornando al nostro esempio: se le aziende che hanno implementato un

nuovo orario lo hanno fatto perché hanno degli amministratori più capaci,

potrebbe essere che quest'ultima sia la causa dell'incremento di

produttività (la produttività sarebbe cresciuta di più lo stesso anche

senza l'implementazione del nuovo orario di lavoro)

 Se ho quindi modo di controllare per altri fattori (es. capacità degli

amministratori) mi avvicino di più al concetto di causazione!

Correlazione vs Causalità

Per capita consumption of mozzarella cheese correlates with Civil engineering

doctorates awarded

Correlazione = co-variabilità

 variabili correlate tendono a variare insieme,

positivamente o

Negativamente.

La causalità implica una relazione tra due (o più) variabili in cui una causa

I’altra.

La correlazione è una condizione necessaria ma non sufficiente per la causalità.

Inferenza statistica

Gli economisti usano dati per rispondere a domande su relazioni di causa-

effetto. Questo è il fulcro della scienza definita come applied econometrics.

Applied econometrics si basa quindi sull'analisi dei dati che devono essere

correttamente interpretati attraverso strumenti di inferenza statistica per

individuare correttamente la relazione di causa-effetto tra variabili.

In generale, supponiamo di avere una variabile x che è correlata con y. Tale

correlazione non significa automaticamente causazione!

Applicazione:

Dopo anni di ricerca, un'impresa farmaceutica ha immesso sul mercato un

nuovo medicinale (M). Tuttavia, alcuni consumatori mettono in discussione

l'efficacia del farmaco. Come consulenti esterni, venite incaricati di dirimere la

questione, stimando l'effetto del medicinale sull'aspettativa di vita ( V ) del

paziente. Come procedere?

Cosa potremmo fare?

Confrontare l'aspettativa di vita per chi prende il medicinale e di chi non

lo prende.

Ma se confrontassimo la frequenza osservata di V per coloro che

volontariamente prendono il farmaco, con coloro che non lo prendono

commetteremmo un errore!

Infatti, la frequenza osservata dell'aspettativa di vita (V) di coloro che

volontariamente hanno preso il medicinale è

P ( V ∣ M )

, che, come visto, non

permette di trarre alcuna conclusione sulla causalità.

Siamo interessati a P ( V ∣ do ( M ))

= la probabilità che il paziente tipico sopravviva V anni se gli dessimo il

medicinale M.

P ( V ∣ M ) potrebbe essere completamente diverso da P ( V ∣ do ( M ) )

Per esempio, se la medicina è presa solo da malati terminali, queste persone

differirebbero sensibilmente da coloro che non prendono il medicinale, e la

comparazione dell'aspettativa di vita fra i due gruppi potrebbe riflettere la

differenza della preesistente condizione di salute piuttosto che l'effetto del

medicinale.

Per rispondere alla richiesta quindi dovremo confrontare

P ( V ∣ do ( M ))

con

P ( V ∣ do ( not − M ), ovvero con l'aspettativa di vita di coloro a cui NON

abbiamo fatto prendere la medicina (il gruppo di comparazione o gruppo di

controllo)

Il do-operator comporta l'intervento nel processo di generazione dei dati invece

che osservarli passivamente. La statistica classica non ha niente di simile al do-

operator.

Y = outcome.

Nell'esempio precedente i risultati accademici di uno studente o l'aspettativa di

vita di un paziente o la produttività di un'impresa.

D = trattamento.

Nell'esempio precedente il debito sottoscritto dagli studenti o il medicinale

analizzato o l'introduzione di un nuovo orario di lavoro.

La correlazione tra Y e D non ci dice nulla di certo sull'effetto causale che D ha

su Y!

Ad esempio, potrebbero esserci altre variabili Z (nell'esempio la disponibilità

finanziaria o, più in generale, il background familiare o lo stato di salute del

paziente o la qualità degli amministratori) che influenzano Y e D e che rendono

nullo l'effetto causale di D su Y.

L’obiettivo dell'inferenza statistica è usare strumenti basati sull'analisi dei dati

che permettano di stimare in modo corretto l'effetto causale di D su Y secondo

il principio del do-operator!

Identificazione del Nesso Causale

L'identificazione del nesso causale beneficia di due strumenti:

 Diagrammi Causali DAG;

 Modello Controfattuale.

Diagrammi causali DAG

Nel 2000, J. Pearl ha introdotto un chiaro ed innovativo approccio grafico al

tema della causalità: il Grafico Aciclico Orientato ( Directed acyclic graph

(DAG)).

L'obiettivo di un DAG è quello di disegnare un sistema causale per

rappresentare esplicitamente tutte le cause dell'outcome di interesse.

È un modello di causalità semplificato in quanto:

 assume un effetto omogeneo su tutte le osservazioni;

 utilizza i soli outcome osservabili e non quelli potenziali;

 si concentra sull'effetto medio incondizionato del trattamento;

 non specifica il tipo di relazione fra le variabili (lineare, quadratica,

cubica...).

Nonostante le semplificazioni, il DAG è un modo molto efficace di pensare ai

sistemi causali di variabili e per identificare le strategie da usare per stimare i

suddetti effetti.

Terminologia

Il Grafico Aciclico Orientato ( Directed Acyclic Graphs - DAGs) si dice

 orientato perché tutte le relazioni puntano da una causa a un effetto (gli

effetti causali non possono essere bidirezionali);

 aciclico perché partendo da qualunque vertice, non possiamo tornare ad

esso percorrendo gli archi del grafo.

f ( x )= f

(

x

1

)

f

(

x

2

∣ x

1

)

f

(

x

3

∣ x

1

)

f

(

x

4

∣ x

2

)

f

(

x

5

∣ x

2

, x

3

)

f

(

x

6

∣ x

3

, x

5

)

f

(

x

7

∣ x

4

, x

5

, x

6

)

Tipi di variabili

La relazione fra A e B è mediata da C

C è un mediator

A e B concausano C

C è un collider

A e B sono entrambi causati da C

C è un confounder

Percorsi Causali

Percorso causale immediato

= percorso causale nel quale nessuna variabile intermedia è presente.

Percorso causale mediato

= percorso causale mediato da altre variabili

Effetto totale di A su B

= combinazione di tutti i percorsi diretti e indiretti da A a B.

Considerazioni

L'utilizzo dei DAGs permette di:

 offrire una rappresentazione delle relazioni causali;

 chiarire le domande di ricerca e evidenziare i concetti rilevanti;

 rendere esplicite le assunzioni dei nostri modelli;

 indentificare appropriatamente le variabili da inserire nell'analisi;

 ottenere risultati più affidabili, riducendo possibili bias.

Per costruire un DAG è necessario:

  1. articolare la domanda di ricerca identificando la causa e l'effetto a cui si è

interessati («qual è l'effetto di A su B?»);

  1. identificare altre variabili rilevanti per la relazione

 Collider,

 Mediator;

  1. identificare variabili confounder;
  2. identificare eventuali variabile non misurate (e/o non misurabili);
  3. identificare possibili processi di «selezione» nello studio (per esempio

criteri di inclusione);

Nel corso degli anni sono stati sviluppati alcuni strumenti a supporto della

costruzione di un DAG (http://www.dagitty.net/).

Esempio: Daggity

La costruzione di un DAG

II produttore di un sistema CRM (customer relation management) ha contattato

la vostra impresa sostenendo che attraverso l'introduzione del sistema, sarete

in grado di ottenere un incremento significativo dei ricavi, grazie a una

maggiore soddisfazione dei clienti. Per convincervi ad acquistare il sistema, il

produttore vi segnala che solitamente le imprese che adottano un CRM sono

molto grandi. Vi viene richiesto di condurre un'analisi per supportare il vostro

direttore IT nella decisione.

Costruire il DAG:

II CRM causa un incremento dei ricavi?

  1. Articolare la domanda di ricerca

Controllare nella pratica

L'Importanza del Controllo: Il Paradosso di Simpson

Paradosso di Simpson

= situazione statistica nella quale un trend o una relazione che è

osservata tra diversi sottogruppi sparisce quando i gruppi sono

combinati. In altre parole, dividendo i dati in gruppi, le conclusioni sono

diverse rispetto a quelle derivanti da un'analisi aggregata.

Esempio:

A livello aggregato le vendite sembrano seguire perfettamente la

pianificazione, ma controllando per i territori di vendita, possiamo vedere

che le performance di A sono gravemente insufficienti mentre quelle di B

eccezionali.

Back-Door Path (BDP)

Controllare può trasformare un percorso naturale aperto in uno chiuso.

Un Back-Door Path (BDP) è un percorso che è diretto verso D da una parte e

termina verso Y dall'altra, cioè una connessione fra D e Y che non segue il

percorso delle frecce ( D e Y hanno un confounder).

Lasciare un BDP «aperto» introduce un bias ( confounding bias) e non permette

di identificare l'effetto causale.

Per identificare il nesso causale è necessario bloccare tutti i BDP aperti, in

modo che la relazione D e Y non sia influenzata da confounders.

Un Back-Door Path aperto può essere bloccato controllando per alcune variabili

del BDP.

Identificazione con DAGs

Il controllo di variabili è funzionale all'identificazione del nesso causale perché

rimuove la parte non-causale dell'effetto di D su Y

Controllando C, eliminiamo impatto di C su D ed A. La relazione fra D e Y è ora

determinata solo da un percorso diretto

Ciò che conta è che tutti i percorsi che non sono il percorso a cui siamo

interessati siano bloccati

Overcontrolling

Nell'esempio precedente avremmo potuto controllare sia C che A ,

identificando correttamente il nesso causale fra D e Y.

Ma allora perché non controllare direttamente per quante più variabili possibili,

senza perdere tempo a capire le varie relazioni fra le variabili in gioco?

Controllare le variabili senza alcun criterio può invalidare il modello se:

 la variabile controllata è un mediator, ovvero una discendente di

D in un percorso diretto a Y ;

 la variabile controllata è una collider in un back-door path da D a

Y.

Variabili Discendenti

L’effetto causale di D su Y è totalmente mediato da C

L'effetto causale di D su Y è parzialmente mediato da C

  • negato ○ concesso

Il criterio del Back-Door

Condizioni sufficienti per l'identificazione dei nessi causali nei DAG:

  1. Identifica tutti i back-door path da D a Y
  2. Indentifico i mediator
  3. Blocca tutti i back-door path aperti controllandone le variabili

(confounder)

  1. Sto attento a non controllare per mediator e collider

Il criterio del Front-Door

Supponiamo U sia inosservabile. Il sistema non è identificabile perché U è una

variabile confounder che non possiamo controllare in quanto inosservabile

Di conseguenza, il BDP D ← U → Y non può essere chiuso

È necessaria una nuova strategia per identificare effetto di D su Y.

Il metodo front-door prevede l’applicazione di due fasi consecutive:

 identificazione di D → N e N → Y ;

 identificazione di D → M e M → Y.

Combiniamo infine l'effetto di N e M su Y per identificare effetto causale di D

su Y.

Per applicare il criterio del front-door, le variabili N e M devono essere

 esaustive

= la combinazione di N e M cattura tutto l'effetto di D su Y;

 isolate

= tutti i back-door path da M a N sono bloccati una volta

controllata D (ovvero non esistono confounder per M e N).

Esempio:

È dato il seguente Directed Acyclic Graph (DAG) che descrive le relazioni tra le

diverse variabili. In particolare, Y è la variabile dipendente, D è la variabile

trattamento, A, B e C sono altre variabili osservabili ed U è una variabile non

osservabile. Si supponga di voler studiare l'impatto della variabile D sulla

variabile Y.

Indicare le affermazioni vere:

 D è un collider rispetto a B e C

vero, le variabili B e C concausano D.

 A è un mediator dell’impatto di D su Y

falso, A è un confounder dell'impatto di D su Y.

 al fine di chiudere tutti i BDP aperti è sufficiente controllare la variabile A

vero, la variabile A è presente in tutti i BDP aperti e controllare per

tale variabile consente di chiudere tutti i BDP aperti.

 se la variabile U influenzasse anche la variabile Y (oltre a D ), la

regressione Y

i

0

1

D

i

2

A

i

3

B

i

i

fornirebbe una

stima biased del coefficiente

1

vero, perché in tal caso si avrebbe un BDP aperto

( U → D → Y ; U → Y ) che non viene chiuso poiché U non è

osservabile.

 nessuna delle altre risposte è corretta

falso, come conseguenza delle risposte 1, 3 e 4 che sono vere.

Y

1 i

mentre

Y

0 i

; la copertura assicurativa ha quindi un impatto

positivo dato da

Y

1 i

− Y

0 i

Y

1 j

e

Y

0 j

; ovvero per j la copertura assicurativa ha un effetto

causale nullo

Coerentemente i decide di sottoscrivere la copertura assicurativa mentre j

no.

Nella realtà noi non abbiamo tutte queste informazioni.

Conosciamo solo

Y

1 i

e

Y

0 j

mentre non conosciamo

Y

0 i

e

Y

1 j

Se utilizzassimo le sole informazioni a disposizione e confrontassimo, quindi,

lo stato di salute dei due soggetti, che è quello che facciamo con un

confronto univariato tra trattate e controllo, dovremmo dire che la stima

dell'effetto causale della copertura assicurativa sullo stato di salute è dato

da:

Y

1 i

− Y

0 j

Diremmo pertanto che chi sottoscrive la polizza ha uno stato peggiore di chi

sceglie di non sottoscriverla e dedurremmo che la polizza ha un impatto

negativo sullo stato di salute!

Quindi, il semplice confronto univariato tra trattate e controllo ci dice poco (o ci

porta a conclusioni errate) sull'effetto causale della variabile di trattamento.

Vediamo cosa succede se modifico la formula aggiungendo e sottraendo

Y

0 i

ovvero lo stato di salute della trattata se non ci fosse il trattamento:

Y

1 i

− Y

0 j

= Y

1 i

− Y

0 i

(

Y

0 i

− Y

0 j

)

Ovvero l'effetto causale del trattamento (1) + la differenza tra i e j se entrambi

scegliessero di non sottoscrivere la copertura assicurativa (differenze pre-

esistenti).

Questo secondo termine descrive la fragilità di i rispetto a j, ed è ciò che,

nell'obiettivo di individuare la relazione causale tra trattamento e outcome,

viene definito come selection bias.

Il confronto univariato quindi non permette di valutare in modo corretto la

relazione causale tra trattamento e outcome a causa del selection bias, ovvero

della differenza tra trattate e controllo prima del trattamento!

Come detto in precedenza, se noi potessimo vedere e misurare l'outcome per

le trattate se non avessero il trattamento (stato di salute=3 nell'esempio dato),

potremmo facilmente stimare l'effetto causale come differenza (4-3). Ma, nella

maggior parte degli esperimenti reali noi non lo vediamo. Quello che possiamo

vedere e registrare è solo lo stato di salute dei non

Più in generale, estendendo a campioni di trattate e controllo composti da più

di un'osservazione possiamo dire:

Avg

Y ∣ D = 1

− Avg

Y ∣ D = 0

= effetto causale

k

+ selection bias

k = effetto causale assunto come costante su tutto il campione;

Selection bias = differenza in media tra trattate e controllo.

Se tra trattate e controllo esistessero delle differenze (nell'esempio precedente

legate al reddito, al livello di educazione e allo stato lavorativo), tali differenze

possono spiegare l'analisi univariata, ovvero la differenza in media nella

variabile di outcome.

N.B. Se anche l'effetto del trattamento fosse nullo ( k = 0 ), ci sarebbero

comunque delle differenze nella variabile di outcome ( 3 − 5 =− 2 nel nostro

esempio), legate agli altri fattori (educazione, reddito, stato lavorativo).

Se l'unica ragione di selection bias fossero differenze che possiamo osservare e

misurare (come educazione, reddito e lavoro) allora il problema sarebbe

semplice da risolvere.

Ad esempio, potremmo prendere come campione di controllo soggetti

caratterizzati da un livello di educazione, di reddito e di stato lavorativo, simili

alle trattate!

Obiettivo dell'inferenza statistica in generale e del randomized trial (come

vedremo dopo) in particolare è quello di eliminare tali differenze scegliendo

opportunamente i dati.

N.B. In realtà spesso esistono differenze non osservabili. Quindi anche

confrontando due campioni di trattate e controllo simili per le

caratteristiche osservabili (es. stesso livello di educazione, reddito e

lavoro), ancora le trattate possono avere valori differenti di

Y

0 i

Il trattamento può essere rappresentato con una variabile dicotomica:

D

i

se individuo i è trattato,

D

i

se non lo è.

Il gruppo dei D

i

= 0 è definito gruppo di controllo ( C )

Il gruppo dei

D

i

è definito gruppo di trattamento ( T )

L’outcome potenziale è

Y

1 i

se l’unità i è trattata (

D

i

)

Y

0 i

se l’unità i non è trattata

(

D

i

)

Y

i

= Y

0 i

(

Y

1 i

− Y

0 i

)

D

i

Impatto causale

= differenza tra il risultato del trattamento (

Y

1 i

)

e il risultato che

avremmo osservato in assenza del trattamento (

Y

0 i

Y

1 i

− Y

0 i

= effetto medio del trattamento

= differenza tra il valore atteso di

Y

1

e

Y

0

ATT ( Average Treatment Effect on Treated)

E ( δ ∣ D = 1 )= E

(

Y

1

− Y

0

∣ D = 1

)

= E

(

Y

1

∣ D = 1

)

− E

(

Y

0

∣ D = 1

)

= effetto medio del trattamento per i trattati

ATU/ATNT ( Average Treatment Effect on Untreated/Non Treated)

E ( δ ∣ D = 0 )= E

(

Y

1

− Y

0

∣ D = 0

)

= E

(

Y

1

∣ D = 0

)

− E

(

Y

0

∣ D = 0

)

= quale sarebbe stato effetto medio del trattamento su quelli non

esposti al

trattamento

ATE è una combinazione lineare di ATT e ATU

Si indica con μ la percentuale della popolazione trattata.

ATE è la media ponderata di ATT e ATU per le percentuali dei trattati e non

trattati

ATE = μATT +( 1 − μ ) ATU

Che può essere anche scritto come:

E ( δ )= Pr ( D = 1 ) E ( δ ∣ D = 1 )+ Pr ( D = 0 ) E ( δ ∣ D = 0 )

Per stimare ATE possiamo stimare ATT e ATU.

Lo Stimatore Ingenuo e l'Effetto di Selezione

Per stimare ATT si potrebbero utilizzare soltanto le informazioni osservate e

definire uno stimatore “ingenuo” ( Naive Estimator - NE):

NE = E

(

Y

1

∣ D = 1

)

− E

(

Y

0

∣ D = 0

)

Sarebbe corretto?

Per rispondere alla domanda confrontiamo questo stimatore con ATT ricordando

che

ATT = E

(

Y

1

∣ D = 1

)

− E

(

Y

0

∣ D = 1

)

A partire dallo stimatore NE , ricaviamo ATT , aggiungendo e sottraendo

E

(

Y

0

∣ D = 1

)

NE = E

(

Y

1

∣ D = 1

)

− E

(

Y

0

∣ D = 0

)

+ E

(

Y

0

∣ D = 1

)

− E

(

Y

0

∣ D = 1

)

NE = E

(

Y

1

∣ D = 1

)

− E

(

Y

0

∣ D = 1

)

+ E

(

Y

0

∣ D = 1

)

− E

(

Y

0

∣ D = 0

)

Bias = E

(

Y

0

∣ D = 1

)

− E

(

Y

0

∣ D = 0

)

Indica quanto sbaglieremmo se approssimassimo ciò che non osserviamo,

E

(

Y

0

∣ D = 1

), con ciò che osserviamo,

E

(

Y

0

∣ D = 0

).

Ricaviamo anche ATU partendo dallo stimatore ingenuo

Aggiungiamo e sottraiamo

E

(

Y

1

∣ D = 0

)

NE = E

(

Y

1

∣ D = 1

)

− E

(

Y

0

∣ D = 0

)

+ E

(

Y

1

∣ D = 0

)

− E

(

Y

1

∣ D = 0

)

NE = E

(

Y

1

∣ D = 0

)

− E

(

Y

0

∣ D = 0

)

+ E

(

Y

1

∣ D = 1

)

− E

(

Y

1

∣ D = 0

)

ATU BIAS

L'interpretazione del bias è analoga a quella precedente

Di conseguenza, anche l'ATE stimato con NE non sarà privo di bias:

NE = π

(

ATT + Bias

NEATT

)

(

ATU + Bias

NEATU

)

Esempio:

Outcome con

trattamento (

Y

1

)

Outcome senza

trattamento (

Y

0

)

Gruppo trattamento (

D = 1 )

Gruppo controllo (

D = 0 )

Non osservabili!

NE = 10 − 4 = 6

ATT = 10 − 7 = 3

ATU = 8 − 4 = 4

ATE ( con μ =0.5)= 3 ∗0.5+ 4 ∗0.5=3.

La semplice comparazione dei risultati medi di T e C, o la regressione di Y su D,

darà una stima inconsistente di ATE, ATT e ATU.

Esempio: