REGRESSIONE LOGISTICA

Il modello di regressione logistica è un caso particolare dell’analisi di regressione, che trova

applicazione quando la variabile dipendente è dicotomica (binaria). Una variabile dicotomica

può assumere solo due modalità o eventi. Convenzionalmente si associa 1 all’evento di

interesse (successo) e 0 all’evento complementare (insuccesso). Il modello di regressione

logistica permette di analizzare la relazione causale tra una variabile dipendente dicotomica e

una o più variabili indipendenti. Ha molteplici ambiti di applicazioni:

• Il grado di soddisfazione dei clienti (soddisfatto/non soddisfatto)

• Le cause di acquisto di un determinato prodotto (acquisto/non acquisto)

• L’efficacia delle campagne di marketing (risconto positivo/negativo)

• Lo status di salute di un’azienda (sana/in crisi)

• Analisi del rischio finanziario di un cliente (solvente/ non solvente) REGRESSIONE

La v.c. diconomica Y che assume solo due valori: 1 con probabilità π e 0 con probabilità 1-π

(con 𝟎 < 𝝅 < 𝟏) è detta v.c. di Bernoulli.

Data la v.c. dicotomica Y, per l’i-esima unità statistica si assume:

Utilizzando un modello di regressione logistica, dopo aver selezionato un set opportuno di

variabili esplicative, si può stimare la probabilità che si verifichi o meno l’acquisto del

prodotto.

REGRESSIONE LOGISTICA vs REGRESSIONE LINEARE

Una regressione lineare sarebbe inappropriata per due ragioni: 1 nell’analisi regressione

lineare la distribuzione della variabile dipendente si assume normale, mentre una variabile

risposta dicotomica segue la distribuzione di Bernoulli, 2 nell’analisi di regressione lineare i

valori stimati della variabile dipendente (𝒀) possono assumere valori nell’intervallo (+∞; −∞),

mentre nell’analisi di regressione logistica la stima di Y, ovvero il valore previsto della

probabilità (𝝅), deve variare tra 0 e 1.

MODELLO DI PROBABILITÀ LINEARE

Considerando una singola variabile esplicativa il modello di probabilità lineare:

Anteprima parziale del testo

Scarica Regressione Logistica: Modelli e Applicazioni - Prof. Punzo e più Dispense in PDF di Analisi Dei Dati solo su Docsity!

REGRESSIONE LOGISTICA

Il modello di regressione logistica è un caso particolare dell’analisi di regressione, che trova applicazione quando la variabile dipendente è dicotomica (binaria). Una variabile dicotomica può assumere solo due modalità o eventi. Convenzionalmente si associa 1 all’evento di interesse (successo) e 0 all’evento complementare (insuccesso). Il modello di regressione logistica permette di analizzare la relazione causale tra una variabile dipendente dicotomica e una o più variabili indipendenti. Ha molteplici ambiti di applicazioni:

Il grado di soddisfazione dei clienti (soddisfatto/non soddisfatto)
Le cause di acquisto di un determinato prodotto (acquisto/non acquisto)
L’efficacia delle campagne di marketing (risconto positivo/negativo)
Lo status di salute di un’azienda (sana/in crisi)
Analisi del rischio finanziario di un cliente (solvente/ non solvente) REGRESSIONE La v.c. diconomica Y che assume solo due valori: 1 con probabilità π e 0 con probabilità 1-π (con 𝟎 < 𝝅 < 𝟏) è detta v.c. di Bernoulli. Data la v.c. dicotomica Y, per l’i-esima unità statistica si assume: Utilizzando un modello di regressione logistica, dopo aver selezionato un set opportuno di variabili esplicative, si può stimare la probabilità che si verifichi o meno l’acquisto del prodotto. REGRESSIONE LOGISTICA vs REGRESSIONE LINEARE Una regressione lineare sarebbe inappropriata per due ragioni: 1 nell’analisi regressione lineare la distribuzione della variabile dipendente si assume normale, mentre una variabile risposta dicotomica segue la distribuzione di Bernoulli, 2 nell’analisi di regressione lineare i valori stimati della variabile dipendente (𝒀) possono assumere valori nell’intervallo (+∞; −∞), mentre nell’analisi di regressione logistica la stima di Y, ovvero il valore previsto della probabilità (𝝅), deve variare tra 0 e 1. MODELLO DI PROBABILITÀ LINEARE Considerando una singola variabile esplicativa il modello di probabilità lineare:

implica che la probabilità di successo (𝝅) sia funzione lineare di X. Questo modello è inappropriato in quanto implica che la probabilità possa assumere valori inferiori a 0 e al di sopra di 1. MODELLO DI REGRESSIONE LINEARE FUNZIONE LOGISTICA Pertanto, si utilizza la funzione logistica che esprime la probabilità di successo (π) secondo la formulazione: Tale formulazione non può dar luogo ad un valore negativo o maggiore di 1, limitando il valore stimato di 𝝅 al range richiesto. La probabilità associata all’evento insuccesso (1-π) di conseguenza sarà: Il rapporto tra la probabilità di successo ed il suo complemento è definito odd:

MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (PREVISIONE)

MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (INTERPRETAZIONE DEL COEFFICIENTE

DI REGRESSIONE)

Regressione lineare semplice: il valore del coefficiente di regressione 𝜷𝟏 rappresenta la variazione media di Y associata ad un incremento unitario di X. Regressione logistica semplice: il valore del coefficiente di regressione 𝜷𝟏 esprime la variazione del logit corrispondente ad un incremento unitario di X. MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (INTEPRETAZIONE DEL COEFFICIENTE DI REGRESSIONE: ODDS RATIO) Un’altra interpretazione del coefficiente della regressione logistica 𝜷𝟏 si basa sul concetto di odds ratio. L'odds ratio (rapporto tra odds, indicato con OR) esprime il rapporto tra le probabilità di successo (o che l’evento si verifichi) in due condizioni distinte in base al valore della variabile indipendente. Nel caso in cui la variabile indipendente 𝑿 sia continua, l’OR dell’evento successo corrispondente ad una variazione unitaria in 𝑿 è uguale ad. 𝟎 < 𝑶𝑹 < +∞ IL MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (INTERPRETAZIONE ODDS RATIO) Per una variabile risposta 𝑿 continua: Se 𝑶𝑹 = 𝟏: gli odds e le probabilità dell’evento successo (𝝅) sono uguali per ogni valore di 𝑿, ovvero la variabile indipendente in esame non ha alcun effetto sulla variabile risposta. Non c’è associazione tra le due variabili. Se 𝑶𝑹 > 𝟏: l’odd e la probabilità dell’evento successo aumentano al crescere di 𝑿. Si può calcolare l’incremento percentuale dell’odd associato ad un incremento unitario di X come (𝒆 𝜷𝟏 − 𝟏) ∙ 𝟏𝟎𝟎. Se 𝑶𝑹 < 𝟏: l’odd e la probabilità dell’evento successo decrescono al crescere di X. Si può calcolare la riduzione percentuale dell’odd associato ad un incremento unitario di X come (𝟏 − ) ∙ 𝟏𝟎𝟎. MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (TEST DI IPOTESI PER LA SIGNIFICATIVITA’ DEL COEFFICIENTE β1) Una volta stimato il coefficiente di regressione β1 è necessario verificare che la relazione 𝑿 e la variabile risposta sia significativa, ovvero valutare la significatività dei coefficienti stimati.

Per effettuare tale verifica si utilizza solitamente il test di Wald che, analogamente al test t effettuato per la regressione lineare, si basa sul seguente sistema di ipotesi: MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (TEST DI IPOTESI PER LA SIGNIFICATIVITA’ DEL COEFFICIENTE β1) MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (TEST DI IPOTESI PER LA SIGNIFICATIVITA’ DEL COEFFICIENTE β1) Per risolvere tale problema di verifica ti ipotesi si utilizza la statistica test: Alcuni software riportano il quadrato di questa statistica test che si distribuisce secondo una 𝝌𝟐 con 1 grado di libertà MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (TEST DI IPOTESI PER LA SIGNIFICATIVITA’ DEL COEFFICIENTE β1) Per verificare l’ipotesi di significatività dei coefficienti si confronta il valore empirico (𝐳𝐬𝐭𝐚𝐭) con il valore teorico/soglia ±𝒛*𝜶\𝟐 sulla distribuzione normale standardizzata.

Regressione Logistica: Modelli e Applicazioni - Prof. Punzo, Dispense di Analisi Dei Dati

Documenti correlati

Anteprima parziale del testo

Scarica Regressione Logistica: Modelli e Applicazioni - Prof. Punzo e più Dispense in PDF di Analisi Dei Dati solo su Docsity!

REGRESSIONE LOGISTICA

MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (PREVISIONE)

MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (INTERPRETAZIONE DEL COEFFICIENTE

DI REGRESSIONE)