Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Regressione Logistica: Modelli e Applicazioni - Prof. Punzo, Dispense di Analisi Dei Dati

Una panoramica completa della regressione logistica, un modello statistico utilizzato per analizzare la relazione tra una variabile dipendente dicotomica e una o più variabili indipendenti. I concetti chiave, le differenze con la regressione lineare, la funzione logistica, il modello di probabilità lineare, il modello di regressione logistica semplice, la stima dei parametri, la previsione, l'interpretazione del coefficiente di regressione, l'odds ratio, il test di ipotesi per la significatività del coefficiente β1 e il p-value. Ricco di esempi e illustrazioni che aiutano a comprendere i concetti chiave e le applicazioni pratiche della regressione logistica.

Tipologia: Dispense

2023/2024

Caricato il 28/01/2025

Giulaina
Giulaina 🇮🇹

5

(1)

2 documenti

1 / 6

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
REGRESSIONE LOGISTICA
Il modello di regressione logistica è un caso particolare dell’analisi di regressione, che trova
applicazione quando la variabile dipendente è dicotomica (binaria). Una variabile dicotomica
può assumere solo due modalità o eventi. Convenzionalmente si associa 1 all’evento di
interesse (successo) e 0 all’evento complementare (insuccesso). Il modello di regressione
logistica permette di analizzare la relazione causale tra una variabile dipendente dicotomica e
una o più variabili indipendenti. Ha molteplici ambiti di applicazioni:
• Il grado di soddisfazione dei clienti (soddisfatto/non soddisfatto)
• Le cause di acquisto di un determinato prodotto (acquisto/non acquisto)
• L’efficacia delle campagne di marketing (risconto positivo/negativo)
• Lo status di salute di un’azienda (sana/in crisi)
• Analisi del rischio finanziario di un cliente (solvente/ non solvente) REGRESSIONE
La v.c. diconomica Y che assume solo due valori: 1 con probabilità π e 0 con probabilità 1-π
(con 𝟎 < 𝝅 < 𝟏) è detta v.c. di Bernoulli.
Data la v.c. dicotomica Y, per l’i-esima unità statistica si assume:
Utilizzando un modello di regressione logistica, dopo aver selezionato un set opportuno di
variabili esplicative, si può stimare la probabilità che si verifichi o meno l’acquisto del
prodotto.
REGRESSIONE LOGISTICA vs REGRESSIONE LINEARE
Una regressione lineare sarebbe inappropriata per due ragioni: 1 nell’analisi regressione
lineare la distribuzione della variabile dipendente si assume normale, mentre una variabile
risposta dicotomica segue la distribuzione di Bernoulli, 2 nell’analisi di regressione lineare i
valori stimati della variabile dipendente (𝒀) possono assumere valori nell’intervallo (+∞; −∞),
mentre nell’analisi di regressione logistica la stima di Y, ovvero il valore previsto della
probabilità (𝝅), deve variare tra 0 e 1.
MODELLO DI PROBABILITÀ LINEARE
Considerando una singola variabile esplicativa il modello di probabilità lineare:
pf3
pf4
pf5

Anteprima parziale del testo

Scarica Regressione Logistica: Modelli e Applicazioni - Prof. Punzo e più Dispense in PDF di Analisi Dei Dati solo su Docsity!

REGRESSIONE LOGISTICA

Il modello di regressione logistica è un caso particolare dell’analisi di regressione, che trova applicazione quando la variabile dipendente è dicotomica (binaria). Una variabile dicotomica può assumere solo due modalità o eventi. Convenzionalmente si associa 1 all’evento di interesse (successo) e 0 all’evento complementare (insuccesso). Il modello di regressione logistica permette di analizzare la relazione causale tra una variabile dipendente dicotomica e una o più variabili indipendenti. Ha molteplici ambiti di applicazioni:

  • Il grado di soddisfazione dei clienti (soddisfatto/non soddisfatto)
  • Le cause di acquisto di un determinato prodotto (acquisto/non acquisto)
  • L’efficacia delle campagne di marketing (risconto positivo/negativo)
  • Lo status di salute di un’azienda (sana/in crisi)
  • Analisi del rischio finanziario di un cliente (solvente/ non solvente) REGRESSIONE La v.c. diconomica Y che assume solo due valori: 1 con probabilità π e 0 con probabilità 1-π (con 𝟎 < 𝝅 < 𝟏) è detta v.c. di Bernoulli. Data la v.c. dicotomica Y, per l’i-esima unità statistica si assume: Utilizzando un modello di regressione logistica, dopo aver selezionato un set opportuno di variabili esplicative, si può stimare la probabilità che si verifichi o meno l’acquisto del prodotto. REGRESSIONE LOGISTICA vs REGRESSIONE LINEARE Una regressione lineare sarebbe inappropriata per due ragioni: 1 nell’analisi regressione lineare la distribuzione della variabile dipendente si assume normale, mentre una variabile risposta dicotomica segue la distribuzione di Bernoulli, 2 nell’analisi di regressione lineare i valori stimati della variabile dipendente (𝒀) possono assumere valori nell’intervallo (+∞; −∞), mentre nell’analisi di regressione logistica la stima di Y, ovvero il valore previsto della probabilità (𝝅), deve variare tra 0 e 1. MODELLO DI PROBABILITÀ LINEARE Considerando una singola variabile esplicativa il modello di probabilità lineare:

implica che la probabilità di successo (𝝅) sia funzione lineare di X. Questo modello è inappropriato in quanto implica che la probabilità possa assumere valori inferiori a 0 e al di sopra di 1. MODELLO DI REGRESSIONE LINEARE FUNZIONE LOGISTICA Pertanto, si utilizza la funzione logistica che esprime la probabilità di successo (π) secondo la formulazione: Tale formulazione non può dar luogo ad un valore negativo o maggiore di 1, limitando il valore stimato di 𝝅 al range richiesto. La probabilità associata all’evento insuccesso (1-π) di conseguenza sarà: Il rapporto tra la probabilità di successo ed il suo complemento è definito odd:

MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (PREVISIONE)

MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (INTERPRETAZIONE DEL COEFFICIENTE

DI REGRESSIONE)

Regressione lineare semplice: il valore del coefficiente di regressione 𝜷𝟏 rappresenta la variazione media di Y associata ad un incremento unitario di X. Regressione logistica semplice: il valore del coefficiente di regressione 𝜷𝟏 esprime la variazione del logit corrispondente ad un incremento unitario di X. MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (INTEPRETAZIONE DEL COEFFICIENTE DI REGRESSIONE: ODDS RATIO) Un’altra interpretazione del coefficiente della regressione logistica 𝜷𝟏 si basa sul concetto di odds ratio. L'odds ratio (rapporto tra odds, indicato con OR) esprime il rapporto tra le probabilità di successo (o che l’evento si verifichi) in due condizioni distinte in base al valore della variabile indipendente. Nel caso in cui la variabile indipendente 𝑿 sia continua, l’OR dell’evento successo corrispondente ad una variazione unitaria in 𝑿 è uguale ad. 𝟎 < 𝑶𝑹 < +∞ IL MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (INTERPRETAZIONE ODDS RATIO) Per una variabile risposta 𝑿 continua: Se 𝑶𝑹 = 𝟏: gli odds e le probabilità dell’evento successo (𝝅) sono uguali per ogni valore di 𝑿, ovvero la variabile indipendente in esame non ha alcun effetto sulla variabile risposta. Non c’è associazione tra le due variabili. Se 𝑶𝑹 > 𝟏: l’odd e la probabilità dell’evento successo aumentano al crescere di 𝑿. Si può calcolare l’incremento percentuale dell’odd associato ad un incremento unitario di X come (𝒆 𝜷𝟏 − 𝟏) ∙ 𝟏𝟎𝟎. Se 𝑶𝑹 < 𝟏: l’odd e la probabilità dell’evento successo decrescono al crescere di X. Si può calcolare la riduzione percentuale dell’odd associato ad un incremento unitario di X come (𝟏 − ) ∙ 𝟏𝟎𝟎. MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (TEST DI IPOTESI PER LA SIGNIFICATIVITA’ DEL COEFFICIENTE β1) Una volta stimato il coefficiente di regressione β1 è necessario verificare che la relazione 𝑿 e la variabile risposta sia significativa, ovvero valutare la significatività dei coefficienti stimati.

Per effettuare tale verifica si utilizza solitamente il test di Wald che, analogamente al test t effettuato per la regressione lineare, si basa sul seguente sistema di ipotesi: MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (TEST DI IPOTESI PER LA SIGNIFICATIVITA’ DEL COEFFICIENTE β1) MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (TEST DI IPOTESI PER LA SIGNIFICATIVITA’ DEL COEFFICIENTE β1) Per risolvere tale problema di verifica ti ipotesi si utilizza la statistica test: Alcuni software riportano il quadrato di questa statistica test che si distribuisce secondo una 𝝌𝟐 con 1 grado di libertà MODELLO DI REGRESSIONE LOGISTICA SEMPLICE (TEST DI IPOTESI PER LA SIGNIFICATIVITA’ DEL COEFFICIENTE β1) Per verificare l’ipotesi di significatività dei coefficienti si confronta il valore empirico (𝐳𝐬𝐭𝐚𝐭) con il valore teorico/soglia ±𝒛*𝜶\𝟐 sulla distribuzione normale standardizzata.