Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Introducción a la regresión logística, Apuntes de Logística

La regresión logística es un procedimiento cuantitativo de gran utilidad para problemas donde la variable dependiente toma valores en un conjunto finito.

Tipo: Apuntes

2021/2022

Subido el 10/10/2022

pulguita86
pulguita86 🇪🇸

4.3

(3)

140 documentos

1 / 11

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Departamento de Estadística
Universidad Carlos III de Madrid
BIOESTADISTICA (55 - 10536)
Introducción a la regresión logística
1. INTRODUCCIÓN
La regresión logística es un procedimiento cuantitativo de gran utilidad para problemas donde la variable
dependiente toma valores en un conjunto finito. Su uso se impone de manera creciente desde la década
de los 80 debido a las facilidades computacionales con que se cuenta desde entonces. A continuación,
desarrollaremos el caso especial en que la variable dependiente o respuesta es dicotómica.
Supongamos que la variable dependiente Y representa la ocurrencia o no de un suceso, por ejemplo:
- un paciente muere o no antes del alta.
- una persona deja o no de fumar después de un tratamiento.
- en un estudio retrospectivo un individuo es caso o control.
- un paciente positivo al VIH está o no en el estado IV.
Podemos decir que la variable dependiente Y toma valor 1 si ocurre el suceso, y valor 0 si no ocurre el
suceso.
Por otra parte nos interesa estudiar la relación entre una o más variables independientes o explicativas:
X1, X2, ..., Xp y la variable Y. El modelo logístico establece la siguiente relación entre la probabilidad de
que ocurra el suceso, dado que el individuo presenta los valores X1=x1, X2=x2,...,Xp=xp:
Otra forma de presentar esta relación es:
11 2 2
Pr( 1| )
log it( Pr ( 1| )) log ,
1Pr( 1|) pp
Y= x
Y= x x x x
Y= x
αβ β β

==++++


donde denotamos con Pr( 1| )Yx= la probabilidad condicional 12
Pr( 1 , , , )
p
Y= | x x x.
Un problema importante es estimar los parámetros α, ßi's, a partir de un conjunto de observaciones. El
procedimiento de estimación de estos parámetros se basa en el método de máxima verosimilitud. Existen
varios programas que realizan estas estimaciones, por ejemplo: LOGIT, RELODI (que utilizaremos en
nuestra exposición), MULTLR, EPISTAT, BMDP, SAS, etc., mediante la obtención del máximo del
logaritmo de la función de verosimilitud:
1
(, ) ln( ) (1 )ln(1 ),
n
ii i i
i
L
yypyp
β
=
=+
donde n es el número de observaciones y Pr( | )
ii
i=Yyx
p=.
12
11 2 2
1
Pr( 1 , , , ) .
1exp( )
p
pp
Y= | x x x = +xxx
αβ β β
−−
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Introducción a la regresión logística y más Apuntes en PDF de Logística solo en Docsity!

Departamento de Estadística

Universidad Carlos III de Madrid

BIOESTADISTICA (55 - 10536)

Introducción a la regresión logística

1. INTRODUCCIÓN

La regresión logística es un procedimiento cuantitativo de gran utilidad para problemas donde la variable dependiente toma valores en un conjunto finito. Su uso se impone de manera creciente desde la década de los 80 debido a las facilidades computacionales con que se cuenta desde entonces. A continuación, desarrollaremos el caso especial en que la variable dependiente o respuesta es dicotómica.

Supongamos que la variable dependiente Y representa la ocurrencia o no de un suceso, por ejemplo:

  • un paciente muere o no antes del alta.
  • una persona deja o no de fumar después de un tratamiento.
  • en un estudio retrospectivo un individuo es caso o control.
  • un paciente positivo al VIH está o no en el estado IV.

Podemos decir que la variable dependiente Y toma valor 1 si ocurre el suceso, y valor 0 si no ocurre el suceso.

Por otra parte nos interesa estudiar la relación entre una o más variables independientes o explicativas: X 1 , X 2 , ..., Xp y la variable Y. El modelo logístico establece la siguiente relación entre la probabilidad de que ocurra el suceso, dado que el individuo presenta los valores X 1 = x 1 , X 2 = x 2 ,..., Xp = x (^) p :

Otra forma de presentar esta relación es:

1 1 2 2

Pr( 1| ) log it( Pr( 1| )) log , 1 Pr( 1| ) p^ p

Y = x Y = x x x x Y = x

α β β β

donde denotamos con Pr( Y = 1| x )la probabilidad condicional Pr( Y = 1 | x 1 (^) , x 2 , , xp ).

Un problema importante es estimar los parámetros α , ß i's, a partir de un conjunto de observaciones. El procedimiento de estimación de estos parámetros se basa en el método de máxima verosimilitud. Existen varios programas que realizan estas estimaciones, por ejemplo: LOGIT, RELODI (que utilizaremos en nuestra exposición), MULTLR, EPISTAT, BMDP, SAS, etc., mediante la obtención del máximo del logaritmo de la función de verosimilitud:

1

( , ) ln( ) (1 ) ln(1 ),

n i i i i i

L y β y p y p

= (^) ∑ + − −

donde n es el número de observaciones y (^) p (^) i = Pr( Y = yi | xi ).

1 2 1 1 2 2

Pr( 1 , , , ). p 1 exp( (^) p p ) Y = | x x x =

+ − α − β x − β x − −β x

Una vez que hayamos calculado los estimadores máximo-verosímiles (MV) de ßi 's, puede interesarnos el cálculo de intervalos de confianza de estos parámetros, para ello podemos utilizar la estimación de la matriz de covarianza de los estimadores MV de los ßi. El intervalo de confianza del 100*(1-α)% puede calcularse por:

ˆ (^) 1 - /2 Var(ˆ ˆ).

β i ±^ z α β i.

Podemos también contrastar la hipótesis nula H 0 : ßi =0 mediante el siguiente estadístico:

Var(ˆ^ ˆ)

i

i

Z =

Otra vía para probar la hipótesis anterior, cuando se consideran varias variables, es utilizando el máximo de la función de verosimilitud. Ejemplificaremos el procedimiento para el caso de dos variables X 1 y X 2. Se consideran los siguientes modelos:

Modelo 1: logit(Pr( Y = 1 | X 1 )) = α + β 1 X 1.

Modelo 2: logit(Pr( Y = 1 | X 2 )) = α + β 2 X 2.

Modelo 3: logit(Pr( Y = 1 | X 1 , X 2 )) = α + β 1 X + 1 β 2 X 2.

Nos interesa en el modelo 3 probar las hipótesis H 0 : ß 1 =0 y H 0 : ß 2 =0. Sean L ˆ 1 , L ˆ 2 y L ˆ 3 los máximos de la

función de verosimilitud para los modelos 1, 2 y 3, respectivamente. Se cumple

que: - 2ln( (^) L ˆ^ (^) 2 ) − 2ln( (^) L ˆ 3 ) ≈ (^) Z^2 donde

Var(ˆ^ ˆ)

1

1

Z =

, o sea, el estadístico para la primera de las hipótesis.

De manera análoga se tiene: - 2ln( (^) L ˆ 1 ) − 2ln( (^) L ˆ 3 ) ≈ (^) Z^2 con 2

2

Var(ˆ^ ˆ)

Z =

EJEMPLO: En una sala de terapia se desea estudiar la relación entre la sobrevivencia y las variables edad e infarto agudo del miocardio. A continuación mostramos los resultados del programa RELODI para datos de 200 pacientes tratados en esa sala.

Salida abreviada de RELODI (Modelo 1) Número de casos para los cuales FALLECIDO es igual a 1: 76 Tamaño total de la muestra 200

-2 ln verosimilitud final: 245.

Coeficiente S.E. z-score -2. 0.0373 0.0094 3.8009 EDAD

Salida abreviada de RELODI (Modelo 2) Número de casos para los cuales FALLECIDO es igual a 1: 76 Tamaño total de la muestra 200

-2 ln verosimilitud final: 260.

Coeficiente S.E. z-score -0. 0.2531 0.2954 0.8509 INFARTO

caso de que Y =0 o la diferencia de la fecha de la última anotación en la historia clínica y la fecha de

detección si Y =1, o sea:

s d e d

t t si Y t t t si Y

^ =

. Se ajusta el siguiente modelo:

1 Pr( 1| ) 1 exp(- - )

Y t α β t

Salida Abreviada de RELODI Número de casos para los cuales SIGNO es igual a 1: 110 Tamaño total de la muestra 300

Coeficiente S.E. z-score

-0.0168 0.0021 -7.7585 TIEMPO

Se tiene entonces que α ≈1.664 y ß ≈-0.017. Por tanto, la probabilidad de que un paciente no tenga el signo a t días de la detección de la enfermedad se estima por: 1 Pr( 1| ) 1 exp(-1.664 0.017 )

Y t t

De esta manera podemos calcular Pr( Y = 1| ) t para distintos valores de la variable t = 20, 40, 60,..., esta

probabilidad no es más que la prevalencia de pacientes que a t días no tienen el signo en estudio. En el figura 1 se presenta la curva de prevalencia estimada por el modelo. Si el ajuste de la curva es adecuado los datos empíricos (proporción de individuos sin el signo en un grupo de estudio cuya variable t esté en un rango predefinido), serán cercanos a la curva teórica.

Modelo Estadístico de Pronóstico:

Si se desea estimar la probabilidad de la ocurrencia de un suceso en función de un grupo de variables explicativas (predictoras) conocidas: X 1 , X 2 , ..., Xp , puede fijarse un modelo logístico, una vez que se hayan estimado los parámetros α y ßi's, puede calcularse la probabilidad Pr( Y = 1 | x 1 (^) , x 2 , , xp ) para

cualquier individuo cuyos variables independientes toman valores: x 1 , x 2 , ..., xp , respectivamente.

Ejemplos de este tipo de estudios se presentan en la siguiente tabla:

Suceso a predecir Variables predictoras

El tiempo de duración de la estancia de una hospitalización es superior a 7 días

Edad, sexo, diagnóstico principal, procedimiento quirúrgico principal, hospitalizaciones anteriores

Sobrevivencia de un paciente que ingresa a un servicio de quemados

Edad, porcentaje de quemaduras de primer y segundo grado, es o no diabético

Un niño padece de parasitismo intestinal Edad, lugar de residencia, estatura, peso, resultados académicos

El tiempo de sobrevivencia de una paciente que ha sido operada de cáncer de mama es superior a 5 años

Edad de la paciente al momento de la operación, año calendario de la operación, número de nódulos positivos detectados

EJEMPLO: Se desea conocer la probabilidad de que un paciente que se ingresa en una sala de terapia intensiva sobreviva. Para este tipo de estudios es recomendable la definición de grupos diagnósticos (conjunto de entidades o enfermedades que tienen en común afectar a un mismo sistema del organismo), por tanto en nuestro ejemplo nos limitaremos a algunas de las variables que puedan influir el pronóstico de la evolución de pacientes con Enfermedades del Sistema Cardiocirculatorio (ESCC):

Edad (años) X 1 Enfermedad Hipertensiva (S/N) X 2 Insuficiencia Cardiaca (S/N) X 3 Disrritmia (S/N) X 4 Infarto Agudo del Miocardio (S/N) X 5 Enfermedad Pulmonar Obstructiva Crónica y afecciones afines (S/N) X 6 Ingresos anteriores por estas causas (#) X 7

Se estudiarán entonces un grupo de pacientes que ingresen a la sala de terapia intensiva con diagnóstico de ESCC, se les medirán las variables anteriores, que definiremos como 1 si hay presencia del problema y como 0 si no. Se espera entonces al egreso de cada paciente, si egresa vivo la variable Y toma valor 1, en caso contrario toma valor 0. La matriz de los datos de este estudio puede ser, por ejemplo:

Y X 1 X 2 X 3 X 4 X 5 X 6 X 7

Se ajusta el siguiente modelo: (^1 2 ) 1 2 2 2 7 7

Pr( 1| , , ..., ) 1 exp(- - - - ... - )

Y (^) x x x α β (^) x β x β x

Notemos como disminuye la probabilidad de sobrevivencia con la edad, con la cantidad de ingresos previos y la conjunción de varias patologías.

De esta misma manera podemos contemplar variables referentes a procedimientos terapéuticos, determinándose cuales son mejores (ofrezcan una mayor probabilidad de sobrevivencia) según las condiciones del paciente.

Análisis de Factores de Riesgo:

La regresión logística puede utilizarse como método para la estimación de la razón de disparidad (odds ratio OR ). Veamos como obtenemos el OR en el caso de una variable independiente X , tenemos

que:

Pr( 1| 1) Pr( 0 | 0) Pr( 0 | 1) Pr( 1| 0)

Y X Y X

OR

Y X Y X

, y si asumimos el siguiente modelo:

Pr( 1| ) logit(Pr( 1| )) ln Pr( 0 | )

Y X

Y X X

Y X

α β

que para X =1 y X =0 toma las siguientes expresiones:

Pr( 1| 1) ln Pr( 0 | 1)

Y X

Y X

α β

 =^ +

 =^ = 

y

Pr( 1| 0) ln Pr( 0 | 0)

Y X

Y X

α

 =^ = 

, de donde obtenemos,

Pr( 1| 1) Pr( 0 | 0) ln( ) ln Pr( 0 | 1) Pr( 1| 0)

Y X Y X

OR

Y X Y X

β

 =^ =^ =^ = 

u OR = exp( β). Por tanto probar la hipótesis

H 0 : OR =1 es equivalente a la hipótesis H 0 : ß =0.

De manera similar se obtiene en el caso de dos o más variables independientes la siguiente relación:

donde X =( X 1 , X 2 , ..., Xp ).

Si el valor de Xi' = Xi , entonces el término ßi ( Xi' - Xi ) es igual a cero y por tanto la expresión anterior no depende de Xi. Entonces si una de las variables, X 1 por ejemplo, representa la exposición a un factor de especial interés, el OR para individuos que son iguales en las restantes variables es OR =exp( ß 1 ( X 1 ' - X 1 )), en particular si la variable X 1 está codificada como 1 si el factor está presente y como 0 si está ausente, entonces OR =exp( ß 1 ). El odds ratio calculado de esta manera recibe el nombre de odds ratio ajustado por las variables X 2 , ..., Xp.

Veamos el siguiente ejemplo del cálculo de OR ajustado.

EJEMPLO: Estudio de casos-controles de cáncer de pulmón y consumo de alcohol.

Casos Controles

Alcohol 68 32

No Alcohol 32 68

El odds ratio estimado es OR =4.52 con un intervalo de confianza igual a (2.39, 8.55). Si estratificamos por la variable fumar, obtenemos:

Pr( 1| ) Pr( 0 | ) exp ( ) , Pr( 0 | ) Pr( 1| )

p i i i i

Y X Y X

X X

Y X Y X

β

= ′ = ∑

En Fumadores: OR =1.00 (0.21, 3.72)

Casos Controles

Alcohol 64 16

No Alcohol 16 4

En No fumadores: OR =1.00 (0.21, 3.72)

Casos Controles

Alcohol 4 16

No Alcohol 16 64

La variable FUMAR es un factor de confusión de la asociación entre cáncer de pulmón y consumo de alcohol. El OR de Mantel-Haenszel (2 estratos) = 1.0 (0.36, 2.49).

Veamos el mismo análisis con un modelo de regresión logística. El fichero de datos para el ejemplo anterior utilizando el programa RELODI es:

2,agrupados,cáncer,alcohol,fumar 1,64,1, 1,16,0, 0,16,1, 0,4,0, 1,4,1, 1,16,0, 0,16,1, 0,64,0,

Salida Abreviada de RELODI Número de casos para los cuales cáncer es igual a 1: 100 Tamaño total de la muestra 200

Coeficiente S.E. z-score -0. 1.5075 0.3031 4.972609 alcohol

Interv de conf (95%) Coefic. Odds Ratio Lim. inf. Lim. sup. Variable 1.5057 4.5156 2.4926 8.1805 alcohol

En este caso solo consideramos la variable alcohol, y por tanto obtenemos un resultado similar a la primera tabla.

Salida Abreviada de RELODI Coeficiente S.E. z-score -1. 0.0000 0.4419 0.0000 alcohol 2.7725 0.4419 6.2735 fumar

Interv de conf (95%) Coefic. Odds Ratio Lim. inf. Lim. sup. Variable 0.0000 1.0000 0.4205 2.3778 alcohol 2.7725 15.9991 6.7284 38.0436 fumar

Salida Abreviada de RELODI Coeficiente S.E. z-score -1. 2.4607 0.1083 22.7157 FUMAR

Interv de conf (95%) Coefic. Odds Ratio Lim. inf. Lim. sup. Variable 2.4607 11.7141 9.4732 14.4851 FUMAR

Como esperamos la variable fumar aparece asociada al cáncer de pulmón.

2) logit(Pr( Y = 1| X (^) 2 ))= α + β 2 X 2 , o sea considerando solo la variable VIVIR EN ZONA RURAL.

Salida Abreviada de RELODI Coeficiente S.E. z-score -0. 0.6061 0.0905 6.6907 CAMPO

Interv de conf (95%) Coefic. Odds Ratio Lim. inf. Lim. sup. Variable 0.6061 1.8333 1.5350 2.1895 CAMPO

Algo que no esperamos, la variable vivir en zona rural aparece asociada al cáncer de pulmón. ¿Veamos si la variable FUMAR es de confusión?

Salida Abreviada de RELODI Coeficiente S.E. z-score -1. 2.5751 0.1195 21.5457 FUMAR -0.2912 0.1175 -2.4786 CAMPO

Interv de conf (95%) Coefic. Odds Ratio Lim. inf. Lim. sup. Variable 2.5751 13.1337 10.3908 16.6008 FUMAR -0.2912 0.7473 0.5935 0.9408 CAMPO

Notemos que el OR ajustado por la variable FUMAR ( OR =0.7473) nos indica que vivir en zona rural es un factor "protector" del cáncer de pulmón. FUMAR actúa como variable de confusión en esa relación.

3) logit(Pr( Y = 1| X 1 (^) , X (^) 2 , X X 1 (^) 2 ))= α + β 1 X 1 (^) + β 2 X (^) 2 + β 3 X X 1 2.

Salida Abreviada de RELODI Coeficiente S.E. z-score -1. 2.3025 0.1483 15.5240 FUMAR -0.7884 0.2157 -3.6545 CAMPO 0.7507 0.2595 2.8925 CAMPO*FUMAR

Interv de conf (95%) Coefic. Odds Ratio Lim. inf. Lim. sup. Variable 2.3025 10.0000 7.4772 13.3738 FUMAR -0.7884 0.4545 0.2978 0.6937 CAMPO 0.7507 2.1185 1.2738 3.5233 CAMPO*FUMAR

Notemos que el coeficiente ß 3 es distinto de cero, por tanto se concluye que existe interacción entre ambos factores.

Si utilizamos el siguiente fichero de datos podemos estimar: 11 11 11 00 11

OR R^ R

R R

1,agrupados,CANCER,CAMPO*FUMAR 1,520, 1,150, 0,180, 0,500,

4) logit(Pr( Y = 1| X X 1 (^) 2 ))= α +β 3 X X 1 2

Salida Abreviada de RELODI Coeficiente S.E. z-score -1. 2.2648 0.1270 17.8243 CAMPO*FUMAR

Interv de conf (95%) Coefic. Odds Ratio Lim. inf. Lim. sup. Variable 2.2648 9.6295 7.5066 12.3528 CAMPO*FUMAR

Notemos que OR 11 =9.6295 difiere de OR 01 OR 10 =1.8333*11.7141≈21.47, que sería el valor de OR 11 si no hubiese interacción.

Ejercicio:

1.- Considere los siguientes resultados de estudio de cohortes donde se evalúa la exposición a dos factores E y F como posibles factores de riesgo de una enfermedad que denotaremos D.

Expuestos a E No expuestos a E

Casos Controles Casos Controles

Expuestos a F 110 390 380 2620

No expuestos a F 90 1410 20 980

a) Mediante un modelo de regresión logística estime el OR crudo para los factores E y F.

b) Estime el OR ajustado de F controlando E y el OR ajustado de E controlando F.

c) ¿Alguno de los factores es de confusión?

d) ¿Existe interacción entre E y F?