































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
de Regresión Lineal Múltiple, el cual se diferencia esencialmente del. Análisis de Regresión Logística por que la variable dependiente es métrica;.
Tipo: Apuntes
1 / 39
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
































pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y
CAPÍTULO 2
MODELO DE REGRESIÓN LOGÍSTICA
2.1 INTRODUCCIÓN
La Regresión Logística es una técnica estadística multivariante que nos
permite estimar la relación existente entre una variable dependiente no
métrica, en particular dicotómica y un conjunto de variables independientes
métricas o no métricas.
El Análisis de Regresión Logística tiene la misma estrategia que el Análisis
de Regresión Lineal Múltiple, el cual se diferencia esencialmente del
Análisis de Regresión Logística por que la variable dependiente es métrica;
en la práctica el uso de ambas técnicas tienen mucha semejanza, aunque
sus enfoques matemáticos son diferentes.
La variable dependiente o respuesta no es continua, sino discreta
(generalmente toma valores 1,0). Las variables explicativas pueden ser
cuantitativas o cualitativas; y la ecuación del modelo no es una función lineal
de partida, sino exponencial; si bien, por sencilla transformación logarítmica,
puede finalmente presentarse como una función lineal.
Así pues el modelo será útil en frecuentes situaciones prácticas de
investigación en que la respuesta puede tomar únicamente dos valores: 1,
presencia (con probabilidad p ); y 0, ausencia (con probabilidad 1- p ).
El modelo será de utilidad puesto que, muchas veces, el perfil de variables
puede estar formado por caracteres cuantitativos y cualitativos; y se
pretende hacer participar a todos ellos en una única ecuación conjunta.
El modelo puede acercarse mas a la realidad ya que muchos fenómenos,
como los del campo epidemiológico, se asemejan más a una curva que a
una recta. Además la curva exponencial elegida como mejor ajuste, puede
ser transformada logarítmicamente en una ecuación lineal de todas las
pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y
variables, siendo así que el aparato matemático estudiado para la regresión
lineal múltiple será aplicable; aunque el investigador tenga, al final, que
deshacer la transformación para interpretar sus conclusiones.
Si para el Modelo de Regresión Logística una variable regresora de tipo
categórica tiene c niveles habrá que generar c-1 variables ficticias (dummy)
a fin que todas las posibilidades de la variable queden bien representadas en
el modelo logístico.
Cuando todas las variables regresoras son categóricas entonces se usa el
modelo Log lineal, ver Mc Cullagh (1983).
2.2 OBJETIVOS DE LA REGRESIÓN LOGÍSTICA
El objetivo primordial de esta técnica es el de modelar como influyen las
variables regresoras en la probabilidad de ocurrencia de un suceso
particular.
Sistemáticamente tiene dos objetivos:
presencia o no de diversos factores y el valor o nivel de los mismos.
razonable describa la relación entre la variable respuesta y un conjunto
de variables regresoras.
2.3 REGRESIÓN LOGÍSTICA Y OTROS MÉTODOS RELACIONADOS
El objetivo general de la Regresión Logística es predecir la probabilidad de
un evento de interés en una investigación, así como identificar las variables
predictoras útiles para tal predicción.
pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y
2.4 REVISIÓN DEL MODELO DE REGRESIÓN LINEAL MÚLTIPLE
La diferencia básica entre los modelos del Análisis de Regresión Lineal
Múltiple y de la Regresión Logística es naturaleza de la relación entre la
variable respuesta y las variables regresoras.
Para el Análisis de Regresión Lineal Múltiple, consideremos y una variable
respuesta cuantitativa y k
x , x ,...., x 1 2
variables regresoras o llamadas
también explicativas; y se desea describir la relación que hay entre la
variable respuesta y las variables explicativas, si entre la variable respuesta
y las regresoras hay una relación lineal se espera que:
i i i k ik
E y = β + β x + β x +......+ β x 0 1 1 2 2
, (2.1)
para i=1, 2, ..., n
donde:
i
y (^) es el valor de la variable respuesta cuantitativa para el i-ésimo objeto.
j
β ; j = 0, 1, 2,....,k son los parámetros.
Siendo n el número de objetos u observaciones.
Aunque (2.1) no de valores exactos, se espera que varíe linealmente con las
variables regresoras, esto es:
i i i i k ik
E y | x = β + β x + β x +......+ β x 0 1 1 2 2
ρ
,
para i=1, 2, ..., n
(2.2)
siendo ( ) i i i in
T
i
x x , x , x ,..., x 0 1 2
ρ
la i-ésima observación, con 1 0
i
x ,
(2.2) toma valores reales y en forma vectorial es:
( ) β
ρ ρ ρ T
i i i
donde ( ) k
T
β β , β , β ,..., β 0 1 2
ρ
es el vector de parámetros.
pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Pero en (2.3) hay otras variables regresoras que pueden influir linealmente
sobre i
y (^) , por tanto cada valor de i
i
E y a
esa variación lo denotamos con i
ε , esto es:
( )
β
ε
ρ ρ
ρ
T
i i
i i i i
y x
y E y x
(2.4)
de (2.4):
i
T
i i
y = x β + ε
ρ ρ
(2.5)
i i i k ik i
y = β + β x + β x +......+ β x + ε 0 1 1 2 2
,
para i=1, 2, ..., n
(2.6)
llamado Modelo de Regresión Lineal Múltiple poblacional, a i
ε (^) se le llama
error aleatorio y tiene las siguientes propiedades:
( ( ))
( ( ))
( ( ))
(( , )) 0
j
i
Cov
i j i j
Cov
i
i
ε
ε ε
ε σ
ε
(2.7)
las variables regresoras no son variables aleatorias y el comportamiento de
y es la respuestas a aquellas, así mismo i
ε es una variable aleatoria no
observable.
Generalizando el Modelo de Regresión Lineal Múltiple, (2.6), mediante el
álgebra matricial está dada por:
β ε
ρ
ρ ρ
y = X + (2.8)
donde:
( ) n
T
y y , y ,...., y 1 2
ρ
, vector de variables respuestas observadas
k
X x x x
ρ ρ ρ
1 , , ,....., 1 2
= (^) matriz de rango completo y con
pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y
SCE e e e ( y y ) ( y y )
T n
i
T
i
1
2 ρ^ ρ ρ ρ ρ ρ
= = = − −
=
con respecto a β
ρ
, esta suma de cuadrados se expresa en forma
cuadrática como::
( β ) ( β )
ρ ρ
ρ ρ
y X y X
T
− − (2.15)
al minimizarlo se obtiene que:
( X X ) X y
T T ρ
ρ
β =
(2.16)
llamada ecuaciones normales.
Como ( X X )
T es invertible, por que es simétrica de tamaño (k+1)x(k+1) y
de rango completo, entonces la solución del sistema lineal es:
( X X ) X y
T T ρ
ρ 1
ˆ
−
β = (2.17)
que es sensible a observaciones pobremente ajustados y a los puntos
extremos de (^) X , Montgomery y Peck (1992).
El vector (2.12) de valores estimados para el vector de variables respuesta
es:
β
ρ ρ
y = X
y X ( X X ) X y
T T ρ ρ
1
−
a la matriz X^ (^ X X )^ X y
T T
− (^1) ρ
, se le llama matriz de cambio o de
y H y
ρ ρ
ˆ (^) = (2.19)
El vector de residuos es:
r y y
ρ ρ ρ
= −
r y H y
ρ ρ ρ
= − (2.20)
ρ ρ
= − (2.21)
pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y
r M y
ρ ρ
= (2.22)
ρ
describe las desviaciones de los valores observados de los
ρ
.
El vector residual es importante para detectar puntos ´extraños¨. A la matriz
(1982). Ahora veamos como queda expresado la suma de cuadrados de los
T ˆ ˆ
ρ ρ ρ ρ
= − − (2.23)
Reemplazando y
ρ
por (^) β
ρ
X : (2.23) es:
ρ ρ
ρ ρ
(2.24)
Y reemplazando β
ρ
T T
− (^1) ρ
:
ρ T (^) ρ ρ T T T ρ
− 1
T T
H X X X X
− 1
= , entonces:
SCE y y y H y
ρ (^) T ρ ρ T ρ
= − (2.26)
T ρ ρ
= − (2.27)
Sea M = I − H , entonces (2.27) es:
SCE y M y
ρ T ρ
= (2.28)
n
2
ε ~ 0 , σ
ρ ρ
, las observaciones n
y , y ,..., y 1 2
son independientes y distribuidas cono una Normal n-variada con
( ) β
ρ ρ
E y = X con matriz de varianzas y covarianzas n
2
σ.
pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y
2.5 REGRESIÓN LOGÍSTICA SIMPLE
Este modelo tiene la forma:
i i
x i
y == β ++ β ++ ε 0 1
para i == 1 , 2 , , n (2.29)
De esto se deduce que:
Si y == 1 , i
x i 0 1
ε == 1 −− β −− β (2.30)
Si y == 0 , i
x i 0 1
ε == −− β −− β (2.31)
Por tanto i
ε (^) , no puede tener distribución normal debido a que toma valores
discretos, el Modelo de Regresión Lineal Simple, no es aplicable para el
caso de variable respuesta de tipo dicotómico.
En el Análisis de Regresión Lineal simple, el punto inicial del proceso de
estimación del modelo es un gráfico de dispersión de la variable respuesta
versus la regresora, pero este gráfico resulta limitado cuando sólo hay dos
valores posibles para la variable respuesta, por tanto se debe usar otros
gráficos, éstos resultan de la suavización de los valores de la variable
respuesta, representando después los valores de la variable respuesta
versus la regresora.
La notación que se usará en el presente trabajo para la Regresión Logística
es misma que emplea Hosmer y Lemeshow (2000).
Sea π (( x )) == E (( yx )) (2.32)
representa la probabilidad de que ocurra y == 1 , ciertamente no se espera
que (2.32) tenga relación lineal dentro del rango de la variable regresora.
tomará valores cercanos a 1 y para valores pequeños de x , π (( x )) tomará
pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y
versus x es:
FIGURA Nº 2.
curva en forma de S o sigmoide que tiene las propiedades requeridas para
probabilidad acumulada, para esta probabilidad se usa la función de
distribución acumulada de la distribución logística dada por:
( ( ))
x e
x
e
x
β β
β β
π
(2.33) tiene un gráfico similar a la Figura Nº 2.1, cuando 0 0
β << y
β >> , además este modelo toma valores en el intervalo [[ 0 , 1 ]].
Cuando , P [[^ y == 1 ]]^ == 0. 5 el valor de x es:
β
−− β
, que brinda información
muy útil.
Logística es la transformación logit, transformación que se define en
pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y
2.6 REGRESIÓN LOGÍSTICA MÚLTIPLE
En esta sección se generaliza el Modelo de Regresión Logística Simple
tratado en la sección anterior, es decir consideraremos más de una variable
regresora, en donde por lo menos una es de tipo cuantitativo.
2.6.1 MODELO DE REGRESIÓN LOGÍSTICA MÚLTIPLE
Sea el vector de variables regresoras (( )) k
x x x
x ,...., 2
ρ
por el
momento asumiremos que están medidas por lo menos bajo escala
intervalar. Sea la probabilidad condicional para que la variable respuesta sea
igual a 1, denotado por:
P ( ( y x )) (( x ))
ρ ρ
== 1 == π (2.39)
el logaritmo del Modelo de Regresión Logística Múltiple está dado por:
ik
x i k
x i
x i
g x == β ++ β ++ β ++ ...... ++ β 0 1 1 2 2
ρ
, para i=1, 2, ..., n
(2.40)
entonces el Modelo de Regresión Logística Múltiple es:
( ( ))
(( ))
g (( x ))
e
g x
e
x (^) ρ
ρ
ρ
π (2.41)
Al igual que en el caso de Regresión Lineal Múltiple si es necesario usar
variables regresoras categóricas, por ejemplo si una tiene c niveles será
necesario incorporar c-1 variables ficticias o llamadas dummy., así entonces
el logit para un modelo con k variables regresoras y una variable categórica,
por ejemplo la j-ésima es:
( ( )) ik
x k
c
l
jl
i jl
g x β β x β β
ρ
,
para i=1, 2, ..., n
(2.42)
pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y
2.6.2 AJUSTE DEL MODELO DE REGRESIÓN LOGÍSTICA MÚLTIPLE
El ajuste se efectúa a través del uso de los métodos de máxima
verosimilitud, los mismos que se encuentran en los softwares estadísticos
que permiten analizar datos mediante este método.
Asumiremos que disponemos de una muestra n observaciones
independientes
i
y i
x ,
ρ
, i=1,2, ..., n ; donde i
y (^) toma valores 0 ó 1, para estimar
k
T β β , β ,... , β 0 1
ρ
que es el vector de parámetros
desconocidos.
Para el Modelo de Regresión Lineal Múltiple se usa el método de Mínimos
Cuadrados para estimar β
ρ
, el cual minimiza la suma de cuadrados del
error, pero cuando la variable respuesta es binaria aplicar este método no
provee las mismas propiedades cuando es usado en variables respuestas
continuas.
Por ello se usará el método de Máxima Verosimilitud, ya que obtendremos
parámetros estimados que maximizan la probabilidad de obtener un conjunto
de datos observados.
La función de verosimilitud expresa la probabilidad de los datos observados
como una función de parámetros desconocidos. Los Estimadores de Máxima
Verosimilitud de esos parámetros son aquellos que están en concordancia
con los datos observados.
Consideremos el Modelo de Regresión Lineal Múltiple con mayor detalle,
supongamos que se dispone de n objetos u observaciones donde para cada
uno de ellos existe una respuesta que puede ser:
i i
y o y
Sea (^ ) n
ϖ
donde (^ ) i i
pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y
[ [ ]] (( ))
i
x
e
i
x i
x i
P y
ρ
ρ
ρ ρ
β
π
i i ik
T
i
x x , x ,...., x 0 1
ρ
, es el vector que contiene los valores de las
variables explicativas
k
T
β β , β ,..., β 0 1
ρ
es el vector de parámetros a ser estimado.
El i-ésimo logito es:
k
j
ij
x j
i
i
Ln i
β
π
π
λ (2.48)
como vemos, (2.48) es una función lineal simple del vector de observaciones
i
x
ρ
llamada transformación logística de la probabilidad i
π (^) o simplemente
Logit o Logito de la ecuación, a la expresión (2.48) también se le llama
Modelo Logístico Lineal.
A fin de obtener la estimación máximo verosímil para el vector β
ρ
,
escribimos la función de densidad de probabilidad del vector y
ρ
el cual es
proporcional a n funciones ( ) i
= =
= =
=
=
−
n
i i
i
i
n
i
i
n
i
i
y
i
i
n
i
i
n
i
i
i
y
i
i
n
i
i
y
i
i
y
i i i
Exp y Ln
Exp Ln
f y
1 1
1 1
1
1
1
π
π
π
π
π
π
π
π
π
π π π
(2.49)
Reemplazando (2.48) en (2.49), se obtiene:
pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y
( ( )) (( ))
(( ))
k
j
j
n
i
ij
x i
Exp y
n
i 1
i
n
i
k
j 0
ij
x i j
Exp y
n
i 1
i
i i
f y
π β
π π β
(2.50)
El logaritmo natural de la función (2.50), llamado función soporte es:
( ) ( ) ∑ ∑ ∑
= = =
k
j
n
i
j i
n
i
i i i ij
l y yx
0 1 1
π ; β ln 1 π (2.51)
[ ( )]
( ) [ ( )] i
T
i
i
T
Ln Exp x
Exp x
ρ
ρ
ρ
ρ
π β
π β
−
Ln 1 - 1
pero (2.47) : 1 - 1 ,entonces
1
i
( )
∑
=
ij
k
j
i j
0
(2,52)
reemplazando (2.52) en (2.51), se obtiene:
= = = =
n
i
k
j
j j ij
k
j
n
i
i i ij
y yx Ln Exp x
0 1 1 0
i
l π ; β 1 β (2.53)
como vemos (2.53) es una función que ya no depende de i
j
solamente, entonces lo denotamos como:
( )
= = = =
n
i
k
j
j ij
k
j
j
n
i
i ij
L yx Ln Exp x
0 1 1 0
β β 1 β
ρ
(2.54)
pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y
n
i
ij i i
1
=
π (2.59)
donde:
0
0
=
=
k
j
j ij
k
j
j ij
i
Exp x
Exp x
β
β
π ; para i=1,2,...,n
es el estimador máximo verosímil de i
j
β
y el
vector i
x
ρ
La expresión (2.58) en su forma matricial es:
( ˆ^ ) 0
ρ ρ ρ ρ
X y − = XS =
T
π (^) (2.60)
Estas ecuaciones son parecidas a las ecuaciones normales obtenidas para
estimar el Modelo de Regresión Lineal Múltiple, pero son no lineales en β
ρ
,
lo cual hace que se use un método iterativo para determinar los valores del
vector β
ρ
.
La obtención de j
β
mediante métodos iterativos; para (^) j = (^0) , 1 ,..., k se
tratará en la siguiente sección, ahora obtendremos la varianza y covarianza
ρ
.
Sea ( nxp )
pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y
n n nk
k
k
x x x
x x x
x x x
1 2
21 22 2
11 12 1
Las ecuaciones de verosimilitud en su forma matricial, de la expresión (2.60):
π
X y X
T T
ρ ρ
n
π π ˆ, π ˆ ,. .., π ˆ
1 2
T
=
ρ
( ) 0
n
i
ij i i
El método de estimación de las varianzas y covarianzas lo obtendremos de
la matriz de segunda derivada parcial de (2.62): y tiene la forma:
( ) i i
n
i
ij
j
(2.63)
para j=0, 1, 2, ....., k
reemplazando: la ecuación para i
π en (2.63)
para 0,1,...., k
1
2
0
0
2
2
2
=
=
=
j
Exp x
x Exp x
n
i k
j
j ij
k
j
ij j ij
j
β
β
β (2.64)