Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


CAPÍTULO 2 MODELO DE REGRESIÓN LOGÍSTICA, Apuntes de Logística

de Regresión Lineal Múltiple, el cual se diferencia esencialmente del. Análisis de Regresión Logística por que la variable dependiente es métrica;.

Tipo: Apuntes

2021/2022

Subido el 10/10/2022

veranocaliente
veranocaliente 🇪🇸

5

(1)

67 documentos

1 / 39

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Estimación de la ocurrencia de incidencias en declaraciones de
pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
CAPÍTULO 2
MODELO DE REGRESIÓN LOGÍSTICA
2.1 INTRODUCCIÓN
La Regresión Logística es una técnica estadística multivariante que nos
permite estimar la relación existente entre una variable dependiente no
métrica, en particular dicotómica y un conjunto de variables independientes
métricas o no métricas.
El Análisis de Regresión Logística tiene la misma estrategia que el Análisis
de Regresión Lineal Múltiple, el cual se diferencia esencialmente del
Análisis de Regresión Logística por que la variable dependiente es métrica;
en la práctica el uso de ambas técnicas tienen mucha semejanza, aunque
sus enfoques matemáticos son diferentes.
La variable dependiente o respuesta no es continua, sino discreta
(generalmente toma valores 1,0). Las variables explicativas pueden ser
cuantitativas o cualitativas; y la ecuación del modelo no es una función lineal
de partida, sino exponencial; si bien, por sencilla transformación logarítmica,
puede finalmente presentarse como una función lineal.
Así pues el modelo será útil en frecuentes situaciones prácticas de
investigación en que la respuesta puede tomar únicamente dos valores: 1,
presencia (con probabilidad p); y 0, ausencia (con probabilidad 1-p).
El modelo será de utilidad puesto que, muchas veces, el perfil de variables
puede estar formado por caracteres cuantitativos y cualitativos; y se
pretende hacer participar a todos ellos en una única ecuación conjunta.
El modelo puede acercarse mas a la realidad ya que muchos fenómenos,
como los del campo epidemiológico, se asemejan más a una curva que a
una recta. Además la curva exponencial elegida como mejor ajuste, puede
ser transformada logarítmicamente en una ecuación lineal de todas las
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27

Vista previa parcial del texto

¡Descarga CAPÍTULO 2 MODELO DE REGRESIÓN LOGÍSTICA y más Apuntes en PDF de Logística solo en Docsity!

pólizas de importación. Salcedo Poma, Celia Mercedes

Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y

CAPÍTULO 2

MODELO DE REGRESIÓN LOGÍSTICA

2.1 INTRODUCCIÓN

La Regresión Logística es una técnica estadística multivariante que nos

permite estimar la relación existente entre una variable dependiente no

métrica, en particular dicotómica y un conjunto de variables independientes

métricas o no métricas.

El Análisis de Regresión Logística tiene la misma estrategia que el Análisis

de Regresión Lineal Múltiple, el cual se diferencia esencialmente del

Análisis de Regresión Logística por que la variable dependiente es métrica;

en la práctica el uso de ambas técnicas tienen mucha semejanza, aunque

sus enfoques matemáticos son diferentes.

La variable dependiente o respuesta no es continua, sino discreta

(generalmente toma valores 1,0). Las variables explicativas pueden ser

cuantitativas o cualitativas; y la ecuación del modelo no es una función lineal

de partida, sino exponencial; si bien, por sencilla transformación logarítmica,

puede finalmente presentarse como una función lineal.

Así pues el modelo será útil en frecuentes situaciones prácticas de

investigación en que la respuesta puede tomar únicamente dos valores: 1,

presencia (con probabilidad p ); y 0, ausencia (con probabilidad 1- p ).

El modelo será de utilidad puesto que, muchas veces, el perfil de variables

puede estar formado por caracteres cuantitativos y cualitativos; y se

pretende hacer participar a todos ellos en una única ecuación conjunta.

El modelo puede acercarse mas a la realidad ya que muchos fenómenos,

como los del campo epidemiológico, se asemejan más a una curva que a

una recta. Además la curva exponencial elegida como mejor ajuste, puede

ser transformada logarítmicamente en una ecuación lineal de todas las

pólizas de importación. Salcedo Poma, Celia Mercedes

Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y

variables, siendo así que el aparato matemático estudiado para la regresión

lineal múltiple será aplicable; aunque el investigador tenga, al final, que

deshacer la transformación para interpretar sus conclusiones.

Si para el Modelo de Regresión Logística una variable regresora de tipo

categórica tiene c niveles habrá que generar c-1 variables ficticias (dummy)

a fin que todas las posibilidades de la variable queden bien representadas en

el modelo logístico.

Cuando todas las variables regresoras son categóricas entonces se usa el

modelo Log lineal, ver Mc Cullagh (1983).

2.2 OBJETIVOS DE LA REGRESIÓN LOGÍSTICA

El objetivo primordial de esta técnica es el de modelar como influyen las

variables regresoras en la probabilidad de ocurrencia de un suceso

particular.

Sistemáticamente tiene dos objetivos:

  1. Investigar como influye en la probabilidad de ocurrencia de un suceso, la

presencia o no de diversos factores y el valor o nivel de los mismos.

  1. Determinar el modelo más parsimonioso y mejor ajustado que siendo

razonable describa la relación entre la variable respuesta y un conjunto

de variables regresoras.

2.3 REGRESIÓN LOGÍSTICA Y OTROS MÉTODOS RELACIONADOS

El objetivo general de la Regresión Logística es predecir la probabilidad de

un evento de interés en una investigación, así como identificar las variables

predictoras útiles para tal predicción.

pólizas de importación. Salcedo Poma, Celia Mercedes

Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y

2.4 REVISIÓN DEL MODELO DE REGRESIÓN LINEAL MÚLTIPLE

La diferencia básica entre los modelos del Análisis de Regresión Lineal

Múltiple y de la Regresión Logística es naturaleza de la relación entre la

variable respuesta y las variables regresoras.

Para el Análisis de Regresión Lineal Múltiple, consideremos y una variable

respuesta cuantitativa y k

x , x ,...., x 1 2

variables regresoras o llamadas

también explicativas; y se desea describir la relación que hay entre la

variable respuesta y las variables explicativas, si entre la variable respuesta

y las regresoras hay una relación lineal se espera que:

i i i k ik

E y = β + β x + β x +......+ β x 0 1 1 2 2

, (2.1)

para i=1, 2, ..., n

donde:

i

y (^) es el valor de la variable respuesta cuantitativa para el i-ésimo objeto.

j

β ; j = 0, 1, 2,....,k son los parámetros.

Siendo n el número de objetos u observaciones.

Aunque (2.1) no de valores exactos, se espera que varíe linealmente con las

variables regresoras, esto es:

i i i i k ik

E y | x = β + β x + β x +......+ β x 0 1 1 2 2

ρ

,

para i=1, 2, ..., n

(2.2)

siendo ( ) i i i in

T

i

x x , x , x ,..., x 0 1 2

ρ

la i-ésima observación, con 1 0

i

x ,

(2.2) toma valores reales y en forma vectorial es:

( ) β

ρ ρ ρ T

i i i

E y | x = x (2.3)

donde ( ) k

T

β β , β , β ,..., β 0 1 2

ρ

es el vector de parámetros.

pólizas de importación. Salcedo Poma, Celia Mercedes

Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y

Pero en (2.3) hay otras variables regresoras que pueden influir linealmente

sobre i

y (^) , por tanto cada valor de i

y está variando alrededor de ( )

i

E y a

esa variación lo denotamos con i

ε , esto es:

( )

β

ε

ρ ρ

ρ

T

i i

i i i i

y x

y E y x

(2.4)

de (2.4):

i

T

i i

y = x β + ε

ρ ρ

(2.5)

i i i k ik i

y = β + β x + β x +......+ β x + ε 0 1 1 2 2

,

para i=1, 2, ..., n

(2.6)

llamado Modelo de Regresión Lineal Múltiple poblacional, a i

ε (^) se le llama

error aleatorio y tiene las siguientes propiedades:

( ( ))

( ( ))

( ( ))

(( , )) 0

j

X

i

Cov

i j i j

Cov

i

V

i

E

ε

ε ε

ε σ

ε

(2.7)

las variables regresoras no son variables aleatorias y el comportamiento de

y es la respuestas a aquellas, así mismo i

ε es una variable aleatoria no

observable.

Generalizando el Modelo de Regresión Lineal Múltiple, (2.6), mediante el

álgebra matricial está dada por:

β ε

ρ

ρ ρ

y = X + (2.8)

donde:

( ) n

T

y y , y ,...., y 1 2

ρ

, vector de variables respuestas observadas

k

X x x x

ρ ρ ρ

1 , , ,....., 1 2

= (^) matriz de rango completo y con

pólizas de importación. Salcedo Poma, Celia Mercedes

Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y

SCE e e e ( y y ) ( y y )

T n

i

T

i

1

2 ρ^ ρ ρ ρ ρ ρ

= = = − −

=

con respecto a β

ρ

, esta suma de cuadrados se expresa en forma

cuadrática como::

( β ) ( β )

ρ ρ

ρ ρ

y X y X

T

− − (2.15)

al minimizarlo se obtiene que:

( X X ) X y

T T ρ

ρ

β =

(2.16)

llamada ecuaciones normales.

Como ( X X )

T es invertible, por que es simétrica de tamaño (k+1)x(k+1) y

de rango completo, entonces la solución del sistema lineal es:

( X X ) X y

T T ρ

ρ 1

ˆ

β = (2.17)

que es sensible a observaciones pobremente ajustados y a los puntos

extremos de (^) X , Montgomery y Peck (1992).

El vector (2.12) de valores estimados para el vector de variables respuesta

es:

β

ρ ρ

y = X

y X ( X X ) X y

T T ρ ρ

1

a la matriz X^ (^ X X )^ X y

T T

− (^1) ρ

, se le llama matriz de cambio o de

proyección denotada por H , entonces (2.18) es:

y H y

ρ ρ

ˆ (^) = (2.19)

El vector de residuos es:

r y y

ρ ρ ρ

= −

r y H y

ρ ρ ρ

= − (2.20)

r ( I H ) y

ρ ρ

= − (2.21)

pólizas de importación. Salcedo Poma, Celia Mercedes

Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y

r M y

ρ ρ

= (2.22)

El vector r

ρ

describe las desviaciones de los valores observados de los

ajustados y la matriz M es el subespacio en el cual cae r

ρ

.

El vector residual es importante para detectar puntos ´extraños¨. A la matriz

H se le llama matriz sombrero o de proyección, ver Cook y Weisberg

(1982). Ahora veamos como queda expresado la suma de cuadrados de los

residuos, denotada por SCE :

SCE^ (^ y y )^ (^ y y )

T ˆ ˆ

ρ ρ ρ ρ

= − − (2.23)

Reemplazando y

ρ

por (^) β

ρ

X : (2.23) es:

ρ ρ

ρ ρ

SCE =^ y − X y −

T

(2.24)

Y reemplazando β

ρ

por (^ X X )^ X y

T T

− (^1) ρ

:

SCE y y y X^ ( X^ X )^ X y

ρ T (^) ρ ρ T T T ρ

− 1

La matriz ( )

T T

H X X X X

− 1

= , entonces:

SCE y y y H y

ρ (^) T ρ ρ T ρ

= − (2.26)

SCE y ( I H ) y

T ρ ρ

= − (2.27)

Sea M = IH , entonces (2.27) es:

SCE y M y

ρ T ρ

= (2.28)

Bajo el supuesto que (^ )

n

N I

2

ε ~ 0 , σ

ρ ρ

, las observaciones n

y , y ,..., y 1 2

son independientes y distribuidas cono una Normal n-variada con

( ) β

ρ ρ

E y = X con matriz de varianzas y covarianzas n

I

2

σ.

pólizas de importación. Salcedo Poma, Celia Mercedes

Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y

2.5 REGRESIÓN LOGÍSTICA SIMPLE

Este modelo tiene la forma:

i i

x i

y == β ++ β ++ ε 0 1

para i == 1 , 2 , , n (2.29)

De esto se deduce que:

Si y == 1 , i

x i 0 1

ε == 1 −− β −− β (2.30)

Si y == 0 , i

x i 0 1

ε == −− β −− β (2.31)

Por tanto i

ε (^) , no puede tener distribución normal debido a que toma valores

discretos, el Modelo de Regresión Lineal Simple, no es aplicable para el

caso de variable respuesta de tipo dicotómico.

En el Análisis de Regresión Lineal simple, el punto inicial del proceso de

estimación del modelo es un gráfico de dispersión de la variable respuesta

versus la regresora, pero este gráfico resulta limitado cuando sólo hay dos

valores posibles para la variable respuesta, por tanto se debe usar otros

gráficos, éstos resultan de la suavización de los valores de la variable

respuesta, representando después los valores de la variable respuesta

versus la regresora.

La notación que se usará en el presente trabajo para la Regresión Logística

es misma que emplea Hosmer y Lemeshow (2000).

Sea π (( x )) == E (( yx )) (2.32)

Que representa la media condicional de y == 1 dado x , donde π ((^ x ))

representa la probabilidad de que ocurra y == 1 , ciertamente no se espera

que (2.32) tenga relación lineal dentro del rango de la variable regresora.

¿Qué hay de la relación entre π (( x )) y x para valores intermedios de x? Se

espera una relación curvilínea. Para cualquier valor grande de x , π (( x ))

tomará valores cercanos a 1 y para valores pequeños de x , π (( x )) tomará

pólizas de importación. Salcedo Poma, Celia Mercedes

Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y

valores cercanos a cero. El gráfico que muestra el comportamiento de π ((^ x ))

versus x es:

FIGURA Nº 2.

curva en forma de S o sigmoide que tiene las propiedades requeridas para

π ( ( x )) y que tiene las propiedades de una función de distribución de

probabilidad acumulada, para esta probabilidad se usa la función de

distribución acumulada de la distribución logística dada por:

( ( ))

x e

x

e

x

β β

β β

π

(2.33) tiene un gráfico similar a la Figura Nº 2.1, cuando 0 0

β << y

β >> , además este modelo toma valores en el intervalo [[ 0 , 1 ]].

Cuando , P [[^ y == 1 ]]^ == 0. 5 el valor de x es:

β

−− β

, que brinda información

muy útil.

Una transformación de π (( x )) que es lo central del estudio de la Regresión

Logística es la transformación logit, transformación que se define en

términos π (( x )) como:

pólizas de importación. Salcedo Poma, Celia Mercedes

Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y

2.6 REGRESIÓN LOGÍSTICA MÚLTIPLE

En esta sección se generaliza el Modelo de Regresión Logística Simple

tratado en la sección anterior, es decir consideraremos más de una variable

regresora, en donde por lo menos una es de tipo cuantitativo.

2.6.1 MODELO DE REGRESIÓN LOGÍSTICA MÚLTIPLE

Sea el vector de variables regresoras (( )) k

x x x

T

x ,...., 2

ρ

por el

momento asumiremos que están medidas por lo menos bajo escala

intervalar. Sea la probabilidad condicional para que la variable respuesta sea

igual a 1, denotado por:

P ( ( y x )) (( x ))

ρ ρ

== 1 == π (2.39)

el logaritmo del Modelo de Regresión Logística Múltiple está dado por:

ik

x i k

x i

x i

g x == β ++ β ++ β ++ ...... ++ β 0 1 1 2 2

ρ

, para i=1, 2, ..., n

(2.40)

entonces el Modelo de Regresión Logística Múltiple es:

( ( ))

(( ))

g (( x ))

e

g x

e

x (^) ρ

ρ

ρ

π (2.41)

Al igual que en el caso de Regresión Lineal Múltiple si es necesario usar

variables regresoras categóricas, por ejemplo si una tiene c niveles será

necesario incorporar c-1 variables ficticias o llamadas dummy., así entonces

el logit para un modelo con k variables regresoras y una variable categórica,

por ejemplo la j-ésima es:

( ( )) ik

x k

c

l

jl

D

i jl

g x β β x β β

ρ

,

para i=1, 2, ..., n

(2.42)

pólizas de importación. Salcedo Poma, Celia Mercedes

Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y

2.6.2 AJUSTE DEL MODELO DE REGRESIÓN LOGÍSTICA MÚLTIPLE

El ajuste se efectúa a través del uso de los métodos de máxima

verosimilitud, los mismos que se encuentran en los softwares estadísticos

que permiten analizar datos mediante este método.

Asumiremos que disponemos de una muestra n observaciones

independientes

i

y i

x ,

ρ

, i=1,2, ..., n ; donde i

y (^) toma valores 0 ó 1, para estimar

k

T β β , β ,... , β 0 1

ρ

que es el vector de parámetros

desconocidos.

Para el Modelo de Regresión Lineal Múltiple se usa el método de Mínimos

Cuadrados para estimar β

ρ

, el cual minimiza la suma de cuadrados del

error, pero cuando la variable respuesta es binaria aplicar este método no

provee las mismas propiedades cuando es usado en variables respuestas

continuas.

Por ello se usará el método de Máxima Verosimilitud, ya que obtendremos

parámetros estimados que maximizan la probabilidad de obtener un conjunto

de datos observados.

La función de verosimilitud expresa la probabilidad de los datos observados

como una función de parámetros desconocidos. Los Estimadores de Máxima

Verosimilitud de esos parámetros son aquellos que están en concordancia

con los datos observados.

Consideremos el Modelo de Regresión Lineal Múltiple con mayor detalle,

supongamos que se dispone de n objetos u observaciones donde para cada

uno de ellos existe una respuesta que puede ser:

i i

y o y

Sea (^ ) n

T

y y , y ,... , y

ϖ

donde (^ ) i i

y ~ B 1 , π y sea

pólizas de importación. Salcedo Poma, Celia Mercedes

Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y

[ [ ]] (( ))

T

i

x

e

i

x i

x i

P y

ρ

ρ

ρ ρ

β

π

donde: ( )

i i ik

T

i

x x , x ,...., x 0 1

ρ

, es el vector que contiene los valores de las

variables explicativas

k

T

β β , β ,..., β 0 1

ρ

es el vector de parámetros a ser estimado.

El i-ésimo logito es:

k

j

ij

x j

i

i

Ln i

β

π

π

λ (2.48)

como vemos, (2.48) es una función lineal simple del vector de observaciones

i

x

ρ

llamada transformación logística de la probabilidad i

π (^) o simplemente

Logit o Logito de la ecuación, a la expresión (2.48) también se le llama

Modelo Logístico Lineal.

A fin de obtener la estimación máximo verosímil para el vector β

ρ

,

escribimos la función de densidad de probabilidad del vector y

ρ

el cual es

proporcional a n funciones ( ) i

B 1 , π , esto es:

= =

= =

=

=

n

i i

i

i

n

i

i

n

i

i

y

i

i

n

i

i

n

i

i

i

y

i

i

n

i

i

y

i

i

y

i i i

Exp y Ln

Exp Ln

f y

1 1

1 1

1

1

1

π

π

π

π

π

π

π

π

π

π π π

(2.49)

Reemplazando (2.48) en (2.49), se obtiene:

pólizas de importación. Salcedo Poma, Celia Mercedes

Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y

( ( )) (( ))

(( ))

k

j

j

n

i

ij

x i

Exp y

n

i 1

i

n

i

k

j 0

ij

x i j

Exp y

n

i 1

i

i i

f y

π β

π π β

(2.50)

El logaritmo natural de la función (2.50), llamado función soporte es:

( ) ( ) ∑ ∑ ∑

= = =

k

j

n

i

j i

n

i

i i i ij

l y yx

0 1 1

π ; β ln 1 π (2.51)

[ ( )]

( ) [ ( )] i

T

i

i

T

Ln Exp x

Exp x

ρ

ρ

ρ

ρ

π β

π β

Ln 1 - 1

pero (2.47) : 1 - 1 ,entonces

1

i

( )

=

ij

k

j

i j

Ln Exp x

0

Ln 1 - π 1 β

(2,52)

reemplazando (2.52) en (2.51), se obtiene:

= = = =

n

i

k

j

j j ij

k

j

n

i

i i ij

y yx Ln Exp x

0 1 1 0

i

l π ; β 1 β (2.53)

como vemos (2.53) es una función que ya no depende de i

π sino de

j

solamente, entonces lo denotamos como:

( )

= = = =

n

i

k

j

j ij

k

j

j

n

i

i ij

L yx Ln Exp x

0 1 1 0

β β 1 β

ρ

(2.54)

pólizas de importación. Salcedo Poma, Celia Mercedes

Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y

x^ (^ y )^ j k

n

i

ij i i

1

=

π (2.59)

donde:

0

0

=

=

k

j

j ij

k

j

j ij

i

Exp x

Exp x

β

β

π ; para i=1,2,...,n

es el estimador máximo verosímil de i

π y se obtiene mediante

j

β

y el

vector i

x

ρ

La expresión (2.58) en su forma matricial es:

( ˆ^ ) 0

ρ ρ ρ ρ

X y − = XS =

T

π (^) (2.60)

Estas ecuaciones son parecidas a las ecuaciones normales obtenidas para

estimar el Modelo de Regresión Lineal Múltiple, pero son no lineales en β

ρ

,

lo cual hace que se use un método iterativo para determinar los valores del

vector β

ρ

.

La obtención de j

β

mediante métodos iterativos; para (^) j = (^0) , 1 ,..., k se

tratará en la siguiente sección, ahora obtendremos la varianza y covarianza

de β

ρ

.

Sea ( nxp )

X la matriz de diseño, con p=k+1, con elementos:

pólizas de importación. Salcedo Poma, Celia Mercedes

Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y

n n nk

k

k

x x x

x x x

x x x

X

1 2

21 22 2

11 12 1

Las ecuaciones de verosimilitud en su forma matricial, de la expresión (2.60):

π

X y X

T T

ρ ρ

donde ( )

n

π π ˆ, π ˆ ,. .., π ˆ

1 2

T

=

ρ

( ) 0

∑ −^ =

n

i

ij i i

x y π (2.62)

El método de estimación de las varianzas y covarianzas lo obtendremos de

la matriz de segunda derivada parcial de (2.62): y tiene la forma:

( ) i i

n

i

ij

j

x

L

(2.63)

para j=0, 1, 2, ....., k

reemplazando: la ecuación para i

π en (2.63)

para 0,1,...., k

1

2

0

0

2

2

2

=

=

=

j

Exp x

x Exp x

L

n

i k

j

j ij

k

j

ij j ij

j

β

β

β (2.64)