Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


modelos dinámicos en, Ejercicios de Econometría

uofijfkjvkrep´wdldsdfklfirioe8edfjkkf

Tipo: Ejercicios

2022/2023

Subido el 11/06/2023

delia-yaqueli-huaman-guayac
delia-yaqueli-huaman-guayac 🇵🇪

9 documentos

1 / 28

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
CAPÍTULO
11 Regresión con variable
dependiente binaria
Dos personas idénticas, excepto en su etnia, caminan hacia un banco y solicitan una hipoteca, un
préstamo grande con el que cada uno puede comprar una casa idéntica. ¿Les trata el banco de la
misma forma? ¿Tienen ambos la misma probabilidad de que su solicitud de hipoteca les sea concedi-
da? Legalmente deben recibir un tratamiento idéntico. Pero el hecho de si en realidad lo obtienen o no
es un asunto de gran preocupación para los reguladores bancarios.
Los préstamos se otorgan y se deniegan por muchas razones legítimas. Por ejemplo, si los pagos
del préstamo propuestos constituyen la mayor parte o la totalidad de los ingresos mensuales del solici-
tante, un empleado de un banco podría denegar con razón la concesión del préstamo. Además, hasta
los empleados de los bancos son humanos y pueden cometer errores sinceros, por lo que la denega-
ción a un solicitante que pertenece a una minoría no prueba nada acerca de la discriminación. Muchos
estudios sobre discriminación, por lo tanto, buscan evidencia estadística de la existencia de discrimina-
ción, es decir, pruebas que figuran en grandes conjuntos de datos que muestren que los blancos y las
minorías son tratados de manera diferente.
Pero, ¿cómo se verificaría exactamente la evidencia estadística acerca de la discriminación en el
mercado hipotecario? Un comienzo es comparar la proporción de solicitantes blancos y de minorías a
los que se les negó un préstamo hipotecario. En los datos analizados en este capítulo, tomados de las
solicitudes de hipotecas en 1990 en el área de Boston, Massachusetts, al 28 % de los solicitantes ne-
gros se les denegó el préstamo hipotecario, pero solamente se les denegó al 9 % de los solicitantes
blancos. Pero esta comparación no responde realmente a la pregunta que abre este capítulo, debido a
que los solicitantes negros y blancos no eran candidatos necesariamente «idénticos, excepto en su et-
nia». En su lugar, necesitamos un método para comparar las tasas de rechazo, manteniendo las otras
características constantes.
Esto suena como una tarea para el análisis de regresión múltiple, y lo es, pero con una peculiaridad.
La peculiaridad es que la variable dependiente —si la solicitud se deniega— es binaria. En la Parte II, se
utilizan habitualmente variables binarias como regresores, lo que no causa problemas particulares. Sin
embargo, cuando la variable dependiente es binaria, las cosas son más difíciles: ¿Qué significa ajustar
una recta a una variable dependiente que solo puede adoptar dos valores, 0 y 1?
La respuesta a esta pregunta es la de interpretar la función de regresión como una predicción de
probabilidad. Esta interpretación se discute en la Sección 11.1, y nos permite aplicar los modelos de
regresión múltiple de la Parte II al caso de variables dependientes binarias. La Sección 11.1 examina
este «modelo de probabilidad lineal». Pero la interpretación como predicción de probabilidad asimis-
mo sugiere que la alternativa, los modelos de regresión no lineales pueden hacerlo mejor al modelizar
estas probabilidades. Estos métodos, denominados regresiones «probit» y «logit», se examinan en la
Sección 11.2. La Sección 11.3, que es opcional, analiza el método utilizado para estimar los coeficien-
tes de las regresiones probit y logit, el método de estimación de máxima verosimilitud. En la Sección
11.4, se aplican estos métodos al conjunto de datos de solicitudes de préstamos hipotecarios de Bos-
ton para comprobar si existe evidencia de la existencia de prejuicios raciales en la concesión de présta-
mos hipotecarios.
La variable dependiente binaria considerada en este capítulo es un ejemplo de una variable depen-
diente con rango limitado; en otras palabras, se trata de una variable dependiente limitada. Los mo-
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c

Vista previa parcial del texto

¡Descarga modelos dinámicos en y más Ejercicios en PDF de Econometría solo en Docsity!

C A P Í T U L O

Regresión con variable

dependiente binaria

D

os personas idénticas, excepto en su etnia, caminan hacia un banco y solicitan una hipoteca, un préstamo grande con el que cada uno puede comprar una casa idéntica. ¿Les trata el banco de la misma forma? ¿Tienen ambos la misma probabilidad de que su solicitud de hipoteca les sea concedi- da? Legalmente deben recibir un tratamiento idéntico. Pero el hecho de si en realidad lo obtienen o no es un asunto de gran preocupación para los reguladores bancarios. Los préstamos se otorgan y se deniegan por muchas razones legítimas. Por ejemplo, si los pagos del préstamo propuestos constituyen la mayor parte o la totalidad de los ingresos mensuales del solici- tante, un empleado de un banco podría denegar con razón la concesión del préstamo. Además, hasta los empleados de los bancos son humanos y pueden cometer errores sinceros, por lo que la denega- ción a un solicitante que pertenece a una minoría no prueba nada acerca de la discriminación. Muchos estudios sobre discriminación, por lo tanto, buscan evidencia estadística de la existencia de discrimina- ción, es decir, pruebas que figuran en grandes conjuntos de datos que muestren que los blancos y las minorías son tratados de manera diferente. Pero, ¿cómo se verificaría exactamente la evidencia estadística acerca de la discriminación en el mercado hipotecario? Un comienzo es comparar la proporción de solicitantes blancos y de minorías a los que se les negó un préstamo hipotecario. En los datos analizados en este capítulo, tomados de las solicitudes de hipotecas en 1990 en el área de Boston, Massachusetts, al 28 % de los solicitantes ne- gros se les denegó el préstamo hipotecario, pero solamente se les denegó al 9 % de los solicitantes blancos. Pero esta comparación no responde realmente a la pregunta que abre este capítulo, debido a que los solicitantes negros y blancos no eran candidatos necesariamente «idénticos, excepto en su et- nia». En su lugar, necesitamos un método para comparar las tasas de rechazo, manteniendo las otras características constantes. Esto suena como una tarea para el análisis de regresión múltiple, y lo es, pero con una peculiaridad. La peculiaridad es que la variable dependiente —si la solicitud se deniega— es binaria. En la Parte II, se utilizan habitualmente variables binarias como regresores, lo que no causa problemas particulares. Sin embargo, cuando la variable dependiente es binaria, las cosas son más difíciles: ¿Qué significa ajustar una recta a una variable dependiente que solo puede adoptar dos valores, 0 y 1? La respuesta a esta pregunta es la de interpretar la función de regresión como una predicción de probabilidad. Esta interpretación se discute en la Sección 11.1, y nos permite aplicar los modelos de regresión múltiple de la Parte II al caso de variables dependientes binarias. La Sección 11.1 examina este «modelo de probabilidad lineal». Pero la interpretación como predicción de probabilidad asimis- mo sugiere que la alternativa, los modelos de regresión no lineales pueden hacerlo mejor al modelizar estas probabilidades. Estos métodos, denominados regresiones «probit» y «logit», se examinan en la Sección 11.2. La Sección 11.3, que es opcional, analiza el método utilizado para estimar los coeficien- tes de las regresiones probit y logit, el método de estimación de máxima verosimilitud. En la Sección 11.4, se aplican estos métodos al conjunto de datos de solicitudes de préstamos hipotecarios de Bos- ton para comprobar si existe evidencia de la existencia de prejuicios raciales en la concesión de présta- mos hipotecarios. La variable dependiente binaria considerada en este capítulo es un ejemplo de una variable depen- diente con rango limitado; en otras palabras, se trata de una variable dependiente limitada. Los mo-

delos para otros tipos de variables dependientes limitadas, por ejemplo, las variables dependientes que toman varios valores discretos, se examinan en el Apéndice 11.3.

11.1 Variables dependientes binarias y modelo de probabilidad

lineal

La aceptación o denegación de una solicitud de hipoteca es un ejemplo de variable binaria. Asimismo, otras muchas cuestiones importantes presentan alternativas binarias. ¿Cuál es el efecto de una subvención a la matrícula sobre la decisión de un individuo de ir a la universidad? ¿Qué determina que un adolescente empiece o no a fumar? ¿Qué determina si un país recibe o no ayuda exterior? ¿Qué determina si un solici- tante de empleo tiene o no éxito? En todos estos ejemplos, el resultado relevante es binario: el estudiante irá o no irá a la universidad, el adolescente empezará o no a fumar, un país recibirá o no ayuda extranjera, el solicitante conseguirá o no un trabajo. Esta sección trata sobre la distinción entre la regresión con una variable dependiente binaria y la regre- sión con una variable dependiente continua, y trata posteriormente el modelo más sencillo que se puede utilizar con variables dependientes binarias, el modelo de probabilidad lineal.

Variables dependientes binarias

El caso que se examina en este capítulo es si la pertenencia a un grupo étnico constituye un factor rele- vante para la denegación de una solicitud de hipoteca; la variable dependiente binaria es si se deniega o no una solicitud de hipoteca. Los datos son un subconjunto de una base de datos mayor recopilado por los investigadores del Banco de la Reserva Federal de Boston, bajo el amparo de la Ley de Divulgación de Hipotecas (HMDA) y se refieren a las solicitudes de hipotecas recogidas en el área de Boston, Massachu- setts, en 1990. Los datos HMDA de Boston se describen en el Apéndice 11.1. Las solicitudes de hipotecas son complicadas y por tanto lo es el proceso por el cual el empleado del banco toma una decisión. El empleado del banco debe predecir si el solicitante cumplirá con los pagos de su préstamo. Un aspecto importante de la información es la cuantía de los pagos requeridos por el préstamo en relación con la renta del solicitante. Como cualquier persona que haya pedido prestado dinero, sabe que resulta mucho más fácil realizar los pagos si suponen un 10 % de los ingresos ¡que si suponen un 50 %! Por lo tanto, comenzaremos por examinar la relación entre dos variables: la variable dependiente binaria dene- gar , que es igual a 1 si la solicitud de hipoteca fue denegada y es igual a 0 si fue aceptada, y la variable continua ratio P / I , que es el cociente entre el total de los pagos mensuales del préstamo del solicitante y sus ingresos mensuales. La Figura 11.1 representa un diagrama de dispersión de la variable denegar versus la variable ratio P / I para 127 de las 2.380 observaciones del conjunto de datos. (El diagrama de dispersión resulta más fácil de leer utilizando este subconjunto de datos). Este diagrama de dispersión tiene un aspecto diferente de los diagramas de dispersión de la Parte II, debido a que la variable denegar es binaria. Aun así, parece mostrar que existe una relación entre la variable denegar y la variable ratio P / I : unos pocos solicitantes con una ratio de pagos sobre ingresos inferior a 0,3 ven denegadas sus solicitudes, pero a la mayoría de los solicitan- tes con una proporción de pagos-ingresos superior a 0,4 se les deniega. Esta relación positiva entre las variables ratio P / I y denegar (cuanto mayor es la variable ratio P / I , mayor es la proporción de denegaciones) se recoge en la Figura 11.1 mediante la recta de regresión estima- da MCO utilizando estas 127 observaciones. Como de costumbre, esta recta representa gráficamente los valores de predicción de la variable denegar como función del regresor, la proporción entre los pagos y los ingresos. Por ejemplo, cuando la variable ratio P / I % 0,3, el valor estimado para la variable denegar es de 0,20. ¿Pero qué significa exactamente que el valor de predicción para la variable binaria denegar sea 0,20? La clave para responder a esta pregunta —y en general para comprender la regresión con una variable dependiente binaria— consiste en interpretar la regresión como la modelización de la probabilidad de que la variable dependiente sea igual a 1. Por tanto, el valor de 0,20 estimado se puede interpretar en el sentido

276 CAPÍTULO 11 Regresión con variable dependiente binaria

CONCEPTO CLAVE

El modelo de probabilidad lineal El modelo de probabilidad lineal es el modelo lineal de regresión múltiple,

Yi % b 0! b 1 X 1 i! b 2 X 2 i! ñ! b k Xki! u (^) i , (11.2)

aplicado a una variable dependiente binaria Yi. Debido a que Y es binaria, E ( Y  X 1 , X 2 , ..., Xk ) % Pr( Y % 1  X 1 , X 2 , ..., X (^) k ), por lo que el modelo de probabilidad lineal,

Pr( Y % 1  X 1 , X 2 , ..., X (^) k ) % b 0! b 1 X 1! b 2 X 2! ñ! b k X (^) k.

El coeficiente de regresión b 1 es la variación de la probabilidad de que Y % 1 asociada con una variación unitaria en X 1 , manteniendo constantes las otras variables explicati- vas, y sucesivamente para b 2 , ..., b k. Los coeficientes de la regresión se pueden estimar por MCO, y se pueden utilizar los errores MCO habituales (heterocedástico-robustos) para los intervalos de confianza y los contrastes de hipótesis.

Una herramienta que no es transferible es el R^2. Cuando la variable dependiente es continua, es posible imaginar una situación en la que el R^2 sea igual a 1: todos los datos se encuentran exactamente en la recta de regresión. Esto es imposible cuando la variable dependiente es binaria, a menos que los regresores sean igualmente binarios. Por tanto, el R^2 no es un estadístico particularmente útil aquí. Volveremos a las medi- das de ajuste en la sección siguiente. El modelo de probabilidad lineal se resume en el Concepto clave 11.1. Aplicación a los datos HMDA de Boston. La regresión MCO de la variable dependiente binaria, denegar , sobre la proporción de pagos sobre ingresos, ratio P / I , estimada utilizando el total de las 2. observaciones de nuestra base de datos es

denegar %.0,080! 0,604 ratio P / I. (11.1) (0,032) (0,098)

El coeficiente estimado para la variable ratio P / I es positivo, y el coeficiente poblacional es estadística y significativamente diferente de cero al nivel del 1 % (el estadístico t es 6,13). Por tanto, los solicitantes con pagos de deuda más altos en proporción a los ingresos tienen más probabilidad de que su solicitud sea denegada. Este coeficiente puede utilizarse para calcular la variación prevista en la probabilidad de denega- ción, dado una variación en el regresor. Por ejemplo, de acuerdo con la Ecuación (11.1), si la variable ratio P / I aumenta en 0,1, la probabilidad de denegación aumenta en 0,064 # 0,1 V% 0,060, es decir, 6,0 puntos porcentuales. El modelo de probabilidad lineal estimado en la Ecuación (11.1) se puede utilizar para calcular las pro- babilidades de denegación estimada en función de la variable ratio P / I. Por ejemplo, si se prevén unos pa- gos de deuda de un 30 % de los ingresos de un solicitante, la variable ratio P / I es 0,3 y el valor teórico según la Ecuación (11.1) es .0,080! 0,604 # 0,3 % 0,101. Es decir, de acuerdo con este modelo de pro- babilidad lineal, un solicitante cuyos pagos de la deuda se espera que constituyan un 30 % de sus ingresos tiene una probabilidad del 10,1 % de que su solicitud sea rechazada. [La cual es diferente de la probabilidad del 20 % basada en la recta de regresión de la Figura 11.1, debido a que esta recta se calculaba utilizando únicamente 127 de las 2.380 observaciones utilizadas para estimar la Ecuación (11.1).] ¿Cuál es el efecto de la etnia sobre la probabilidad de denegación, manteniendo constante la variable ratio P / I? Para simplificar las cosas, nos centramos en las diferencias entre los solicitantes negros y blancos. Para estimar el efecto de la etnia manteniendo constante la variable ratio P / I , la Ecuación (11.1) se amplía con un regresor binario que es igual a 1 si el solicitante es negro y es igual a 0 si el solicitante es blanco. El modelo de probabilidad lineal estimado es

denegar %.0,091! 0,559 ratioP / I! 0,177 negro. (11.3) (0,029) (0,089) (0,025)

278 CAPÍTULO 11 Regresión con variable dependiente binaria

El coeficiente de negro , 0,177, indica que un solicitante afroamericano tiene una probabilidad mayor en un 17,7 % de obtener una solicitud de hipoteca denegada que un blanco, manteniendo constante la propor- ción de pagos sobre ingresos. Este coeficiente es significativo al nivel del 1 % (el estadístico t es 7,11). Interpretada de modo literal, esta estimación sugiere que podría haber un sesgo racial en las decisiones sobre concesiones de hipoteca, pero tal conclusión sería prematura. Aunque el cociente pagos-ingresos de- sempeñe un papel en la decisión del empleado del banco, asimismo lo hacen otros muchos factores, como por ejemplo los ingresos potenciales del solicitante y el historial crediticio del individuo. Si alguna de estas variables estuviera correlacionada con los regresores negro o ratio P / I , su omisión de la Ecuación (11.3) causaría sesgo de variable omitida. Por tanto debe posponerse la extracción de cualquier conclusión acerca de la discriminación en la concesión de préstamos hipotecarios hasta que se complete un análisis en mayor profundidad en la Sección 11.3. Deficiencias del modelo de probabilidad lineal. La linealidad que hace que el modelo de probabi- lidad lineal sea fácil de utilizar es del mismo modo su mayor defecto. Debido a que las probabilidades no pueden exceder el valor 1, el efecto sobre la probabilidad de que Y % 1 de una variación en X determinada debe ser no lineal: a pesar de que una variación en la variable ratio P / I desde 0,3 hasta 0,4 podría tener un gran efecto en la probabilidad de denegación, una vez que la variable ratio P / I sea tan grande que el présta- mo es muy probable que se deniegue, el aumento en la variable ratio P / I tendrá en cambio un efecto escaso. Por el contrario, en el modelo de probabilidad lineal, el efecto de una variación determinada de la variable ratio P / I es constante, lo que conduce a predicciones sobre las probabilidades en la Figura 11.1 que son ¡inferiores a 0 para valores muy bajos de la variable ratio P / I y superiores a 1 y para los valores altos! Pero esto es un disparate: la probabilidad no puede ser menor que 0 o mayor que 1. Esta característica sin sentido es una consecuencia inevitable de la regresión lineal. Para hacer frente a este problema, se introducen nue- vos modelos no lineales diseñados específicamente para variables dependientes binarias, los modelos de regresión probit y logit.

11.2 Regresión probit y logit

Las regresiones probit y logit^1 son modelos de regresión no lineales diseñados específicamente para variables dependientes binarias. Debido a que una regresión con una variable dependiente binaria Y modeli- za la probabilidad de que Y % 1, tiene sentido adoptar una formulación no lineal que obligue a que los valores estimados estén entre 0 y 1. Debido a que las funciones de distribución de probabilidad acumuladas (f.d.a.) dan lugar a probabilidades entre 0 y 1 (Sección 2.1), éstas se utilizan en las regresiones logit y pro- bit. La regresión probit utiliza la f.d.a. normal estándar. La regresión logit, asimismo denominada regresión logística , utiliza la f.d.a «logística».

Regresión probit

Regresión probit con un único regresor. El modelo de regresión probit con un solo regresor X es

Pr( Y % 1  X ) % J(b 0! b 1 X ), (11.4)

donde J es la función de distribución de probabilidad acumulada normal estándar (tabulada en la Tabla 1 del Apéndice). Por ejemplo, supongamos que Y es la variable binaria de denegación de la solicitud de hipoteca, dene- gar , X es la proporción de pagos-ingresos ( ratio P / I ), b 0 %.2, y b 1 % 3. ¿Cuál es la probabilidad de dene- gación, si ratio P / I % 0,4? De acuerdo con la Ecuación (11.4), esta probabilidad es J(b 0! b 1 ratio P / I ) % % J(. 2! 3 # 0,4) % J(.0,8). De acuerdo con la tabla de la distribución normal acumulada (Tabla 1 del

(^1) Pronunciado pro-bit y lo-yit.

Introducción a la Econometría 279

El modelo probit con varios regresores amplía el modelo probit de un solo regresor mediante la adición de variables explicativas para calcular el z -valor. En consecuencia, el modelo de regresión poblacional pro- bit con dos variables explicativas, X 1 y X 2 , es

Pr( Y % 1  X 1 , X 2 ) % J(b 0! b 1 X 1! b 2 X 2 ). (11.5)

Por ejemplo, supongamos que b 0 %.1,6, b 1 % 2, y b 2 % 0,5. Si X 1 % 0,4 y X 2 % 1, el z- valor es z %.1,6! 2 # 0,4! 0,5 # 1 %.0,3. Por lo tanto, la probabilidad de que Y % 1 dado X 1 % 0,4 y X 2 % 1 es Pr( Y % 1  X 1 % 0,4, X 2 % 1) % J(.0,3) % 38 %.

Efecto de una variación en X. En general, el efecto sobre Y de un cambio en X es el cambio esperado en Y que surge de un cambio en X. Cuando Y es binaria, su esperanza condicional es la probabilidad condi- cional de que sea igual a 1, por lo que el cambio esperado en Y que surge de un cambio en X es el cambio en la probabilidad de que Y % 1. Recordemos de la Sección 8.1 que, cuando la función de regresión poblacional es una función no lineal de X , este cambio esperado se estima en tres pasos: en primer lugar, se calcula el valor esperado en el valor original de X utilizando la función de regresión estimada; más tarde, se calcula el valor esperado sobre el valor de X tras el cambio, X! B X ; por último, se calcula la diferencia entre los dos valores esperados. Este procedimiento se resume en el Concepto clave 8.1. Como se destacó en la Sección 8.1, este método siempre funciona para el cálculo de los efectos esperados de un cambio en X , sin importar lo complicado que sea el modelo. Cuando se aplica al modelo probit, el método del Concepto clave 8.1 da lugar al efecto estimado sobre la probabilidad de que Y % 1 de un cambio en X. El modelo de regresión probit, las probabilidades esperadas, y los efectos estimados se resumen en el Concepto clave 11.2.

El modelo probit, probabilidades estimadas y efectos estimados El modelo probit poblacional con varios regresores es

Pr( Y % 1  X 1 , X 2 , ..., X (^) k ) % J(b 0! b 1 X 1! b 2 X 2! ñ! b k X (^) k ), (11.6)

donde la variable dependiente Y es binaria, J es la función de distribución normal están- dar acumulada, y X 1 y X 2 , etc., son regresores. El modelo se interpreta mejor calculando las probabilidades esperadas y el efecto de un cambio en un regresor. La probabilidad esperada de que Y % 1, dados los valores de X 1 , X 2 , ..., X (^) k , se calcula mediante el cómputo del z -valor, z % b 0! b 1 X 1! b 2 X 2! ñ! b k X (^) k , y buscando lue- go este valor de z en la tabla de la distribución normal (Tabla 1 del Apéndice). El coeficiente b 1 es el cambio en el z -valor derivado de un cambio unitario en X 1 , manteniendo constantes X 2 , ..., X (^) k. El efecto sobre la probabilidad esperada de un cambio en un regresor se calcula (1) calculando la probabilidad esperada para el valor inicial de las variables explicativas, (2) calculando la probabilidad esperada para el nuevo o modificado valor de los regresores, y (3) tomando su diferencia.

CONCEPTO CLAVE

Aplicación a los datos de las hipotecas. A modo de ejemplo, podemos ajustar un modelo probit a las 2.380 observaciones de nuestra base de datos sobre la denegación de hipotecas ( denegar ) y la ratio de pagos-ingresos ( ratio P / I ):

Pr( denegar % 1  ratio P / I ) % J(.2,19! 2,97 ratio P / I ). (11.7) (0,16) (0,47)

Introducción a la Econometría 281

Los coeficientes estimados de .2,19 y 2,97 son difíciles de interpretar debido a que afectan a la proba- bilidad de denegación a través del z -valor. De hecho, lo único que puede concluirse fácilmente a partir de la regresión probit estimada en la Ecuación (11.7) es que la proporción de pagos sobre ingresos está relaciona- da positivamente con la probabilidad de denegación (el coeficiente de la variable ratio P / I es positivo) y que esta relación es estadísticamente significativa ( t % 2,97/0,47 % 6,32). ¿Cuál es el cambio en la probabilidad estimada de que una solicitud se deniegue, cuando la proporción de pagos-ingresos aumenta de 0,3 a 0,4? Para responder a esta pregunta, se sigue el procedimiento del Con- cepto clave 8.1: se calcula la probabilidad de denegación para una ratio P / I % 0,3, y a continuación para un valor de la variable ratio P / I % 0,4, posteriormente se calcula la diferencia. La probabilidad de denegación cuando la variable ratio P / I % 0,3 es J(.2,19! 2,97 # 0,3) % J(.1,30) % 0,097. La probabilidad de de- negación cuando la variable ratio P / I % 0,4 es J(.2,19! 2,97 # 0,4) % J(.1,00) % 0,159. El cambio estimado en la probabilidad de denegación es 0,159. 0,097 % 0,062. Es decir, un aumento en la ratio de pagos-ingresos de 0,3 a 0,4 está asociado a un aumento en la probabilidad de denegación de 6,2 puntos porcentuales, del 9,7 % al 15,9 %. Debido a que la función de regresión probit es no lineal, el efecto de un cambio en X depende del valor inicial de X. Por ejemplo, si la variable ratio P / I % 0,5, la probabilidad de denegación estimada en base a la Ecuación (11.7) es J(.2,19! 2,97 # 0,5) % J(.0,71) % 0,239. Por tanto, el cambio en la probabilidad estimada cuando la variable ratio P / I aumenta de 0,4 a 0,5 es 0,239. 0,159, o 8,0 puntos porcentuales, mayor que el incremento de 6,2 puntos porcentuales si la variable ratio P / I aumenta de 0,3 a 0,4. ¿Cuál es el efecto de la etnia en la probabilidad de denegación de hipotecas, manteniendo constante la proporción entre pagos e ingresos? Para estimar este efecto, se estima una regresión probit tanto con la variable ratio P / I como con la variable negro como regresores:

Pr( denegar % 1  ratio P / I , negro ) % J(.2,26! 2,74 ratio P / I! 0,71 negro ). (11.8) (0,16) (0,44) (0,083)

Una vez más, los valores de los coeficientes son difíciles de interpretar, pero el signo y la significación estadística no lo son. El coeficiente de la variable negro es positivo, lo que indica que un solicitante afroa- mericano tiene una mayor probabilidad de rechazo que un solicitante blanco, manteniendo constante su proporción de pagos-ingresos. Este coeficiente es estadísticamente significativo al nivel del 1 % (el estadís- tico t del coeficiente que multiplica a la variable negro es 8,55). Para un solicitante blanco con un valor de la v ariable ratio P / I % 0,3 la probabilidad de denegación prevista es del 7,5 %, mientras que para un candi- dato negro con un valor de la v ariable ratio P / I % 0,3, es de un 23,3 %; la diferencia de las probabilidades de denegación entre estos dos candidatos hipotéticos es de 15,8 puntos porcentuales.

Estimación de los coeficientes probit. Los coeficientes probit presentados aquí se calculan median- te el método de máxima verosimilitud, que da lugar a estimadores eficientes (con varianza mínima) en una amplia variedad de aplicaciones, incluyendo la regresión con una variable dependiente binaria. El estimador de máxima verosimilitud es consistente y se distribuye normalmente en muestras grandes, por lo que los estadísticos t y los intervalos de confianza se pueden construir de la forma habitual. El software de regresión para estimar modelos probit utiliza habitualmente la estimación máximo vero- símil, por lo que este es un método que resulta fácil de aplicar en la práctica. Los errores estándar que calcula dicho software pueden utilizarse de la misma manera que los errores estándar de los coeficientes de regresión, por ejemplo; un intervalo de confianza al 95 % para el verdadero coeficiente probit se puede construir como el coeficiente estimado u1,96 errores estándar. Del mismo modo, los estadísticos F calcula- dos utilizando los estimadores de máxima verosimilitud se pueden utilizar para contrastar hipótesis conjun- tas. La estimación de máxima verosimilitud se analiza con más profundidad en la Sección 11.3, con detalles adicionales en el Apéndice 11.2.

282 CAPÍTULO 11 Regresión con variable dependiente binaria

Aplicación a los datos HMDA de Boston. Una regresión logit de la variable denegar frente a las variables ratio P / I y negro , utilizando las 2.380 observaciones de la base de datos, ofrece los siguientes resultados para la función de regresión estimada

Pr( denegar % 1  ratio P / I , negro ) % F (.4,13! 5,37 ratio P / I! 1,27 negro ). (11.10) (0,35) (0,96) (0,15)

El coeficiente de la variable negro es positivo y estadísticamente significativo al nivel del 1 % (el esta- dístico t es 8,47). La probabilidad estimada de denegación para un solicitante blanco con un valor de la variable ratio P / I % 0,3 es 1/[1! e .(.4,13^!^ 5,37^ #^ 0,3^!^ 1,27^ #^ 0)] % 1/[1! e 2,52] % 0,074, o el 7,4 %. La pro- babilidad de denegación estimada para un solicitante afroamericano con valor de la variable ratio P / I % 0, es [1/ e 1,25] % 0,222, o el 22,2 % por lo que la diferencia entre las dos probabilidades es de 14,8 puntos porcentuales.

Comparativa de los modelos de probabilidad lineal, probit y logit

Los tres modelos de probabilidad lineal, probit y logit, son solamente aproximaciones para la función de regresión poblacional desconocida E ( Y / X ) % Pr( Y % 1  X ). El modelo de probabilidad lineal es más fácil de usar y de interpretar, pero no puede captar la naturaleza no lineal de la verdadera función de regresión poblacional. Los modelos de regresión probit y logit son no lineales en las probabilidades, pero sus coefi- cientes de regresión son más difíciles de interpretar. Por lo que ¿cuál debe utilizarse en la práctica? No hay una respuesta correcta, y los distintos investigadores utilizan diferentes modelos. Las regresio- nes probit y logit con frecuencia producen resultados similares. Por ejemplo, de acuerdo con el modelo probit estimado en la Ecuación (11.8), la diferencia en las probabilidades de denegación entre un solicitante negro y un solicitante blanco con un valor de la variable ratio P / I % 0,3 se estimaba en 15,8 puntos porcen- tuales, mientras que la estimación logit de esta diferencia, en base a la Ecuación (11.10), era de 14,9 puntos porcentuales. A efectos prácticos, las dos estimaciones son muy similares. Una forma de elegir entre logit y probit es escoger el método que resulte más fácil de utilizar con el software estadístico concreto. El modelo de probabilidad lineal proporciona la aproximación menos sensible a la función de regresión poblacional no lineal. Aun así, para algunos conjuntos de datos en los que puede haber unos pocos valores extremos de los regresores, el modelo de probabilidad lineal puede proporcionar una aproximación adecua- da. En la regresión de la probabilidad de denegación de la Ecuación (11.3), la brecha estimada negro/blanco a partir del modelo de probabilidad lineal es de 17,7 puntos porcentuales, mayor que las estimaciones probit y logit, pero todavía cuantitativamente similar. No obstante, la única manera de saberlo, es estimando tanto un modelo lineal como un modelo no lineal y comparando sus probabilidades estimadas.

11.3 Estimación e inferencia en los modelos logit y probit

Los modelos no lineales estudiados en las Secciones 8.2 y 8.3 son funciones no lineales de las variables independientes, pero son funciones lineales de los coeficientes desconocidos («parámetros»). En consecuen- cia, los coeficientes desconocidos de las funciones de regresión no lineales se pueden estimar por MCO. Por contra, las funciones de regresión probit y logit son funciones no lineales de los coeficientes. Es decir, los coeficientes probit b 0 , b 1 , ..., b k de la Ecuación (11.6) aparecen dentro de la función de distribución acumu- lada normal, J, y los coeficientes logit de la Ecuación (11.9) aparecen dentro de la función de distribución logística estándar acumulada, F. Debido a que la función de regresión poblacional es una función no lineal de estos coeficientes b 0 , b 1 , ..., b k , los coeficientes no se pueden estimar por MCO. En esta sección se ofrece una introducción al método estándar para la estimación de los coeficientes probit y logit, la máxima verosimilitud, los detalles matemáticos adicionales se recogen en el Apéndice 11.2. Debido a que está incluido en el software estadístico moderno, la estimación máximo verosímil de los

(^2) Este apartado contiene material más avanzado que se puede omitir sin pérdida de continuidad.

284 CAPÍTULO 11 Regresión con variable dependiente binaria

coeficientes probit resulta fácil en la práctica. La teoría de la estimación de máxima verosimilitud, sin em- bargo, es más complicada que la teoría de mínimos cuadrados. Por lo tanto, se trata primero otro método de estimación, el de mínimos cuadrados no lineales, antes de pasar a la máxima verosimilitud.

Estimación por mínimos cuadrados no lineales

Mínimos cuadrados no lineales es un método general para estimar los parámetros desconocidos de una función de regresión en la que, como los coeficientes probit, los parámetros entran en la función de regre- sión poblacional de forma no lineal. El estimador de mínimos cuadrados no lineales, que se introdujo en el Apéndice 8.1, extiende el estimador MCO a las funciones de regresión que son funciones no lineales de los parámetros. Al igual que MCO, los mínimos cuadrados no lineales seleccionan los valores de los paráme- tros que minimizan la suma de los errores de predicción al cuadrado producidos por el modelo. Para concretar, consideremos el estimador de mínimos cuadrados no lineales de los parámetros del mo- delo probit. La esperanza condicional de Y dadas las X es E ( Y  X 1 , ..., X (^) k ) % Pr( Y % 1  X 1 , ..., X (^) k ) % % J(b 0! b 1 X 1! ñ! b k X (^) k ). La estimación por mínimos cuadrados no lineales ajusta esta función de es- peranza condicional, que es una función no lineal de los parámetros, para la variable dependiente. Es decir, el estimador de mínimos cuadrados no lineales de los coeficientes probit son los valores de b 0 , ..., b (^) k que minimizan la suma de los errores de predicción al cuadrado:

n ; i % 1

[ Yi. J( b 0! b 1 X 1 i! ñ! b (^) k X (^) ki )] 2. (11.11)

El estimador de mínimos cuadrados no lineales comparte dos propiedades clave con el estimador MCO de la regresión lineal: es consistente (la probabilidad de que se encuentra cerca del verdadero valor se apro- xima a 1 cuando el tamaño de la muestra se hace grande), y está normalmente distribuido en muestras gran- des. Existen, sin embargo, estimadores que tienen una varianza menor que el estimador de mínimos cuadra- dos no lineales; es decir, el estimador de mínimos cuadrados no lineales es ineficiente. Por esta razón, el estimador de mínimos cuadrados no lineales de los coeficientes probit raramente se utiliza en la práctica, y en su lugar los parámetros se estiman por máxima verosimilitud.

Estimación máximo verosímil

La función de verosimilitud es la distribución de probabilidad conjunta de los datos, considerada como una función de los coeficientes desconocidos. El estimador de máxima verosimilitud (EMV) de los coefi- cientes desconocidos está compuesto por los valores de los coeficientes que maximizan la función de vero- similitud. Debido a que el EMV escoge los coeficientes desconocidos que maximizan la función de verosi- militud, que es a su vez la distribución de probabilidad conjunta, de hecho el EMV elige los valores de los parámetros que maximizan la probabilidad de haber obtenido los datos que realmente se observan. En este sentido, el EMV son los valores de los parámetros que «más probablemente» hayan generado los datos. Para ilustrar la estimación de máxima verosimilitud, consideremos dos observaciones i.i.d., Y 1 e Y 2 , de una variable dependiente binaria sin regresores. Como Y es una variable aleatoria de Bernouilli, y el único parámetro desconocido a estimar es la probabilidad p de que Y % 1, que es asimismo la media de Y. Para obtener el estimador de máxima verosimilitud, es necesaria una expresión para la función de vero- similitud, lo que a su vez requiere una expresión para la distribución de probabilidad conjunta de los datos. La distribución de probabilidad conjunta de las dos observaciones Y 1 e Y 2 es Pr( Y 1 % y 1 , Y 2 % y 2 ). Debido a que Y 1 e Y 2 están distribuidas independientemente, la distribución conjunta es el producto de las distribucio- nes individuales [Ecuación (2.23)], por lo que Pr( Y 1 % y 1 , Y 2 % y 2 ) % Pr( Y 1 % y 1 ) Pr( Y 2 % y 2 ). La distribu- ción de Bernoulli se puede resumir mediante la fórmula Pr( Y % y ) % p y (1. p ) 1. y : cuando y % 1, Pr( Y % 1) % p^1 (1. p ) 0 % p , y cuando y % 0, Pr( Y % 0) % p^0 (1. p ) 1 % 1. p. Por tanto, la distribución de probabilidad conjunta de Y 1 e Y 2 es Pr( Y 1 % y 1 , Y 2 % y 2 ) % [ p y^1 (1. p ) 1. y^1 ] # [ p y^2 (1. p )^1. y^2 ] % % p ( y^1! y 2)^ (1. p ) 2 .( y^1! y 2)^.

Introducción a la Econometría 285

Una ventaja de esta medida de ajuste es que resulta fácil de comprender. Una desventaja es que no refleja la calidad de la predicción: si Yi % 1, la observación se considera como correctamente estimada si la probabilidad estimada es del 51 % o del 90 %. El pseudo- R^2 mide el ajuste del modelo mediante la función de verosimilitud. Debido a que el EMV maximiza la función de verosimilitud, la adición de otro regresor a un probit o logit aumenta el valor de la verosimilitud maximizada, al igual que la adición de un regresor necesariamente reduce la suma de los cuadrados de los residuos en la regresión lineal por MCO. Este hecho sugiere medir la calidad de ajuste de un modelo probit mediante la comparación del valor de la función de verosimilitud maximizada con todas las variables explicativas con el valor de la función de verosimilitud sin regresores. Es decir, de hecho, lo que hace el pseudo- R^2. Se proporciona una fórmula para el pseudo- R^2 en el Apéndice 11.2.

11.4 Aplicación a los datos HMDA de Boston

Las regresiones de las dos secciones anteriores indican que las tasas de denegación fueron superiores para los solicitantes negros que para los solicitantes blancos, manteniendo constante su proporción pagos- ingresos. No obstante, los empleados de banca, al decidir sobre una solicitud de hipoteca, sopesan de forma legítima muchos factores, y, si alguno de esos otros factores difiere de forma sistemática en función de la etnia, los estimadores considerados hasta el momento presentarán sesgo de variable omitida. En esta sección, echaremos un vistazo más cercano a la cuestión de si existe evidencia estadística de discriminación en los datos HMDA de Boston. En concreto, nuestro objetivo es estimar el efecto de la etnia en la probabilidad de denegación, manteniendo constantes aquellas características de los candidatos que un empleado de banca podría considerar tener en cuenta de forma legal al decidir acerca de una solicitud de hipoteca. Las variables más importantes que se encuentran a disposición de los empleados de las entidades de crédito por medio de las solicitudes de hipoteca en la base de datos HMDA de Boston se muestran en la Tabla 11.1, esas son las variables en las que se centrarán los modelos empíricos sobre las decisiones de concesión de préstamo. Las dos primeras variables son medidas directas de la carga financiera que supon- dría el préstamo para el solicitante, medidas en términos de su renta. La primera de ellas es la ratio P / I ; la segunda es la proporción entre los gastos relacionados con la vivienda y la renta. La siguiente variable es el tamaño del préstamo, en relación con el valor de tasación de la vivienda, si la relación préstamo-valor es cercana a 1, el banco podría tener problemas para recuperar el monto total del préstamo si el solicitante no pagara el préstamo y el banco ejecutase la hipoteca. Las tres últimas variables financieras resumen el histo- rial crediticio del solicitante. Si un solicitante ha sido poco fiable en el pasado respecto al pago de deudas, el empleado de la entidad de crédito legítimamente podría preocuparse por la capacidad del solicitante o su deseo de cumplir con los pagos de la hipoteca en el futuro. Las tres variables miden los diferentes tipos de historiales crediticios, que el empleado de la entidad de crédito podría sopesar de forma diferente. La prime- ra se refiere al crédito al consumo, por ejemplo la deuda de tarjetas de crédito; la segunda es el historial previo de pagos hipotecarios; y la tercera mide los problemas crediticios lo suficientemente graves como para aparecer en un registro legal público, tales como la declaración de quiebra. La Tabla 11.1 enumera asimismo otras variables relevantes para la toma de decisión del empleado de la entidad de crédito. A veces, el solicitante debe solicitar un seguro hipotecario privado 3. El empleado de la entidad de crédito sabe si esa solicitud fue denegada, y esta denegación ponderaría negativamente en la toma de decisión por parte del empleado. Las tres variables siguientes, que se refieren a la situación laboral, el estado civil y el nivel educativo del solicitante, están relacionadas con la capacidad potencial del solici- tante para devolver el crédito. En el caso de una ejecución hipotecaria, las características de la propiedad resultan asimismo relevantes, y la variable siguiente indica si la propiedad es un condominio. Las dos últi-

(^3) El seguro hipotecario es una póliza de seguro bajo la cual la compañía de seguros efectúa el pago mensual al banco si el prestata- rio no cumple. Durante el periodo de este estudio, si la proporción préstamo-valor superaba el 80 %, en general, el solicitante estaba obligado a contratar un seguro hipotecario.

Introducción a la Econometría 287

TABLA 11.1 Variables incluidas en los modelos de regresión de las decisiones sobre concesión de hipotecas Variable Definición Media muestral Variables financieras ratio P/I Proporción total de pagos mensuales de la deuda sobre el total de in- gresos mensuales

0,

ratio gastos vivienda-ingresos Proporción de los gastos domésticos mensuales sobre el total de ingre- sos mensuales

0,

ratio préstamo-valor Proporción del tamaño del préstamo sobre el valor tasado de la pro- piedad

0,

calificación crédito consumo 1 si no hay pagos atrasados o morosidad 2 si uno o dos pagos atrasados o morosidad 3 si más de dos pagos atrasados 4 si no hay suficiente historial para determinar 5 si la historia de crédito en mora con los pagos atrasados 60 días 6 si la historia de crédito en mora con los pagos atrasados 90 días

2,

calificación crédito hipotecario 1 si no pagos atrasados hipoteca 2 si no historial pagos hipoteca 3 si uno o dos pagos atrasados hipoteca 4 si más de dos pagos atrasados hipoteca

1,

registro público insolvencia 1 si está incluido en cualquier registro público de problemas crediti- cios (quiebra, anulación de cargo, acciones de cobro) 0 en otro caso

0,

Características adicionales del solicitante seguro hipotecario denegado 1 si el solicitante solicitó seguro hipotecario y le fue denegado 0 en otro caso

0,

autoempleado 1 si es autoempleado, 0 en otro caso 0, soltero 1 si el solicitante declaró ser soltero, 0 en otro caso 3, titulado secundaria 1 si el solicitante posee título de graduado en una escuela secundaria, 0 en otro caso

0,

tasa de desemplao Tasa de desempleo en Massachussetts en 1989 en el sector del solici- tante

3,

condominio 1 si la unidad es un condominio, 0 en otro caso 0, negro 1 si el solicitante es negro, 0 si es blanco 0, denegación 1 si la solicitud de hipoteca se deniega, 0 en otro caso 0,

mas variables de la Tabla 11.1 se refieren a si el solicitante es blanco o negro y si la solicitud fue denegada o aceptada. En estos datos, el 14,2 % de los solicitantes son negros y el 12,0 % de las solicitudes fueron denegadas. En la Tabla 11.2 se presentan los resultados de la regresión basada en estas variables. Las especificacio- nes base, en las columnas (1) a (3), incluyen las variables financieras de la Tabla 11.1 además de las varia- bles que indican si el seguro hipotecario privado fue denegado y si el solicitante trabajaba por cuenta propia. En la década de 1990 los empleados de entidades de crédito habitualmente utilizaban umbrales, o valores de corte, para la proporción préstamo-valor, por lo que la especificación base que incluye esta variable utiliza variables binarias para indicar si el valor de la relación préstamo-valor es alto (n0,95), medio (entre 0,8 y 0,95), o bajo (a0,8); este caso se omite para evitar la multicolinealidad perfecta). Los regresores de las tres primeras columnas son similares a los de la especificación base considerada por los investigadores del Ban-

288 CAPÍTULO 11 Regresión con variable dependiente binaria

(Continuación Tabla 11.2) Estadísticos F y p -valores del contraste de exclusión de grupos de variables Regresor del modelo de regresión

MPL (1)

Logit (2)

Probit (3)

Probit (4)

Probit (5)

Probit (6) Interacciones raciales y negro 4, (0,002) Solamente interacciones raciales 0, (0,766) Diferencia en probabilidades de de- negación estimadas, blanco vs. negro (puntos porcentuales)

8,4 % 6,0 % 7,1 % 6,6 % 6,3 % 6,5 %

Estas regresiones se estimaron utilizando las n = 2.380 observaciones de la base de datos HMDA de Boston descrita en el Apéndice 11.1. El modelo de probabilidad lineal se estimó por MCO y las regresiones probit y logit fueron estimadas por máxima verosimilitud. Los errores estándar se ofrecen entre paréntesis bajo los coeficientes y los p -valores se indican entre paréntesis bajo los estadísticos F. La variación en la probabilidad estimada de la última fila se calculó para un solicitante hipotético cuyos valores de los regresores, distintos de la etnia, son iguales a la media muestral. Los coeficientes individuales son estadísticamente significativos al nivel del 5%* o del 1%**.

co de la Reserva Federal de Boston en el análisis original de estos datos 4. Las regresiones de las columnas (1) a (3) solo se diferencian en la forma de modelizar la probabilidad de denegación, utilizando un modelo de probabilidad lineal, un modelo logit, y un modelo probit, respectivamente. Debido a que la regresión de la columna (1) es un modelo de probabilidad lineal, sus coeficientes son las variaciones en las probabilidades estimadas que aparecen debido a una variación unitaria en la variable independiente. De esta manera, un aumento en la variable ratio P / I de 0,1 se estima que aumente la probabi- lidad de denegación en 4,5 puntos porcentuales (el coeficiente de la variable ratio P / I en la columna (1) es 0,449, y 0,449 # 0,1 V% 0,045). Del mismo modo, presentar un valor alto para la proporción entre el présta- mo y el valor de la vivienda aumenta la probabilidad de denegación: una relación préstamo-valor superior al 95 % se asocia con un aumento porcentual de 18,9 puntos (el coeficiente es de 0,189) en la probabilidad de denegación, en relación al caso omitido de una proporción préstamo-valor inferior al 80 %, manteniendo constantes las otras variables de la columna (1). Los solicitantes que obtienen una mala calificación crediti- cia asimismo tienen más dificultades para obtener un préstamo, manteniendo todo lo demás constante, aun- que curiosamente el coeficiente del crédito al consumo es estadísticamente significativo, pero no el coefi- ciente del crédito hipotecario. Los solicitantes que aparecen en un registro público de problemas crediticios, tales como la declaración de quiebra, tienen mucha mayor dificultad para obtener un préstamo: mantenien- do todo lo demás igual, aparecer en un registro público de insolvencia se estima que aumenta la probabili- dad de denegación en 0,197, o 19,7 puntos porcentuales. La denegación de seguro hipotecario privado se estima que es virtualmente decisiva: el coeficiente estimado de 0,702 significa que la denegación del seguro hipotecario incrementa la probabilidad de denegación de un préstamo hipotecario en 70,2 puntos porcentua- les, manteniendo todo lo demás igual. De las nueve variables (distintas de la etnia) de la regresión, los coeficientes de todas excepto de dos son estadísticamente significativos al nivel del 5 %, lo cual es coheren- te con que los empleados de las instituciones de crédito tomen sus decisiones teniendo en cuenta muchos factores. El coeficiente de la variable negro en la regresión (1) es 0,084, lo que indica que la diferencia en las probabilidades de denegación para los solicitantes negros y blancos es de 8,4 puntos porcentuales, mante- niendo constantes las otras variables de la regresión. Esto es estadísticamente significativo al nivel de signi- ficación del 1 % ( t % 3,65).

(^4) La diferencia entre las variables explicativas de las columnas (1) a (3) y las de Munnell et al. (1996), Tabla 2(1), es que Munnell et al. incluyen indicadores adicionales para la ubicación de la casa y la identidad de la entidad crediticia, datos que no están disponibles al público; un indicador para una vivienda multifamiliar, que aquí es irrelevante, debido a que nuestro subconjunto se centra en las vivien- das unifamiliares; y la riqueza neta, que se omite porque esta variable tiene unos valores positivos y negativos muy grandes y, por lo tanto, se corre el riesgo de que los resultados sean sensibles a observaciones atípicas específicas.

290 CAPÍTULO 11 Regresión con variable dependiente binaria

De las estimaciones logit y probit presentadas en las columnas (2) y (3) se extraen conclusiones simila- res. En las regresiones logit y probit, ocho de los nueve coeficientes de otras variables distintas de la etnia son estadística y significativamente distintos de cero individualmente al 5 % de nivel, y el coeficiente de la variable negro es estadísticamente significativo al 1 %. Tal y como se reflejó en la Sección 11.2, debido a que estos modelos son no lineales, deben elegirse unos valores concretos para todas las variables explicati- vas a fin de calcular la diferencia en las probabilidades estimadas para los solicitantes negros y blancos. Un modo convencional de tomar esta decisión es considerar un solicitante «promedio» que presenta como valo- res para todas las otras variables distintas de la etnia el promedio muestral de todas ellas. La última fila de la Tabla 11.2 presenta esta diferencia estimada de las probabilidades, evaluada para este solicitante promedio. Las diferencias raciales estimadas son similares entre sí: 8,4 puntos porcentuales para el modelo de probabi- lidad lineal [columna (1)], 6,0 puntos porcentuales para el modelo logit [columna (2)], y 7,1 puntos porcen- tuales para el modelo probit [columna (3)]. Estos efectos raciales estimados y los coeficientes de la variable negro son menores que en las regresiones de las secciones anteriores, en las que los únicos regresores eran las variables ratio P / I y negro , lo que indica que las estimaciones anteriores presentaban sesgo de variable omitida. Las regresiones de las columnas (4) a (6) investigan la sensibilidad de los resultados de la columna (3) a los cambios en la especificación de la regresión. La columna (4) modifica la columna (3) mediante la inclu- sión de características adicionales del solicitante. Estas características ayudan a predecir si el préstamo será denegado; por ejemplo, tener al menos un diploma de secundaria reduce la probabilidad de denegación (la estimación es negativa y el coeficiente es estadísticamente significativo al nivel del 1 %). Sin embargo, al tener en cuenta estas características personales no cambia el coeficiente estimado de la variable negro o la diferencia estimada en las probabilidades de denegación (6,6 %) de una manera importante. La columna (5) separa las seis categorías de crédito al consumo y las cuatro categorías de crédito hipo- tecario para contrastar la hipótesis nula de que estas dos variables entran de forma lineal; esta regresión asimismo agrega una variable que indica si la propiedad es un condominio. La hipótesis nula de que las variables de calificación crediticia entran en la expresión para el z -valor linealmente no se rechaza, ni el indicador de condominio es significativo, al nivel del 5 %. Lo más importante, la diferencia racial estimada en las probabilidades de denegación (6,3 %) es esencialmente la misma que en las columnas (3) y (4). La columna (6) examina si existen interacciones. ¿Se aplican diferentes criterios en la evaluación de las ratios pagos-ingresos y gastos de la vivienda-ingresos para los solicitantes negros frente a los solicitantes blancos? La respuesta parece ser no: los términos de interacción no son de manera conjunta estadística- mente significativos al nivel del 5 %. No obstante, la etnia sigue teniendo un efecto significativo, debido a que el indicador de la etnia y el término de interacción son conjunta y estadísticamente significativos al nivel del 1 %. Una vez más, la diferencia racial estimada en las probabilidades de denegación (6,5 %) es esencialmente la misma que en las otras regresiones probit. En las seis especificaciones, el efecto de la etnia en la probabilidad de denegación, manteniendo cons- tantes las otras características del solicitante, es estadísticamente significativo al nivel del 1 %. La diferen- cia estimada en las probabilidades de denegación entre los solicitantes negros y los solicitantes blancos oscila entre los 6,0 puntos porcentuales y los 8,4 puntos porcentuales. Una forma de evaluar si esta diferencia es grande o pequeña es volver a una variante de la pregunta planteada al comienzo de este capítulo. Supongamos que dos personas solicitan una hipoteca, una blanca y otra negra, pero que por lo demás presentan los mismos valores para las otras variables independientes de la regresión (3); en concreto, dejando a un lado la etnia, los valores de las otras variables de la regresión (3) son los valores de las medias muestrales para la base de datos HMDA. El solicitante blanco se enfrenta a un 7,4 % de posibilidades de denegación, pero el solicitante negro se enfrenta a un 14,5 % de posibilidades de denegación. La diferencia racial estimada en las probabilidades de denegación, 7,1 puntos porcentuales, significa que el candidato negro tiene casi el doble de probabilidad de ver su solicitud denegada que el solicitante blanco. Los resultados de la Tabla 11.2 (y los del estudio original de la Fed de Boston) proporcionan evidencia estadística acerca de la existencia de patrones raciales en la denegación de hipotecas lo que, por ley, no debería ocurrir. Esta evidencia desempeñó un papel importante como estímulo a los cambios de política por

Introducción a la Econometría 291

James Heckman y Daniel McFadden, ganadores del Premio Nobel

E

l Premio Nobel de Economía del año 2000 fue otorgado conjuntamente a dos económetras, James J. Heckman, de la Universidad de Chicago y Daniel L. McFadden, de la Uni- versidad de California en Berkeley, por sus fundamentales contribuciones al análisis de los datos sobre las personas y las empresas. Gran parte de su trabajo estaba enfocado a resolver las dificultades que se presentan con las variables dependien- tes limitadas. Heckman obtuvo el premio por el desarrollo de herramien- tas para el tratamiento de la selección muestral. Tal y como se trató en la Sección 9.2, el sesgo de selección muestral se pro- duce cuando la disponibilidad de los datos está influida por un proceso de selección que está relacionado con el valor de la variable dependiente. Por ejemplo, supongamos que se quiere estimar la relación entre los ingresos y algún regresor, X , me- diante una muestra aleatoria de la población. Si se estima la regresión con la submuestra de trabajadores empleados —es decir, aquellos que declaran ingresos positivos— la estima- ción MCO podría estar sujeta a un sesgo de selección. La so- lución de Heckman fue la de especificar una ecuación prelimi- nar con una variable dependiente binaria que indica si el trabajador se encuentra dentro o fuera de la fuerza laboral (dentro o fuera de la submuestra) y posteriormente tratar esta ecuación y la ecuación de los ingresos como un sistema de ecuaciones simultáneas. Esta estrategia general se ha extendi- do a los problemas de selección que surgen en muchos cam- pos, que van desde la economía laboral a la organización in- dustrial y las finanzas.

McFadden fue galardonado con el premio por el desarrollo de modelos de análisis de datos de selección discreta (¿se uni- rá al ejército un graduado de secundaria, irá a la universidad, o conseguirá un trabajo?). Empezó por estudiar el problema de un individuo que maximiza la utilidad esperada de cada op- ción posible, lo cual podría depender de variables observables (como los salarios, las características del trabajo y los antece- dentes familiares). A continuación, obtuvo modelos para las probabilidades de elección individual con coeficientes desco- nocidos, que a su vez podrían ser estimados por máxima vero- similitud. Estos modelos y sus extensiones se han demostrado ampliamente útiles en el análisis de los datos de elección dis- creta en muchos campos, incluyendo la economía laboral, la economía de la salud y la economía del transporte. Para más información sobre estos y otros Premios No- bel de Economía, visite la Fundación Nobel. Página web, www.nobel.se/economics.

James J. Heckman Daniel L. McFadden

regresión lineal múltiple. El modelo de probabilidad lineal, la regresión probit y la regresión logit propor- cionan todos ellos respuestas «en definitiva» similares, cuando se aplican a los datos HMDA de Boston: los tres métodos estiman diferencias sustanciales en las tasas de denegación de préstamos hipotecarios para los solicitantes negros y para los solicitantes blancos que en lo demás son similares. Las variables dependientes binarias son el ejemplo más común de variables dependientes limitadas, que son variables dependientes con rango limitado. El último cuarto del siglo XX fue testigo de importantes avances en los métodos econométricos para el análisis de otras variables dependientes limitadas (véase el recuadro de los premios Nobel). Se revisan algunos de estos métodos en el Apéndice 11.3.

Resumen

  1. Cuando Y es una variable binaria, el modelo de regresión lineal múltiple se denomina modelo de proba- bilidad lineal. La recta de regresión poblacional muestra la probabilidad de que Y % 1, dados los valo- res de las variables explicativas, X 1 , X 2 , ..., X (^) k.
  2. Los modelos de regresión probit y logit son modelos de regresión no lineales que se utilizan cuando Y es una variable binaria. A diferencia del modelo de probabilidad lineal, las regresiones probit y logit aseguran que la probabilidad estimada de que Y % 1 se encuentre entre 0 y 1 para todos los valores de X.

Introducción a la Econometría 293

  1. La regresión probit utiliza la función de distribución acumulada normal estándar. La regresión logística utiliza la función de distribución acumulada logística. Los coeficientes logit y probit se estiman por máxima verosimilitud.
  2. Los valores de los coeficientes de las regresiones probit y logit no resultan fáciles de interpretar. Las variaciones en la probabilidad de que Y % 1 asociadas a las variaciones en una o más de las X se pueden calcular utilizando el procedimiento general para los modelos no lineales descrito en el Concep- to clave 8.1.
  3. Los contrastes de hipótesis sobre los coeficientes de los modelos de probabilidad lineal, logit y probit se llevan a cabo mediante los estadísticos t y F habituales.

Términos clave

variable dependiente limitada (275) modelo de probabilidad lineal (277) probit (279) logit (279) regresión logística (279)

función de verosimilitud (285) estimador de máxima verosimilitud (EMV) (285) proporción correctamente estimada (286) pseudo- R^2 (287)

Revisión de conceptos

11.1 Supóngase que un modelo de probabilidad lineal obtiene un valor esperado de Y que es igual a 1,3. Explique por qué esto no tiene sentido. 11.2 En la Tabla 11.2 el coeficiente estimado de la variable negro es 0,084 en la columna (1), 0,688 en la columna (2), y 0,389 en la columna (3). A pesar de estas grandes diferencias, los tres modelos obtie- nen estimaciones similares del efecto marginal de la etnia sobre la probabilidad de denegación de la hipoteca. ¿Cómo es posible esto? 11.3 Una de sus amigas está utilizando datos sobre personas para estudiar los determinantes del consumo de tabaco en su universidad. Ella le pregunta si debe usar un modelo probit, logit, o un modelo de probabilidad lineal. ¿Qué le aconsejaría? ¿Por qué? 11.4 ¿Por qué los coeficientes de los modelos probit y logit se estiman por máxima verosimilitud en lugar de MCO?

Ejercicios

Los Ejercicios del 11.1 al 11.5 se basan en el siguiente escenario: cuatrocientos candidatos a obtener el permiso de conducir fueron seleccionados aleatoriamente y se les preguntó si aprobaron el examen de conducir ( Aprobar (^) i % 1) o lo suspendieron ( Aprobar (^) i % 0); asimismo se registraron los datos sobre su género ( Masculino (^) i % 1 si es hombre, y Masculino (^) i % 0 si es mujer) y sus años de experiencia en con- ducción ( Experiencia (^) i , en años). Las tablas siguientes resumen los modelos estimados. 11.1 Utilizando los resultados de la columna (1): a) ¿La probabilidad de aprobar el examen depende de la experiencia? Explíquelo. b) Matthew tiene 10 años de experiencia conduciendo. ¿Cuál es la probabilidad de que apruebe el examen? c) Christopher es un conductor novel (cero años de experiencia). ¿Cuál es la probabilidad de que apruebe el examen? d) La muestra incluye valores de la variable Experiencia entre 0 y 40 años, y solo cuatro personas de la muestra tienen más de 30 años de experiencia como conductor. Jed tiene 95 años y ha estado conduciendo desde que tenía 15 años. ¿Cuál es la predicción del modelo para la probabilidad de que Jed apruebe el examen? ¿Cree que esta predicción es fiable? ¿Por qué o por qué no?

294 CAPÍTULO 11 Regresión con variable dependiente binaria