¡Descarga EJERCICIOS EXTRA VARIABLES DUMMY 2 y más Ejercicios en PDF de Finanzas solo en Docsity!
Uso de variables ficticias
Curvas de Engel: demanda de productos lácteos.
Considere el siguiente modelo:
log 𝑙𝑎𝑐𝑡 = 𝛽
log 𝑟𝑑𝑖𝑠𝑝 + 𝛽
𝑒𝑑𝑢𝑐_𝑚𝑒𝑑 + 𝛽
𝑒𝑑𝑢𝑐_𝑠𝑢𝑝 + 𝛽
donde
log 𝑙𝑎𝑐𝑡 es el logaritmo neperiano del consumo de productos lácteos de las familias (miles de euros,
anuales).
log 𝑟𝑑𝑖𝑠𝑝 es el logaritmo neperiano de la renta disponible de las familias (miles de euros, anuales).
𝑢𝑟𝑏𝑎𝑛𝑜 es una variable dicotómica que toma el valor 1 si la familia vive en una zona urbana, y 0 en
caso contrario (rural).
𝑒𝑑𝑢𝑐_𝑚𝑒𝑑 es una variable dicotómica que toma el valor 1 si el sustentador principal de la familia ha
alcanzado estudios medios, y 0 en caso contrario (estudios inferiores o superiores).
𝑒𝑑𝑢𝑐_𝑠𝑢𝑝 es una variable dicotómica que toma el valor 1 si el sustentador principal de la familia ha
alcanzado estudios superiores, y 0 en caso contrario.
1
𝑝𝑟𝑜𝑚𝑒𝑛 5 es la proporción, expresada en tanto por cien, de miembros del hogar con menos de 5
años.
𝑡𝑎𝑚ℎ𝑜𝑔 es el tamaño del hogar, es decir, el número de miembros que lo integran.
Utilizando MCO se ha estimado la ecuación y se ha obtenido la siguiente función de regresión muestral:
log 𝑙𝑎𝑐𝑡
= − 2. 927 + 0. 716 log 𝑟𝑑𝑖𝑠𝑝 + 0. 098 𝑢𝑟𝑏𝑎𝑛𝑜 + 0. 132 𝑒𝑑𝑢𝑐𝑚𝑒𝑑 + 0. 264 𝑒𝑑𝑢𝑐𝑠𝑢𝑝 + 0. 01088 𝑝𝑟𝑜𝑚𝑒𝑛 5 − 0. 058 𝑡𝑎𝑚ℎ𝑜𝑔
n = 40 R
2
= 0.717 𝑅
2
= 0.
a) Interprete los resultados. Ilustre qué implicaciones tienen las variables ficticias en la
representación gráfica que relaciona log 𝑙𝑎𝑐𝑡 con log 𝑟𝑑𝑖𝑠𝑝.
b) ¿Cuál es la diferencia porcentual aproximada de consumo de productos lácteos entre
una familia cuyo sustentador principal tiene un nivel de educación superior y otra
cuyo sustentador principal tiene un nivel de educación medio?
Fuente: Análisis Multivariante Aplicado. Uriel, E. y Aldás, J. Ed.: Thompson, 2005.
1
Implícitamente se han considerado tres niveles de estudios alcanzados: anteriores a medios (incluyendo las
personas sin estudios), estudios medios, y estudios superiores. La clasificación de la familia según el nivel de
educación del sustentador principal es exhaustiva y excluyente (cada familia se clasifica en un solo grupo). En el
modelo sólo se han incluido la variable ficticia educ_med (educación de nivel medio) y educ_sup (educación de
nivel superior). Como el modelo tiene una intercepción, si se hubiera incluido una tercera variable dicotómica
que recogiera el primer nivel de educación, se habría incurrido en un problema de colinealidad perfecta (la
denominada trampa de las variables ficticias). En este caso, la variable ficticia omitida (educación para el nivel
inferior de educación) constituye el grupo de referencia.
SOLUCIÓN
a) Interprete los resultados. Ilustre qué implicaciones tienen las variables ficticias en la
representación gráfica que relaciona log 𝑙𝑎𝑐𝑡 con log 𝑟𝑑𝑖𝑠𝑝.
La constante nos indica el valor del logaritmo del consumo de productos lácteos cuando la renta
disponible familiar es de mil euros anuales ( log rdisp = log (1) = 0), la familia vive en zona rural
(urbano = 0), el sustentador principal tiene unos estudios inferiores (educ_med = 0 y educ_sup =
0 ), la familia tiene 0 niños inferiores de 5 años (promen5 = 0) y la familia se compone por 0
miembros (tamhog = 0).
log 𝑙𝑎𝑐𝑡
− 2. 927
En este caso, la interpretación de la constante no tendría mucho sentido dado que una familia
con 0 miembros no es posible.
representa la elasticidad del consumo de productos lácteos con respecto la renta es de 0,716.
Ceteris paribus (manteniendo constante la zona dónde vive la familia, el nivel de educación del
sustentador principal, la proporción de niños menores de 5 años que tiene la familia y el tamaño
del hogar), un incremento del 1% en la renta disponible generará un incremento del valor
esperado del consumo de productos lácteos del 0,716%.
indica que la diferencia de consumo de productos lácteos entre una familia que vive en una
zona urbana y familia que vive en una zona rural es del 9,8%, para unos niveles dados de renta
disponible, educación, proporción de niños y número de miembros por hogar.
En términos de expectativas, considerando el supuesto de media condicionada nula
E(u|log 𝑟𝑑𝑖𝑠𝑝, 𝑒𝑑𝑢𝑐_𝑠𝑢𝑝, 𝑝𝑟𝑜𝑚𝑒𝑛 5 , 𝑡𝑎𝑚ℎ𝑜𝑔)=0, entonces:
= 𝐸(log 𝑙𝑎𝑐𝑡| 𝑢𝑟𝑏𝑎𝑛𝑜 = 1 , log 𝑟𝑑𝑖𝑠𝑝, 𝑒𝑑𝑢𝑐𝑚𝑒𝑑, 𝑒𝑑𝑢𝑐𝑠𝑢𝑝, 𝑝𝑟𝑜𝑚𝑒𝑛 5 , 𝑡𝑎𝑚ℎ𝑜𝑔)
− 𝐸(log 𝑙𝑎𝑐𝑡 | 𝑢𝑟𝑏𝑎𝑛𝑜 = 0 , log 𝑟𝑑𝑖𝑠𝑝, 𝑒𝑑𝑢𝑐𝑚𝑒𝑑, 𝑒𝑑𝑢𝑐𝑠𝑢𝑝, 𝑝𝑟𝑜𝑚𝑒𝑛 5 , 𝑡𝑎𝑚ℎ𝑜𝑔)
A la hora de representar la relación entre el logaritmo del consumo lácteo y el logaritmo de la
renta disponible, la variable dummy urbano puede representarse gráficamente como un cambio
de intercepto entre familias en zonas urbanas y familias en zonas rurales. Dado que el intercepto
es negativo y el coeficiente que acompaña a urbano 𝛽
es positivo, tenemos que:
log 𝑙𝑎𝑐𝑡
log rdisp
Familia que vive en zona urbana
𝐸(log 𝑙𝑎𝑐𝑡 |𝑢𝑟𝑏𝑎𝑛𝑜 = 1 ) = 𝛽
0
2
1
log 𝑟𝑑𝑖𝑠𝑝 + 𝛽
3
𝑒𝑑𝑢𝑐_𝑚𝑒𝑑 + 𝛽
4
𝑠𝑢𝑝
5
6
Pendiente:
∆ log 𝑙𝑎𝑐𝑡
∆ log 𝑟𝑑𝑖𝑠𝑝
1
Familia que vive en zona rural
𝐸(log 𝑙𝑎𝑐𝑡 |𝑢𝑟𝑏𝑎𝑛𝑜 = 0 ) = 𝛽
0
1
log 𝑟𝑑𝑖𝑠𝑝 + 𝛽
3
𝑒𝑑𝑢𝑐_𝑚𝑒𝑑 + 𝛽
4
𝑠𝑢𝑝
5
6
Pendiente :
∆ log 𝑙𝑎𝑐𝑡
∆ log 𝑟𝑑𝑖𝑠𝑝
1
b) ¿Cuál es la diferencia porcentual aproximada de consumo de productos lácteos
entre una familia cuyo sustentador principal tiene un nivel de educación
superior (A) y otra cuyo sustentador principal tiene un nivel de educación medio
(B)? ¿Cómo contrastaría si esta diferencia es estadísticamente significativa?
log 𝑙𝑎𝑐𝑡
𝐴 = − 2 , 927 + 0 , 716 log 𝑟𝑑𝑖𝑠𝑝 + 0 , 098 𝑢𝑟𝑏𝑎𝑛𝑜 + 0 , 132 ( 0 ) + 0 , 264 ( 1 ) + 0 , 01088 𝑝𝑟𝑜𝑚𝑒𝑛 5 − 0 , 058 𝑡𝑎𝑚ℎ𝑜𝑔
−(log 𝑙𝑎𝑐𝑡
𝐵 = − 2 , 927 + 0 , 716 log 𝑟𝑑𝑖𝑠𝑝 + 0 , 098 𝑢𝑟𝑏𝑎𝑛𝑜 + 0 , 132 ( 1 ) + 0 , 264 ( 0 ) + 0 , 01088 𝑝𝑟𝑜𝑚𝑒𝑛 5 − 0 , 058 𝑡𝑎𝑚ℎ𝑜𝑔)
log 𝑙𝑎𝑐𝑡
La diferencia aproximada entre el consumo de productos lácteos entre una familia cuyo sustentador principal tiene un nivel de educación
superior y otra cuyo sustentador principal tiene un nivel de educación medio es del 13,2%, para niveles dados del resto de factores.
Dado que la característica “nivel de educación” viene determinada por la inclusión en el modelo de varias dummies (categorías múltiples), para
contrastar la significatividad estadística de la diferencia entre A y B, deberíamos reestimar por MCO el siguiente modelo:
log 𝑙𝑎𝑐𝑡 = 𝛽
0
1
log 𝑟𝑑𝑖𝑠𝑝 + 𝛽
2
3
𝑒𝑑𝑢𝑐_𝑖𝑛𝑓 + 𝛽
4
𝑒𝑑𝑢𝑐_𝑠𝑢𝑝 + 𝛽
5
6
donde, “educ_inf” es una variable dicotómica que toma el valor 1 si el sustentador principal de la familia ha alcanzado estudios anteriores a
medios (incluyendo las personas sin estudios), y 0 en caso contrario. Entonces, en este caso, y el grupo de referencia sería el nivel medio de
educación “educ_med”.
Por lo tanto, considerando este último modelo, plantearíamos finalmente la siguiente hipótesis H 0 : 𝛽 4
= 0 vs H 1 : 𝛽 4
≠ 0 para contrastar
directamente, a través de una t, si la diferencia entre A y B es estadísticamente significativa.