Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


analisis de datos con stata, Apuntes de Análisis de Datos y Métodos Estadísticos

análisis de datos multivariantes para stata

Tipo: Apuntes

2018/2019

Subido el 07/05/2019

jose.pino
jose.pino 🇨🇱

2 documentos

1 / 49

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Análisis de Datos I. Apuntes de clase
Universidad Alberto Hurtado
Ciencias Polícas y Relaciones Internacionales
Cátedra Análisis de Datos
Autor1:
Rodrigo Fernández Albornoz
Todo lo que existe, existe en alguna candad
Por ende, puede ser medido
Edward Lee Thorndike
1 En los presentes apuntes, han colaborado de alguna manera, todos quienes han sido ayudantes
del curso. Mis agradecimientos a Andrés D’Alencon, Nicolás Inostroza, Jorge Carvajal, Pedro García
y Alberto Ponce
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31

Vista previa parcial del texto

¡Descarga analisis de datos con stata y más Apuntes en PDF de Análisis de Datos y Métodos Estadísticos solo en Docsity!

Análisis de Datos I. Apuntes de clase

Universidad Alberto Hurtado

Ciencias Polí�cas y Relaciones Internacionales

Cátedra Análisis de Datos

Autor^1 :

Rodrigo Fernández Albornoz

Todo lo que existe, existe en alguna can�dad

Por ende, puede ser medido

Edward Lee Thorndike

(^1) En los presentes apuntes, han colaborado de alguna manera, todos quienes han sido ayudantes

del curso. Mis agradecimientos a Andrés D’Alencon, Nicolás Inostroza, Jorge Carvajal, Pedro García y Alberto Ponce

Resumen

El presente texto �ene como obje�vo desarrollar los aspectos más relevantes rela�vos algunas técnicas de análisis estadís�co, especialmente en el contexto de algunos temas propios de la inves�gación en Ciencia Polí�ca. La primera sección es una introducción general respecto de algunos aspectos centrales rela�vos a lo que implica “medir” en ciencias sociales. La segunda sección está abocada al desarrollo conceptual, metodológico y técnico de los modelos predic�vos correspondientes al lineal y al logís�co binario. Cada una de las técnicas a revisar será desarrollada a través del análisis de ejemplos prác�cos mediante el paquete de análisis estadís�co Stata en su versión 13.

Introducción

Una de las primeras preguntas que debemos respondernos para comenzar nuestra exposición es sobre la per�nencia, alcances y límites de los métodos y técnicas cuan�ta�vas en el contexto de los fenómenos que le son de interés a las Ciencias Sociales. En efecto, uno podría argumentar que los fenómenos humanos son lo suficientemente complejos como para ser reducidos a expresiones que sólo darían cuenta de su “mecánica”. Quizás esta pregunta se funda en el hecho de que muchas veces se ha querido colocar a la estadís�ca como el úl�mo reducto de la verdad sobre la sociedad. Es cosa de ver el impacto que han tenido las encuestas de opinión pública para la creación o manejo de escenarios rela�vos a temas tales como las candidaturas presidenciales, el desempeño de las autoridades del Estado, o el posicionamiento de ciertos temas de interés público. De ahí que sea per�nente preguntarse hasta qué punto ese status que se la ha dado a la estadís�ca cumple o no con sus reales pretensiones.

La necesidad de medir la realidad social no está relacionada con alguna presunción sobre la “verdad” respecto de las explicaciones que pudieran darse sobre un fenómeno, sino por un hecho fundamental: la importancia de contar con alguna expresión y estructura formal (es decir, que permita comparación) rela�va a la magnitud y composición de lo que nos es relevante de conocer. De aquí que sean importantes tres espacios que definen los límites materiales y formales para dotar de coherencia y validez de toda inves�gación cuan�ta�va:

I. Las fuentes de información:

La producción de información para la inves�gación social. Síntesis histórica.

Uno de los principales problemas en el proceso de inves�gación empírica en ciencias sociales, ha sido construcción de información social “no oficial” que permita acceder a la “caja negra” de los agentes, es decir, a todos aquellos atributos que permiten caracterizar estructuras e interacciones en dis�ntos niveles de agregación. Gran parte de la información oficial disponible es organizada y levantada través de instrumentos dirigidos desde el Estado (registros administra�vos, censos de población y encuestas de hogares), dependiendo de su orgánica y funciones administra�vas. En efecto, este �po de información ha permi�do construir cuadros empíricos de macrotendencias, en niveles de la realidad que son materia propia de la acción del Estado (trabajo, salud, población, educación, criminalidad y economía).

dado que si bien el desarrollo de sistemas de comunicación asis�da mediante computador en �empo real data desde la década del sesenta a nivel de organizaciones (fundamentalmente militares y de inteligencia en el contexto de la guerra fría), desde fines de los años 80 comienza un proceso en el que son los hogares los principales usuarios de la web.

Lo anterior marca un giro importante en las relaciones entre información y sociedad, ya que si en el contexto de las encuestas por muestreo es el inves�gador el que “va hacia el agente”, en el caso la web son los agentes los que “van hacia la red”. No obstante, este giro depende de condiciones materiales para su realización, tales como el acceso a red eléctrica, el acceso a hardware y el acceso a la red en cuanto tal, las cuales son componentes importantes en relación a las brechas digitales.

Ahora bien, la primera generación de la web ha ido sufriendo profundas transformaciones, a la par con el desarrollo tecnológico en los úl�mos diez años, las que desembocan en una segunda generación web, o web 2.0. Dichas transformaciones se caracterizan por la expansión radical de los medios digitales hacia la vida co�diana, a tal punto que si en la primera generación web el usuario es visto como un consumidor de contenidos, en la web 2.0 el usuario es un creador. En efecto, desde las primeras versiones de lo que actualmente denominamos blogs a mediados de la década del noventa, se han venido desarrollando una serie de plataformas que permiten no sólo descargar contenidos (o consumirlos), sino también subirlos a la red. Dicho proceso ha estallado en una amplia variedad de plataformas, que rebasan con creces el intercambio de material escrito. En efecto, plataformas tales como Sound Cloud, My Space, Pinterest y – sobre todo – Youtube, han ayudado a configurar un panorama que rebasa por lejos las primeras funcionalidades co�dianas de la web (entre otras, la más importante es la reducción de costos de transacción en el comercio), lo que a su vez instala una serie de inquietudes para efectos del estudio y comprensión de la vida social.

Ahora bien, retomando el hilo inicial de esta sección, en este proceso de masificación digital hay un elemento transversal: nada queda fuera de almacenamiento. En efecto, todo intercambio en la web es registrado en alguna base de datos, sostenida por algún servidor remoto. De aquí que la presente década se caracteriza por lo intentos de abordaje de lo que se ha denominado como “Big Data”, vale decir, el manejo de amplios volúmenes de información generados en �empo real.

En línea a lo planteado por Savage y Borrows, la disponibilidad de datos web permite el contraste de hipótesis que bajo los métodos convencionales sería virtualmente imposible. Por ejemplo, elementos tales como las variaciones intertemporales al interior de un conjunto heterogéneo de unidades de análisis (individuos o grupos) son abordables sólo mediante el análisis de datos de panel, cuyos costos opera�vos y económicos son de alta escala, lo cual muchas veces relega estas posibilidades de contraste a la especulación. Por el contrario, la disponibilidad de datos web reduce drás�camente los costos de producción de información, la que a su vez permite una organización lo suficientemente elás�ca para efectos de la exploración de fenómenos altamente dinámicos y complejos.

Una crí�ca atribuible al uso de este �po de información, es que las interacciones contenidas en ella suelen ser de un ancho más corto que las interacciones directas. De todos modos, no existe técnica de inves�gación que permita una captura total de la información en relación al obje�vo de estudio. En efecto, está demostrado que muchas de las respuestas en encuestas o en procedimientos cualita�vos nos hablan más sobre lo que las personas creen que “se debe escuchar”, más que una opinión o percepción espontánea. Lo anterior quiere decir que las técnicas en las cuales el inves�gador va hacia el agente encuentran intrínsecamente expuestas a un sesgo de deseabilidad social.

II. Criterios de clasificación, Instrumentos de medición e Indicadores.

Un instrumento de medición es un conjunto integrado y operacionalizado de criterios que permiten la clasificación codificada de unidades de información. Las encuestas, los Censos, los registros administra�vos y la web suponen ciertas maneras de clasificar a cada una de sus unidades de información, en la medida en que si observamos la codificación de una variable, en ella está contenida una manera par�cular de concebir la diferencia entre unidades de análisis. Ahora bien, el conjunto de criterios de medición contemplados por una fuente es aplicado mediante un instrumento de medición, que en el caso de un registro administra�vo lo cons�tuye una ficha de registro, en el de un censo la cédula censal, para las encuestas un cues�onario y en el caso de la web, las dis�ntas entradas de información contempladas en una página.

No todos los instrumentos u�lizan los mismos criterios de clasificación, o clasificadores. Por ejemplo, para los fenómenos rela�vos al empleo, la Organización Internacional del Trabajo (OIT) celebra cada cierto �empo la Conferencia Internacional de Estadís�cas del Trabajo (CIET), instancia en la cual un grupo de expertos comparte experiencias sobre cómo clasificar de mejor manera a los dis�ntos fenómenos asociados al mundo del trabajo (ingresos, informalidad, clasificación de grupos ocupacionales, etc) para luego ser recomendados a las en�dades encargadas del levantamiento de la información oficial a nivel nacional. De aquí que si bien uno puede considerar a los dis�ntos clasificadores como “algo dado”, a su estructura le subyace un proceso de discusión conceptual, metodológica y opera�va que no es menor respecto de lo que podamos esperar del posterior análisis de sus datos.

Por otra parte, uno de los procedimientos genéricos de medición por excelencia es la construcción de lo que se denomina un indicador. En términos generales, un indicador puede definirse como una relación par�cular entre grupos o en�dades clasificadas (y codificadas en una variable), de modo tal que es capaz de sinte�zar la información rela�va a su estructura y composición. Por ejemplo, una definición amplia de un indicador tal como la tasa de par�cipación en la Educación Superior se calcula de la proporción entre el total de personas que está matriculada en algún �po de estas ins�tuciones (U-IP-CFT) sobre el total de personas que �ene entre 18 y 23 años (se le es�ma como el tramo etario esperado para un ciclo de matrícula). Los resultados de este indicador permiten obtener un cuadro agregado de la capacidad de cobertura del sistema de Educación Superior, mientras que podemos observar su composición en la medida en que cruzamos este indicador por otras variables (por ejemplo, la composición de esta tasa según sexo, es decir, si esta es más alta, más baja o igual entre hombres y mujeres).

En este sen�do, la definición de “indicador” permite contar con un primer elemento para dar cuerpo concreto a una estrategia de medición de la realidad, ya que sinte�za atributos específicos de un fenómeno, pero sin perder su generalidad.

Por ejemplo, en los estudios electorales se suele considerar como indicador de primera importancia el porcentaje de personas que emite un voto de modo válido (marca candidato) para medir la preferencia por alguna de las opciones dentro de la oferta electoral (par�dos, coaliciones y candidatos). Vale decir, podemos suponer que si tenemos información respecto del total de votantes y, dentro de este segmento, la información sobre la can�dad de personas que emite un

De aquí que la interpretación del indicador, es de unidades de votos válidamente emi�dos por inscrito. Veamos cómo se comporta esta estructura respecto datos expuestos en la tabla anterior.

Tabla N° 2 – Tasa de par�cipación polí�ca elecciones presidenciales 2009, segunda vuelta. Regiones Metropolitana, Valparaíso y Concepción

Tasa de par�cipación Metropolitana 0, Valparaíso 0, Concepción 0, Fuente: Elaboración propia en base a datos SERVEL

Los resultados indican que por cada inscrito en la Región Metropolitana hay 0,855 que marcan preferencia (lo que equivale a decir que son 8,55 de cada 10, o un 85,5 de cada 100), en la de Valparaíso hay 0,842, mientras que en la Concepción son 0,846 por cada inscrito. De aquí que la interpretación que podemos ofrecer ahora es totalmente dis�nta a la expuesta párrafos más arriba, ya que las diferencias ahora son mínimas cuando agregamos controlamos los votos válidamente emi�dos por el universo electoral.

De aquí se desprende una primera dis�nción importante respecto de la estructura de la información considerada de interés para el análisis, vale decir, la diferencia entre información absoluta o de nivel, e información rela�va. Por lo general, las magnitudes absolutas carecen de valor informa�vo ya que no permiten comparaciones normalizadas (a 1, a 10 o a 100 como podemos ver en este ejemplo), mientras que las magnitudes rela�vas �enen mayor poder informa�vo en la medida en que sí permiten estas comparaciones.

Ahora bien, toda desagregación rela�va de la información dependerá de nuestro obje�vo de inves�gación. Por ejemplo, si nuestro obje�vo es el estudio de la par�cipación polí�ca nivel local, nos bastará con comenzar con el análisis del indicador propuesto para cada región. Por otro lado, si nuestro obje�vo es estudiar la par�cipación polí�ca a nivel nacional, las tasas regionales tendrán que considerar una unidad de agregación de la información mayor (el país). Esto quiere decir que si bien las tasas de par�cipación polí�ca son similares en las tres regiones, el aumento en una unidad del indicador en la región Metropolitana tendrá mayor impacto en la votación nacional que el aumento en una unidad en la región de Concepción por el hecho de que esta úl�ma �ene un universo electoral más pequeño.

Otro elemento fundamental en el análisis cuan�ta�vo se relaciona con la dis�nción entre una estructura con�nua y una discreta de la información.

La primera alude a la noción de distancia. Por ejemplo, si yo tengo 1000 pesos y mi vecino 5000, podemos sostener que este �ene 4000 pesos más que yo, o que quintuplica la can�dad de dinero que yo tengo. Esto quiere decir que cuando operamos con datos para variables con una estructura de información con�nua, podemos establecer de modo exacto la can�dad de unidades que distancian a una unidad de análisis de otra (en este ejemplo hay una distancia absoluta de 4000 pesos y una distancia rela�va equivalente a 5 veces mi ingreso, vale decir, normalizamos el ingreso a la can�dad que yo tengo).

Lo importante de este �po de variables es que permiten la obtención de estadís�cos importantes tales como las medidas de tendencia central (media, mediana, moda, etc), asimismo como medidas de dispersión (quin�les, percen�les, varianza, desviación estándar, etc), lo cual será especialmente relevante para el desarrollo de técnicas tales como la regresión lineal múl�ple, tal y como se verá en capítulos posteriores.

Las estructura discretas de información no aluden necesariamente a una noción de distancia. Para ilustrar esto, veamos dos ejemplos.

¿Cuál es la distancia entre ser hombre y ser mujer? Imaginemos que una encuesta contempla la variable sexo, donde el valor 0 indica si la persona es hombre y 1 si es mujer. Desde acá es imposible calcular la distancia, ya que no existe un con�nuo de valores entre 0 y 1 que iden�fique la distancia entre ser hombre y ser mujer. Básicamente, y bajo este supuesto, o se es hombre o se es mujer y ninguna consideración puede hacerse respecto de si ser hombre implica, matemá�camente hablando, algo mayor a ser a ser mujer (como sí podemos sostener que el que posee 5000, �ene más que el que posee 1000). En efecto, podríamos recodificar esta variable invir�endo sus valores, es decir, donde 0 indique ser mujer y 1 ser hombre, y nada cambiaría en absoluto la estructura de la información de esta variable.

Ahora bien, este �po de variables sí puede aludir a una noción cualita�va de la distancia o, mejor dicho, del orden. Un ejemplo clásico son las escalas Likert que permiten medir el posicionamiento respecto de una afirmación. Veamos el siguiente ejemplo

¿Cuál es su grado de acuerdo o desacuerdo respecto del aborto terapéu�co?

Muy en desacuerdo En desacuerdo Ni acuerdo ni desacuerdo De acuerdo Muy de acuerdo

Es evidente que existe una noción de distancia respecto del grado de acuerdo respecto del aborto en esta escala, ya que la persona que marque 5 estará más de acuerdo con el aborto terapéu�co que la persona que marque 1, el problema es que no tenemos forma de establecer (al menos desde la información con la que contamos) cuántas unidades de acuerdo distanciarían a estas personas. Esto quiere decir que no sería posible decir que la persona que marca “Muy de acuerdo” está 5 veces más de acuerdo que la que marca “Muy en desacuerdo”.

En este sen�do, tanto las variables denominadas como ordinales (como este ejemplo), como las variables denominadas como dicotómicas o nominales (el ejemplo anterior) poseen una estructura que les es común, vale decir, son datos discretas.

Por otro lado, la importancia de estas variables es fundamental ya que permite iden�ficar grupos, desde los cuales el análisis de las variables con�nuas adquiere un sen�do exhaus�vo y excluyente en relación atributos de la vida social, polí�ca, económica y cultural que no pueden ser medidos de manera con�nua.

Lo anterior se hace más interesante cuando deseamos generar grupos compuestos de atributos discretos, vale decir, cuando queremos generar variables que expresen la combinación simultánea de atributos. Esto se verá con mayor detalle cuando examinemos la construcción de modelos de regresión logís�ca, en los cuales el tratamiento de la clasificación exhaus�va y excluyente de variables discretas es fundamental.

Ahora bien, es posible generar los procedimientos para construir variables con�nuas u�lizando como mwaterial la distribución de los datos a través de atributos discretos. Para ilustrar esto, volvamos al ejemplo de las tasas de par�cipación polí�ca visto hasta aquí.

a- Introducción: El modelo lineal general

El análisis de regresión lineal es una estrategia que permite modelar la variación conjunta de variables, bajo el supuesto de que es posible considerar a la variable dependiente como el resultado de una función lineal de los datos contenidos en las variables independientes. Vale decir, que de la “nube de puntos” que se forma del cruce entre variables, es posible trazar una recta que permita encontrar algún patrón rela�vo al sen�do y magnitud de la relación. Hasta este momento, el considerar sólo relaciones lineales nos permi�rá un primer acercamiento elementos que son propios de la predicción, ya que si bien existe un desarrollo amplio de técnicas de análisis para modelos no lineales, nos quedaremos con una versión “linealizada” de la realidad pues nos facilitará la es�mación de posibles valores de una variable dependiente respecto de una o más independientes de manera más simple.

Puesto en términos más intui�vos, si estamos parados en una esquina y queremos llegar a un lugar siempre buscaremos el camino más corto, lo que equivale a trazar una línea recta sobre el mapa que une el punto donde estamos parados con el punto al cual deseamos llegar, vale decir, queremos minimizar la can�dad de cuadras por caminar para llegar de manera óp�ma nuestro des�no. Ese sencillo y co�diano ejercicio es el fondo que está detrás del modelo lineal general, ya que si nos detenemos un segundo a analizar lo que probablemente todos hacemos cada vez que queremos llegar a alguna parte, podemos darnos cuenta de que la distancia estaría incidiendo en qué tanto podemos demorarnos en llegar al punto que deseamos. Es obvio que mientras mayor sea la distancia, mayor camino tendremos que recorrer para llegar a nuestro des�no, lo que permite entender que nuestro des�no es creciente en la distancia. Esto úl�mo es fundamental, ya que marca los elementos de mayor interés respecto del análisis del sen�do y magnitud de las posibilidades de relación entre variables independientes y una dependiente.

El sen�do de una relación puede adquirir dos signos, vale decir, si la variable dependiente es creciente o decreciente en la variable independiente. Un sen�do creciente, o posi�vo, alude a si la variable independiente toma valores más altos cuando las independientes también los toma (vale decir, decimos que el sen�do de la variable dependiente es creciente en la variable dependiente), mientras que el segundo, o nega�vo, alude a si los valores de la variable independientes disminuyen (decrecen), a medida que los valores de las variables independientes crecen (aquí decimos quela variable dependiente es decreciente en la independiente). Gráficamente, esto puede apreciarse en la pendiente de la recta que se forma cuando cruzamos dos variables (ver Gráfico N° 1). Por otra parte, la magnitud de la relación nos indica la sensibilidad de la variable dependiente ante las variaciones “marginales” de la variable independiente, lo que gráficamente se ve en el grado de inclinación de la recta. El término “marginal” alude a cuánto varía una variable cuando la otra varía en una unidad de su medida. De aquí en adelante, a esta pendiente de la recta le llamaremos de modo indis�nto es�mador o coeficiente.

El presente ejemplo da una mejor intuición sobre esto. Supongamos que hemos recogido información para la media de los ingresos del trabajo (medida en unidades de 100. pesos) y los años de escolaridad promedio de la fuerza de trabajo. El presente gráfico resume la relación entre los valores para ambas variables.

Gráfico N° 1 – Ejemplo relación lineal: Nivel de ingresos del trabajo/Años de escolaridad promedio

Lo primero que podemos ver es que la recta trazada entre cada uno de los puntos de esta “nube” (aún no lo es dada la simplicidad del ejemplo) �ene una pendiente posi�va, es decir, cuando la fuerza de trabajo posee más años de escolaridad (educación) en promedio, mayor será su nivel promedio de ingresos del trabajo. Ahora bien, la magnitud de esta relación podemos apreciarla en qué tan “empinada” está la pendiente, es decir, cuánto varía el ingreso promedio de la fuerza de trabajo por cada año adicional de escolaridad.

La presente tabla expone los datos rela�vos al gráfico N° 1

Años de escolaridad

Ingreso

Notemos que al ser una recta, siempre que tomemos dos puntos podremos obtener un valor constante respecto de su pendiente. Vale decir, si queremos calcular el es�mador del ingreso promedio en función de los años de escolaridad de la fuerza de trabajo, podemos usar una formula genérica, que equivale a la ecuación de cálculo de la pendiente de una recta:

Esto quiere decir que si restamos a un valor de la variable dependiente el valor su valor sucesor, y luego lo dividimos por la resta entre un valor de la variable independiente y su sucesor, encontraremos un valor constante cuyo signo indica el sen�do de la relación, y su “tamaño” la magnitud de la recta para la iésima variable (si es la primera variable es , si es la segunda y así sucesivamente). En este ejemplo, queremos saber cuál es la variación en

Para entender esto de manera más prác�ca, supongamos que una persona �ene 20 años de escolaridad (un nivel que no aparece en nuestra tabal de valores observados) y queremos saber cuál sería su nivel de ingresos promedio a este nivel de escolaridad. Reemplazando los valores tenemos que

De aquí sacamos como conclusión que una persona que tenga 20 años de escolaridad tendrá un nivel de ingreso promedio de 900 mil pesos, lo cual es coherente con el valor que obtuvimos más arriba, es decir, que el aumento en un año de escolaridad se traduciría en el aumento de 100 mil pesos en los ingresos del trabajo.

b- Análisis de Regresión Lineal mediante Mínimos Cuadrados Ordinarios

Los resultados de la parte anterior serían perfectamente replicables si no exis�eran otros factores que determinaran los ingresos del trabajo. Pero dado que en la realidad existen más factores o variables independientes, y dado a que existen elementos aleatorios o no observados que pudieran estar incidiendo en los valores de una variable dependiente es que el análisis de regresión lineal mediante mínimos cuadrados ordinarios toma pleno sen�do.

Volviendo a la intuición rela�va a cómo llegar de mejor manera a nuestro des�no, imaginemos que el �empo de demora en llegar a un des�no no solamente estaría determinado por la distancia en la que estamos, sino también de otros factores que son medibles tales como la temperatura ambiente. En este sen�do, podríamos decir que mientras mayor sea la temperatura ambiente más nos demoraremos en llegar a nuestro des�no (suponemos que cuando hace calor nos detenemos a tomar agua).

Lo importante de esto es entender que si bien contamos con información sobre la temperatura antes de emprender el viaje, esta información es sólo una es�mación, ya que perfectamente podría suceder que si observamos la es�mación del �empo el día anterior a nuestro viaje y nos dicen que va a estar templado (supongamos unos 20 grados), de aquí a que uno podría suponer que no es necesario llevar agua consigo. Pero, el clima no se comporta de manera puramente determinís�ca , sino que perfectamente podríamos encontrarnos con un día muy caluroso, lo cual nos obligaría a detenernos en el camino para tomar agua.

De aquí que sostenemos que existen factores aleatorios (que dependen de algún modo del azar) que inciden en las es�maciones que realizamos, lo que en este caso se traduce sobre el �empo que es�maríamos en llegar a nuestro des�no.

A estos elementos se les denomina genéricamente como términos de error o residuos , dado que cons�tuyen un conjunto de información que desvían a los casos del valor esperado (es decir, la media. Para ilustrar mejor esto, veamos el siguiente gráfico que muestra, nuevamente, la relación entre años de escolaridad e ingresos promedio del trabajo.

Gráfico N°2 - Ejemplo relación lineal: Nivel de ingresos del trabajo/Años de escolaridad promedio con término de error

Podemos apreciar que las áreas grises representan la desviación de cada punto respecto de la media. En el ejemplo anterior no exis�a tal desviación, razón por la cual era más sencillo calcular el es�mador de los ingresos del trabajo en función de los años de escolaridad. Esta zona gris puede representar cualquier efecto no observado en nuestros datos, vale decir, puede ser el efecto de omi�r una o más variables en nuestro análisis, problemas con la medición de los años de escolaridad, etc. En suma, en virtud de que asumimos la imposibilidad de generar es�maciones que cubran la totalidad de un fenómeno, al menos podemos dar cierta forma matemá�ca a esos “elementos desconocidos”.

De aquí en adelante entonces, la representación formal de una regresión lineal se sinte�za en la siguiente ecuación de la recta

Donde

representa a la variable dependiente para el iésimo sujeto de la muestra

es la constante (intersección entre el es�mador y el eje )

representa el es�mador para los datos contenidos en la variable independiente

representa el residuo rela�vo al iésimo sujeto de la muestra

ii. Validación

Para sinte�zar los elementos que hemos venido introduciendo, todo modelo lineal debe cumplir los siguientes supuestos, para así poder interpretar los coeficientes de manera confiable-

  1. Linealidad:

Como mencionamos al principio de este capítulo, la linealidad de un modelo permite que cualquier es�mador obtenido genere predicciones para cualquier punto dentro de la recta. Esto significa que la variación marginal de una variable independiente tendrá el mismo impacto sobre la dependiente a lo largo de todo el recorrido de la recta. Como se verá en el ejemplo prác�co, el test de Ramsey permite verificar que nuestro modelo sea lineal en sus es�madores.

  1. (^) Independencia de los residuos

Esto equivale a que la correlación entre los residuos debe tender a ser cero o un valor lo más bajo posible. Este supuesto es especialmente importante cuando trabajamos con series temporales, pero aún así es un supuesto que debe cumplirse al trabajar con datos de corte transversal (como los que serán vistos en este curso).

El que contemos con residuos que no estén autocorrelacionados, implica que podemos realizar una es�mación libre de efectos cruzados entre los mismos residuos, he ahí la importancia de este supuesto. La herramienta que nos permi�rá verificar el cumplimiento de este supuesto es el test de Durbin Watson.

Valga mencionar que en Stata sólo permite la aplicación de este test cuando estamos en presencia de series de �empo o datos de panel, razón por la cual no será visto en estos apuntes.

  1. Homocedas�cidad

Este supuesto apunta a que los residuos �enen una magnitud constante a lo largo de la es�mación. Esto es importante en la medida en que nos permite reconocer lo que habíamos apuntado más arriba, es decir, que si bien los residuos son elementos no observados, al menos podemos saber algo sobre se estructura, lo cual nos permita tener bajo control nuestra es�mación.

Cuando los residuos no cumplen este supuesto, significa que los elementos no observados en nuestro es�mación son variables, lo que implica que nuestros resultados no �enen coherencia interna, ya que si aumentáramos el tamaño de la muestra o si realizamos el mismo análisis en una muestra dis�nta, nuestros resultados serían significa�vamente diferentes dado que no existe un patrón de comportamiento de estos elementos. De aquí que cuando no se cumpla este supuesto, diremos que nuestro modelo es heterocedás�co.

La forma mediante la cual verificaremos si se cumple este supuesto o no es el análisis gráfico de los residuos por un lado (lo que permite dotar de mayor intuición a nuestro análisis), y el análisis del test de Breusch-Pagan por otro (lo que nos permi�rá dar con un resultado concluyente).

  1. Normalidad de los residuos

Si los residuos no se distribuyeran de manera normal (en forma de campana), significa que no es posible encontrar un patrón en su comportamiento. Nótese que este supuesto es en alguna manera analógico respecto de la homocedas�cidad, con la diferencia en que la homocedas�cidad se refiere a la composición de los residuos a lo largo de la es�mación, mientras que la normalidad exige que se cumplan algunas condiciones en relación a la distribución.

El supuesto de normalidad permite dotar de coherencia interna al modelo, en la medida en que si aumentamos el tamaño de la muestra, nuestros resultados en la es�mación debieran ser significa�vamente idén�cos. En efecto, una distribución normal permite aplicar la ley de los grandes números a nuestra es�mación, lo que implica que cuando la muestra �ende al infinito (lo que realmente significa que si tenemos una muestra muy grande), la magnitud y sen�do de nuestros es�madores �ende a ser la idén�ca. De aquí que un modelo con residuos normalmente distribuidos, implica que estos �enen una media de valor cero y una varianza constante, lo cual no es casualidad, dado que cuando se cumple el supuesto de homocerdas�cidad, no es di�cil observar que una magnitud constante de los residuos implica gráficamente una línea recta horizontal, es decir, sin variaciones, lo que significa que si sacamos el promedio, su resultado debe tender hacia cero.

Las estrategias de verificación de este supuesto serán el análisis gráfico, el test de Shapiro Wilk (SW) y el test de Kolmogorov Smirnov (KS).

  1. (^) Ausencia de mul�colinealidad

Este supuesto implica que las variables independientes no son resultados unas de otras, vale decir, son efec�vamente independientes. La existencia de colinealidad o mul�colinealidad se relaciona con escoger de mala manera nuestro set de variables independientes. En el ejemplo de los ingresos promedio del trabajo, si incluyéramos la edad y la experiencia laboral como variables independientes, es muy probable que este supuesto no se cumpla dado que podríamos suponer que existe una alta correlación entre edad y experiencia laboral (en efecto, a mayor edad, es más probable tener más experiencia laboral).

Queremos conocer los factores que explican y permi�rán predecir el comportamiento de las tasas de jefatura de hogar femenina a nivel comunal en Chile. Para ello hemos construido un modelo de regresión lineal múl�ple que considera como variable dependiente un indicador capaz medir de manera comparable la jefatura de hogar femenina a nivel comunal, u�lizando como principal fuente de información los resultados de la CASEN en su versión 2012.

ii. Estructura de las variables

Variable dependiente:

Tasa de par�cipación social a nivel comunal

Donde:

es la tasa de par�cipación social para la iésima comuna

es la can�dad de personas de 15 años o más que declara par�cipar en alguna organización social en la iésima comuna

es la can�dad total de personas de 15 años o más dentro de la iésima comuna

Variables independientes: se ha procedido a clasificarlas en dos dimensiones de interés

Dimensión Variable E�queta Nombre Educa�va Años de escolaridad femeninos esc_mujer Años de escolaridad masculinos esc_hombre Mujeres sin educación formal noeduc_mujer Hombres sin educación formal noeduc_hombre Mujeres con educación básica incompleta basinc_mujer Hombres con educación básica incompleta basinc_hombre Mujeres con educación básica completa bascom_mujer Hombres con educación básica completa bascom_hombre Mujeres con educación media cien�fico humanista incompleta

mediaincch_mujer

Hombres con educación media cien�fico humanista incompleta

mediaincch_hombre

Mujeres con educación media técnico profesional incompleta

mediainctp_mujer

Hombres con educación media técnico profesional incompleta

mediainctp_hombre

Mujeres con educación media cien�fico humanista completa

mediacomch_mujer

Hombres con educación media cien�fico humanista completa

mediacomch_hombre

Mujeres con educación media técnico profesional completa

mediacomtp_mujer

Hombres con educación media técnico profesional completa

mediacomtp_hombre

Mujeres con educación superior incompleta supinc_mujer Hombres con educación superior incompleta supinc_hombre Mujeres con educación superior completa supcom_mujer Hombres con educación superior completa supcom_hombre Dimensión Laboral Mujeres ocupadas ocup_mujer Hombres ocupados ocup_hombre Mujeres desocupadas desocup_mujer Hombres desocupados desocup_hombre Mujeres inac�vas inac�v_mujer Hombres inac�vos inac�v_hombre

Dimensión Demográficas Edad edad

Expresión cuadrá�ca de la edad promedio edad Norte grande norte_grande Norte chico norte_chico Zona central centro Zona centro sur centro_sur Extremo sur ext_sur

iii. (^) Especificación:

El presente modelo considera dos dimensiones, lo cual puede ser formalizado en la siguiente ecuación

Donde:

es la tasa de jefatura de hogar femenina de la comuna i

es el término constante

es el es�mador para el conjunto de variables que define a la dimensión educa�va

es el es�mador para el conjunto de variables que define a la dimensión laboral