






















Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Ejercicios bidimensional, con 2 variables y calcular medidas de tendencia central
Tipo: Ejercicios
1 / 30
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!























En el ámbito científico resulta habitual tratar de conocer la realidad a través de representaciones
simplificadas que resulten más operativas y manejables, que se conocen como modelos, y que tratan de
explicar el comportamiento de una o más variables por medio de otra u otras, empleando relaciones
matemáticas.
Cuando existen errores en la medición de las variables o el fenómeno a estudiar es tan complejo
que su comportamiento se debe a múltiples causas se genera incertidumbre, lo que lleva a que dichas
relaciones matemáticas entre las variables resulten insuficientes para explicar la realidad.
Esta situación es particularmente evidente en las ciencias sociales en las que los modelos nunca
recogen todas las posibles variables explicativas de un cierto fenómeno porque, en última instancia,
contienen un comportamiento aleatorio que se deriva de la naturaleza humana del tipo de situaciones que
analizan, además de incurrir en errores en la toma de datos, ya sean censos o encuestas.
En estos casos, las variables mantienen una dependencia no exacta, no matemática que requiere
un tratamiento estadístico, que da nombre al tipo de vinculación a estudiar y que se concreta en dos
procedimientos:
a) Buscar y determinar aquella estructura de dependencia (aproximada) que mejor exprese el
tipo de relación existente entre la variable explicada y las variables explicativas, que se conoce
como REGRESIÓN.
b) Calcular el grado de dependencia existente entre las variables mediante el análisis de
En este tema vamos a abordar ambas cuestiones, ciñéndonos al caso más sencillo de la regresión
con una única variable explicativa.
A partir de la variable bidimensional (X,Y) con distribución de frecuencias conjunta
ୀଵ.. ୀଵ..
llamamos regresión de Y sobre X, que denotamos como 𝑅൫
ൗ ൯, a la función
que explica el comportamiento de Y para cada valor de X
1
Dicha función se puede establecer siguiendo dos criterios, lo que permite que se hable de
regresión de tipo I, por un lado, y regresión de tipo II o Mínimo Cuadrática, por otro. Veamos en qué
consiste cada uno de los procedimientos:
𝑰
Bajo este procedimiento de estimación, la distribución bidimensional de frecuencias se observa
desde la perspectiva de la distribución condicionada de Y para cada valor de X, con el objetivo de asignar
a la variable explicada el mejor valor posible. Esto nos lleva a leer la tabla de correlación a partir de las
filas que la conforman, en cada una de las cuales los valores de la X están fijos y varían los de la Y. Su
representación gráfica quedaría así:
Gráfico 5.1: Distribución bidimensional leída como suma de distribuciones condicionadas
Ahora bien, si tuviéramos que escoger qué valor de Y tomar como representante de los
disponibles para cada uno de los valores de la X, parece que un criterio lógico sería usar la media de los
1
Obviamos el planteamiento de la regresión de X sobre Y, por cuanto se entiende que siempre habrá una
lógica que imponga que una de las variables sea la explicada y la otra la explicativa. En el caso del
consumo y la renta de las familias, lo lógico es pensar que la renta determine el consumo y no al revés.
Debiendo, además, considerar el cuadrado de dichos errores para evitar la compensación de los
errores positivos con los negativos. En consecuencia, la aplicación de dicho criterio de estimación nos
llevaría a la siguiente expresión:
Fórmula 5.
⁄
ଶ
ୀଵ
ଶ
ୀଵ
Ahora bien, a partir del teorema de König, la varianza es la medida cuadrática de dispersión
óptima, por lo que la suma de errores al cuadrado se hará mínima en su valor medio:
Fórmula 5.
𝑀í𝑛𝑖𝑚𝑜 𝑒
⁄
ଶ
ୀଵ
ଶ
ୀଵ
Lo que ratifica la idoneidad de considerar la media condicionada como el valor estimado para
cada x i
Con lo que la regresión 𝑅
ூ
ൗ ൯ estará formada por los puntos:
ଵ
ଵ
ଶ
ଶ
ଷ
ଷ
Nótese que en caso de que ningún valor x i
de la X se repitiera, el valor medio de la Y coincidiría
con la observación y j
que le acompañara, con lo que la regresión 𝑅
ூ
ൗ ൯ estaría formada por la propia
nube de puntos de la variable (X,Y).
Más llamativo es el hecho de que para valores de X distintos a los existentes en la distribución
bidimensional de frecuencias, la regresión de tipo I no proporciona ninguna estimación para la Y. Es
decir, la regresión de tipo I sólo permite estimar el comportamiento de Y para los valores de X presentes
en la distribución de frecuencias.
Esto supone una gran limitación de este criterio, ya que uno de los objetivos primordiales de la
regresión es poder predecir el valor de la variable explicada Y, cualquiera que sea el valor que pueda
tomar la explicativa X. Esta deficiencia sería superable si dispusiéramos de un número infinito de
observaciones, lo que nos permitiría construir una función de regresión continua, pero esta no suele ser la
situación habitual.
La opción de encontrar la función de interpolación que pasara por todos y cada uno de los puntos
de la regresión tampoco resolvería el problema (al margen de la complejidad operativa que supondría), a
pesar de que es así como habitualmente se representa:
Gráfico 5.4: Representación gráfica habitual de la 𝑹 𝑰
൫
𝒀
𝑿
ൗ ൯
La razón radica en que las medias están condicionadas a los valores de X observados en la
distribución bidimensional, lo que es tanto como decir que la función de interpolación (regresión)
obtenida cambiaría al hacerlo la muestra tomada y con ello las predicciones efectuadas sobre la variable
Y objeto de estudio.
Por todo ello, la regresión tipo I resulta más operativa cuando se trabaja en el campo continuo y
cuando el propósito de la muestra es inferir el comportamiento de las poblaciones de las que se extraen, lo
que lleva a movernos en el campo probabilístico y considerar esta regresión como la esperanza de Y
condicionada a valores fijos de X
2
. En consecuencia, cuando se trata de distribuciones bidimensionales de
frecuencias es preferible emplear la regresión de tipo II de Y sobre X.
2
Avance para variables aleatorias continuas. Sea 𝑓
la función de densidad conjunta y 𝑓
ଵ
ଶ
las funciones de densidad marginales de las variables aleatorias X e Y. Entonces, la regresión de tipo I de
Y sobre X se escribirá así:
𝐸 ቂ
𝑌
𝑋 = 𝑥
ൗ ቃ = න 𝑦𝑓൫
𝑦
𝑥
ൗ ൯𝑑𝑦
ାஶ
ିஶ
= න 𝑦
𝑓
( 𝑥, 𝑦
)
𝑓 ଵ
( 𝑥
)
𝑑𝑦
ାஶ
ିஶ
= ⋯ =
𝑥
ଶ
𝑥 − 2
Dada la variable estadística bidimensional (X,Y) definida a partir de N pares de observaciones
repetidos o no
3
, la regresión lineal supone que la función matemática que mejor se ajusta a la nube
de puntos sea una recta (Gráfico 5.5 A):
Fórmula 5.
Donde 𝑎 se conoce como término independiente u ordenada en el origen, que representa el
corte de la recta con el eje de ordenadas, y b se llama coeficiente de regresión y constituye la pendiente
de la recta, es decir, la variación que se produce en la variable Y cuando X aumenta una unidad
4
. El paso
siguiente, una vez establecida la forma de la función, consiste en obtener los estadísticos a y b para lo que
nos vamos a servir del gráfico siguiente:
3
El empleo de esta notación obedece a la idea de buscar el mejor ajuste para la nube de puntos en su
totalidad, que da sentido a la regresión de tipo II, más que para los valores de cada distribución
condicionada. Además, el cálculo de los estimadores resulta más sencillo de esta forma.
4
La Fórmula 5.4 se llama recta de regresión estimada, en el sentido de que es la estimación de la recta de
regresión poblacional, es decir, la que nos da la esperanza de Y condicionada a los valores concretos de X
cuando se especifica a través de una función lineal:
𝐸 ቂ
𝑌
𝑋 = 𝑥
ൗ
1
2
𝑖
Donde 𝛽 ଵ
y 𝛽
ଶ
son los parámetros del modelo, de modo que a y b serían sus estimadores respectivos.
Por tanto, se puede decir que la regresión lineal de tipo II es una estimación de una regresión lineal de
tipo I planteada en el campo probabilístico.
Gráfico 5.6: Regresión lineal
En él se puede observar que, para cada valor x i
de X tenemos dos valores de Y, el observado
(real) 𝑦
correspondiente a la nube de puntos, y otro teórico que se obtiene al hacer 𝑋 = 𝑥
en la función,
que denotaremos como 𝑦ො
. Por tanto, para cada 𝑥
, tenemos una diferencia entre los dos valores de Y (el
real menos el teórico) que llamaremos error o residuo 𝑒
tal que
5
Fórmula 5.
Y que nos permite obtener cualquier valor observado de Y como:
Fórmula 5.
6
El método MCO consiste en determinar los estadísticos “a” y “b” de tal forma que los residuos sean
mínimos.
¿Y cómo se consigue que los residuos sean mínimos? Que la suma de los mismos sea nula es una
condición que, aunque deseable, no garantiza por sí sola aquel logro, ya que podría cumplirse aun
5
Obsérvese que ahora el error e j
se consigna sin condicionar, a diferencia de lo que ocurría en la
regresión de tipo I, en la que se empleaba la notación e j/i
6
La obtención del valor observado empleando la información poblacional, es decir, en el campo
probabilístico (lo que se conoce como modelo de regresión lineal simple) sería:
ଵ
ଶ
Donde 𝑢
es una variable aleatoria que se llama perturbación aleatoria o término de error, de tal manera
que así como 𝑎 + 𝑏𝑥
estima 𝛽
ଵ
ଶ
, el residuo 𝑒
hace lo propio respecto de 𝑢
generados por la regresión sea cero, así como también se anule la suma de los productos de cada residuo
por el valor correspondiente en la variable X.
Otra expresión alternativa, que resulta muy utilizada, es la que resulta al desarrollar la Fórmula
5.9 y despejar para la suma de los valores de Y, en la primera ecuación, y para la suma de los productos
cruzados de X e Y en la segunda ecuación:
Fórmula 5.
ே
ୀଵ
ே
ୀଵ
ே
ୀଵ
ே
ୀଵ
ଶ
ே
ୀଵ
Sistema en el que podemos despejar a de la primera ecuación y sustituirlo en la segunda para
encontrar la solución para b:
ே
ୀଵ
ே
ୀଵ
ଶ
ே
ୀଵ
Dividiendo por N y operando:
ଶ
ଶ
ଶ
De donde:
Fórmula 5.
ଶ
ଶ
ଵଵ
ଵ
ଵ
ଶ
ଵ
ଶ
ଵଵ
ଶ
௫௬
௫
ଶ
En tanto que a queda:
௫௬
௫
ଶ
Expresiones que constituyen los estimadores MCO de los parámetros de la regresión.
En caso de que hubiéramos empleado la distribución bidimensional de frecuencias
ୀଵ.. ୀଵ..
la expresión a minimizar sería:
Fórmula 5.
ଶ
ே
ୀଵ
ଶ
ୀଵ
ୀଵ
ଶ
ୀଵ
ୀଵ
ଶ
ୀଵ
ୀଵ
Que después de aplicar la condición necesaria generaría las ecuaciones normales:
Fórmula 5.
ୀଵ
ୀଵ
ୀଵ
ୀଵ
Y una vez efectuadas las operaciones oportunas se calcularían los estimadores:
Fórmula 5.
ୀଵ
ୀଵ
ଶ
.
ୀଵ
ଶ
ଵଵ
ଵ
ଵ
ଶ
ଵ
ଶ
ଵଵ
ଶ
௫௬
௫
ଶ
Siendo:
.
ୀଵ
.
ୀଵ
Obviamente, la Fórmula 5.12 y la Fórmula 5.15 aplicadas a los mismos datos producen idénticos
resultados
7
. Obsérvese, asimismo, que el signo del coeficiente de regresión coincide con el de la
covarianza. Así, una covarianza positiva determinará una pendiente positiva, en tanto que una covarianza
negativa producirá una pendiente negativa.
7
Para lo que resta del capítulo y por simplicidad se trabajará con la variable bidimensional (X,Y) como N
pares de observaciones (x i
, y i
) sin agrupar.
ଵ
ଵଵ
ଶ
ଵ
௫௬
௫
ଶ
Por último, indicar que una vez estimada la recta de regresión, estamos en condiciones de poder
predecir cualquier valor y o
de la variable Y, a partir de otro valor x o
de X:
Fórmula 5.
Una vez establecida la forma con la que se establece la dependencia entre las variables X e Y a
través de la regresión lineal, cabe preguntarse por el grado de intensidad de dicha dependencia, lo que se
conoce como correlación.
Para ello, buscaremos una medida que recoja dicha información, a partir del siguiente
razonamiento: si todos los puntos de la nube estuvieran sobre la recta de regresión, el grado de
dependencia sería el máximo posible. Por el contrario, cuanto más se alejen los puntos de la función, es
decir, cuanto mayores sean los residuos menor será la intensidad de la relación. Esto indica que podemos
apoyarnos en los residuos para medir el grado de dependencia. Veamos cómo:
A partir de la Fórmula 5.5 es evidente que:
Y aplicando sumatorios:
ே
ୀଵ
ே
ୀଵ
ே
ୀଵ
ே
ୀଵ
Ya que por el criterio de estimación MCO la suma de los residuos es cero. Si ahora dividimos
entre N a ambos lados de la igualdad, nos queda:
Fórmula 5.
Lo cual significa que, en la regresión lineal mínimo cuadrática, la media de las observaciones de
la variable Y se iguala a la media de los valores estimados.
Consideremos ahora la diferencia entre un valor observado y i
de la variable explicada, para un
valor x i
dado, y su media. El resultado será el mismo si a dicha diferencia se le resta y se le suma el valor
estimado por la regresión:
Ahora, elevando al cuadrado y sumando queda:
variabilidad total de Y explicada por la regresión y menor la debida a los residuos. Por el contrario, una
varianza residual grande en relación con la varianza de Y denotará un ajuste pobre de los datos a la
regresión:
Gráfico 5.
Pues bien, una medida estadística de la bondad del ajuste es lo que llamamos coeficiente de
determinación R
2
. Para llegar hasta él dividimos ambos miembros de la Fórmula 5.20 entre la varianza
total de Y:
ௌ
మ
ௌ
మ
ௌ
ೃ
మ
ௌ
మ
Y dejamos sólo el cociente de la derecha, que es la medida aludida:
Fórmula 5.
ଶ
ோ௬
ଶ
௬
ଶ
ଶ
௬
ଶ
Donde: 0 ≤ 𝑅
ଶ
El coeficiente de determinación R
2
informa sobre la proporción que de la varianza total
supone la varianza debida a la regresión, pudiendo darse las siguientes situaciones:
ଶ
= 1: Indica un ajuste perfecto de la regresión a la nube de puntos (todos los residuos
serían nulos), nos llevaría a pensar en la existencia de una dependencia funcional o
matemática entre las variables. No obstante, como ya se ha comentado anteriormente,
Porcentaje de varianza no
explicada por el modelo
Porcentaje de varianza
explicada por el modelo
en el ámbito de la dependencia estadística una situación de este tipo suele obedecer a
algún tipo de limitación en los datos disponibles más que al comportamiento real de las
variables, por lo que habría que tomarla con cierta cautela.
ଶ
< 1: Cuanto más se acerque a 1 mejor será la bondad del ajuste, mientras que
cuanto más se aproxime a cero peor será la adecuación de la función a la nube de
puntos.
ଶ
= 0: No hay dependencia lineal entre las variables, lo que no implica
necesariamente que no pueda existir una dependencia no lineal entre las mismas.
La definición analítica de R
2
dada anteriormente es válida para cualquier modelo, lineal o no
lineal, siendo preciso efectuar, no obstante, dos matizaciones.
Primera, en el modelo de regresión lineal simple (una sola variable explicativa) en particular se
cumple que:
Fórmula 5.
ோ௬
ଶ
௫௬
ଶ
௫
ଶ
Comprobación:
Según la Fórmula 5.20:
ோ௬
ଶ
ே ଶ
ୀଵ
En el caso lineal, a partir de la Fórmula 5.16, sabemos que 𝑦ො
ௌ
ೣ
ௌ ೣ
మ
− 𝑥̅), por lo que la
varianza debida a la regresión también se puede expresar como:
ோ௬
ଶ
௫௬
௫
ଶ
ଶ
ே
ୀଵ
௫௬
ଶ
௫
ସ
ଶ
ே
ୀଵ
௫௬
ଶ
௫
ସ
௫
ଶ
௫௬
ଶ
௫
ଶ
Como se quería demostrar. Ahora bien, si incluimos la Fórmula 5.22 en la Fórmula 5.21 el
coeficiente de determinación R
2
, en el caso de la regresión lineal con una única variable explicativa, se
podrá plantear así:
Fórmula 5.
ଶ
ோ௬
ଶ
௬
ଶ
௫௬
ଶ
௫
ଶ
௬
ଶ
Adviértase, no obstante, la diferencia conceptual entre el coeficiente de determinación R
2
y el
coeficiente de correlación r. Mientras que el primero mide el grado de la bondad del ajuste de la regresión
lineal o no lineal a la nube de puntos correspondiente, es decir, la eficacia del modelo planteado para
explicar la variable Y a partir de otra u otras variables, el segundo valora el grado de dependencia lineal
entre dos variables. Así, por ejemplo, para el caso de un modelo lineal general (una variable Y explicada
por k variables explicativas x 1
, x 2
… x k
) calcularemos el R
2
para medir la bondad del ajuste, en tanto que
podría determinar los k coeficientes de correlación de la variable Y con cada una de las variables
explicativas del modelo
8
En ocasiones la función matemática que mejor se ajusta a los datos no es lineal en los parámetros
o en las variables, hablándose entonces de una regresión no lineal. Nosotros vamos a ver los casos más
llamativos y, en particular, un grupo de funciones que siendo de carácter no lineal se pueden convertir en
lineales, aplicando cambios sencillos.
En este caso los valores de la variable dependiente se estiman a partir de un polinomio de
grado 𝑆
9
Fórmula 5.
ଶ
ௌ
Función que es lineal en los estimadores de los parámetros pero no en las variables. Obsérvese
que la regresión lineal es un caso particular de esta función cuando 𝑆 = 1. Otra función muy utilizada es
la parábola, que surge cuando el polinomio es de segundo grado (véase Gráfico 5.5 B), a continuación
vendría la función de tercer grado (Gráfico 5.5 D), y así sucesivamente.
La obtención de los estimadores MCO requiere minimizar la suma de los residuos al cuadrado,
según la siguiente expresión:
8
Incluso podría estar interesado en calcular los coeficientes de correlación entre cada par de variables
explicativas.
9
Los valores observados se obtendrían en el modelo poblacional mediante la siguiente ecuación:
ଵ
ଶ
ଶ
ଷ
ଷ
Donde 𝛽
ଵ
ଶ
son los parámetros del modelo a estimar (mediante los estimadores 𝑎,b,c…l
respectivamente) y 𝑢
la perturbación aleatoria.
Fórmula 5.
ଶ
ே
ୀଵ
ଶ
ே
ୀଵ
ଶ
ௌ
ଶ
ே
ୀଵ
Lo que supone aplicar la condición necesaria de máximo:
Fórmula 5.
ଶ
ௌ
ே
ୀଵ
ଶ
ௌ
ே
ୀଵ
ଶ
ௌ
ே
ୀଵ
ଶ
ଶ
ௌ
ே
ୀଵ
ௌ
Que proporcionará un sistema de 𝑺 ecuaciones normales con 𝑺 incógnitas que habitualmente
veremos escrito así:
ଶ
ௌ
ே
ୀଵ
ଶ
ௌ
ே
ୀଵ
ଶ
ௌ
ே
ୀଵ
ଶ
ଶ
ௌ
ே
ୀଵ
ௌ
Y cuya solución son los estimadores MCO de los parámetros del modelo.
La función de ajuste, de la que el Gráfico 5.5 C constituye un ejemplo, tiene la siguiente forma: