Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Ejercicios bidimensional, Ejercicios de Estadística Aplicada

Ejercicios bidimensional, con 2 variables y calcular medidas de tendencia central

Tipo: Ejercicios

2021/2022

Subido el 01/06/2023

elena-garcia-a2j
elena-garcia-a2j 🇪🇸

7 documentos

1 / 30

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
“Estadística para los Grados en Ciencias Sociales” © Julio Hernández March
1
TEMA 5. LA VINCULACIÓN ENTRE VARIABLES
ESTADÍSTICAS: REGRESIÓN Y CORRELACIÓN
En el ámbito científico resulta habitual tratar de conocer la realidad a través de representaciones
simplificadas que resulten más operativas y manejables, que se conocen como modelos, y que tratan de
explicar el comportamiento de una o más variables por medio de otra u otras, empleando relaciones
matemáticas.
Cuando existen errores en la medición de las variables o el fenómeno a estudiar es tan complejo
que su comportamiento se debe a múltiples causas se genera incertidumbre, lo que lleva a que dichas
relaciones matemáticas entre las variables resulten insuficientes para explicar la realidad.
Esta situación es particularmente evidente en las ciencias sociales en las que los modelos nunca
recogen todas las posibles variables explicativas de un cierto fenómeno porque, en última instancia,
contienen un comportamiento aleatorio que se deriva de la naturaleza humana del tipo de situaciones que
analizan, además de incurrir en errores en la toma de datos, ya sean censos o encuestas.
En estos casos, las variables mantienen una dependencia no exacta, no matemática que requiere
un tratamiento estadístico, que da nombre al tipo de vinculación a estudiar y que se concreta en dos
procedimientos:
a) Buscar y determinar aquella estructura de dependencia (aproximada) que mejor exprese el
tipo de relación existente entre la variable explicada y las variables explicativas, que se conoce
como REGRESIÓN.
b) Calcular el grado de dependencia existente entre las variables mediante el análisis de
CORRELACIÓN.
En este tema vamos a abordar ambas cuestiones, ciñéndonos al caso más sencillo de la regresión
con una única variable explicativa.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e

Vista previa parcial del texto

¡Descarga Ejercicios bidimensional y más Ejercicios en PDF de Estadística Aplicada solo en Docsity!

TEMA 5. LA VINCULACIÓN ENTRE VARIABLES

ESTADÍSTICAS: REGRESIÓN Y CORRELACIÓN

En el ámbito científico resulta habitual tratar de conocer la realidad a través de representaciones

simplificadas que resulten más operativas y manejables, que se conocen como modelos, y que tratan de

explicar el comportamiento de una o más variables por medio de otra u otras, empleando relaciones

matemáticas.

Cuando existen errores en la medición de las variables o el fenómeno a estudiar es tan complejo

que su comportamiento se debe a múltiples causas se genera incertidumbre, lo que lleva a que dichas

relaciones matemáticas entre las variables resulten insuficientes para explicar la realidad.

Esta situación es particularmente evidente en las ciencias sociales en las que los modelos nunca

recogen todas las posibles variables explicativas de un cierto fenómeno porque, en última instancia,

contienen un comportamiento aleatorio que se deriva de la naturaleza humana del tipo de situaciones que

analizan, además de incurrir en errores en la toma de datos, ya sean censos o encuestas.

En estos casos, las variables mantienen una dependencia no exacta, no matemática que requiere

un tratamiento estadístico, que da nombre al tipo de vinculación a estudiar y que se concreta en dos

procedimientos:

a) Buscar y determinar aquella estructura de dependencia (aproximada) que mejor exprese el

tipo de relación existente entre la variable explicada y las variables explicativas, que se conoce

como REGRESIÓN.

b) Calcular el grado de dependencia existente entre las variables mediante el análisis de

CORRELACIÓN.

En este tema vamos a abordar ambas cuestiones, ciñéndonos al caso más sencillo de la regresión

con una única variable explicativa.

5.1 PLANTEAMIENTO GENERAL DEL PROBLEMA DE LA

REGRESIÓN

A partir de la variable bidimensional (X,Y) con distribución de frecuencias conjunta

௜௝

௜ୀଵ..௛ ௝ୀଵ..௞

llamamos regresión de Y sobre X, que denotamos como 𝑅൫

ൗ ൯, a la función

que explica el comportamiento de Y para cada valor de X

1

Dicha función se puede establecer siguiendo dos criterios, lo que permite que se hable de

regresión de tipo I, por un lado, y regresión de tipo II o Mínimo Cuadrática, por otro. Veamos en qué

consiste cada uno de los procedimientos:

A) REGRESIÓN DE TIPO I DE Y SOBRE X O TAMBIÉN 𝑹

𝑰

Bajo este procedimiento de estimación, la distribución bidimensional de frecuencias se observa

desde la perspectiva de la distribución condicionada de Y para cada valor de X, con el objetivo de asignar

a la variable explicada el mejor valor posible. Esto nos lleva a leer la tabla de correlación a partir de las

filas que la conforman, en cada una de las cuales los valores de la X están fijos y varían los de la Y. Su

representación gráfica quedaría así:

Gráfico 5.1: Distribución bidimensional leída como suma de distribuciones condicionadas

Ahora bien, si tuviéramos que escoger qué valor de Y tomar como representante de los

disponibles para cada uno de los valores de la X, parece que un criterio lógico sería usar la media de los

1

Obviamos el planteamiento de la regresión de X sobre Y, por cuanto se entiende que siempre habrá una

lógica que imponga que una de las variables sea la explicada y la otra la explicativa. En el caso del

consumo y la renta de las familias, lo lógico es pensar que la renta determine el consumo y no al revés.

Debiendo, además, considerar el cuadrado de dichos errores para evitar la compensación de los

errores positivos con los negativos. En consecuencia, la aplicación de dicho criterio de estimación nos

llevaría a la siguiente expresión:

Fórmula 5.

௝ ௜⁄

௝ୀଵ

௝ୀଵ

௜௝

Ahora bien, a partir del teorema de König, la varianza es la medida cuadrática de dispersión

óptima, por lo que la suma de errores al cuadrado se hará mínima en su valor medio:

Fórmula 5.

𝑀í𝑛𝑖𝑚𝑜 ෍ 𝑒

௝ ௜⁄

௝ୀଵ

௝ୀଵ

௜௝

Lo que ratifica la idoneidad de considerar la media condicionada como el valor estimado para

cada x i

Con lo que la regresión 𝑅

ൗ ൯ estará formada por los puntos:

Nótese que en caso de que ningún valor x i

de la X se repitiera, el valor medio de la Y coincidiría

con la observación y j

que le acompañara, con lo que la regresión 𝑅

ൗ ൯ estaría formada por la propia

nube de puntos de la variable (X,Y).

Más llamativo es el hecho de que para valores de X distintos a los existentes en la distribución

bidimensional de frecuencias, la regresión de tipo I no proporciona ninguna estimación para la Y. Es

decir, la regresión de tipo I sólo permite estimar el comportamiento de Y para los valores de X presentes

en la distribución de frecuencias.

Esto supone una gran limitación de este criterio, ya que uno de los objetivos primordiales de la

regresión es poder predecir el valor de la variable explicada Y, cualquiera que sea el valor que pueda

tomar la explicativa X. Esta deficiencia sería superable si dispusiéramos de un número infinito de

observaciones, lo que nos permitiría construir una función de regresión continua, pero esta no suele ser la

situación habitual.

La opción de encontrar la función de interpolación que pasara por todos y cada uno de los puntos

de la regresión tampoco resolvería el problema (al margen de la complejidad operativa que supondría), a

pesar de que es así como habitualmente se representa:

Gráfico 5.4: Representación gráfica habitual de la 𝑹 𝑰

𝒀

𝑿

ൗ ൯

La razón radica en que las medias están condicionadas a los valores de X observados en la

distribución bidimensional, lo que es tanto como decir que la función de interpolación (regresión)

obtenida cambiaría al hacerlo la muestra tomada y con ello las predicciones efectuadas sobre la variable

Y objeto de estudio.

Por todo ello, la regresión tipo I resulta más operativa cuando se trabaja en el campo continuo y

cuando el propósito de la muestra es inferir el comportamiento de las poblaciones de las que se extraen, lo

que lleva a movernos en el campo probabilístico y considerar esta regresión como la esperanza de Y

condicionada a valores fijos de X

2

. En consecuencia, cuando se trata de distribuciones bidimensionales de

frecuencias es preferible emplear la regresión de tipo II de Y sobre X.

2

Avance para variables aleatorias continuas. Sea 𝑓

la función de densidad conjunta y 𝑓

las funciones de densidad marginales de las variables aleatorias X e Y. Entonces, la regresión de tipo I de

Y sobre X se escribirá así:

𝐸 ቂ

𝑌

𝑋 = 𝑥

ൗ ቃ = න 𝑦𝑓൫

𝑦

𝑥

ൗ ൯𝑑𝑦

ାஶ

ିஶ

= න 𝑦

𝑓

( 𝑥, 𝑦

)

𝑓 ଵ

( 𝑥

)

𝑑𝑦

ାஶ

ିஶ

= ⋯ =

𝑥

  • 5

𝑥 − 2

5.2 LA REGRESIÓN LINEAL. ESTIMACIÓN POR MINIMOS

CUADRADOS ORDINARIOS (MCO)

Dada la variable estadística bidimensional (X,Y) definida a partir de N pares de observaciones

repetidos o no

3

, la regresión lineal supone que la función matemática que mejor se ajusta a la nube

de puntos sea una recta (Gráfico 5.5 A):

Fórmula 5.

Donde 𝑎 se conoce como término independiente u ordenada en el origen, que representa el

corte de la recta con el eje de ordenadas, y b se llama coeficiente de regresión y constituye la pendiente

de la recta, es decir, la variación que se produce en la variable Y cuando X aumenta una unidad

4

. El paso

siguiente, una vez establecida la forma de la función, consiste en obtener los estadísticos a y b para lo que

nos vamos a servir del gráfico siguiente:

3

El empleo de esta notación obedece a la idea de buscar el mejor ajuste para la nube de puntos en su

totalidad, que da sentido a la regresión de tipo II, más que para los valores de cada distribución

condicionada. Además, el cálculo de los estimadores resulta más sencillo de esta forma.

4

La Fórmula 5.4 se llama recta de regresión estimada, en el sentido de que es la estimación de la recta de

regresión poblacional, es decir, la que nos da la esperanza de Y condicionada a los valores concretos de X

cuando se especifica a través de una función lineal:

𝐸 ቂ

𝑌

𝑋 = 𝑥

1

2

𝑖

Donde 𝛽 ଵ

y 𝛽

son los parámetros del modelo, de modo que a y b serían sus estimadores respectivos.

Por tanto, se puede decir que la regresión lineal de tipo II es una estimación de una regresión lineal de

tipo I planteada en el campo probabilístico.

Gráfico 5.6: Regresión lineal

En él se puede observar que, para cada valor x i

de X tenemos dos valores de Y, el observado

(real) 𝑦 ௜

correspondiente a la nube de puntos, y otro teórico que se obtiene al hacer 𝑋 = 𝑥

en la función,

que denotaremos como 𝑦ො ௜

. Por tanto, para cada 𝑥

, tenemos una diferencia entre los dos valores de Y (el

real menos el teórico) que llamaremos error o residuo 𝑒 ௜

tal que

5

Fórmula 5.

Y que nos permite obtener cualquier valor observado de Y como:

Fórmula 5.

6

El método MCO consiste en determinar los estadísticos “a” y “b” de tal forma que los residuos sean

mínimos.

¿Y cómo se consigue que los residuos sean mínimos? Que la suma de los mismos sea nula es una

condición que, aunque deseable, no garantiza por sí sola aquel logro, ya que podría cumplirse aun

5

Obsérvese que ahora el error e j

se consigna sin condicionar, a diferencia de lo que ocurría en la

regresión de tipo I, en la que se empleaba la notación e j/i

6

La obtención del valor observado empleando la información poblacional, es decir, en el campo

probabilístico (lo que se conoce como modelo de regresión lineal simple) sería:

Donde 𝑢 ௜

es una variable aleatoria que se llama perturbación aleatoria o término de error, de tal manera

que así como 𝑎 + 𝑏𝑥 ௜

estima 𝛽

, el residuo 𝑒

hace lo propio respecto de 𝑢

generados por la regresión sea cero, así como también se anule la suma de los productos de cada residuo

por el valor correspondiente en la variable X.

Otra expresión alternativa, que resulta muy utilizada, es la que resulta al desarrollar la Fórmula

5.9 y despejar para la suma de los valores de Y, en la primera ecuación, y para la suma de los productos

cruzados de X e Y en la segunda ecuación:

Fórmula 5.

௜ୀଵ

௜ୀଵ

௜ୀଵ

௜ୀଵ

௜ୀଵ

Sistema en el que podemos despejar a de la primera ecuación y sustituirlo en la segunda para

encontrar la solución para b:

௜ୀଵ

௜ୀଵ

௜ୀଵ

Dividiendo por N y operando:

De donde:

Fórmula 5.

ଵଵ

ଵ଴

଴ଵ

ଶ଴

ଵ଴

ଵଵ

ଶ଴

௫௬

En tanto que a queda:

௫௬

Expresiones que constituyen los estimadores MCO de los parámetros de la regresión.

En caso de que hubiéramos empleado la distribución bidimensional de frecuencias

௜௝

௜ୀଵ..௛ ௝ୀଵ..௞

la expresión a minimizar sería:

Fórmula 5.

௝ୀଵ

௝ୀଵ

௜ୀଵ

௜௝

௝ୀଵ

௜ୀଵ

௜௝

௝ୀଵ

௜ୀଵ

௜௝

Que después de aplicar la condición necesaria generaría las ecuaciones normales:

Fórmula 5.

௝ୀଵ

௜ୀଵ

௜௝

௝ୀଵ

௜ୀଵ

௜௝

Y una vez efectuadas las operaciones oportunas se calcularían los estimadores:

Fórmula 5.

௜௝

௝ୀଵ

௜ୀଵ

௜.

௜ୀଵ

ଵଵ

ଵ଴

଴ଵ

ଶ଴

ଵ଴

ଵଵ

ଶ଴

௫௬

Siendo:

௜.

௜ୀଵ

.௝

௝ୀଵ

Obviamente, la Fórmula 5.12 y la Fórmula 5.15 aplicadas a los mismos datos producen idénticos

resultados

7

. Obsérvese, asimismo, que el signo del coeficiente de regresión coincide con el de la

covarianza. Así, una covarianza positiva determinará una pendiente positiva, en tanto que una covarianza

negativa producirá una pendiente negativa.

7

Para lo que resta del capítulo y por simplicidad se trabajará con la variable bidimensional (X,Y) como N

pares de observaciones (x i

, y i

) sin agrupar.

଴ଵ

ଵଵ

ଶ଴

ଵ଴

௫௬

Por último, indicar que una vez estimada la recta de regresión, estamos en condiciones de poder

predecir cualquier valor y o

de la variable Y, a partir de otro valor x o

de X:

Fórmula 5.

5.3 EL COEFICIENTE DE DETERMINACIÓN Y EL

COEFICIENTE DE CORRELACIÓN

Una vez establecida la forma con la que se establece la dependencia entre las variables X e Y a

través de la regresión lineal, cabe preguntarse por el grado de intensidad de dicha dependencia, lo que se

conoce como correlación.

COEFICIENTE DE DETERMINACIÓN

Para ello, buscaremos una medida que recoja dicha información, a partir del siguiente

razonamiento: si todos los puntos de la nube estuvieran sobre la recta de regresión, el grado de

dependencia sería el máximo posible. Por el contrario, cuanto más se alejen los puntos de la función, es

decir, cuanto mayores sean los residuos menor será la intensidad de la relación. Esto indica que podemos

apoyarnos en los residuos para medir el grado de dependencia. Veamos cómo:

A partir de la Fórmula 5.5 es evidente que:

Y aplicando sumatorios:

௜ୀଵ

௜ୀଵ

௜ୀଵ

௜ୀଵ

Ya que por el criterio de estimación MCO la suma de los residuos es cero. Si ahora dividimos

entre N a ambos lados de la igualdad, nos queda:

Fórmula 5.

Lo cual significa que, en la regresión lineal mínimo cuadrática, la media de las observaciones de

la variable Y se iguala a la media de los valores estimados.

Consideremos ahora la diferencia entre un valor observado y i

de la variable explicada, para un

valor x i

dado, y su media. El resultado será el mismo si a dicha diferencia se le resta y se le suma el valor

estimado por la regresión:

Ahora, elevando al cuadrado y sumando queda:

variabilidad total de Y explicada por la regresión y menor la debida a los residuos. Por el contrario, una

varianza residual grande en relación con la varianza de Y denotará un ajuste pobre de los datos a la

regresión:

Gráfico 5.

Pues bien, una medida estadística de la bondad del ajuste es lo que llamamos coeficiente de

determinación R

2

. Para llegar hasta él dividimos ambos miembros de la Fórmula 5.20 entre la varianza

total de Y:

ೃ೤

Y dejamos sólo el cociente de la derecha, que es la medida aludida:

Fórmula 5.

ோ௬

Donde: 0 ≤ 𝑅

El coeficiente de determinación R

2

informa sobre la proporción que de la varianza total

supone la varianza debida a la regresión, pudiendo darse las siguientes situaciones:

= 1: Indica un ajuste perfecto de la regresión a la nube de puntos (todos los residuos

serían nulos), nos llevaría a pensar en la existencia de una dependencia funcional o

matemática entre las variables. No obstante, como ya se ha comentado anteriormente,

Porcentaje de varianza no

explicada por el modelo

Porcentaje de varianza

explicada por el modelo

en el ámbito de la dependencia estadística una situación de este tipo suele obedecer a

algún tipo de limitación en los datos disponibles más que al comportamiento real de las

variables, por lo que habría que tomarla con cierta cautela.

< 1: Cuanto más se acerque a 1 mejor será la bondad del ajuste, mientras que

cuanto más se aproxime a cero peor será la adecuación de la función a la nube de

puntos.

= 0: No hay dependencia lineal entre las variables, lo que no implica

necesariamente que no pueda existir una dependencia no lineal entre las mismas.

La definición analítica de R

2

dada anteriormente es válida para cualquier modelo, lineal o no

lineal, siendo preciso efectuar, no obstante, dos matizaciones.

Primera, en el modelo de regresión lineal simple (una sola variable explicativa) en particular se

cumple que:

Fórmula 5.

ோ௬

௫௬

Comprobación:

Según la Fórmula 5.20:

ோ௬

ே ଶ

௜ୀଵ

En el caso lineal, a partir de la Fórmula 5.16, sabemos que 𝑦ො

ೣ೤

ௌ ೣ

− 𝑥̅), por lo que la

varianza debida a la regresión también se puede expresar como:

ோ௬

௫௬

௜ୀଵ

௫௬

௜ୀଵ

௫௬

௫௬

Como se quería demostrar. Ahora bien, si incluimos la Fórmula 5.22 en la Fórmula 5.21 el

coeficiente de determinación R

2

, en el caso de la regresión lineal con una única variable explicativa, se

podrá plantear así:

Fórmula 5.

ோ௬

௫௬

Adviértase, no obstante, la diferencia conceptual entre el coeficiente de determinación R

2

y el

coeficiente de correlación r. Mientras que el primero mide el grado de la bondad del ajuste de la regresión

lineal o no lineal a la nube de puntos correspondiente, es decir, la eficacia del modelo planteado para

explicar la variable Y a partir de otra u otras variables, el segundo valora el grado de dependencia lineal

entre dos variables. Así, por ejemplo, para el caso de un modelo lineal general (una variable Y explicada

por k variables explicativas x 1

, x 2

… x k

) calcularemos el R

2

para medir la bondad del ajuste, en tanto que

podría determinar los k coeficientes de correlación de la variable Y con cada una de las variables

explicativas del modelo

8

5.4 REGRESIÓN NO LINEAL

En ocasiones la función matemática que mejor se ajusta a los datos no es lineal en los parámetros

o en las variables, hablándose entonces de una regresión no lineal. Nosotros vamos a ver los casos más

llamativos y, en particular, un grupo de funciones que siendo de carácter no lineal se pueden convertir en

lineales, aplicando cambios sencillos.

Función polinómica

En este caso los valores de la variable dependiente se estiman a partir de un polinomio de

grado 𝑆

9

Fórmula 5.

Función que es lineal en los estimadores de los parámetros pero no en las variables. Obsérvese

que la regresión lineal es un caso particular de esta función cuando 𝑆 = 1. Otra función muy utilizada es

la parábola, que surge cuando el polinomio es de segundo grado (véase Gráfico 5.5 B), a continuación

vendría la función de tercer grado (Gráfico 5.5 D), y así sucesivamente.

La obtención de los estimadores MCO requiere minimizar la suma de los residuos al cuadrado,

según la siguiente expresión:

8

Incluso podría estar interesado en calcular los coeficientes de correlación entre cada par de variables

explicativas.

9

Los valores observados se obtendrían en el modelo poblacional mediante la siguiente ecuación:

Donde 𝛽 ଴

son los parámetros del modelo a estimar (mediante los estimadores 𝑎,b,c…l

respectivamente) y 𝑢 ௜

la perturbación aleatoria.

Fórmula 5.

௝ୀଵ

௜ୀଵ

௜ୀଵ

Lo que supone aplicar la condición necesaria de máximo:

Fórmula 5.

௜ୀଵ

௜ୀଵ

௜ୀଵ

௜ୀଵ

Que proporcionará un sistema de 𝑺 ecuaciones normales con 𝑺 incógnitas que habitualmente

veremos escrito así:

௜ୀଵ

௜ୀଵ

௜ୀଵ

௜ୀଵ

Y cuya solución son los estimadores MCO de los parámetros del modelo.

AJUSTE DE FUNCIONES NO LINEALES QUE SE PUEDEN HACER

LINEALES

Función exponencial

La función de ajuste, de la que el Gráfico 5.5 C constituye un ejemplo, tiene la siguiente forma: