









































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Cómo calcular la covarianza de dos variables y cómo determinar la recta de regresión de mínimos cuadrados de una variable bidimensional. Se incluyen ejemplos y ecuaciones para calcular los coeficientes de regresión y el coeficiente de determinación. También se explica cómo ajustar una curva de mínimos cuadrados no lineal y cómo comparar modelos lineales y no lineales.
Tipo: Diapositivas
1 / 49
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!










































En este capítulo, trataremos con muestras bivariantes cuantitativas, es decir con muestras donde en cada unidad estadística se observan dos características cuantitativas medibles J íe K ; por ejemplo, ingresos y gastos mensuales. El objetivo es estudiar la asociación entre dos variables conocida también como asociación simple.
La primera forma del estudio de la asociación entre las variables X e Y es la regresión, que consiste en determinar una relación funcional (recta de regresión) entre ellas, con el fin de que se pueda predecir el valor de una variable en base a la otra. La variable que se va predecir se denomina variable dependiente y la variable que es la base de la predicción se denomina variable independiente.
La segunda forma del estudio de la asociación entre las variables X e Y, es denominada correlación, que consiste en determinar la variación conjunta de las dos variables, su grado de relación, y su sentido (positivo o negativo). La medida del grado de relación se denomina coeficiente o índice de correlación. El cuadrado del índice de correlación se denomina coeficiente de determinación.
En este capitulo haremos un estudio descriptivo de las regresión lineal en el sentido que, la ecuación de regresión lineal que se determina será válida, si hay la seguridad de que existe un alto grado de correlación entre las variables indicado por el coeficiente de determinación. Un estudio más avanzado de este tema se expone en el capitulo 13 del libro Estadística Inferencial: Aplicaciones, que viene a ser la segunda parte de este texto. El lector debería correr paquetes de computo entre otros el M C EST para las aplicaciones de este capitulo.
88 Estadística
Los métodos estadísticos descriptivos son válidos en cada variable, es decir cada variable tiene media, desviación estándar, etc. Lo nuevo aquí es que con estos datos
en pareja se puede medir la dispersión conjunta con respecto a las medias (x , v)
mediante la covarianza.
regresión con datos tabulados, pero no en intervalos.
Es frecuentemente posible visualizar el tipo de relación existente entre dos variables a partir del diagrama de dispersión.
a) lineal positiva b) lineal negativa c) no lineal d) ninguna relación Fig. 4.1. Diagramas de dispersión
En este capítulo como ya se indicado en la introucción, haremos regresión lineal descriptiva determinando la ecuación lineal de regresión
90 Estadística
El lector debería verificar que
r _ ^ XY
Verificaremos (sección 4.2.3) que e! coeficiente de correlación r es un número comprendido entre - 1 y + 1 , esto es:
— 1 < r < 1.
Interpretación:
Si r = 1, se dice que hay una correlación perfecta positiva.
Si r = —1, se dice que hay una correlación perfecta negativa.
Si r = 0 , se dice que no hay correlación entre las dos variables
Dados ti pares de valores (j^ , y, ) , ( j : 2 , _y 2 ),..., (x n > y n ) de una variable
bidimensional ( X , Y ). La regresión lineal simple de Y con respecto a X , consiste en
determinar la ecuación de la recta:
Y = a + b X
que mejor se ajuste a los valores de la muestra, con el fin de poder predecir o estimar Y (variable dependiente) a partir de X (variable independiente). El proceso de predecir o estimar Y a partir de la variable X , es la regresión. Hallar la función lineal Y = a + b X , consiste en determinar los valores de a y b a partir de los datos de la muestra.
Usaremos la notación y¿ para representar un valor de Y calculado de la
ecuación Y — a + b X cuando X es igual a x ¡. Esto es, y¡ = a + bx,
Al valor y¡ se denomina valor estimado o predecido o ajustado de Y cuando X = X¡. Si x¡ es un valor de la muestra entonces ( x - , ) es un punto de la recta de
regresión Y = a + b X , (Fig. 4.2).
Regresión lineal simple 91
Definición. Se denomina error o residuo a cada diferencia,
d¡ = y¡ - y¡
del valor observado y¡ y el valor pronosticado y¡ (Fig. 4.2).
Un método para determinar la recta que mejor se ajuste a los n datos de la
muestra ( x - , y , ) es el método de mínimos cuadrados, que se explica a
continuación.
La recta de regresión de mínimos cuadrados de Y en X es aquella que hace mínima la suma de los cuadrados de errores ( SCE) cuya expresión es:
SCE = Y j d f = ¿ ( y , - y , ) 2 = ¿ ( y , - - a - b x , ) 2 i=l í=l ;=i
Luego, determinar una recta de regresión de mínimos cuadrados consiste en hallar los valores de a y b de manera que hagan mínima, la suma: n S C E = ^ [ y ,. - (a + bx¡ ) ] 2 i^i
Este requisito se cumple, de acuerdo con el teorema de Gass-Markow, si a y b se determinan resolviendo el siguiente sistema de ecuaciones norm ales : n n £ y¡ ^ n a + b ^ x , 1=1 1=
Regresión lineal simple 93
En general, si x¡ se incrementa k, entonces y t se incrementa en promedio kb
(verificar!).
En un estudio de la relación entre la publicidad por radio y las ventas de un producto, durante 1 0 semanas se han recopilado los tiempos de duración en minutos de la publicidad por semana (X), y el número de artículos vendidos (K), resultando:
Semana 1 2 3 4 5 6 7 8 9 1 0 Publicidad X 2 0 30 30 40 50 60 60 60 70 80 Ventas Y 50 73 69 87 108 128 135 132 148 170
a) Trazar el diagrama de dispersión, e indicar la tendencia. b) Calcular la recta de regresión de mínimos cuadrados con el fin de predecir las ventas. c) Estimar la venta si en una semana se hacen 100 minutos de propaganda. d) Calcular el coeficiente de correlación. e) Si en la novena semana se incrementara la publicidad en 5 minutos, ¿en cuanto se estima se incrementen las ventas?.
SO LU CIO N.
a) Al trazar el diagrama de dispersión (fig. 4.3) vemos que hay una relación lineal positiva entre el número de artículos vendidos y el tiempo de publicidad semanal por radio.
180
160
140
1 2 0
80
60 --
40
Venias
Publicidad 0 20 40 60 80 100 Fig. 4.3 Diagrama de dispersión
94 Estadística
b) Para determinar la recta de regresión de mínimos cuadrados a partir de los datos, es decir para calcular a y b se dispone del cuadro 4.1. De donde se obtiene:
« = 10, £ X = 5 0 0 , Z K = 1100, Y. X Y = 6 1 8 0 0
Z X 2 = 28400, Z F 2 = 1 346t>
Cuadro 4.1. Computo de los coeficientes de regresión
, « Z X K - X X X F 1 0 x 6 1 8 0 0 - 5 0 0 x 1 1 0 0 6 8 0 0 0 „
■ X^ - 2 =
10
b =^ ' X Y^
96 Estadística
y = 67 + 0.633 x 250 = 225.25.
coeficientes de correlación r, y el de regresión; /;;
b = r ^ ~ s x
Entre otras cosas, r y b tienen el mismo signo.
Esta recta de regresión de X en Y se puede escribir también como:
X — x = d ( Y — y ) ó Y - y = - ( X ~ x ) d
Observar que también pasa por el punto ( x , y )
-v x > ~ _ s x y s x y _ r r _ r 2
S X S Y S X S Y S X S Y
El número r es denominado coeficiente de determinación.
L, : Y — y = b ( X - x ) d e Y e n X
L 2 : Y - y = — (X - x ) d e X en Y d
resulta que, son coincidentes si ¿ d = l , o s i r “ = l.
Regresión lineal simple 97
L , ) es paralela al eje Y y perpendiculares entre si en el punto común ( x. v ).
coincidentes.
Sea ( a ,,y ,) un valor observado de la variable ( X , Y ) e y, el valor en la
ti
Observar que en la figura 4.4 se tiene:
y i - y = (y¡ -y¿) + (y¿ - y)
Esta terminología surge, debido a que las desviaciones y, —y, con respecto a
la recta de regresión, se comportan de una manera aleatoria o impredecible, debido
Regresión lineal simple 99
Del cuadro 4.2, resulta
¿O.- - y )2 = ¿(y,- - y ,-)2 + ¿ t f , - y ) 1=1 i=i i=i
33.20 = 7.60 + 25.60.
NOTA. Para comparar estas varianzas se convierten a varianza relativas, dividiendo la identidad entre 33.20 (SCT).
33.20 7.60 25. 33.20 “ 33.20 33.
1 = 0.23 + 0.
La lectura es como sigue:
El 100% de la varianza total se particiona en 23% de varianza no explicada
:1 cociente:
:iente de determinación r de la regresión dada por la expresión:
El coeficiente de determinación r se define como el cociente:
^ 2 Esto es,, el coeficiente de determinación r de la regresión de Y en X , está
2 > , - j o 2 1=
Por lo tanto para interpretar la partición de varianzas relativas bastará con 2 calcular r , luego, r y establecer:
1 = (1 —r 2) + r 2
100 Estadística
para concluir que el 100% de la varianza total es igual (1 — r 2) x l 0 0 % de
de regresión.
1 = ( 1 —r 2 ) + r 2
1=0.0975 + 0.9025 o aproximando a dos decimales 1=0.10 + 0.
Es decir, el 90% de la variabilidad en los gastos mensuales se explica por la asociación con los ingresos mensuales. Quedan 10% de variabilidad en los gastos que no se explica por la regresión.
Consecuencias.
Si r > 0 , se dice que existe una correlación directa positiva , ambas variables aumentan (o disminuyen) simultáneamente. Si r < 0 , se dice que existe una correlación inverso negativa , mientras los valores de una variable aumenta, los de la otra disminuyen y viceversa.
regresión de Y en X.
2) r 2 — 1, sólo si, SCE = 0 , o sólo si, y¡ = y , para los n datos de la muestra. Esto significa que todos los y, están en la recta de regresión. En este caso se dice que hay una correlación perfecta entre X e Y. Si r = 1, se dice que hay una correlación perfecta positiva. Si r = —1, se dice que hay una correlación perfecta negativa.
r = 0. sólo si, SCR = 0 , o sólo si, v, = y para los n datos de la muestra. Es decir y¡ no cambia cuando cambia x ¡ , o todas las predicciones son iguales a una misma constante. En este caso no hay correlación ni regresión.
El coeficiente de determinación r 2 , es pues una medida de la proximidad del
ajuste de la recta de regresión. Cuanto mayor sea el valor de r , m ejor será el ajuste' y más útil la recta de regresión como instrumento de predicción. ( r 2 = 0 .9 0 indica que de 100 pares de puntos 90 están en la recta de regresión y 1 0 fuera de la recta de regresión)
NOTA. (Una advertencia) El haber supuesto una función lineal entre dos variables y haber encontrado un alto coeficiente de correlación, no necesariamente significa que una variable
102 Estadística
Ingreso Consumo 2 0 , 0 0 0 18. 14,000 15, 35,000 30, 23,000 (^) 16. 1 2 , 0 0 0 9. 5,000 7, 7,000 7, 14,000 15. 30,000 26, 25,000 (^) 23,
SO LU C IO N.
Realizamos la codificación: X ' = X ¡ 1 ,0 0 0 , Y' = Y / l , 00 0 , del cuadro 4. se obtiene:
Cuadro 4.3. Cálculos para la regresión lineal con datos codificados
I X '= 1 8 5 , X r = 1 6 6 , X X T = 3 7 4 5 , Z X ' 2 =4289, I T 2 = 33 1 4
La recta de regresión de Y en X es:
Y — y = b ( X —5c),
donde b = 0.778, y = 1000 x y = 16,600, 5c = 1000 x jc' = 18,
Resultando, Y = 2 ,2 0 7 + 0 .7 7 8 X.
Regresión lineal simple 103
Al estudiar la relación entre costos (X) y ventas()0 en dólares de ciertos productos, a partir de una muestra se obtuvo la siguiente información:
s x = 5, Sy = 4, jc = 5 0 , = 100, K = 62 + O ^ ó X
Si los costos se incrementan en $3 y las ventas correspondientes se incrementan en 6 $ a) ¿Cómo cambia la ecuación de regresión?. b) ¿Qué porcentaje de la varianza de las ventas es explicada por la regresión de ventas sobre costos?.
SOLUCION
a) Si X ' = X + 3 , Y ’ = Y + 6 , la ecuación de regresión de Y' en X ' es:
Y ' - y ' = b \ X ' - x ' )
donde b' = b = 0.76, y '= y + 6 = 106, x ' = x + 3 = 53. Esto es
y 106 = 0.76( X ’-53)
b) Se tiene: b = 0.76, de r = ——— y b = —^~ resulta r= 0 .9 5. s x s y s x Si se hace la transformación X ' = X + 3 , Y ' = Y + 6 , el coeficiente de correlación r= 0.95 no cambia. Por lo tanto, el porcentaje de la varianza de Y ( o de Y' ) explicada por la regresión de Y en X (o de Y' en X ') es la misma:
r 2 =(0.95)2 =0.9025.
EJEMPLO 4.6 (Aplicación a serie de tiempo) Cuando una de las variables es el tiempo (en días, meses o años), la regresión se denomina serie de tiempo. Supongamos que la producción (en millones) de un determinado artículo fabricado por una compañía durante los años 1980-1989 es como sigue:
Anos 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 Producción 92.2 92.3 80.0 89.1 83.5 68.9 69.2 67.1 58.3 61.
a) Trazar un gráfico de líneas y describir la tendencia. b) Hallar la recta de regresión (serie de tiempo) de mínimos cuadrados de la producción en función de los años. c) Estimar la producción de artículos para 1990 y establecer si es significativa tal predicción.
Regresión lineal simple 105
Ecuación Transformación lineal
a) Y = A B X (exponencial) log Y = lo g A + (lo g B ) X
b) Y = A X B (p o te n c ia ) log Y = lo g A + B log A"
c) Y = \¡ (A + B X ) (h ip e rb ó lic a ) Y '= A + B X , siendo Y '= 1 ¡Y
Ajustar por el método de mínimos cuadrados una curva de la forma
Y = A X B
a los siguientes pares de datos:
X 1.5 2 3 3.5 4 5 Y 2. 6 2.4 1. 2 1. 8 1. 6 1.
SOLUCION.
La transformación a la regresión lineal es:
De la tabla 4.4 se obtiene: Z X ' = 2.7993, Z r = 1.4799. Z X T ' = 0.5891, I X '2 = 1.4962. Z K '2 -0 .4 5 1 3
Cuadro 4.4. Cálculos para la regresión no lineal X Y X'=log X r=log Y X T X'2 Y' 1.5 2. 6 0.1761 0.4150 0.0731 0.0310 0.0.
106 Estadística
Además,
La ecuación lineal de regresión es:
y = 0.4949 - 0 .5 3 2 * '
La ecuación no lineal de regresión se obtiene utilvando antilogaritmos:
Y = anti log(y') = (3.125) X "° 5 3 2
donde A —anti log (a ) = anti log(0.4949) = 3..
Para los siguientes datos experimentales
X (^1 2 3 4 5 ) Y 1 0 (^40) 1 2 0 300 800 1500
Se plantean los modelos:
Y = A e BX e Y = a + b X ,
para relacionar Y con X, ¿cuál de los dos modelos se ajusta m ejor a los datos?
SO LU C IO N.
d y Si ajustamos a los datos la ecuación no lineal Y = A e , su transformación lineal es ln y = ln A + B X , esto es
Y ' = a + B X , donde Y ' = ln Y. a = ln A.
De los datos experimentales se obtiene:
I X = 2 1 , X K '= 30.481, I A T '= 124.16, I X 2 = 9 1 , I K ' 2 = 172.
8 = £ M T - I X E T =
n X x M X J í ] 2
a = y ’—Bx = 1..
r = 0 9935
La ecuación lineal de regresión es: Y'= 1.58443 + 0.99876*
La ecuación no lineal de regresión es: Y = anti ln(K') = (4.8765)e(0 99876,x