Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Cálculo de covarianza y recta de regresión de mínimos cuadrados - Prof. Motta, Diapositivas de Estadística

Cómo calcular la covarianza de dos variables y cómo determinar la recta de regresión de mínimos cuadrados de una variable bidimensional. Se incluyen ejemplos y ecuaciones para calcular los coeficientes de regresión y el coeficiente de determinación. También se explica cómo ajustar una curva de mínimos cuadrados no lineal y cómo comparar modelos lineales y no lineales.

Tipo: Diapositivas

2020/2021

Subido el 15/03/2024

patricia-contreras-10
patricia-contreras-10 🇵🇪

1 documento

1 / 49

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Capítulo 4
REGRESION LINEAL SIMPLE
4.1 Introducción
En este capítu lo, tratarem os con mu estra s bi varia ntes cuan titativ as, es d ecir con
muestras don de en cada unidad estadísti ca se obs ervan dos caracte rísticas
cua ntitativas me dibles J íe K; por ejem plo, ingresos y g astos mensu ales. El objetivo
es es tudiar la asociación e ntre d os varia bles c on ocida tamb ién com o asoc iació n
simple.
La primera form a del estudio de la asociació n entre las variables X e Y es la
regresión, que consiste en deter mina r un a relació n fun cional (rec ta d e re gresió n)
entr e ellas, con el fin de qu e se pued a predecir el valor de una variable en base a la
otra. La variable qu e se va predecir se denom ina variab le dependien te y la variable
que es la ba se de la pr edicc ión se d enom ina variabl e indep endie nte.
La s egunda forma del es tudio de la aso ciación en tre las va riable s X e Y, es
den omina da corr elación, que con siste en de termina r la vari ación conjun ta de las
dos variab les, su grado de relación, y su sentido (pos itivo o negativo). La m edida
del grado de relación se den omin a coef iciente o índ ice de correlación. El cuadrado
del índice de correla ción se denomina co eficie nte de determ inación.
En este ca pitulo harem os un estudio descriptivo de las reg resión lineal en el
sentido que, la e cuación d e regre sión lineal que se dete rmina será válida, si hay la
seguridad de qu e ex iste un a lto grado de correlació n entre las v ariables indicad o
por el coefic iente de d eterminación.
Un est udio m ás avanzado de este tem a se exp one en el ca pitulo 13 del libro
Esta dística Inferencial: Apli caciones, que vie ne a ser la segunda parte de este texto.
El lecto r debe ría correr pa quete s de co mputo e ntre o tros el MCE S T para las
aplicac iones de este capitulo.
www.FreeLibros.me
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31

Vista previa parcial del texto

¡Descarga Cálculo de covarianza y recta de regresión de mínimos cuadrados - Prof. Motta y más Diapositivas en PDF de Estadística solo en Docsity!

Capítulo 4

REGRESION LINEAL SIMPLE

4.1 Introducción

En este capítulo, trataremos con muestras bivariantes cuantitativas, es decir con muestras donde en cada unidad estadística se observan dos características cuantitativas medibles J íe K ; por ejemplo, ingresos y gastos mensuales. El objetivo es estudiar la asociación entre dos variables conocida también como asociación simple.

La primera forma del estudio de la asociación entre las variables X e Y es la regresión, que consiste en determinar una relación funcional (recta de regresión) entre ellas, con el fin de que se pueda predecir el valor de una variable en base a la otra. La variable que se va predecir se denomina variable dependiente y la variable que es la base de la predicción se denomina variable independiente.

La segunda forma del estudio de la asociación entre las variables X e Y, es denominada correlación, que consiste en determinar la variación conjunta de las dos variables, su grado de relación, y su sentido (positivo o negativo). La medida del grado de relación se denomina coeficiente o índice de correlación. El cuadrado del índice de correlación se denomina coeficiente de determinación.

En este capitulo haremos un estudio descriptivo de las regresión lineal en el sentido que, la ecuación de regresión lineal que se determina será válida, si hay la seguridad de que existe un alto grado de correlación entre las variables indicado por el coeficiente de determinación. Un estudio más avanzado de este tema se expone en el capitulo 13 del libro Estadística Inferencial: Aplicaciones, que viene a ser la segunda parte de este texto. El lector debería correr paquetes de computo entre otros el M C EST para las aplicaciones de este capitulo.

88 Estadística

4.1.1. Diagrama de dispersión

Sean ( * , , y , ) , (* 2 « J 2 )>••->(•*>!’ ^ n ) n val° res de la variable bidimensional

( X , F ) , observados en una muestra, donde los x¡ son los valores de la variable

X y los y¡ son los valores de la variable Y.

Los métodos estadísticos descriptivos son válidos en cada variable, es decir cada variable tiene media, desviación estándar, etc. Lo nuevo aquí es que con estos datos

en pareja se puede medir la dispersión conjunta con respecto a las medias (x , v)

mediante la covarianza.

Además, si los datos de X se tabulan en r intervalos; 1 ¡ ; y los datos de Y se

tabulan en s intervalos; / ’ , se tendrá una distribución conjunta de frecuencias que

consiste de los intervalos ( / , - , / ’ ) , y frecuencias f t]. En este texto sólo haremos

regresión con datos tabulados, pero no en intervalos.

Definición. Se denomina diagrama de dispersión o nube de puntos, a la gráfica

de los valores (.*,■, y ,) de las variables X e Y en el sistema cartesiano.

Es frecuentemente posible visualizar el tipo de relación existente entre dos variables a partir del diagrama de dispersión.

a) lineal positiva b) lineal negativa c) no lineal d) ninguna relación Fig. 4.1. Diagramas de dispersión

Por ejemplo, en la figuras 4.1 a),b) los datos visualizan una relación lineal entre

las variables X e Y. En la figura 4.1 c) los datos visualizan una relación, pero, una

relación no lineal, y en la figura 4.1 d) los datos visualizan ninguna relación válida

en regresión entre las variables X e Y.

En este capítulo como ya se indicado en la introucción, haremos regresión lineal descriptiva determinando la ecuación lineal de regresión

Y = a + b X

90 Estadística

El lector debería verificar que

r _ ^ XY

^ JnZS-(ZJJnZy*-(Zyr

Verificaremos (sección 4.2.3) que e! coeficiente de correlación r es un número comprendido entre - 1 y + 1 , esto es:

— 1 < r < 1.

Interpretación:

Si r = 1, se dice que hay una correlación perfecta positiva.

Si r = —1, se dice que hay una correlación perfecta negativa.

Si r = 0 , se dice que no hay correlación entre las dos variables

4.2 Regresión lineal simple.

Dados ti pares de valores (j^ , y, ) , ( j : 2 , _y 2 ),..., (x n > y n ) de una variable

bidimensional ( X , Y ). La regresión lineal simple de Y con respecto a X , consiste en

determinar la ecuación de la recta:

Y = a + b X

que mejor se ajuste a los valores de la muestra, con el fin de poder predecir o estimar Y (variable dependiente) a partir de X (variable independiente). El proceso de predecir o estimar Y a partir de la variable X , es la regresión. Hallar la función lineal Y = a + b X , consiste en determinar los valores de a y b a partir de los datos de la muestra.

Usaremos la notación y¿ para representar un valor de Y calculado de la

ecuación Y — a + b X cuando X es igual a x ¡. Esto es, y¡ = a + bx,

Al valor se denomina valor estimado o predecido o ajustado de Y cuando X = X¡. Si es un valor de la muestra entonces ( x - , ) es un punto de la recta de

regresión Y = a + b X , (Fig. 4.2).

Regresión lineal simple 91

Definición. Se denomina error o residuo a cada diferencia,

d¡ = y¡ - y¡

del valor observado y el valor pronosticado (Fig. 4.2).

Un método para determinar la recta que mejor se ajuste a los n datos de la

muestra ( x - , y , ) es el método de mínimos cuadrados, que se explica a

continuación.

4.2.1 Recta de regresión de mínimos cuadrados.

La recta de regresión de mínimos cuadrados de Y en X es aquella que hace mínima la suma de los cuadrados de errores ( SCE) cuya expresión es:

SCE = Y j d f = ¿ ( y , - y , ) 2 = ¿ ( y , - - a - b x , ) 2 i=l í=l ;=i

Luego, determinar una recta de regresión de mínimos cuadrados consiste en hallar los valores de a y b de manera que hagan mínima, la suma: n S C E = ^ [ y ,. - (a + bx¡ ) ] 2 i^i

Este requisito se cumple, de acuerdo con el teorema de Gass-Markow, si a y b se determinan resolviendo el siguiente sistema de ecuaciones norm ales : n n £ y¡ ^ n a + b ^ x , 1=1 1=

Regresión lineal simple 93

En general, si se incrementa k, entonces y t se incrementa en promedio kb

(verificar!).

E JE M P L O 4.1.

En un estudio de la relación entre la publicidad por radio y las ventas de un producto, durante 1 0 semanas se han recopilado los tiempos de duración en minutos de la publicidad por semana (X), y el número de artículos vendidos (K), resultando:

Semana 1 2 3 4 5 6 7 8 9 1 0 Publicidad X 2 0 30 30 40 50 60 60 60 70 80 Ventas Y 50 73 69 87 108 128 135 132 148 170

a) Trazar el diagrama de dispersión, e indicar la tendencia. b) Calcular la recta de regresión de mínimos cuadrados con el fin de predecir las ventas. c) Estimar la venta si en una semana se hacen 100 minutos de propaganda. d) Calcular el coeficiente de correlación. e) Si en la novena semana se incrementara la publicidad en 5 minutos, ¿en cuanto se estima se incrementen las ventas?.

SO LU CIO N.

a) Al trazar el diagrama de dispersión (fig. 4.3) vemos que hay una relación lineal positiva entre el número de artículos vendidos y el tiempo de publicidad semanal por radio.

180

160

140

1 2 0

80

60 --

40

Venias

Publicidad 0 20 40 60 80 100 Fig. 4.3 Diagrama de dispersión

94 Estadística

b) Para determinar la recta de regresión de mínimos cuadrados a partir de los datos, es decir para calcular a y b se dispone del cuadro 4.1. De donde se obtiene:

« = 10, £ X = 5 0 0 , Z K = 1100, Y. X Y = 6 1 8 0 0

Z X 2 = 28400, Z F 2 = 1 346t>

  • 5 0 0 «n _^ 1 1 0 0 x = ------ = 50, (^) = 110 10 10

Cuadro 4.1. Computo de los coeficientes de regresión

X Y XY X 2 Y 2

U na fo rm a d e calcu lar b es:

, « Z X K - X X X F 1 0 x 6 1 8 0 0 - 5 0 0 x 1 1 0 0 6 8 0 0 0 „

b = ---------------------------= --------------------------------r— = ----------- = 2

« X * 2 - ( I X ) 2 1 0 x 2 8 4 0 0 - ( 5 0 0 ) '

L a o tra fo rm a del cálculo de b es:

s XY = ^ - , - y = ^ - 5 0 x 110 = 6 8 0

■ X^ - 2 =

10

b =^ ' X Y^

Además, a = y - b x = l 1 0 - 2 ( 5 0 ) = 10.

96 Estadística

y = 67 + 0.633 x 250 = 225.25.

NOTAS:
  1. De b = s XY/' s l y r = SXY¡ SX SY > se obtiene la relación entre los

coeficientes de correlación r, y el de regresión; /;;

b = r ^ ~ s x

Entre otras cosas, r y b tienen el mismo signo.

  1. La recta de regresión de X en Y , es decir X variable dependiente de Y está dada por: X = c + d Y £ donde, d = y c = x - cly Sy

Esta recta de regresión de X en Y se puede escribir también como:

X — x = d ( Y — y ) ó Y - y = - ( X ~ x ) d

Observar que también pasa por el punto ( x , y )

  1. Los coeficientes de regresión b y d verifican:

-v x > ~ _ s x y s x y _ r r _ r 2

S X S Y S X S Y S X S Y

El número r es denominado coeficiente de determinación.

  1. Comparando las rectas de regresión:

L, : Y — y = b ( X - x ) d e Y e n X

L 2 : Y - y = — (X - x ) d e X en Y d

resulta que, son coincidentes si ¿ d = l , o s i r “ = l.

Regresión lineal simple 97

Por otra .parte, r = 0 , significa que L t (o L 2 ) es paralela al eje X. L 2 (o

L , ) es paralela al eje Y y perpendiculares entre si en el punto común ( x. v ).

En consecuencia, si r tiende a cero, las rectas L t y L 2 tienden a ser

perpendiculares y si r tiende a 1 o a - 1 , las rectas L, y L 2 tienden a ser

coincidentes.

4.2.2 Partición de la varianza de Y , s 2y

Sea ( a ,,y ,) un valor observado de la variable ( X , Y ) e y, el valor en la

ecuación de regresión Y = a + bX cuando X = x¡

La varianza de Y es el número:

ti

Observar que en la figura 4.4 se tiene:

y i - y = (y¡ -y¿) + (y¿ - y)

Error total =Error no Explicado + Error explicado por la regresión.

Esta terminología surge, debido a que las desviaciones y, —y, con respecto a

la recta de regresión, se comportan de una manera aleatoria o impredecible, debido

Regresión lineal simple 99

Del cuadro 4.2, resulta

¿O.- - y )2 = ¿(y,- - y ,-)2 + ¿ t f , - y ) 1=1 i=i i=i

33.20 = 7.60 + 25.60.

NOTA. Para comparar estas varianzas se convierten a varianza relativas, dividiendo la identidad entre 33.20 (SCT).

33.20 7.60 25. 33.20 “ 33.20 33.

1 = 0.23 + 0.

La lectura es como sigue:

El 100% de la varianza total se particiona en 23% de varianza no explicada

más 77 % de varianza explicada por la regresión de Y en X.

4.2.3 Coeficiente de determinación

:1 cociente:

S C T

^ 2

:iente de determinación r de la regresión dada por la expresión:

2 SCR

El coeficiente de determinación r se define como el cociente:

^ 2 Esto es,, el coeficiente de determinación r de la regresión de Y en X , está

r2 = SC R _ Z(y,--y)s 1 = 1

S C T ^ ,

2 > , - j o 2 1=

De la partición de suma de cuadrados, S C T = SC E + S C R , resulta:

i 1 = ----- S C E 1 - r~ - (*)

SC T

Por lo tanto para interpretar la partición de varianzas relativas bastará con 2 calcular r , luego, r y establecer:

1 = (1 —r 2) + r 2

100 Estadística

para concluir que el 100% de la varianza total es igual (1r 2) x l 0 0 % de

varianza no explicada más r x 100% de la variación explicada por la recta

de regresión.

Por ejemplo, en el ejemplo 4.2, r = 0.95, r 2 =0.9025, entonces, se tiene:

1 = ( 1 —r 2 ) + r 2

1=0.0975 + 0.9025 o aproximando a dos decimales 1=0.10 + 0.

Es decir, el 90% de la variabilidad en los gastos mensuales se explica por la asociación con los ingresos mensuales. Quedan 10% de variabilidad en los gastos que no se explica por la regresión.

Consecuencias.

1) De la identidad (*) se concluye que 0 < r 2 < 1. Entonces, —1 < r < 1.

Si r > 0 , se dice que existe una correlación directa positiva , ambas variables aumentan (o disminuyen) simultáneamente. Si r < 0 , se dice que existe una correlación inverso negativa , mientras los valores de una variable aumenta, los de la otra disminuyen y viceversa.

Si r = 0 , se dice que no hay correlación entre X c Y. Por lo tanto no hay

regresión de Y en X.

2) r 2 — 1, sólo si, SCE = 0 , o sólo si, = y , para los n datos de la muestra. Esto significa que todos los y, están en la recta de regresión. En este caso se dice que hay una correlación perfecta entre X e Y. Si r = 1, se dice que hay una correlación perfecta positiva. Si r = —1, se dice que hay una correlación perfecta negativa.

2 A _

  1. r = 0. sólo si, SCR = 0 , o sólo si, v, = y para los n datos de la muestra. Es decir no cambia cuando cambia x ¡ , o todas las predicciones son iguales a una misma constante. En este caso no hay correlación ni regresión.

  2. El coeficiente de determinación r 2 , es pues una medida de la proximidad del

ajuste de la recta de regresión. Cuanto mayor sea el valor de r , m ejor será el ajuste' y más útil la recta de regresión como instrumento de predicción. ( r 2 = 0 .9 0 indica que de 100 pares de puntos 90 están en la recta de regresión y 1 0 fuera de la recta de regresión)

NOTA. (Una advertencia) El haber supuesto una función lineal entre dos variables y haber encontrado un alto coeficiente de correlación, no necesariamente significa que una variable

102 Estadística

Ingreso Consumo 2 0 , 0 0 0 18. 14,000 15, 35,000 30, 23,000 (^) 16. 1 2 , 0 0 0 9. 5,000 7, 7,000 7, 14,000 15. 30,000 26, 25,000 (^) 23,

SO LU C IO N.

Realizamos la codificación: X ' = X ¡ 1 ,0 0 0 , Y' = Y / l , 00 0 , del cuadro 4. se obtiene:

Cuadro 4.3. Cálculos para la regresión lineal con datos codificados

X' Y' X'Y' X'2 Y 2

I X '= 1 8 5 , X r = 1 6 6 , X X T = 3 7 4 5 , Z X ' 2 =4289, I T 2 = 33 1 4

  • = 1 8 .5 , y 1= 16. b = « ^ X ' Y - I. X " L Y = 10(3745) —185(166) = ??g n Z X ' 2- ( L X ' ) 2 1 0 (4 2 8 9 )-(1 8 5 )

La recta de regresión de Y en X es:

Y — y = b ( X —5c),

donde b = 0.778, y = 1000 x y = 16,600, 5c = 1000 x jc' = 18,

Resultando, Y = 2 ,2 0 7 + 0 .7 7 8 X.

Regresión lineal simple 103

EJEMPLO 4.

Al estudiar la relación entre costos (X) y ventas()0 en dólares de ciertos productos, a partir de una muestra se obtuvo la siguiente información:

s x = 5, Sy = 4, jc = 5 0 , = 100, K = 62 + O ^ ó X

Si los costos se incrementan en $3 y las ventas correspondientes se incrementan en 6 $ a) ¿Cómo cambia la ecuación de regresión?. b) ¿Qué porcentaje de la varianza de las ventas es explicada por la regresión de ventas sobre costos?.

SOLUCION

a) Si X ' = X + 3 , Y ’ = Y + 6 , la ecuación de regresión de Y' en X ' es:

Y ' - y ' = b \ X ' - x ' )

donde b' = b = 0.76, y '= y + 6 = 106, x ' = x + 3 = 53. Esto es

y 106 = 0.76( X ’-53)

b) Se tiene: b = 0.76, de r = ——— y b = —^~ resulta r= 0 .9 5. s x s y s x Si se hace la transformación X ' = X + 3 , Y ' = Y + 6 , el coeficiente de correlación r= 0.95 no cambia. Por lo tanto, el porcentaje de la varianza de Y ( o de Y' ) explicada por la regresión de Y en X (o de Y' en X ') es la misma:

r 2 =(0.95)2 =0.9025.

EJEMPLO 4.6 (Aplicación a serie de tiempo) Cuando una de las variables es el tiempo (en días, meses o años), la regresión se denomina serie de tiempo. Supongamos que la producción (en millones) de un determinado artículo fabricado por una compañía durante los años 1980-1989 es como sigue:

Anos 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 Producción 92.2 92.3 80.0 89.1 83.5 68.9 69.2 67.1 58.3 61.

a) Trazar un gráfico de líneas y describir la tendencia. b) Hallar la recta de regresión (serie de tiempo) de mínimos cuadrados de la producción en función de los años. c) Estimar la producción de artículos para 1990 y establecer si es significativa tal predicción.

Regresión lineal simple 105

Ecuación Transformación lineal

a) Y = A B X (exponencial) log Y = lo g A + (lo g B ) X

b) Y = A X B (p o te n c ia ) log Y = lo g A + B log A"

c) Y = \¡ (A + B X ) (h ip e rb ó lic a ) Y '= A + B X , siendo Y '= 1 ¡Y

EJEM PLO 4.

Ajustar por el método de mínimos cuadrados una curva de la forma

Y = A X B

a los siguientes pares de datos:

X 1.5 2 3 3.5 4 5 Y 2. 6 2.4 1. 2 1. 8 1. 6 1.

SOLUCION.

La transformación a la regresión lineal es:

Y ' = A ' + B ' X '

donde: y" = lo g y \ X ' = lo g X , A ' = log A, B ' = B

De la tabla 4.4 se obtiene: Z X ' = 2.7993, Z r = 1.4799. Z X T ' = 0.5891, I X '2 = 1.4962. Z K '2 -0 .4 5 1 3

Cuadro 4.4. Cálculos para la regresión no lineal X Y X'=log X r=log Y X T X'2 Y' 1.5 2. 6 0.1761 0.4150 0.0731 0.0310 0.0.

  1. 0 2.4 0.3010 0.3802 0.1144 0.0906 0. 3.0 1. 2 0.4771 0.0792 (^) 0.0378 0.2276 0. 3.5 1. 8 0.5440 0.2553 0.1378 C.2959 0. 4.0 1. 6 0.6021 0.2041 0.1229 0.3625 0. 5.0 1.4 0.6990 0.1461 0. 1 0 2 1 0.4886 0. 2.7993 1.4799 0.5891 1.4962 0.

¿ _ rcI X ‘r - 1 X ' I r _ 6(0.5891) - (2.7993)(1.4799)

/í I X ,2- ( Z X ' ) 2 ~ 6(1.4962)-(2 .6 9 9 3 )

a = y ' —b x ' = 0.24665 - (-0.532)(0.46655) = 0.

106 Estadística

Además,

s Xy _ -0.

s x -sY- ~ (1.068)(0.7196)

La ecuación lineal de regresión es:

y = 0.4949 - 0 .5 3 2 * '

La ecuación no lineal de regresión se obtiene utilvando antilogaritmos:

Y = anti log(y') = (3.125) X "° 5 3 2

donde A —anti log (a ) = anti log(0.4949) = 3..

EJEMPLO 4.8.

Para los siguientes datos experimentales

X (^1 2 3 4 5 ) Y 1 0 (^40) 1 2 0 300 800 1500

Se plantean los modelos:

Y = A e BX e Y = a + b X ,

para relacionar Y con X, ¿cuál de los dos modelos se ajusta m ejor a los datos?

SO LU C IO N.

d y Si ajustamos a los datos la ecuación no lineal Y = A e , su transformación lineal es ln y = ln A + B X , esto es

Y ' = a + B X , donde Y ' = ln Y. a = ln A.

De los datos experimentales se obtiene:

I X = 2 1 , X K '= 30.481, I A T '= 124.16, I X 2 = 9 1 , I K ' 2 = 172.

8 = £ M T - I X E T =

n X x M X J í ] 2

a = y ’—Bx = 1..

r = 0 9935

La ecuación lineal de regresión es: Y'= 1.58443 + 0.99876*

La ecuación no lineal de regresión es: Y = anti ln(K') = (4.8765)e(0 99876,x