








Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
CONCEPTOS REGRESION SIMPLE Y MULTIPLE
Tipo: Apuntes
1 / 14
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!









Fórmulas básicas en la regresión lineal simple
Como ejemplo de análisis de regresión, describiremos el caso de Pizzería Armand, cadena de restaurantes de comida italiana. Los lugares donde sus establecimientos han tenido más éxito están cercanos a establecimientos de educación superior. Se cree que las ventas trimestrales (representadas por y) en esos restaurantes, se relacionan en forma positiva con la población estudiantil (representada por x ). Es decir, que los restaurantes cercanos a centros escolares con gran población tienden a generar más ventas que los que están cerca de centros con población pequeña. Aplicando el análisis de regresión podremos plantear una ecuación que muestre cómo se relaciona la variable dependiente “ y” con la variable independiente “ x”.
El modelo de regresión y la ecuación de regresión En el ejemplo, cada restaurante está asociado con un valor de x (población estudiantil en miles de estudiantes) y un valor correspondiente de y (ventas trimestrales en miles de $). La ecuación que describe cómo se relaciona y con x y con un término de error se llama modelo de regresión. Éste usado en la regresión lineal simple es el siguiente:
Modelo de regresión lineal simple: y = β 0 + β 1 x + ε
β 0 y β 1 son los parámetros del modelo. ε es una variable aleatoria, llamada error, que explica la variabilidad en y que no se puede explicar con la relación lineal entre x y y. Los errores, ε , se consideran variables aleatorias independientes distribuidas normalmente con media cero y desviación estándar σ. Esto implica que el valor medio o valor esperado de y , denotado por E( Y/x ), es igual a β 0 + β 1 x.
1 < 0 1 > 1 = 0
La ecuación estimada de regresión (lineal simple) Los parámetros, β 0 y β 1 , del modelo se estiman por los estadísticos muestrales b 0 y b 1 , los cuales se calculan usando el método de mínimos cuadrados.
Ecuación Estimada de regresión lineal simple: ŷ = b 0 + b 1 x
En la regresión lineal simple, la gráfica de la ecuación de regresión se llama línea de regresión estimada. ŷ es el valor estimado de y para un valor específico de x.
Datos de población estudiantil y ventas trimestrales para una muestra de 10 restaurantes:
restaurante Poblac. estudiantil (en miles) xi
Ventas trimestrales (miles de $) yi 1 2 58 2 6 105 3 8 88 4 8 118 5 12 117 6 16 137 7 20 157 8 20 169 9 22 149 10 26 202
Diagrama de dispersión
población estud. (miles)
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
220 200 180 160 140 120 100 80 60 40
restaurante (^) xi yi xiyi 2 x i 1 2 58 2 6 105 3 8 88 4 8 118 5 12 117 6 16 137 7 20 157 8 20 169 9 22 149 10 26 202 140 1300 21040 2528
El coeficiente de determinación (r^2 ) El coeficiente de determinación en la regresión lineal simple es una medida de la bondad de ajuste de la recta estimada a los datos reales.
Suma de cuadrados debida al error: SCE = Σ( yi – ŷi )^2
Suma de cuadrados total: SCT = Σ(yi – y )^2
Suma de cuadrados debida a la regresión: SCR = Σ(ŷi - (^) y )^2
Relación entre SCT, SCR y SCE: SCT = SCR + SCE
Coeficiente de determinación : SCT
=
Expresado r^2 en porcentaje, se puede interpretar como el porcentaje de la variabilidad total de “Y” que se puede explicar aplicando la ecuación de regresión.
población estud. (miles)
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
220
200
180
160
140
120
100
80
60 40
y 130
ŷ = b 0 + b 1 x ŷ = 60 + 5x
cálculo de SCE y SCT restauran te
xi (poblac. estud)
Yi (ventas trimest.)
ŷi = 60 + 5 xi
Residuales
= (yi – 130)
(yi – 130)^2 1 2 58 2 6 105 3 8 88 4 8 118 5 12 117 6 16 137 7 20 157 8 20 169 9 22 149 10 26 202 TOTALES 140 1,300 SCE=1,530 SCT=15,7^30
La suma de cuadrados debida a la regresión se calcula por diferencia: SCR = SCT – SCE = 15,730 – 1,530 = 14, El coeficiente de determinación es entonces:
SCT
El 90.27% de la variación en las ventas se puede explicar con la relación lineal entre la población estudiantil y las ventas.
El coeficiente de correlación lineal (r) Es una medida descriptiva que mide la intensidad de asociación lineal entre las dos variables, x y y. Los valores del coeficiente de correlación lineal siempre están entre – 1 y +1. – 1 significa una relación lineal negativa perfecta, +1 significa una relación lineal positiva perfecta. Los valores cercanos a cero indican que las variables x y y no tiene relación lineal. El coeficiente de correlación lineal se relaciona con el coeficiente de determinación así:
b 1 es la pendiente la recta de regresión de y en x. El coeficiente de determinación es más general que el coeficiente de correlación lineal.
PRUEBAS DE SIGNIFICACIÓN PARA LA REGRESIÓN LINEAL
La ecuación de regresión lineal simple indica que el valor medio o valor esperado de y es una función lineal de x : E(y/x) = β 0 + β 1 x. Si β 1 =0 entonces E(y/x) = β 0 y en este caso el valor medio no depende del valor de x, y concluimos que x y y no tienen relación lineal. En forma alternativa, si el valor
específicamente, que hay una componente lineal en el modelo). Existen dos pruebas, por lo menos, que se pueden utilizar para tal fin. En ambas se requiere una estimación de ^2 , la varianza de en el modelo de regresión.
(1) (^) El coeficiente de correlación se define como XY x Y
denominador es el producto de las desviaciones típicas.
Tabla ANOVA Fuente de variación
Suma de cuadrados
Grados de libertad
Cuadrados medios
F p-valor o sig. Regresión SCR 1 CMR F=CMR/CME Error SCE n- 2 CME total SCT n- 1
Realiza la prueba del ejemplo usando ANOVA. Fuente de variación
Suma de cuadrados
Grados de libertad
Cuadrados medios
F p-valor o sig.
Uso de la ecuación de regresión lineal para evaluar y predecir. El modelo de regresión lineal simple es un supuesto acerca de la relación entre x y y. Si los resultados tienen una relación estadísticamente significativa entre x y y, y si el ajuste que proporciona la ecuación de regresión parece bueno, ésta podría utilizarse para estimaciones y predicciones.
Intervalo de confianza para estimar la media de y para un valor dado xp de x.
i
2 2
Intervalo de predicción para estimar un valor individual de Y para un valor dado xp de x:
i
2 2
POBLAC
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
VENTAS
220 200 180 160 140 120 100 80 60 40
Ejercicio: a) Se desea estimar, mediante un intervalo del 95% de confianza, el promedio de venta trimestral para todos los restaurantes cercanos a centros escolares con 10,000 estudiantes:
2
1530 n 2
(^) ; t /2= 2.
b) Se desea predecir, mediante un intervalo del 95% de confianza, las ventas trimestrales para un restaurante que se construirá cercano a un centro estudiantil de 10,000 estudiantes :
Yp: ŷp ± t /2 s p i
2 2
Yp: 110 ± 33.875 miles de dólares
Análisis de residuales: validación de los supuestos del modelo
Como ya se dijo, el residual en la observación i es la diferencia entre el valor observado de la
El análisis de residuales es la principal herramienta para determinar si es adecuado el modelo de regresión supuesto. y = 0 + 1 x + ; es el término del error en el modelo, y se hacen los siguientes supuestos para él:
Estos supuestos forman la base teórica de las pruebas t y F que se usan para determinar si la relación entre x y Y es significativa, y para los estimados de intervalos de confianza y de predicción que ya se describieron. El SPSS provee dos tipos de gráficos para determinar las característica de los residuales: Un
constante, y un gráfico de probabilidad normal. Generalmente se trabaja con los residuales estandarizados o tipificados.
Determinar estos gráficos para los datos del ejemplo de la pizería Armand.
Hay otros análisis para los residuales que permiten determinar valores atípicos y observaciones influyentes en los datos muestrales que por ahora no estudiaremos.
Regresión múltiple
Fórmulas clave
Variables independientes =(x 1 ,x 2 ,…,xp)
Modelo de regresión múltiple y= 0 + 1 x 1 + 2 x 2 +... +pxp +
Ecuación de regresión múltiple estimada
Relación entre SCT, SCR y SCE SCT = SCR + SCE
Coeficiente de determinación múltiple
Coeficiente de determinación múltiple ajustado
Cuadrado medio del error
Estadístico de la prueba F
Estadístico de la prueba t bi
i
Modelo de regresión múltiple
El análisis de regresión múltiple es el estudio de la forma en que una variable dependiente, y , se relaciona con dos o más variables independientes. En el caso general emplearemos p para representar la cantidad de variables independientes.
y = 0 + 1 x 1 + 2 x 2 +... +pxp +
El término del error explica la variabilidad en “ y ” que no puede explicar las p variables independientes. El error es una variable aleatoria distribuida normalmente con media cero y varianza constante,^2 , para todos los valores de las X (^) i.
Si consideramos el valor medio de la variable “ y ” dadas las variables independientes =(x 1 ,x 2 ,…,xp), obtenemos la ecuación de regresión lineal
Utilizando los datos de una muestra de tamaño n y el método de mínimos cuadrados se determina la ecuación de regresión múltiple estimada:
Cada coeficiente b (^) i representa una estimación del cambio en “y” que corresponde a un cambio unitario en x (^) i cuando todas las demás variables independientes se mantienen constantes.
Coeficiente de determinación múltiple (r^2 )
r^2 se interpreta como la proporción de la variabilidad de la variable dependiente que se puede explicar con la ecuación de regresión múltiple.
r^2 =
Pruebas de significancia
Prueba F
1
0 1 2
=0.05 es el nivel de significación de la prueba.
C
Se rechaza H 0 si el p-valor de FC es menor que .
Recorrido
millas recorridas (x1)
cantidad de entregas (x2)
tiempo de recorrido en horas (y) 1 100 4 9. (^2 50 3) 4. 3 100 4 8. (^4 100 2) 6. 5 50 2 4. (^6 80 2) 6. 7 75 3 7. (^8 65 4) 6. 9 90 3 7. (^10 90 2) 6.
Inicialmente analice el tiempo de recorrido en función de las millas recorridas y luego incorpore la cantidad de entregas en el modelo. En cada caso analice también la distribución de residuales.
¿Cuál es la ecuación de regresión estimada en cada caso?
¿Cómo interpreta los coeficientes de regresión en cada modelo?
¿Cómo interpreta el coeficiente de determinación múltiple r^2?
En general, r^2 aumenta siempre a medida que se agregan variables independientes al modelo. Hay muchas personas que prefieren ajustar r^2 de acuerdo con el número de variables independientes, para evitar una sobreestimación al agregar otras variables al modelo estudiado.
Adviértase que cuando r^2 es pequeño, el coeficiente ajustado puede asumir un valor negativo; en este caso el programa de computadora ajusta en cero el valor de ese coeficiente.
Estime, mediante un intervalo del 95% de confianza, la media del tiempo de viaje para todos los camiones que recorren 100 millas y hacen dos entregas.
Estime, mediante un intervalo del 95% de confianza, el tiempo de viaje para un camión que va a recorrer 100 millas y a hacer 2 entregas.
Variables independientes cualitativas
Como hemos visto, las variables involucradas en problema de regresión son todas variables numéricas tanto las independientes como la dependiente. Sin embargo, en muchas situaciones se debe incorporar al modelo variables cualitativas. El objetivo de esta sección es mostrar cómo se manejan este tipo de variables. Se crean unas variables llamadas variables ficticias o indicadoras, las cuales sólo pueden tomar dos valores, 0 y 1. Para ejemplificar el uso de estas variables consideremos el siguiente problema en la empresa Jonson filtration, la cual se dedica al servicio de mantenimiento de sistemas de filtrado de agua. Sus clientes se comunican solicitando servicio de mantenimiento en sus sistemas de filtrado de agua. Para estimar el tiempo y el costo de servicios, la gerencia desea predecir el tiempo necesario de reparación para cada solicitud de mantenimiento. Se cree que ese tiempo de reparación se relaciona con dos factores: la cantidad de meses transcurridos desde el último servicio y el tipo de reparación (mecánica o eléctrica). En la tabla se presentan los datos de una muestra de 10 órdenes de servicio:
órden de servicio
Meses desde el último servicio
Tipo de reparación
Tiempo de reparación (horas) 1 2 eléctrica 2. 2 6 mecánica 3. 3 8 eléctrica 4. 4 3 mecánica 1. 5 2 eléctrica 2. 6 7 eléctrica 4. 7 9 mecánica 4. 8 8 mecánica 4. 9 4 eléctrica 4. 10 6 eléctrica 4.
Desarrolle un modelo que explique el tiempo de reparación (Y) en función de los meses desde el último servicio (X 1 ) y del tipo de reparación (x 2 ).
Y= 0 + 1 x 1 + 2 x 2 +
Haga un análisis de los resultados obtenidos, interprete los parámetros estimados.
Variables cualitativas más complejas Si una variable cualitativa tiene más de dos niveles, se pueden definir varias variables indicadoras para resolver el problema. En general se necesitan k-1 variables indicadoras para incorporar una variable cualitativa con k niveles. Por ejm si una variable tiene 3 niveles o categorías (A, B y C) se pueden crear dos variables ficticias de la siguiente manera
1
2
categoría x 1 x 2 A 0 0 B 1 0 C 0 1
Con esta definición tenemos los siguientes valores de x 1 y x 2.