






Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
El proceso de análisis estadístico de un modelo de regresión lineal simple, incluyendo la hipótesis del modelo, métodologia, estimación puntual de parámetros, intervalos de confianza y evaluación del ajuste. Se utiliza el método de mínimos cuadrados y se calculan estadísticos como media muestral, varianza muestral y covarianza muestral.
Tipo: Apuntes
1 / 12
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!







Los modelos de regresi´on sirven, en general, para tratar de expresar una vari- able respuesta (num´erica) en funci´on de una o m´as variables explicativas (tambi´en num´ericas). En este tema, vamos a abordar el modelo m´as sencillo: el modelo de re- gresi´on simple en el que consideramos una ´unica variable explicativa. Este modelo es especialmente interesante por motivos pedag´ogicos, ya que permite abordar muchos de los aspectos interesantes de la regresi´on con una notaci´on y una metodolog´ıa rel- ativamente sencillas. En concreto, dedicaremos la mayor parte del tiempo al modelo de regresi´on lineal simple.
Ejemplos Podemos estar interesados en expresar el peso de las personas en funci´on de su estatura. Podemos estar interesados en expresar el peso de los ejemplares de cierta especie de aves en funci´on de su envergadura. Podemos estar interesados en expresar el nivel de cierto contaminante en funci´on de la densidad industrial.
Disponemos de los siguientes elementos para el estudio estad´ıstico: En primer lugar, una variable respuesta (o dependiente), Y , que ser´a una variable num´erica (o cuantitativa): es la variable que se quiere analizar. Formalmente, ser´a una variable aleatoria de tipo continuo. En segundo lugar, una variable explicativa (o independiente), X, que ser´a una variable num´erica (o cuantitativa). Recu´erdese que los factores en el modelo de dise˜no de experimentos eran siempre variables cualitativas. En tercer lugar, necesitamos datos. Supondremos que disponemos de n pares de datos: (x 1 , y 1 )..., (xi, yi), ..., (xn, yn) Obs´ervese que aqu´ı es absolutamente necesario que los datos vayan emparejados, es decir, que (xi, yi) representa los valores de X e Y en el i-´esimo individuo o unidad muestral. El modelo de regresi´on lineal simple es de la siguiente forma:
Yi = β 0 + β 1 xi + ui para i = 1, ..., n
Significado de los par´ametros:
β 0 = Valor medio de la variable respuesta cuando X = 0. Muy a menudo, el par´ametro β 0 no tiene una interpretaci´on intuitiva de inter´es.
β 1 = Mide la variaci´on media que experimenta la variable respuesta cuando X aumenta una unidad. La interpretaci´on intuitiva de β 1 siempre es muy interesante.
ui= T´ermino de error = Efecto adicional debido a otras variables que no se incluyen en el modelo por no ser consideradas relevantes.
Para poder obtener y utilizar herramientas estad´ısticas que nos permitan tomar decisiones objetivas y razonadas, necesitamos que el modelo se ajuste a unas deter- minadas hip´otesis. Estas hip´otesis iniciales del modelo son las siguientes:
Normalidad: Las observaciones Yi siguen una distribuci´on Normal, Linealidad: Los valores medios de la variable respuesta dependen linealmente del valor de X: E[Yi] = β 0 + β 1 xi, Homogeneidad o igualdad de varianzas (homocedasticidad): V (Yi) = σ^2 , Las observaciones son independientes.
Todas estas hip´otesis se pueden expresar abreviadamente de la siguiente forma:
Yi ∼ N (β 0 + β 1 xi; σ^2 ) independientes.
Es importante que estas hip´otesis iniciales del modelo se cumplan (aproximada- mente) para que las conclusiones que obtengamos no sean una barbaridad.
Llegados a este punto, se puede abordar la cuesti´on de si tenemos suficientes datos (suficiente informaci´on muestral) para abordar el an´alisis estad´ıstico de este modelo. La regla b´asica para responder a esto es muy f´acil de recordar (y de enten- der): en general, necesitaremos al menos tantos datos como par´ametros queremos estimar en el modelo. En este modelo, tenemos:
N´umero de datos= n N´umero de par´ametros= 3
Por lo tanto, necesitamos, al menos, n = 3 pares de datos.
La metodolog´ıa o plan de trabajo que seguiremos en el an´alisis estad´ıstico de un modelo de regresi´on simple es el siguiente:
(1) Diagnosis de las hip´otesis del modelo. Se llevar´a a cabo mediante un an´alisis de los residuos. Si las hip´otesis iniciales (Normalidad, Linealidad y Homocedasticidad) no se cumplen ni siquiera aproxi- madamente, habr´ıa que replantearse el modelo de alguna forma. En muchos casos, una transformaci´on de los datos (por ejemplo, trabajando con sus logaritmos nepe- rianos) soluciona el problema. Al final del cap´ıtulo, se indicar´an las herramientas estad´ısticas que se pueden utilizar para llevar a cabo la diagnosis de las hip´otesis del modelo.
cuadrados:
y = βˆ 0 + βˆ 1 x = ¯y −
covx,y vx
¯x +
covx,y vx
x ⇒ y − y¯ =
covx,y vx
(x − x¯)
El estimador de σ^2 , S R^2 , recibe habitualmente el nombre de varianza residual y merece alg´un comentario adicional. El nombre de varianza residual obedece a que es una varianza que calculamos a partir de los residuos de cada dato. El residuo de cada dato depende del modelo estad´ıstico que estemos utilizando, pero responde siempre a la misma filosof´ıa:
“Residuo” = “Valor observado” - “Estimaci´on del valor esperado” = yi − yˆi = yi − βˆ 0 − βˆ 1 xi
Los estimadores puntuales son muy interesantes, pero son demasiado r´ıgidos. Cuando decimos que estimamos que el par´ametro β 1 vale, por ejemplo, 1,15, lo que estamos diciendo en realidad es que pensamos que vale, aproximadamente, 1,15. La forma en que los m´etodos estad´ısticos cuantifican este “aproximadamente” de forma au- tom´atica y objetiva es a trav´es de los intervalos de confianza. A continuaci´on, damos los intervalos de confianza que se obtienen, aplicando el m´etodo de la cantidad pivotal, para estimar los diferentes par´ametros involucrados en este modelo:
IC 1 −α(β 0 ) =
(^) βˆ 0 ± tn−2;α/ 2 SR
√ 1 n
x¯^2 nvx
(^) =
( βˆ 0 ± tn−2;α/ 2 (error t´ıpico de βˆ 0 )
)
IC 1 −α(β 1 ) =
( β^ ˆ 1 ± tn−2;α/ 2 SR
√ 1 nvx
( βˆ 1 ± tn−2;α/ 2 (error t´ıpico de βˆ 1 )
)
IC 1 −α(σ^2 ) =
(n^ −^ 2)S
2 R χ^2 n−2;α/ 2
(n − 2)S R^2 χ^2 n−2;1−α/ 2
A continuaci´on, hacemos algunos comentarios sobre el intervalo obtenido para estimar β 1 , que es el par´ametro m´as interesante:
(a) Cuando aumentamos el nivel de confianza 1−α (es decir, cuando aumentamos la probabilidad de que la estimaci´on sea “buena”), tn−2;α/ 2 aumenta, y la amplitud del intervalo tambi´en aumenta (es decir, nuestra estimaci´on se hace “menos pre- cisa”).
(b) Cuando aumentamos el tama˜no de la muestra n, la amplitud del intervalo disminuye (es decir, nuestra estimaci´on se hace “m´as precisa”).
(c) Cuando aumentamos la varianza vx correspondiente a los datos de la variable explicativa, la amplitud del intervalo disminuye (es decir, nuestra estimaci´on se hace “m´as precisa”). Por este motivo, conviene dise˜nar el experimento de modo que los valores de X que obtenemos est´en lo m´as separados posibles, siempre que esto sea posible.
En el modelo de regresi´on lineal simple, la cuesti´on m´as importante a la que hay que responder es la siguiente: ¿Disponemos de suficiente evidencia muestral para afirmar que X tiene una in- fluencia significativa sobre Y? O dicho de otra manera, ¿disponemos de suficiente evidencia muestral para asegurar que X es realmente una variable explicativa? Teniendo en cuenta que la posible influencia de X desaparecer´ıa si su coeficiente β 1 se anulase, esto nos lleva a elegir entre las posibilidades β 1 = 0 y β 1 6 = 0 y, por tanto, al siguiente contraste de hip´otesis:
H 0 : β 1 = 0 (X no influye) H 1 : β 1 6 = 0 (X s´ı influye)
Este contraste de hip´otesis suele recibir el nombre de contraste de la regresi´on. Elegiremos, como siempre, un nivel de significaci´on α para tomar una decisi´on al final del estudio. Esta decisi´on la podemos tomar de dos formas:
(a) Podemos utilizar el intervalo de confianza IC 1 −α(β 1 ) que hemos estudiado en la secci´on anterior. Si el valor cero est´a contenido en IC 1 −α(β 1 ), aceptaremos H 0 , y concluiremos que no hay suficiente evidencia estad´ıstica para afirmar que X influye sobre Y. Si por el contrario, el valor cero no est´a contenido en IC 1 −α(β 1 ), rechazaremos H 0 , y concluiremos que X tiene una influencia significativa sobre Y.
(b) Tambi´en podemos utilizar el An´alisis de la Varianza (ANOVA), que vuelve a tener una gran importancia en el modelo de regresi´on lineal. Se puede utilizar, como veremos a continuaci´on, en el modelo de regresi´on lineal simple, pero alcanza toda su importancia en el modelo de regresi´on lineal m´ultiple. La descomposici´on de la variabilidad o an´alisis de la varianza en el caso del modelo de regresi´on lineal simple es de la siguiente forma:
“Variabilidad total de los datos”= SCT=
∑ i(yi^ −^ ¯y) 2 =
∑ i(yi^ −^ yˆi^ + ˆyi^ −^ y¯)
i(ˆyi^ −^ ¯y)
i(yi^ −^ ˆyi) 2 = SCE + SCR
En la regresi´on lineal, la variabilidad total se descompone siempre en dos partes, tanto en la simple como en la m´ultiple:
∑ i(ˆyi^ −^ y¯) (^2) que es la variabilidad asociada al modelo (o explicada por el
modelo).
∑ i(yi^ −^ yˆi) (^2) que es la variabilidad residual (o no explicada por el modelo).
La decisi´on de aceptar o rechazar H 0 se va a tomar en base al estad´ıstico que se obtiene a partir de este an´alisis de la varianza:
SCR/(n − 2)
A partir de los datos (x 1 , y 1 )..., (xi, yi), ..., (xn, yn), podemos obtener siempre la recta de regresi´on: y = βˆ 0 + βˆ 1 x Esta recta, en algunos casos se ajustar´a muy bien a los pares de datos que tenemos, y en otros casos se ajustar´a peor. Cuando el ajuste sea bueno, tendremos una cierta seguridad de que esa recta representa razonablemente bien la relaci´on entre X e Y. Por supuesto, siempre se puede y se debe echar un vistazo al diagrama de dis- persi´on de Y sobre X, donde a˜nadiremos la recta de regresi´on estimada, y esta inspecci´on visual nos dar´a mucha informaci´on sobre la situaci´on. Pero tambi´en es ´util disponer de alguna medida num´erica que nos eval´ue, de manera sencilla, si el ajuste es bueno o no. Para hacer ´esto, disponemos de dos posibles herramientas:
Coeficiente de correlaci´on lineal.- Este coeficiente procede de la Estad´ıstica Descriptiva y est´a basado en el error cuadr´atico medio que se comete al sustituir la nube de puntos por la recta de regresi´on:
n
∑^ n
i=
( yi − y¯ +
covx,y vx
¯x −
covx,y vx
xi
) 2
n
( (^) n ∑
i=
(yi − y¯)^2 +
( covx,y vx
) (^2) ∑n
i=
(xi − x¯)^2 − 2
covx,y vx
∑n
i=
(xi − x¯)(yi − y¯)
)
= vy −
(covx,y)^2 vx
= vy
[ 1 −
(covx,y)^2 vxvy
]
El cociente que aparece en la ´ultima expresi´on motiva la definici´on del coefi- ciente de correlaci´on lineal entre X e Y :
“Coeficiente de correlaci´on lineal” = r =
covx,y √ vxvy
Por lo tanto, el error cuadr´atico medio cometido con la recta de regresi´on puede escribirse tambi´en de la siguiente manera:
E.C.M. = vy(1 − r^2 )
El coeficiente de correlacion muestral toma siempre un valor entre -1 y 1 (ya que el E.C.M., al ser una suma de cuadrados, no puede ser negativo). Es f´acil dar algunas pautas para interpretar el valor de r:
¶Si r est´a pr´oximo a +1, el E.C.M. es peque˜no, lo cual significa que el ajuste es bueno. Adem´as, al ser la covx,y positiva, la pendiente de la recta de regresi´on es positiva, y se dice que existe una asociaci´on positiva entre X e Y.
¶Si r est´a pr´oximo a -1, el E.C.M. es peque˜no, lo cual significa que el ajuste es bueno. Adem´as, al ser la covx,y negativa, la pendiente de la recta de regresi´on es negativa, y se dice que existe una asociaci´on negativa entre X e Y.
¶Si r toma valores pr´oximos a cero, el E.C.M. es mayor, indicando un mal ajuste.
Coeficiente de determinaci´on.- El concepto de coeficiente de determi- naci´on procede del Analisis de la Varianza y tiene una definici´on y una inter- pretaci´on muy sencillas:
“Coeficiente de determinaci´on” = R^2 =
El coeficiente de determinaci´on toma siempre un valor entre 0 y 1, y su significado es obvio: R^2 mide la proporci´on de variabilidad explicada por el modelo. Las pautas para interpretar el valor de R^2 tambi´en son obvias:
¶Cuando R^2 toma un valor pr´oximo a cero, la proporci´on de variabilidad expli- cada por el modelo es peque˜na, y el ajuste es malo.
¶Cuando R^2 toma un valor pr´oximo a uno, la proporci´on de variabilidad expli- cada por el modelo es grande, y el ajuste es bueno.
Hay que insistir en la idea de que, tanto el coeficiente de correlaci´on lineal como el coeficiente de determinaci´on, siempre hay que considerarlos con cuidado, ya que est´an resumiendo toda una nube de puntos en un solo n´umero.
Es conveniente hacer un par de observaciones sobre estos coeficientes:
¶En la regresi´on lineal simple, podemos utilizar indistintamente el coeficiente de correlaci´on lineal o el coeficiente de determinaci´on, ya que existe una relaci´on muy estrecha entre ambos: R^2 = r^2
¶En la regresi´on lineal m´ultiple, sin embargo, el ´unico coeficiente que tiene sen- tido para evaluar el ajuste del modelo es el coeficiente de determinaci´on.
En esta secci´on, abordamos dos problemas muy relacionados pero no exactamente iguales:
Valores medios de la variable respuesta.- En muchas situaciones, es muy interesante saber estimar (o predecir o pronosticar) el valor medio que tendr´a la variable respuesta Y para todos aquellos casos o individuos en la poblaci´on para los cuales X = x 0. Si nos conformamos con una estimaci´on puntual, la respuesta es muy sencilla, ya que basta con utilizar la recta de regresi´on:
yˆ 0 = βˆ 0 + βˆ 1 x 0 Por el contrario, si deseamos hacer una estimaci´on con un nivel de confianza 1 − α, recurriremos a un intervalo de confianza que, en este caso, es de la forma:
(c) Cuando aumentamos la varianza vx correspondiente a los datos de la variable explicativa, la amplitud del intervalo disminuye (es decir, nuestra estimaci´on se hace “m´as precisa”). Por este motivo, conviene dise˜nar el experimento de modo que los valores de X que obtenemos est´en lo m´as separados posibles, siempre que esto sea posible.
(d) Cuando x 0 se aleja de ¯x, la amplitud del intervalo aumenta (es decir, nuestra estimaci´on se hace “menos precisa”). Por lo tanto, las estimaciones del valor medio de Y son “m´as precisas” para valores cercanos a la media muestral de X.
(e) El intervalo para estimar valores individuales siempre es mayor que el inter- valo para estimar valores medios. La explicaci´on intuitiva es que resulta m´as dif´ıcil acertar con las individualidades y, por eso, el intervalo es “menos preciso”.
Como se indic´o en la Secci´on 3 (Metodolog´ıa), es conveniente hacer una diagnosis previa de las hip´otesis del modelo: Normalidad, Linealidad y Homogeneidad de Varianzas. Este diagn´ostico se puede llevar a cabo nuevamente utilizando unos an´alisis gr´aficos sencillos de los residuos. Para llevar a cabo este an´alisis gr´afico, necesitamos dos cosas:
¶Guardar los residuos de cada dato, que en este modelo son de la forma: “Residuo” = yi − yˆi = yi − βˆ 0 − βˆ 1 xi ¶Guardar los valores pronosticados o estimados para cada dato, que en este modelo son de la forma: “Valor pronosticado” = ˆyi = βˆ 0 + βˆ 1 xi
Con los residuos y los valores pronosticados podemos hacer un an´alisis visual de los siguientes gr´aficos:
(a) Histograma de los residuos. La hip´otesis de Normalidad de los datos ser´a aceptable cuando este histograma muestre un razonable parecido con la curva Normal.
(b) Gr´afico de probabilidades normales de los residuos (probability plot). La hip´otesis de Normalidad de los datos ser´a aceptable cuando los puntos del gr´afico est´en razonablemente cerca de la diagonal del cuadrado.
(c) Gr´afico de dispersi´on de los residuos sobre los valores pronosticados (o sobre los valores de la variable explicativa). La hip´otesis de Homocedasticidad (o igualdad de varianzas) de los datos ser´a aceptable cuando la anchura vertical del gr´afico de dispersi´on se mantenga razon- ablemente constante. La hip´otesis de Linealidad de los datos ser´a aceptable cuando la l´ınea central del gr´afico de dispersi´on sea razonablemente recta.
La gran ventaja de estos an´alisis gr´aficos es su sencillez. Sus grandes inconve- nientes son que con pocos datos (como suele ser frecuente) no nos dicen pr´acticamente nada, y aunque dispongamos de muchos datos, las conclusiones son inevitablemente subjetivas (salvo situaciones muy claras que no son demasiado frecuentes con los datos reales).
Una de las grandes utilidades del modelo de regresi´on lineal es que es f´acilmente ex- portable a varios modelos que no son lineales, pero que se pueden linealizar mediante sencillos cambios de variable. Vemos a continuaci´on dos modelos muy interesantes que pueden ser linealizados, aunque no son los ´unicos.
Modelo de regresi´on logar´ıtimica.- En algunas situaciones, es muy adecuado pensar en un modelo de regresi´on logar´ıtmica,
Y = a + b ln X
El modelo logar´ıtmico sirve, por ejemplo, para describir emp´ıricamente la relaci´on entre el tama˜no, Y , alcanzado por una planta y su concentraci´on, X, de hormona del crecimiento. El modelo de regresi´on logar´ıtmico se puede reducir f´acilmente a un modelo de regresi´on lineal. Los pasos que tenemos que dar son los siguientes:
Y = a+b ln X ⇒ Definimos la nueva variable Z = ln X: Y = a+bZ ⇒ Obtenemos la recta de regresi´on de Y sobre Z, y deshacemos el cambio.
Podemos confirmar de dos formas la validez del modelo de regresi´on logar´ıtmica:
(a) Desde un punto de vista gr´afico, el diagrama de dispersi´on de Y sobre Z = ln X deber´ıa tener un aspecto razonablemente lineal.
(b) Desde un punto de vista num´erico, el coeficiente de correlaci´on lineal entre Y y Z = ln X deber´ıa ser razonablemente pr´oximo a +1.
Modelo de regresi´on exponencial.- En otras situaciones, es muy adecuado pensar en un modelo de regresi´on exponencial,
Y = aebx
El modelo exponencial sirve, por ejemplo, para describir emp´ıricamente la evoluci´on del tama˜no de una poblaci´on que crece (o decrece) un porcentaje fijo cada unidad de tiempo. El modelo de regresi´on exponencial se puede reducir f´acilmente a un modelo de regresi´on lineal. Los pasos que tenemos que dar son los siguientes:
Y = aebX^ ⇒ Tomamos logaritmos neperianos: ln Y = ln a + bX = a′^ + bX ⇒ Definimos la nueva variable Z = ln Y : Z = a′^ + bX ⇒ Obtenemos la recta de regresi´on de Z sobre X, deshacemos el cambio, y tomamos exponenciales.