









Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: bioestatistica, Profesor: Luís Coladas Uría, Carrera: Óptica y Optometría, Universidad: USC
Tipo: Apuntes
1 / 15
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!










Tema 7. Modelos de regresión
- Año 2013- 1 Introducci ´on
mos variable independiente o variable explicativa. En este tema trataremos el modelo de regresi ´on lineal simple.
Aunque los modelos de regresi ´on fueron utilizados con anterioridad en Astronom´ıa y F´ısica por Laplace y Gauss, su nombre gen ´erico, modelos de regresi ´on , proviene de los trabajos de Galton en Biolog´ıa a finales del siglo XIX. Galton estudi ´o la dependencia de la estatura de
la media: los padres altos tienen en general hijos altos, pero en promedio no tan altos como sus padres; los padres bajos tienen hijos bajos, pero en promedio m ´as altos que sus padres.
Los modelos de regresi ´on se dise ˜nan con dos objetivos:
regresi ´on permite describir la forma de dependencia.
Una vez construido el modelo de regresi ´on, podemos utilizarlo para realizar predicciones
Por ejemplo, podemos pensar en un modelo de regresi ´on que represente el crecimiento de bacterias que producen caries, en funci ´on de la concentraci ´on de az ´ucar. En este caso, la
Resulta muy interesante disponer de un modelo de regresi ´on que represente c ´omo evoluciona el crecimiento bacteriano seg ´un sea la concentraci ´on de az ´ucar. En principio, parece que concentraciones altas de az ´ucar dar ´an lugar a un mayor crecimiento bacteriano. Pero adem ´as, el modelo de regresi ´on servir ´a para predecir el crecimiento bacteriano cuando se conoce la concentraci ´on de az ´ucar, y esta predicci ´on ser ´a mucho m ´as precisa que la que podr´ıamos obtener sin tener en cuenta la concentraci ´on de az ´ucar.
Por ´ultimo, los modelos de regresi ´on se pueden comparar con otros modelos de las ciencias experimentales, mucho de ellos muy conocidos, como las leyes de los gases ideales o las leyes de la gravitaci ´on, que se suelen plantear como modelos deterministas , esto es, conocidas las variables explicativas la variable respuesta se puede predecir con total exactitud. En el ejemplo de los gases, conocida la temperatura, podemos predecir la presi ´on que ejercer ´a el gas.
Sin embargo, en la vida real y en particular en las Ciencias de la Salud, a menudo la predicci ´on con exactitud es imposible, y en su lugar necesitamos modelos que permitan aprovechar el conocimiento de variables explicativas, pero que adem ´as incorporen una componente de er- ror impredecible, que vendr´ıa ocasionado por errores de medida, por la influencia de otras variables no controlables, o por una aleatoriedad intr´ınseca a la variable respuesta. Cuando un modelo matem ´atico incorpora una componente aleatoria decimos que es un modelo es- toc ´astico , a diferencia de los modelos deterministas, que carecen de ella. Los modelos de regresi ´on que vamos a estudiar en este tema son, pues, modelos estoc ´asticos.
Las hip ´otesis b ´asicas de este modelo son las siguientes:
Linealidad. La funci ´on de regresi ´on es una l´ınea recta. En consecuencia, el modelo se suele escribir as´ı:
como error, que es una variable aleatoria no observable que contiene la variabilidad no achacable a la variable explicativa sino debida a errores de medici ´on u otros factores no controlables.
Homocedasticidad. La varianza del error es la misma cualquiera que sea el valor de la variable explicativa:
Normalidad. El error tiene distribuci ´on normal
ser´ıan mutuamente independientes.
La hip ´otesis de linealidad consiste en suponer que la media de la variable respuesta toma un
La hip ´otesis de linealidad hace que estemos ante un modelo param ´etrico , porque supone que la funci ´on de regresi ´on es una recta pero deja libertad al valor concreto de la pendiente
o incluso sin suposici ´on param ´etrica alguna, a trav ´es de m ´etodos no param ´etricos.
Las hip ´otesis de homocedasticidad y normalidad constituyen simplificaciones muy ´utiles para poder llevar a cabo las tareas de inferencia bajo un modelo de regresi ´on cualquiera, y tambi ´en en el caso del modelo lineal.
Finalmente, la suposici ´on de independencia de los errores es conveniente para poder desarro- llar inferencia, pero adem ´as es razonable suponerla cierta, por ejemplo, en los casos en que la muestra est ´a constituida por experimentos sobre individuos diferentes.
tamos datos experimentales (una muestra). Distinguiremos dos tipos de dise ˜no experimental.
Dise ˜no fijo. Los valores de la variable explicativa est ´an fijados por el experimentador, de acuerdo a un dise ˜no conveniente de cara a la viabilidad del experimento o a su eficiencia estad´ıstica. Por ejemplo, podemos fijar distintas concentraciones de nutrientes y medir el crecimiento bacteriano que se obtiene en cada una de ellas. En este caso los valores de la variable explicativa no son aleatorios, y s ´olo es aleatorio el error y en consecuencia la variable respuesta. Por tanto, la muestra resultante de un dise ˜no fijo ser´ıa del tipo:
Dise ˜no aleatorio. En este caso tanto la variable explicativa como la variable respuesta son aleatorias. Por ejemplo, nos interesa un modelo de regresi ´on donde la variable explicativa sea el tama ˜no de los peces de cierta especie (medido mediante la longitud) y la variable res- puesta sea la concentraci ´on de cierto ´acido graso. Si el experimento consiste en tomar peces al azar en un r´ıo y medir su longitud y su concentraci ´on del ´acido graso, entonces ambas variables son aleatorias y por tanto se trata de un dise ˜no aleatorio. En definitiva, la muestra resultante de un dise ˜no aleatorio ser´ıa del tipo:
En adelante supondremos dise ˜no fijo. En todo caso, los procedimientos estad´ısticos que va- mos a obtener tambi ´en ser ´an aplicables bajo dise ˜no aleatorio.
Finalmente, nos situamos en el contexto de un modelo de regresi ´on lineal simple, homoced ´as- tico, con errores normales e independientes, del que extraemos una muestra bajo dise ˜no fijo.
por el experimentador, mientras que
En los ejemplos 1 y 2, supondremos que son ciertas las hip ´otesis de linealidad, homocedas- ticidad, normalidad de los errores e independencia. De momento no vamos a cuestionar la veracidad de estas hip ´otesis, porque adem ´as en ambos casos los datos disponibles no son suficientes para verificar su cumplimiento. Lo que s´ı constatamos es que se trata de situa- ciones de dise ˜no fijo, pues tanto las concentraciones de glucogenasa como las profundidades no son fruto del azar, sino que se han fijado de antemano.
3 Estimaci ´on de los par ´ametros por m´ınimos cuadrados
En esta secci ´on obtendremos estimadores para los par ´ametros del modelo: los coeficientes
normalidad, dise ˜no fijo e independencia de los errores.
positivo, pues ambos factores tienen el mismo signo. Por ello, aportar ´an sumandos positivos en la expresi ´on de la covarianza (v ´ease ecuaci ´on (1)).
se ˜naladas con el signo – , aportan sumandos negativos a la expresi ´on de la covarianza, pues las diferencias respecto de la media tienen distinto signo.
ï 3 ï 2 ï 1 0 1 2 3
ï^6
ï^4
ï^2
0
2
4
6
x
y
Figura 1: Diagrama de dispersi ´on con relaci ´on creciente entre x e Y.
De este modo, si hay muchos puntos en las regiones con signo + y pocos en las regiones con signo – , la covarianza ser ´a positiva. En ese caso, la nube de puntos tendr ´a orientaci ´on cre-
Por el contrario, si abundan m ´as los puntos de las regiones con signo – , la covarianza ser ´a ne- gativa, y nos estar ´a indicando la orientaci ´on decreciente de la nube de puntos. Interpretaremos
Respecto del c ´alculo de la covarianza, observamos que la covarianza no se ve afectada por cambios de localizaci ´on, pero s´ı por cambios de escala en cualquiera de las dos variables. Esto lo podemos resumir as´ı:
peso y se mide en kilogramos, entonces ya sab´ıamos que la media y la desviaci ´on t´ıpica de
100, y tambi ´en quedar ´an multiplicadas por 100 su media, su desviaci ´on t´ıpica y la covarianza,
por 100, es lo que conocemos como cambio de escala.
Para obtener una medida de la relaci ´on lineal que no se vea afectada por cambios de escala, se define el coeficiente de correlaci ´on , que se obtiene dividiendo la covarianza entre las desviaciones t´ıpicas de las dos variables, esto es:
1 n
1 n
El coeficiente de correlaci ´on carece de unidades, y de hecho su valor siempre se encuentra entre -1 y +1, esto es:
Su signo goza de la misma interpretaci ´on que la covarianza. Si vale cero no hay relaci ´on lineal, si es positivo hay relaci ´on lineal creciente, y si es negativo hay relaci ´on lineal decreciente.
Pero ahora, al estar estandarizado entre -1 y +1, se puede interpretar su magnitud. As´ı, si los datos se aproximan mucho a una recta creciente, el coeficiente de correlaci ´on estar ´a pr ´oximo a +1, mientras que si se aproximan a una recta decreciente, el coeficiente de correlaci ´on estar ´a pr ´oximo a -1. Por el contrario, si pierden el alineamiento, el coeficiente de correlaci ´on va haci ´endose m ´as peque ˜no (en valor absoluto), hasta llegar al cero, cuando ya no se aprecia una recta creciente o decreciente.
En la Figura 2 se muestran diagramas de dispersi ´on de cinco situaciones diferentes, con dis- tintos coeficientes de correlaci ´on. En la primera fila se encuentran los datos m ´as alineados, con coeficientes de correlaci ´on de 0’97 y -0’97, con orientaci ´on creciente en el gr ´afico de la izquierda y decreciente en el de la derecha, en coherencia con el signo de la correlaci ´on.
En la segunda fila las correlaciones son de 0’60 y -0’60 a izquierda y derecha, respectivamente. Vemos que, en efecto, los datos se alejan m ´as de la recta.
Por ´ultimo, el quinto gr ´afico, situado en la tercera fila, muestra una ausencia casi total de orientaci ´on creciente o decreciente.
Es frecuente calcular el coeficiente de determinaci ´on , que es el cuadrado del coeficiente de
Al efectuar el cuadrado del coeficiente de correlaci ´on, obtendremos que el coeficiente de deter- minaci ´on siempre es positivo o cero, y ser ´a tanto mayor cuanto m ´as alineadas se encuentren las observaciones, bien en sentido creciente o decreciente.
Adem ´as, se puede demostrar (omitiremos los detalles) que
siendo
i=
5 Estimaci ´on de la varianza del error
i=
i=
6 Propiedades de los estimadores
En esta secci ´on estudiaremos las propiedades de los estimadores que acabamos de obtener, en t ´erminos de sesgo y varianza. Omitiremos las demostraciones, y nos centraremos en el an ´alisis de las expresiones para la varianza.
6.1 Propiedades de βˆ 1
Se puede demostrar que el estimador de la pendiente es insesgado, esto es:
E
Para la varianza se tiene:
Var
De esta expresi ´on deducimos que la varianza del estimador de la pendiente ser ´a:
la varianza del error, los datos aparecer ´an m ´as alejados de la recta de regresi ´on, y ser ´a m ´as dif´ıcil estimar los par ´ametros de la recta en base a ellos.
sante. Dice que para anclar bien la pendiente de la recta de regresi ´on conviene que los valores de la variable explicativa est ´en suficientemente espaciados.
(c) Ser ´a m ´as peque ˜na si disponemos de muchos datos, o lo que es lo mismo, si el tama ˜no
6.2 Propiedades de βˆ 0
las pocas ocasiones en que nos interese la media de la variable respuesta cuando la variable explicativa tome el valor cero, la ordenada en el origen tiene poco inter ´es, y en general mucho menos que la pendiente. A ´un as´ı, interpretaremos la expresi ´on de la varianza del estimador
La varianza se puede expresar as´ı:
Var
el origen, siendo por tanto m ´as impreciso.
i=
Recopilando, bajo las suposiciones del modelo lineal simple tenemos
6.3 Propiedades de ˆσ^2
Para el estimador de la varianza del error, una demostraci ´on algo m ´as compleja que las ante- riores y que vamos a omitir, nos conducir´ıa a la siguiente distribuci ´on de tipo ji-cuadrado:
grados de libertad es el motivo por el que hemos dividido la suma de cuadrados de los residuos
7 Inferencia sobre los par ´ametros
lineal simple, y hemos analizado las propiedades de los estimadores: esperanza, varianza y distribuci ´on. En esta secci ´on realizaremos las otras dos tareas de la Inferencia: intervalos de confianza y contraste de hip ´otesis; para cada uno de ellos.
y
T de Student por el error t´ıpico estimado.
hip ´otesis la funci ´on de regresi ´on ser´ıa una recta horizontal, y nos encontrar´ıamos con que la
1
7.3 Inferencia sobre σ^2
si
En el Ejemplo 2, vamos a realizar las siguientes tareas:
(a) Calcularemos la covarianza, el coeficiente de correlaci ´on y el coeficiente de determi- naci ´on.
(b) Obtendremos estimaciones de los par ´ametros del modelo de regresi ´on lineal simple del contenido de ox´ıgeno sobre la profundidad.
(c) Calcularemos los errores t´ıpicos y niveles cr´ıticos para la ordenada en el origen y la pen- diente.
(d) Calcularemos intervalos de confianza para cada uno de los par ´ametros: ordenada en el origen, pendiente, varianza del error y desviaci ´on t´ıpica del error; al nivel de confianza del 95%.
8 Predicci ´on
Un modelo de regresi ´on permite, en primer lugar, estimar las medias de las distribuciones de
variable respuesta.
son id ´enticos. Sin embargo, la precisi ´on de estas estimaciones es distinta, como veremos a continuaci ´on.
regresi ´on, resulta
Var
siendo
2 S x^2