Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Tema 7. Modelos de regresión, Apuntes de Óptica

Asignatura: bioestatistica, Profesor: Luís Coladas Uría, Carrera: Óptica y Optometría, Universidad: USC

Tipo: Apuntes

2013/2014

Subido el 21/04/2014

vladislav-babenco
vladislav-babenco 🇪🇸

4.3

(179)

26 documentos

1 / 15

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Bioestadística - Grado en Óptica y Optometría
Año 2013-2014
Tema 7. Modelos de regresión
Luis Coladas Uría
Índice
1. Introducción 2
2. Elementos de un modelo de regresión: el modelo lineal 3
2.1. Hipótesis del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2. Tipos de diseño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3. Estimación de los parámetros por mínimos cuadrados 5
4. Covarianza y coeficiente de correlación 6
5. Estimación de la varianza del error 10
6. Propiedades de los estimadores 10
6.1. Propiedades de ˆ
β1................................. 10
6.2. Propiedades de ˆ
β0................................. 11
6.3. Propiedades de ˆσ2................................. 11
7. Inferencia sobre los parámetros 11
7.1. Inferencia sobre β0................................. 12
7.2. Inferencia sobre β1................................. 12
7.3. Inferencia sobre σ2................................. 13
8. Predicción 14
8.1. Estimación de la media condicionada . . . . . . . . . . . . . . . . . . . . . . . 14
8.2. Predicción de una nueva observación . . . . . . . . . . . . . . . . . . . . . . . 15
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Vista previa parcial del texto

¡Descarga Tema 7. Modelos de regresión y más Apuntes en PDF de Óptica solo en Docsity!

Bioestadística - Grado en Óptica y Optometría

Tema 7. Modelos de regresión

Luis Coladas Uría

 - Año 2013- 
    1. Introducción Índice
    1. Elementos de un modelo de regresión: el modelo lineal
    • 2.1. Hipótesis del modelo
    • 2.2. Tipos de diseño
    1. Estimación de los parámetros por mínimos cuadrados
    1. Covarianza y coeficiente de correlación
    1. Estimación de la varianza del error
    1. Propiedades de los estimadores
    • 6.1. Propiedades de βˆ
    • 6.2. Propiedades de βˆ
    • 6.3. Propiedades de σˆ
    1. Inferencia sobre los parámetros
    • 7.1. Inferencia sobre β
    • 7.2. Inferencia sobre β
    • 7.3. Inferencia sobre σ
    1. Predicción
    • 8.1. Estimación de la media condicionada
    • 8.2. Predicción de una nueva observación

1 Introducci ´on

Los modelos de regresi ´on sirven para representar la dependencia de una variable Y , llamada

variable dependiente o variable respuesta , con respecto a otra variable X, que llamare-

mos variable independiente o variable explicativa. En este tema trataremos el modelo de regresi ´on lineal simple.

Aunque los modelos de regresi ´on fueron utilizados con anterioridad en Astronom´ıa y F´ısica por Laplace y Gauss, su nombre gen ´erico, modelos de regresi ´on , proviene de los trabajos de Galton en Biolog´ıa a finales del siglo XIX. Galton estudi ´o la dependencia de la estatura de

los hijos (Y ) respecto a la de sus padres (X), encontrando lo que denomin ´o una regresi ´on a

la media: los padres altos tienen en general hijos altos, pero en promedio no tan altos como sus padres; los padres bajos tienen hijos bajos, pero en promedio m ´as altos que sus padres.

Desde entonces, los modelos estad´ısticos que explican la dependencia de una variable Y

respecto de una o varias variables X se denominan modelos de regresi ´on.

Los modelos de regresi ´on se dise ˜nan con dos objetivos:

 Conocer de qu ´e modo la variable Y depende de X. En este sentido, el modelo de

regresi ´on permite describir la forma de dependencia.

 Una vez construido el modelo de regresi ´on, podemos utilizarlo para realizar predicciones

m ´as precisas del valor de Y cuando se conoce el valor de X.

Por ejemplo, podemos pensar en un modelo de regresi ´on que represente el crecimiento de bacterias que producen caries, en funci ´on de la concentraci ´on de az ´ucar. En este caso, la

variable Y ser´ıa el crecimiento bacteriano, medido por el n ´umero de bacterias al cabo de un

cierto tiempo; mientras que la concentraci ´on de az ´ucar ser´ıa la variable X.

Resulta muy interesante disponer de un modelo de regresi ´on que represente c ´omo evoluciona el crecimiento bacteriano seg ´un sea la concentraci ´on de az ´ucar. En principio, parece que concentraciones altas de az ´ucar dar ´an lugar a un mayor crecimiento bacteriano. Pero adem ´as, el modelo de regresi ´on servir ´a para predecir el crecimiento bacteriano cuando se conoce la concentraci ´on de az ´ucar, y esta predicci ´on ser ´a mucho m ´as precisa que la que podr´ıamos obtener sin tener en cuenta la concentraci ´on de az ´ucar.

Por ´ultimo, los modelos de regresi ´on se pueden comparar con otros modelos de las ciencias experimentales, mucho de ellos muy conocidos, como las leyes de los gases ideales o las leyes de la gravitaci ´on, que se suelen plantear como modelos deterministas , esto es, conocidas las variables explicativas la variable respuesta se puede predecir con total exactitud. En el ejemplo de los gases, conocida la temperatura, podemos predecir la presi ´on que ejercer ´a el gas.

Sin embargo, en la vida real y en particular en las Ciencias de la Salud, a menudo la predicci ´on con exactitud es imposible, y en su lugar necesitamos modelos que permitan aprovechar el conocimiento de variables explicativas, pero que adem ´as incorporen una componente de er- ror impredecible, que vendr´ıa ocasionado por errores de medida, por la influencia de otras variables no controlables, o por una aleatoriedad intr´ınseca a la variable respuesta. Cuando un modelo matem ´atico incorpora una componente aleatoria decimos que es un modelo es- toc ´astico , a diferencia de los modelos deterministas, que carecen de ella. Los modelos de regresi ´on que vamos a estudiar en este tema son, pues, modelos estoc ´asticos.

2.1 Hip ´otesis del modelo

Las hip ´otesis b ´asicas de este modelo son las siguientes:

 Linealidad. La funci ´on de regresi ´on es una l´ınea recta. En consecuencia, el modelo se suele escribir as´ı:

Y = β 0 + β 1 X + ε

donde β 0 y β 1 son par ´ametros, en principio desconocidos, y ε es lo que hemos definido

como error, que es una variable aleatoria no observable que contiene la variabilidad no achacable a la variable explicativa sino debida a errores de medici ´on u otros factores no controlables.

 Homocedasticidad. La varianza del error es la misma cualquiera que sea el valor de la variable explicativa:

Var(ε/X = x) = σ^2 para todo x.

 Normalidad. El error tiene distribuci ´on normal

ε ∈ N

0 , σ^2

 Independencia. Las variables aleatorias que representan los errores ε 1 ,... , εn son mu-

tuamente independientes. Se entiende que vamos a obtener una muestra de n observa-

ciones bajo el modelo de regresi ´on. Pues bien, esta suposici ´on dice que los n errores

ser´ıan mutuamente independientes.

La hip ´otesis de linealidad consiste en suponer que la media de la variable respuesta toma un

valor inicial β 0 cuando la variable explicativa x vale cero, y adem ´as dicha media crece en una

cantidad fija β 1 cada vez que x se incrementa en una unidad.

La hip ´otesis de linealidad hace que estemos ante un modelo param ´etrico , porque supone que la funci ´on de regresi ´on es una recta pero deja libertad al valor concreto de la pendiente

β 1 y la ordenada en el origen β 0 , que son par ´ametros que debemos estimar en base a una

muestra (X 1 , Y 1 ),... , (Xn, Yn). Esta suposici ´on se puede relajar considerando otro tipo de

dependencia de Y sobre X, bien de tipo param ´etrico (por ejemplo, los modelos polin ´omicos)

o incluso sin suposici ´on param ´etrica alguna, a trav ´es de m ´etodos no param ´etricos.

Las hip ´otesis de homocedasticidad y normalidad constituyen simplificaciones muy ´utiles para poder llevar a cabo las tareas de inferencia bajo un modelo de regresi ´on cualquiera, y tambi ´en en el caso del modelo lineal.

Finalmente, la suposici ´on de independencia de los errores es conveniente para poder desarro- llar inferencia, pero adem ´as es razonable suponerla cierta, por ejemplo, en los casos en que la muestra est ´a constituida por experimentos sobre individuos diferentes.

2.2 Tipos de dise ˜no

Para poder estimar los par ´ametros del modelo (β 0 y β 1 ), como ya hemos adelantado, necesi-

tamos datos experimentales (una muestra). Distinguiremos dos tipos de dise ˜no experimental.

 Dise ˜no fijo. Los valores de la variable explicativa est ´an fijados por el experimentador, de acuerdo a un dise ˜no conveniente de cara a la viabilidad del experimento o a su eficiencia estad´ıstica. Por ejemplo, podemos fijar distintas concentraciones de nutrientes y medir el crecimiento bacteriano que se obtiene en cada una de ellas. En este caso los valores de la variable explicativa no son aleatorios, y s ´olo es aleatorio el error y en consecuencia la variable respuesta. Por tanto, la muestra resultante de un dise ˜no fijo ser´ıa del tipo:

(x 1 , Y 1 ) ,... , (xn, Yn)

 Dise ˜no aleatorio. En este caso tanto la variable explicativa como la variable respuesta son aleatorias. Por ejemplo, nos interesa un modelo de regresi ´on donde la variable explicativa sea el tama ˜no de los peces de cierta especie (medido mediante la longitud) y la variable res- puesta sea la concentraci ´on de cierto ´acido graso. Si el experimento consiste en tomar peces al azar en un r´ıo y medir su longitud y su concentraci ´on del ´acido graso, entonces ambas variables son aleatorias y por tanto se trata de un dise ˜no aleatorio. En definitiva, la muestra resultante de un dise ˜no aleatorio ser´ıa del tipo:

(X 1 , Y 1 ) ,... , (Xn, Yn)

En adelante supondremos dise ˜no fijo. En todo caso, los procedimientos estad´ısticos que va- mos a obtener tambi ´en ser ´an aplicables bajo dise ˜no aleatorio.

Finalmente, nos situamos en el contexto de un modelo de regresi ´on lineal simple, homoced ´as- tico, con errores normales e independientes, del que extraemos una muestra bajo dise ˜no fijo.

Esto nos proporciona datos del tipo (x 1 , Y 1 ),... , (xn, Yn), donde x 1 ,... , xn son valores fijados

por el experimentador, mientras que

Yi = β 0 + β 1 xi + εi para i ∈ { 1 ,... , n}

siendo ε 1 ,... , εn ∈ N (0, σ^2 ), independientes.

En los ejemplos 1 y 2, supondremos que son ciertas las hip ´otesis de linealidad, homocedas- ticidad, normalidad de los errores e independencia. De momento no vamos a cuestionar la veracidad de estas hip ´otesis, porque adem ´as en ambos casos los datos disponibles no son suficientes para verificar su cumplimiento. Lo que s´ı constatamos es que se trata de situa- ciones de dise ˜no fijo, pues tanto las concentraciones de glucogenasa como las profundidades no son fruto del azar, sino que se han fijado de antemano.

3 Estimaci ´on de los par ´ametros por m´ınimos cuadrados

En esta secci ´on obtendremos estimadores para los par ´ametros del modelo: los coeficientes

de la recta de regresi ´on, β 0 y β 1 , y la varianza del error, σ^2. Lo haremos en base a una

muestra (x 1 , Y 1 ),... , (xn, Yn). Supondremos las hip ´otesis de linealidad, homocedasticidad,

normalidad, dise ˜no fijo e independencia de los errores.

primero y tercero, que son los se ˜nalados con el signo + , el producto (xi − ¯x)(Yi − Y¯ ) es

positivo, pues ambos factores tienen el mismo signo. Por ello, aportar ´an sumandos positivos en la expresi ´on de la covarianza (v ´ease ecuaci ´on (1)).

Por el contrario, los puntos (xi, Yi) situados en los cuadrantes segundo y cuarto, regiones

se ˜naladas con el signo – , aportan sumandos negativos a la expresi ´on de la covarianza, pues las diferencias respecto de la media tienen distinto signo.

ï 3 ï 2 ï 1 0 1 2 3

ï^6

ï^4

ï^2

0

2

4

6

x

y

ï +

ï

Figura 1: Diagrama de dispersi ´on con relaci ´on creciente entre x e Y.

De este modo, si hay muchos puntos en las regiones con signo + y pocos en las regiones con signo – , la covarianza ser ´a positiva. En ese caso, la nube de puntos tendr ´a orientaci ´on cre-

ciente, y podremos interpretar que al aumentar la variable x, tambi ´en aumentar ´a (en t ´erminos

generales) la variable Y.

Por el contrario, si abundan m ´as los puntos de las regiones con signo – , la covarianza ser ´a ne- gativa, y nos estar ´a indicando la orientaci ´on decreciente de la nube de puntos. Interpretaremos

que al aumentar el valor de x, disminuye el valor de Y.

Respecto del c ´alculo de la covarianza, observamos que la covarianza no se ve afectada por cambios de localizaci ´on, pero s´ı por cambios de escala en cualquiera de las dos variables. Esto lo podemos resumir as´ı:

Sa+bX,c+dY = bdSXY.

As´ı, por ejemplo, si la variable X es una longitud y se mide en metros, y la variable Y es un

peso y se mide en kilogramos, entonces ya sab´ıamos que la media y la desviaci ´on t´ıpica de

X se miden en metros (m), su varianza en m^2 , y que la media y desviaci ´on t´ıpica de Y se

miden en kg. Pues bien, la covarianza entre X e Y , SXY se mide en m · kg. De este modo,

si pasamos las mediciones de X a cent´ımetros, todos los valores quedar ´an multiplicados por

100, y tambi ´en quedar ´an multiplicadas por 100 su media, su desviaci ´on t´ıpica y la covarianza,

SXY. Este fen ´omeno de cambiar de metros a cent´ımetros, con la consiguiente multiplicaci ´on

por 100, es lo que conocemos como cambio de escala.

Para obtener una medida de la relaci ´on lineal que no se vea afectada por cambios de escala, se define el coeficiente de correlaci ´on , que se obtiene dividiendo la covarianza entre las desviaciones t´ıpicas de las dos variables, esto es:

R =

SXY

SX SY

siendo Sx =

1 n

∑n

i=1(xi^ −^ x¯)

2 y SY =

1 n

∑n

i=1(Yi^ −^ Y¯^ )

El coeficiente de correlaci ´on carece de unidades, y de hecho su valor siempre se encuentra entre -1 y +1, esto es:

R ∈ [− 1 , +1]

Su signo goza de la misma interpretaci ´on que la covarianza. Si vale cero no hay relaci ´on lineal, si es positivo hay relaci ´on lineal creciente, y si es negativo hay relaci ´on lineal decreciente.

Pero ahora, al estar estandarizado entre -1 y +1, se puede interpretar su magnitud. As´ı, si los datos se aproximan mucho a una recta creciente, el coeficiente de correlaci ´on estar ´a pr ´oximo a +1, mientras que si se aproximan a una recta decreciente, el coeficiente de correlaci ´on estar ´a pr ´oximo a -1. Por el contrario, si pierden el alineamiento, el coeficiente de correlaci ´on va haci ´endose m ´as peque ˜no (en valor absoluto), hasta llegar al cero, cuando ya no se aprecia una recta creciente o decreciente.

En la Figura 2 se muestran diagramas de dispersi ´on de cinco situaciones diferentes, con dis- tintos coeficientes de correlaci ´on. En la primera fila se encuentran los datos m ´as alineados, con coeficientes de correlaci ´on de 0’97 y -0’97, con orientaci ´on creciente en el gr ´afico de la izquierda y decreciente en el de la derecha, en coherencia con el signo de la correlaci ´on.

En la segunda fila las correlaciones son de 0’60 y -0’60 a izquierda y derecha, respectivamente. Vemos que, en efecto, los datos se alejan m ´as de la recta.

Por ´ultimo, el quinto gr ´afico, situado en la tercera fila, muestra una ausencia casi total de orientaci ´on creciente o decreciente.

Es frecuente calcular el coeficiente de determinaci ´on , que es el cuadrado del coeficiente de

correlaci ´on, y se suele denotar R^2.

Al efectuar el cuadrado del coeficiente de correlaci ´on, obtendremos que el coeficiente de deter- minaci ´on siempre es positivo o cero, y ser ´a tanto mayor cuanto m ´as alineadas se encuentren las observaciones, bien en sentido creciente o decreciente.

Adem ´as, se puede demostrar (omitiremos los detalles) que

R^2 = 1 −

RSS

T SS

siendo

T SS =

∑^ n

i=

Yi − Y¯

5 Estimaci ´on de la varianza del error

Estimamos la varianza del error, σ^2 , mediante

ˆσ^2 =

n − 2

∑^ n

i=

ˆε^2 i =

n − 2

∑^ n

i=

Yi − βˆ 0 − βˆ 1 xi

Empleamos la suma de cuadrados de los residuos, pero dividimos por (n − 2) en lugar de

hacerlo por n, para que el estimador sea insesgado. Esto se debe a que se han tenido que

estimar dos par ´ametros β 0 y β 1.

En el Ejemplo 1, estimaremos los coeficientes de la recta de regresi ´on, β 0 y β 1 , y la varianza

del error, σ^2 , con los datos de velocidad de reacci ´on y concentraci ´on de glucogenasa.

6 Propiedades de los estimadores

En esta secci ´on estudiaremos las propiedades de los estimadores que acabamos de obtener, en t ´erminos de sesgo y varianza. Omitiremos las demostraciones, y nos centraremos en el an ´alisis de las expresiones para la varianza.

6.1 Propiedades de βˆ 1

Se puede demostrar que el estimador de la pendiente es insesgado, esto es:

E

Para la varianza se tiene:

Var

σ^2

nS x^2

De esta expresi ´on deducimos que la varianza del estimador de la pendiente ser ´a:

(a) Tanto mayor cuanto mayor sea la varianza del error, σ^2. Esto es l ´ogico pues al aumentar

la varianza del error, los datos aparecer ´an m ´as alejados de la recta de regresi ´on, y ser ´a m ´as dif´ıcil estimar los par ´ametros de la recta en base a ellos.

(b) Ser ´a m ´as peque ˜na si los valores x 1 ,... , xn tienen mucha dispersi ´on. Esto es muy intere-

sante. Dice que para anclar bien la pendiente de la recta de regresi ´on conviene que los valores de la variable explicativa est ´en suficientemente espaciados.

(c) Ser ´a m ´as peque ˜na si disponemos de muchos datos, o lo que es lo mismo, si el tama ˜no

muestral n es grande.

Adem ´as, el estimador βˆ 1 tiene distribuci ´on normal.

6.2 Propiedades de βˆ 0

La ordenada en el origen, β 0 , es el valor que toma la recta de regresi ´on cuando x = 0. Salvo en

las pocas ocasiones en que nos interese la media de la variable respuesta cuando la variable explicativa tome el valor cero, la ordenada en el origen tiene poco inter ´es, y en general mucho menos que la pendiente. A ´un as´ı, interpretaremos la expresi ´on de la varianza del estimador

β^ ˆ 0.

Empezamos diciendo que βˆ 0 es un estimador insesgado, esto es:

E

La varianza se puede expresar as´ı:

Var

= σ^2

n

¯x^2

nS x^2

Podemos descomponer esta expresi ´on de la varianza en dos t ´erminos: σ^2 /n y (σ^2 x¯^2 )/(nS^2 x),

que asociamos respectivamente con Y¯ y βˆ 1 x¯, de cuya diferencia se obtiene βˆ 0. As´ı, σ^2 /n

es la parte de la varianza de βˆ 0 que se debe a la estimaci ´on de la media Y¯ , mientras que

(σ^2 ¯x^2 )/(nS x^2 ) es la parte asociada a la estimaci ´on de la pendiente. Aqu´ı el factor x¯^2 indica

que cuanto m ´as lejos est ´e ¯x del origen, m ´as varianza tendr ´a el estimador de la ordenada en

el origen, siendo por tanto m ´as impreciso.

Igual que antes, al haber expresado βˆ 0 =

∑n

i=

n −^ xω¯ i

Yi, y en consecuencia como com-

binaci ´on lineal de las variables Y 1 ,... , Yn, bajo suposici ´on de independencia y normalidad

tendr´ıamos que βˆ 0 tiene distribuci ´on normal.

Recopilando, bajo las suposiciones del modelo lineal simple tenemos

β^ ˆ 0 ∈ N

β 0 , σ^2

n

x¯^2

nS^2 x

y βˆ 1 ∈ N

σ^2

nS^2 x

6.3 Propiedades de ˆσ^2

Para el estimador de la varianza del error, una demostraci ´on algo m ´as compleja que las ante- riores y que vamos a omitir, nos conducir´ıa a la siguiente distribuci ´on de tipo ji-cuadrado:

(n − 2)ˆσ^2

σ^2

∈ χ^2 n− 2

De aqu´ı se deduce que ˆσ^2 es un estimador insesgado de σ^2. De hecho, la aparici ´on de (n − 2)

grados de libertad es el motivo por el que hemos dividido la suma de cuadrados de los residuos

por (n − 2), en lugar de por n, para calcular el estimador de la varianza.

7 Inferencia sobre los par ´ametros

Hasta aqu´ı hemos visto c ´omo se estiman los par ´ametros β 0 , β 1 y σ^2 involucrados en el modelo

lineal simple, y hemos analizado las propiedades de los estimadores: esperanza, varianza y distribuci ´on. En esta secci ´on realizaremos las otras dos tareas de la Inferencia: intervalos de confianza y contraste de hip ´otesis; para cada uno de ellos.

y

β^ ˆ 1 − β 1

ˆσ/ (Sx

n )

∈ Tn− 2 si σ es desconocida.

De nuevo, como σ^2 suele ser desconocida, se estima el error t´ıpico mediante

Error T´̂ ıpico

Sx

n

y se construye el intervalo de confianza para β 1 con nivel de confianza (1 − α), de la siguiente

manera: (

β^ ˆ 1 − tn− 2 ,α/ 2 σ^ ˆ

Sx

n

, βˆ 1 + tn− 2 ,α/ 2

Sx

n

lo cual vuelve a estar centrado en el estimador βˆ 1 , y tiene de radio el producto del cuantil de la

T de Student por el error t´ıpico estimado.

En cuesti ´on de contraste, una hip ´otesis nula del tipo H 0 : β 1 = 3 se rechazar´ıa en favor de la

hip ´otesis alternativa Ha : β 1 6 = 3 si

∣ βˆ 1 −^3

σ/ ˆ (Sx

n )

> tn− 2 ,α/ 2

Tiene especial inter ´es el contraste de la hip ´otesis nula H 0 : β 1 = 0, pues de ser cierta esta

hip ´otesis la funci ´on de regresi ´on ser´ıa una recta horizontal, y nos encontrar´ıamos con que la

variable explicativa no influye en la variable respuesta. As´ı, rechazaremos H 0 : β 1 = 0 si

1

σ/ ˆ (Sx

n )

> tn− 2 ,α/ 2

y en tal caso diremos que βˆ 1 ha tomado un valor significativamente distinto de cero.

7.3 Inferencia sobre σ^2

Para la varianza del error, σ^2 , el pivote ser´ıa

(n − 2)ˆσ^2

σ^2

∈ χ^2 n− 2

En base a este pivote, el intervalo de confianza para σ^2 con nivel de confianza (1 − α), se

puede construir as´ı (

(n − 2)ˆσ^2

χ^2 n− 2 ,α/ 2

(n − 2)ˆσ^2

χ^2 n− 2 , 1 −α/ 2

Se rechazar´ıa, por ejemplo, la hip ´otesis nula H 0 : σ^2 ≥ 4 en favor de la alternativa Ha : σ^2 < 4

si

(n − 2)ˆσ^2

< χ^2 n− 2 , 1 −α

En este caso no se emplea el concepto de error t´ıpico, porque el estimador σˆ^2 no es sim ´etrico

en torno a σ^2 , y de hecho los intervalos de confianza para σ^2 tampoco son sim ´etricos en torno

al estimador σˆ^2.

En el Ejemplo 2, vamos a realizar las siguientes tareas:

(a) Calcularemos la covarianza, el coeficiente de correlaci ´on y el coeficiente de determi- naci ´on.

(b) Obtendremos estimaciones de los par ´ametros del modelo de regresi ´on lineal simple del contenido de ox´ıgeno sobre la profundidad.

(c) Calcularemos los errores t´ıpicos y niveles cr´ıticos para la ordenada en el origen y la pen- diente.

(d) Calcularemos intervalos de confianza para cada uno de los par ´ametros: ordenada en el origen, pendiente, varianza del error y desviaci ´on t´ıpica del error; al nivel de confianza del 95%.

8 Predicci ´on

Un modelo de regresi ´on permite, en primer lugar, estimar las medias de las distribuciones de

Y para cada valor de la variable explicativa x; en segundo lugar, prever futuros valores de la

variable respuesta.

Tanto la estimaci ´on de la media, como la predicci ´on del valor de Y se obtienen sustituyendo

en la recta de regresi ´on el valor de x, y calculando el valor Yˆ ; por tanto, sus valores num ´ericos

son id ´enticos. Sin embargo, la precisi ´on de estas estimaciones es distinta, como veremos a continuaci ´on.

8.1 Estimaci ´on de la media condicionada

Supongamos que se desea estimar el valor de la media de Y cuando la variable explicativa

toma cierto valor x 0. Entonces el modelo de regresi ´on postula que dicha media ser ´a E(Y /X =

x 0 ) = β 0 + β 1 x 0 , y sustituyendo los valores estimados de los par ´ametros de la recta de

regresi ´on, resulta

Y^ ˜ 0 = βˆ 0 + βˆ 1 x 0 = Y¯ + βˆ 1 (x 0 − x¯)

Se puede ver que Y˜ 0 es un estimador insesgado de E(Y /X = x 0 ) y que su varianza vale

Var

Y˜ 0

σ^2

n 0

siendo

n 0 =

n

1 + (x^0 −x¯)

2 S x^2

Interpretamos n 0 como el n ´umero equivalente de observaciones que son ´utiles para la esti-

maci ´on de E(Y /X = x 0 ). As´ı, si x 0 = ¯x, disponemos de n observaciones para estimar Y¯ ,