Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis de Regresión simple, Apuntes de Estadística

Análisis de regresión simple, intervalos de confianza y prueba de hipótesis para la pendiente de la regresión

Tipo: Apuntes

2016/2017

Subido el 16/07/2017

laura-milena
laura-milena 🇨🇴

5

(1)

1 documento

1 / 49

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Regresión Lineal Simple Liliana Orellana ,2008
1
ANALISIS DE REGRESIÓN
El análisis de regresión involucra el estudio la relación entre dos variables
CUANTITATIVAS. En general interesa:
b Investigar si existe una asociación entre las dos variables testeando la
hipótesis de independencia estadística.
b Estudiar la fuerza de la asociación, a través de una medida de asociación
denominada coeficiente de correlación.
b Estudiar la forma de la relación. Usando los datos propondremos un modelo
para la relación y a partir de ella será posible predecir el valor de una
variable a partir de la otra.
Para ello proponemos un MODELO que relaciona una variable dependiente
(Y) con una variable independiente (X).
La decisión sobre qué análisis usar en una situación particular, depende de la
naturaleza del OUTCOME y del tipo de función que se propone para relacionar
el outcome y la variable independiente.
Variables en regresión
Covariables o
Variables independientes o
Variables regresoras
Outcome o
Variable dependiente o
Variable de respuesta
Se usan como predictores o
son variables de confusión que
interesa controlar
Atributos sobre los cuales queremos
medir cambios o hacer predicciones.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31

Vista previa parcial del texto

¡Descarga Análisis de Regresión simple y más Apuntes en PDF de Estadística solo en Docsity!

ANALISIS DE REGRESIÓN

El análisis de regresión involucra el estudio la relación entre dos variables CUANTITATIVAS. En general interesa: b Investigar si existe una asociación entre las dos variables testeando la hipótesis de independencia estadística. b Estudiar la fuerza de la asociación , a través de una medida de asociación denominada coeficiente de correlación. b Estudiar la forma de la relación. Usando los datos propondremos un modelo para la relación y a partir de ella será posible predecir el valor de una variable a partir de la otra.

Para ello proponemos un MODELO que relaciona una variable dependiente (Y) con una variable independiente (X). La decisión sobre qué análisis usar en una situación particular, depende de la naturaleza del OUTCOME y del tipo de función que se propone para relacionar el outcome y la variable independiente.

Variables en regresión

Covariables o Variables independientes o Variables regresoras ⇓

Outcome o Variable dependiente o Variable de respuesta ⇓ Se usan como predictores o son variables de confusión que interesa controlar

Atributos sobre los cuales queremos medir cambios o hacer predicciones.

MODELOS

Llamaremos MODELO MATEMÁTICO a la función matemática que proponemos como forma de relación entre la variable dependiente (Y) y la o las variables independientes.

La función más simple para la relación entre dos variables es la FUNCIÓN LINEAL

Y = a + b X

♦ Esta expresión es una aproximación de la verdadera relación entre X e Y.

♦ Para un dado valor de X el modelo predice un cierto valor para Y.

♦ Mientras mejor sea la predicción, mejor es el modelo para explicar el fenómeno.

Por ejemplo, Y = 2 X + 3

Interpretación de los coeficientes:

b el coeficiente a es la PENDIENTE de la recta, mide el cambio en Y por cada unidad de cambio en X, en el ejemplo la pendiente es 2.

b El coeficiente b es la ORDENADA AL ORIGEN, el punto donde la recta intercepta el eje Y, es decir el valor de Y cuando X = 0.

0

5

10

15

20

25

0 2 4 6 8 10 x

y

♦ otros procedimientos estadísticos más complejos pueden ser mejor comprendidos luego de estudiar regresión lineal.

REGRESIÓN LINEAL SIMPLE

Consideremos el siguiente experimento controlado y aleatorizado para estudiar el efecto de una nueva droga sobre la frecuencia cardiaca de ratas sanas. Cinco ratas fueron asignadas aleatoriamente a una de cinco dosis y se registró la máxima disminución observada en la frecuencia cardiaca en una hora. Los datos obtenidos son: Dosis (mg) Máxima disminución de la FC (DFC)

5 8 12 13 16

La relación respuesta-dosis es aparentemente lineal. Parece razonable proponer DFC = β 0 + β 1 * DOSIS + error Y (^) i = β 0 + β 1 * X (^) i + ei

Podríamos intentar ajustar una recta “a ojo”. Propuestas: y (^) i = 5.5 + 3.5 * x (^) i yi = 0.5 + 7.0 * x (^) i

0

4

8

12

16

20

0 0.5 1 1.5 2 2.5 3 Dosis (mg)

Disminución latidos/min

¿Cuál recta es “mejor”? ¿Cómo decidir? Veamos los gráficos.

Para decidir cuál de las dos rectas ajusta mejor estos datos consideraremos una

medida de cuán lejos está cada dato de la recta propuesta ⇒ RESIDUO.

RESIDUOS RESIDUOS ⇓ ⇓ x yobs yajus (yobs –yajus) (yobs-yajus)^2 x yobs yajus (yobs – yajus) (yobs-y (^) ajus)^2 0.5 5.0 7.3 -2.3 5.1 0.5 5.0 4.0 1.0 1. 1.0 8.0 9.0 -1.0 1.0 1.0 8.0 7.5 0.5 0. 1.5 12.0 10.8 1.3 1.6 1.5 12.0 11.0 1.0 1. 2.0 13.0 12.5 0.5 0.3 2.0 13.0 14.5 -1.5 2. 2.5 16.0 14.3 1.8 3.1 2.5 16.0 18.0 -2.0 4. Total= 0.3 10.9 Total= -1 8. ⇑ ⇑ ( 5. 5 3. 5 )^2 ∑ yi^ −^ − xi

( 0. 5 7 )^2

yi −^ − xi

La mejor recta sería aquella que minimice la suma de las distancias al cuadrado

de los puntos a la recta, es decir deberíamos encontrar βˆ o^ y βˆ 1 tales que

2 1

2 ∑ (^ yi −^ βˆ o −^ βˆ 1 xi ) ≤∑( yibob xi )

para cualquier elección de b o y b 1 que hagamos.

y = 5.5 + 3.5 x

0

4

8

12

16

20

0 0.5 1 1.5 2 2.5 3 Dosis (mg)

Disminución latidos/min

y = 0.5 + 7 x

0

4

8

12

16

20

0 0.5 1 1.5 2 2.5 3 Dosis (mg)

Disminución latidos/min

♦ βˆ^ o =ORDENADA AL ORIGEN (intercept) = 2.7 ⇒ es el punto donde la

recta corta el eje vertical, es decir, la disminución esperada en el número de pulsaciones cuando la dosis es cero. No interpretable si el 0 no está contenido en el rango de valores de X.

♦ βˆ 1 =PENDIENTE = 5.4 ⇒ nos dice que por cada mg de aumento en la dosis

se espera un cambio de 5.4 pulsaciones/min en la FC.

♦ Si βˆ 1 = 0 entonces βˆ^ o = Y. La media de los datos es el estimador de

mínimos cuadrados cuando no hay variables regresoras.

x yobs yajus (yobs – yajus) (yobs-yajus)^2 0.5 5.0 5.4 -0.4 0. 1.0 8.0 8.1 -0.1 0. 1.5 12.0 10.8 1.2 1. 2.0 13.0 13.5 -0.5 0. 2.5 16.0 16.2 -0.2 0. Total= 0.0 1.

Notación

VALORES ESTIMADOS DE LOS PARÁMETROS βˆ o , βˆ 1

VALOR PREDICHO Y ˆ i^ =( βˆ o + βˆ 1 xi )

RESIDUO o RESIDUAL = outcome observado – valor predicho

= Yi −( βˆ o + βˆ 1 xi )

y = 2.7 + 5.4 x

0

4

8

12

16

20

0 0.5 1 1.5 2 2.5 3 Dosis (mg)

Disminución latidos/min

PENDIENTE ESTANDARIZADA

La pendiente βˆ 1 nos indica si hay relación entre las dos variables, su signo nos

indica si la relación es positiva o negativa, pero no mide la FUERZA de la asociación.

La razón es que su valor numérico depende de las unidades de medida de las dos variables. Un cambio de unidades en una de ellas puede producir un cambio drástico en el valor de la pendiente.

Ejemplo

x y recta ajustada x’ y recta ajustada 2 3 4 5

5.7 + 2.3 x 2 3 4 5

0.57 + 0.23 x

Por esa razón, puede resultar interesante considerar una versión estandarizada de la pendiente

y

x s

s

donde sx y sy son las desviaciones estándares de las X’s y de las Y’s respectivamente.

Esta es la pendiente que se obtendría al hacer la regresión de los scores Z de la variable dependiente respecto de los scores Z de la variable regresora.

INTERESANTE!!!

r s

s y

= x^ =

donde r es el coeficiente de correlación de Pearson. Notar que si sx = sy

tenemos βˆ 1 *= βˆ 1 = r.

Esta relación directa entre el coeficiente de correlación de Pearson y la pendiente de la recta de regresión sólo es válida en el contexto de regresión simple (una variable regresora) no vale para el caso de regresión múltiple (más de una variable regresora).

EL MODELO DE REGRESIÓN LINEAL (ORDINARIO)

Cambio en # pulsaciones. Ratas dosis 0.5 mg.

Cambio en # pulsaciones. Ratas dosis 1.0 mg.

Cambio en # pulsaciones. Ratas dosis 2.5 mg.

OBSERVACIONES (X 1, Y 1 ), ..., (XN, Y N)

Y i = βo + β 1 x i + εi i =1, 2, ..., n con εi independientes y εi ~ N (0 , σ^2 )

Y i = disminución en la FC de la rata i x i = dosis de droga recibida por la rata i εi = término error para la rata i

  • 4 - 3 - 2 - (^1 0 1 2 3 4) - 4 - 3 - 2 - 1 0 1 2 3 4 - 4 - 3 - 2 - 1 0 1 2 3 4 μ0.5 μ1.0 μ2.

Supuestos

  1. NORMALIDAD. Para cada valor de X, Y es una variable aleatoria con

distribución Normal con media μx. [La distribución de la DFC para cada dosis de la droga es Normal con media μx].

  1. HOMOSCEDASTICIDAD. Todas las distribuciones poblacionales tienen la misma varianza. [La varianza de DFC es la misma para todas las dosis].
  2. LINEALIDAD. Las medias μx de las distintas poblaciones están relacionadas linealmente con X. [La media poblacional en la DFC cambia linealmente con la dosis]. μx = E(Y/ X= x ) = βo + β 1 x

⇒ βo = ordenada al origen = MEDIA POBLACIONAL de la variable resultante (DFC) cuando la variable regresora (dosis) toma valor 0. ⇒ β 1 = pendiente = cambio en la MEDIA POBLACIONAL de la variable resultante (DFC) cuando la variable regresora (dosis) aumenta en 1 unidad.

  1. INDEPENDENCIA. Los valores de Y son estadísticamente independientes. [Este supuesto no se cumple, por ejemplo, si para algunos de los individuos tenemos observaciones repetidas].

Comentarios.

  • Generalmente no sabemos si los supuestos son verdaderos, ni conocemos los valores de los parámetros βo y β1. El proceso de estimar los parámetros de un modelo lineal y valorar si el modelo es adecuado para nuestros datos se denomina Análisis de Regresión.
  • En este modelo suponemos que la variable X NO TIENE ERROR!!! El

término de error (ε) mide la variabilidad de la variable aleatoria Y para cada nivel FIJO de la variable X.

  • En nuestro ejemplo dosis-frecuencia cardíaca los valores de la variable explicativa fueron FIJADOS por el investigador. En el caso general, en que ambas variables se miden simultáneamente (edad materna y peso del niño al

Nuestra ecuación Y ˆ = βˆ o + βˆ 1 x es una estimación de la verdadera recta

poblacional.

RECAPITULEMOS

⇒ Hasta aquí:

  1. Planteamos el Modelo de regresión lineal homoscedástico
  2. Presentamos estimadores de mínimos cuadrados para la pendiente y la ordenada al origen.
    • ¿Cómo se obtienen los estimadores? → Métodos de Mínimos Cuadrados ordinarios.

⇒ En lo que sigue:

  1. Estimaremos σ^2 , la varianza común a las distintas poblaciones.

4. Obtendremos el error estándar de βˆ 1 y el de βˆ^ o para construir:

  • Tests de hipótesis para βo y β1.
  • Intervalos de confianza para βo y β 1.
  1. Construiremos la Tabla de Análisis de Varianza.

¿CÓMO ESTIMAMOS LA VARIANZA σ^2 COMÚN A TODAS LAS POBLACIONES?

Recordemos nuestro modelo

Cambio en # pulsaciones. Ratas dosis 0.5 mg.

Cambio en # pulsaciones. Ratas dosis 1.0 mg.

Cambio en # pulsaciones. Ratas dosis 2.5 mg.

μ0.5 μ1.

μ2.

Valor observado (Yi ) Valor predicho ( Yˆ , que estima ai μi )

Distancia entre y = (Y (^) i − Yˆi) = residuo del dato i i = 1, 2, ..., 5

Cada residuo ( Yi − Yˆi) provee oportunidad de medir la variabilidad en cada

población individual. Entonces, un candidato natural para estimar la varianza poblacional sería

5

1

2

=

i

Yi Yi

Sin embargo, no tenemos 5 residuos independientes porque existen dos vínculos entre ellos. En consecuencia, tenemos sólo 3 GRADOS DE LIBERTAD en la suma de los residuos. Entonces estimamos σ^2 con

5

1

2

i =

Yi Yi

Si el tamaño de muestra fuera n usaríamos

1

2

= n

Y Y

n

i

i i

Notación

  • 4 - 3 - 2 - 1 0 1 2 3 4 - 4 - 3 - 2 - 1 0 1 2 3 4 - 4 - 3 - 2 - 1 0 1 2 3 4

INFERENCIA PARA LA PENDIENTE

Intentaremos construir un intervalo de confianza y un test para β1.

Bajo los supuestos del modelo lineal (normalidad, homogeneidad de varianzas,

linealidad e independencia) el estimador βˆ 1 de la pendiente tiene distribución

normal con media β 1 y varianza Var ( βˆ 1 ) , y por lo tanto

2 1

= tn SE

T

β

β β

donde SE( βˆ 1 ), el error estándar del estimador de la pendiente, se define como:

x

e n

i

i

e n s

s

x x

s SE ( ) (^1 )

2

1

2

2 1

2 −

Recordemos que SE( βˆ 1 ) es un estimador de la desviación estándar de la

distribución de muestreo de βˆ 1.

Notemos que la varianza de βˆ 1 disminuye (la estimación es más precisa)

cuando:

(1) La varianza σ^2 disminuye. (2) La varianza de la variable regresora aumenta ⇒ Mientras más amplio el rango de valores de la covariable, mayor la precisión en la estimación. (3) El tamaño de muestra aumenta.

Ejemplo (continuación)

x i yi y ˆ i =2.7+5.4 x (^) i (^) ( yiy ˆ i )^2 ( x (^) ix )^2 0.5 5.0 5.4 0.16 1. 1.0 8.0 8.1 0.01 0. 1.5 12.0 10.8 1.44 0. 2.0 13.0 13.5 0.25 0. 2.5 16.0 16.2 0.04 1. Total= 1.90 2.

1

2

2 1

n

i

i

e

x x

s

SE β

SE ( βˆ 1 )= 0. 2533 = 0. 503

Nota. Un valor pequeño de SE( βˆ 1 ) nos indica que la estimación de la pendiente

variará poco de muestra en muestra (para este conjunto dado de valores de X).

INTERVALO DE CONFIANZA PARA β 1

Un intervalo de confianza de nivel (1 – α) para el parámetro β 1 (pendiente de la recta de regresión poblacional) está dado por:

βˆ^1 ± t n − 2 ,α / 2 SE ( βˆ 1 ),

donde t (^) n − 2 , α/ 2 es el percentil de la distribución t de Student con n – 2 grados de

libertad que deja a su derecha un área α/2.

Ejemplo (continuación)

Intervalo de confianza de nivel 95% para la pendiente

βˆ 1 ± t n − 2 ,α / 2 SE (βˆ 1 )= 5. 4 ± 3. 182 ⋅ 0. 503 = 5. 4 ± 1. 60 =( 3. 8 , 7. 00 )

percentil de la distribución t con 3 grados de libertad que deja a su derecha 2.5% del área

¿Cómo interpretamos este intervalo?

El intervalo puede no tener sentido si un incremento en X de 1 unidad es relativamente grande o relativamente pequeño en términos prácticos. Si en nuestro ejemplo nos interesara un IC para un cambio en la dosis de 0.2 mg simplemente lo obtenemos multiplicando los extremos del IC anterior por la constante. Obtendríamos (3.8 · 0.2, 7.0 · 0.2) = (0.78, 1.4).

Concluimos que la pendiente es significativamente diferente de 0. Es decir, existe una relación positiva entre dosis y respuesta, que no puede ser atribuida al azar. Nuestros datos no son consistentes con la hipótesis nula de no relación entre FDC y dosis.

ESTIMACIÓN DE LA ORDENADA AL ORIGEN ( β o )

Tal como ocurre para βˆ 1 , bajo el modelo propuesto βˆ o^ tiene distribución

normal con media βo y varianza σ 2 ( βˆ o )que se estima como

n

i

i

o e x x

x n

SE s

1

2

2 2 2

( )

Construimos intervalos de confianza y test de hipótesis para βo de forma análoga a como lo hicimos para β1.

  • La mayoría de los paquetes estadísticos devuelve el test para Ho: βo = 0, pero este test en general no tiene interés.
  • El parámetro βo en general carece de interpretación, salvo que el rango de variación de los datos contenga a X= 0.

FUENTES DE VARIABILIDAD EN NUESTROS DATOS

Habíamos observado cinco valores de disminución de la FC en nuestras ratas 5, 8, 12, 13 y 16 ¿Por qué varían estas cinco respuestas?

(1) Porque las diferentes ratas recibieron diferentes dosis de la droga.

VARIABILIDAD EXPLICADA POR LA VARIABLE REGRESORA

(2) Porque aunque hubieran recibido la misma dosis la respuesta no hubiera sido exactamente igual en las 5 ratas debido a diferentes causas. Por ejemplo,

  • las ratas no responden exactamente igual a la misma dosis,
  • diferente manejo del investigador al manipular las ratas que afecta la FC,
  • condiciones basales de las ratas ligeramente diferentes,
  • errores en los instrumentos de medición, etc. etc. VARIABILIDAD RESIDUAL (NO EXPLICADA POR LA DOSIS).

Tenemos entonces,

  1. Una medida de la VARIABILIDAD TOTAL de la variable Y (cuando no tenemos en cuenta la variable regresora) es la suma de las desviaciones a la media al cuadrado.

Total Sum of Squares = TSS = (^) ∑

1

( )^2

i

Yi Y

yy ˆ y ˆ − y

yy y