Prepara tus exámenes
Consigue puntos
Orientación Universidad
Vende en Docsity
Docsity AI

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Docsity AI

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca tu universidad

Encuentra los documentos específicos para los exámenes de tu universidad

Video Cursos

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Quiz

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Docsity AINEW

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Ver preguntas

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

20 Puntos

Por cada documento subido

Responde a las preguntas

5 Puntos

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

Análisis de Regresión simple, Apuntes de Estadística

Universidad Industrial de Santander Estadística

Análisis de regresión simple, intervalos de confianza y prueba de hipótesis para la pendiente de la regresión

Tipo: Apuntes

2016/2017

Subido el 16/07/2017

laura-milena 🇨🇴

5

(1)

1 documento

1 / 49

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

Regresión Lineal Simple Liliana Orellana ,2008

1

ANALISIS DE REGRESIÓN

El análisis de regresión involucra el estudio la relación entre dos variables

CUANTITATIVAS. En general interesa:

b Investigar si existe una asociación entre las dos variables testeando la

hipótesis de independencia estadística.

b Estudiar la fuerza de la asociación, a través de una medida de asociación

denominada coeficiente de correlación.

b Estudiar la forma de la relación. Usando los datos propondremos un modelo

para la relación y a partir de ella será posible predecir el valor de una

variable a partir de la otra.

Para ello proponemos un MODELO que relaciona una variable dependiente

(Y) con una variable independiente (X).

La decisión sobre qué análisis usar en una situación particular, depende de la

naturaleza del OUTCOME y del tipo de función que se propone para relacionar

el outcome y la variable independiente.

Variables en regresión

Covariables o

Variables independientes o

Variables regresoras

⇓

Outcome o

Variable dependiente o

Variable de respuesta

⇓

Se usan como predictores o

son variables de confusión que

interesa controlar

Atributos sobre los cuales queremos

medir cambios o hacer predicciones.

Descubre Apuntes de Estadística Universidad Industrial de Santander

Documentos relacionados

REGRESION LINEAL SIMPLE

Ejercicio de regresión simple

Regresion lineal simple

EJERCICIO DE REGRESIÓN SIMPLE

REGRESION LINEAL SIMPLE Y MULTIPLE

Análisis de regresión lineal simple

Resumen de regresión lineal simple

Regresion lineal, simple y multiple

(3)

Regresión lineal simple

regresion lineal simple y correlación

REGRESION LINEAL cgrf

Guía de Estudio de Estadística Analítica: Regresión Lineal Simple

Vista previa parcial del texto

¡Descarga Análisis de Regresión simple y más Apuntes en PDF de Estadística solo en Docsity!

ANALISIS DE REGRESIÓN

El análisis de regresión involucra el estudio la relación entre dos variables CUANTITATIVAS. En general interesa: b Investigar si existe una asociación entre las dos variables testeando la hipótesis de independencia estadística. b Estudiar la fuerza de la asociación , a través de una medida de asociación denominada coeficiente de correlación. b Estudiar la forma de la relación. Usando los datos propondremos un modelo para la relación y a partir de ella será posible predecir el valor de una variable a partir de la otra.

Para ello proponemos un MODELO que relaciona una variable dependiente (Y) con una variable independiente (X). La decisión sobre qué análisis usar en una situación particular, depende de la naturaleza del OUTCOME y del tipo de función que se propone para relacionar el outcome y la variable independiente.

Variables en regresión

Covariables o Variables independientes o Variables regresoras ⇓

Outcome o Variable dependiente o Variable de respuesta ⇓ Se usan como predictores o son variables de confusión que interesa controlar

Atributos sobre los cuales queremos medir cambios o hacer predicciones.

MODELOS

Llamaremos MODELO MATEMÁTICO a la función matemática que proponemos como forma de relación entre la variable dependiente (Y) y la o las variables independientes.

La función más simple para la relación entre dos variables es la FUNCIÓN LINEAL

Y = a + b X

♦ Esta expresión es una aproximación de la verdadera relación entre X e Y.

♦ Para un dado valor de X el modelo predice un cierto valor para Y.

♦ Mientras mejor sea la predicción, mejor es el modelo para explicar el fenómeno.

Por ejemplo, Y = 2 X + 3

Interpretación de los coeficientes:

b el coeficiente a es la PENDIENTE de la recta, mide el cambio en Y por cada unidad de cambio en X, en el ejemplo la pendiente es 2.

b El coeficiente b es la ORDENADA AL ORIGEN, el punto donde la recta intercepta el eje Y, es decir el valor de Y cuando X = 0.

0

5

10

15

20

25

0 2 4 6 8 10 x

y

♦ otros procedimientos estadísticos más complejos pueden ser mejor comprendidos luego de estudiar regresión lineal.

REGRESIÓN LINEAL SIMPLE

Consideremos el siguiente experimento controlado y aleatorizado para estudiar el efecto de una nueva droga sobre la frecuencia cardiaca de ratas sanas. Cinco ratas fueron asignadas aleatoriamente a una de cinco dosis y se registró la máxima disminución observada en la frecuencia cardiaca en una hora. Los datos obtenidos son: Dosis (mg) Máxima disminución de la FC (DFC)

5 8 12 13 16

La relación respuesta-dosis es aparentemente lineal. Parece razonable proponer DFC = β 0 + β 1 * DOSIS + error Y (^) i = β 0 + β 1 * X (^) i + ei

Podríamos intentar ajustar una recta “a ojo”. Propuestas: y (^) i = 5.5 + 3.5 * x (^) i yi = 0.5 + 7.0 * x (^) i

0

4

8

12

16

20

0 0.5 1 1.5 2 2.5 3 Dosis (mg)

Disminución latidos/min

¿Cuál recta es “mejor”? ¿Cómo decidir? Veamos los gráficos.

Para decidir cuál de las dos rectas ajusta mejor estos datos consideraremos una

medida de cuán lejos está cada dato de la recta propuesta ⇒ RESIDUO.

RESIDUOS RESIDUOS ⇓ ⇓ x yobs yajus (yobs –yajus) (yobs-yajus)^2 x yobs yajus (yobs – yajus) (yobs-y (^) ajus)^2 0.5 5.0 7.3 -2.3 5.1 0.5 5.0 4.0 1.0 1. 1.0 8.0 9.0 -1.0 1.0 1.0 8.0 7.5 0.5 0. 1.5 12.0 10.8 1.3 1.6 1.5 12.0 11.0 1.0 1. 2.0 13.0 12.5 0.5 0.3 2.0 13.0 14.5 -1.5 2. 2.5 16.0 14.3 1.8 3.1 2.5 16.0 18.0 -2.0 4. Total= 0.3 10.9 Total= -1 8. ⇑ ⇑ ( 5. 5 3. 5 )^2 ∑ yi^ −^ − xi

( 0. 5 7 )^2

∑ yi −^ − xi

La mejor recta sería aquella que minimice la suma de las distancias al cuadrado

de los puntos a la recta, es decir deberíamos encontrar βˆ o^ y βˆ 1 tales que

2 1

2 ∑ (^ yi −^ βˆ o −^ βˆ 1 xi ) ≤∑( yi − bo − b xi )

para cualquier elección de b o y b 1 que hagamos.

y = 5.5 + 3.5 x

0

4

8

12

16

20

0 0.5 1 1.5 2 2.5 3 Dosis (mg)

Disminución latidos/min

y = 0.5 + 7 x

0

4

8

12

16

20

0 0.5 1 1.5 2 2.5 3 Dosis (mg)

Disminución latidos/min

♦ βˆ^ o =ORDENADA AL ORIGEN (intercept) = 2.7 ⇒ es el punto donde la

recta corta el eje vertical, es decir, la disminución esperada en el número de pulsaciones cuando la dosis es cero. No interpretable si el 0 no está contenido en el rango de valores de X.

♦ βˆ 1 =PENDIENTE = 5.4 ⇒ nos dice que por cada mg de aumento en la dosis

se espera un cambio de 5.4 pulsaciones/min en la FC.

♦ Si βˆ 1 = 0 entonces βˆ^ o = Y. La media de los datos es el estimador de

mínimos cuadrados cuando no hay variables regresoras.

x yobs yajus (yobs – yajus) (yobs-yajus)^2 0.5 5.0 5.4 -0.4 0. 1.0 8.0 8.1 -0.1 0. 1.5 12.0 10.8 1.2 1. 2.0 13.0 13.5 -0.5 0. 2.5 16.0 16.2 -0.2 0. Total= 0.0 1.

Notación

VALORES ESTIMADOS DE LOS PARÁMETROS βˆ o , βˆ 1

VALOR PREDICHO Y ˆ i^ =( βˆ o + βˆ 1 xi )

RESIDUO o RESIDUAL = outcome observado – valor predicho

= Yi −( βˆ o + βˆ 1 xi )

y = 2.7 + 5.4 x

0

4

8

12

16

20

0 0.5 1 1.5 2 2.5 3 Dosis (mg)

Disminución latidos/min

PENDIENTE ESTANDARIZADA

La pendiente βˆ 1 nos indica si hay relación entre las dos variables, su signo nos

indica si la relación es positiva o negativa, pero no mide la FUERZA de la asociación.

La razón es que su valor numérico depende de las unidades de medida de las dos variables. Un cambio de unidades en una de ellas puede producir un cambio drástico en el valor de la pendiente.

Ejemplo

x y recta ajustada x’ y recta ajustada 2 3 4 5

5.7 + 2.3 x 2 3 4 5

0.57 + 0.23 x

Por esa razón, puede resultar interesante considerar una versión estandarizada de la pendiente

y

x s

s

donde sx y sy son las desviaciones estándares de las X’s y de las Y’s respectivamente.

Esta es la pendiente que se obtendría al hacer la regresión de los scores Z de la variable dependiente respecto de los scores Z de la variable regresora.

INTERESANTE!!!

r s

s y

= x^ =

donde r es el coeficiente de correlación de Pearson. Notar que si sx = sy

tenemos βˆ 1 *= βˆ 1 = r.

Esta relación directa entre el coeficiente de correlación de Pearson y la pendiente de la recta de regresión sólo es válida en el contexto de regresión simple (una variable regresora) no vale para el caso de regresión múltiple (más de una variable regresora).

EL MODELO DE REGRESIÓN LINEAL (ORDINARIO)

Cambio en # pulsaciones. Ratas dosis 0.5 mg.

Cambio en # pulsaciones. Ratas dosis 1.0 mg.

Cambio en # pulsaciones. Ratas dosis 2.5 mg.

OBSERVACIONES (X 1, Y 1 ), ..., (XN, Y N)

Y i = βo + β 1 x i + εi i =1, 2, ..., n con εi independientes y εi ~ N (0 , σ^2 )

Y i = disminución en la FC de la rata i x i = dosis de droga recibida por la rata i εi = término error para la rata i

4 - 3 - 2 - (^1 0 1 2 3 4) - 4 - 3 - 2 - 1 0 1 2 3 4 - 4 - 3 - 2 - 1 0 1 2 3 4 μ0.5 μ1.0 μ2.

Supuestos

NORMALIDAD. Para cada valor de X, Y es una variable aleatoria con

distribución Normal con media μx. [La distribución de la DFC para cada dosis de la droga es Normal con media μx].

HOMOSCEDASTICIDAD. Todas las distribuciones poblacionales tienen la misma varianza. [La varianza de DFC es la misma para todas las dosis].
LINEALIDAD. Las medias μx de las distintas poblaciones están relacionadas linealmente con X. [La media poblacional en la DFC cambia linealmente con la dosis]. μx = E(Y/ X= x ) = βo + β 1 x

⇒ βo = ordenada al origen = MEDIA POBLACIONAL de la variable resultante (DFC) cuando la variable regresora (dosis) toma valor 0. ⇒ β 1 = pendiente = cambio en la MEDIA POBLACIONAL de la variable resultante (DFC) cuando la variable regresora (dosis) aumenta en 1 unidad.

INDEPENDENCIA. Los valores de Y son estadísticamente independientes. [Este supuesto no se cumple, por ejemplo, si para algunos de los individuos tenemos observaciones repetidas].

Comentarios.

Generalmente no sabemos si los supuestos son verdaderos, ni conocemos los valores de los parámetros βo y β1. El proceso de estimar los parámetros de un modelo lineal y valorar si el modelo es adecuado para nuestros datos se denomina Análisis de Regresión.
En este modelo suponemos que la variable X NO TIENE ERROR!!! El

término de error (ε) mide la variabilidad de la variable aleatoria Y para cada nivel FIJO de la variable X.

En nuestro ejemplo dosis-frecuencia cardíaca los valores de la variable explicativa fueron FIJADOS por el investigador. En el caso general, en que ambas variables se miden simultáneamente (edad materna y peso del niño al

Nuestra ecuación Y ˆ = βˆ o + βˆ 1 x es una estimación de la verdadera recta

poblacional.

RECAPITULEMOS

⇒ Hasta aquí:

Planteamos el Modelo de regresión lineal homoscedástico
Presentamos estimadores de mínimos cuadrados para la pendiente y la ordenada al origen.
- ¿Cómo se obtienen los estimadores? → Métodos de Mínimos Cuadrados ordinarios.

⇒ En lo que sigue:

Estimaremos σ^2 , la varianza común a las distintas poblaciones.

4. Obtendremos el error estándar de βˆ 1 y el de βˆ^ o para construir:

Tests de hipótesis para βo y β1.
Intervalos de confianza para βo y β 1.

Construiremos la Tabla de Análisis de Varianza.

¿CÓMO ESTIMAMOS LA VARIANZA σ^2 COMÚN A TODAS LAS POBLACIONES?

Recordemos nuestro modelo

Cambio en # pulsaciones. Ratas dosis 0.5 mg.

Cambio en # pulsaciones. Ratas dosis 1.0 mg.

Cambio en # pulsaciones. Ratas dosis 2.5 mg.

μ0.5 μ1.

μ2.

Valor observado (Yi ) Valor predicho ( Yˆ , que estima ai μi )

Distancia entre y = (Y (^) i − Yˆi) = residuo del dato i i = 1, 2, ..., 5

Cada residuo ( Yi − Yˆi) provee oportunidad de medir la variabilidad en cada

población individual. Entonces, un candidato natural para estimar la varianza poblacional sería

5

1

2

=

i

Yi Yi

Sin embargo, no tenemos 5 residuos independientes porque existen dos vínculos entre ellos. En consecuencia, tenemos sólo 3 GRADOS DE LIBERTAD en la suma de los residuos. Entonces estimamos σ^2 con

5

1

2

i =

Yi Yi

Si el tamaño de muestra fuera n usaríamos

1

2

= n

Y Y

n

i

i i

Notación

4 - 3 - 2 - 1 0 1 2 3 4 - 4 - 3 - 2 - 1 0 1 2 3 4 - 4 - 3 - 2 - 1 0 1 2 3 4

INFERENCIA PARA LA PENDIENTE

Intentaremos construir un intervalo de confianza y un test para β1.

Bajo los supuestos del modelo lineal (normalidad, homogeneidad de varianzas,

linealidad e independencia) el estimador βˆ 1 de la pendiente tiene distribución

normal con media β 1 y varianza Var ( βˆ 1 ) , y por lo tanto

2 1

−

= tn SE

T

β

β β

donde SE( βˆ 1 ), el error estándar del estimador de la pendiente, se define como:

x

e n

i

e n s

s

x x

s SE ( ) (^1 )

2

1

2

2 1

2 −

∑

Recordemos que SE( βˆ 1 ) es un estimador de la desviación estándar de la

distribución de muestreo de βˆ 1.

Notemos que la varianza de βˆ 1 disminuye (la estimación es más precisa)

cuando:

(1) La varianza σ^2 disminuye. (2) La varianza de la variable regresora aumenta ⇒ Mientras más amplio el rango de valores de la covariable, mayor la precisión en la estimación. (3) El tamaño de muestra aumenta.

Ejemplo (continuación)

x i yi y ˆ i =2.7+5.4 x (^) i (^) ( yi − y ˆ i )^2 ( x (^) i − x )^2 0.5 5.0 5.4 0.16 1. 1.0 8.0 8.1 0.01 0. 1.5 12.0 10.8 1.44 0. 2.0 13.0 13.5 0.25 0. 2.5 16.0 16.2 0.04 1. Total= 1.90 2.

1

2

2 1

∑

n

i

e

x x

s

SE β

SE ( βˆ 1 )= 0. 2533 = 0. 503

Nota. Un valor pequeño de SE( βˆ 1 ) nos indica que la estimación de la pendiente

variará poco de muestra en muestra (para este conjunto dado de valores de X).

INTERVALO DE CONFIANZA PARA β 1

Un intervalo de confianza de nivel (1 – α) para el parámetro β 1 (pendiente de la recta de regresión poblacional) está dado por:

βˆ^1 ± t n − 2 ,α / 2 SE ( βˆ 1 ),

donde t (^) n − 2 , α/ 2 es el percentil de la distribución t de Student con n – 2 grados de

libertad que deja a su derecha un área α/2.

Ejemplo (continuación)

Intervalo de confianza de nivel 95% para la pendiente

βˆ 1 ± t n − 2 ,α / 2 SE (βˆ 1 )= 5. 4 ± 3. 182 ⋅ 0. 503 = 5. 4 ± 1. 60 =( 3. 8 , 7. 00 )

percentil de la distribución t con 3 grados de libertad que deja a su derecha 2.5% del área

¿Cómo interpretamos este intervalo?

El intervalo puede no tener sentido si un incremento en X de 1 unidad es relativamente grande o relativamente pequeño en términos prácticos. Si en nuestro ejemplo nos interesara un IC para un cambio en la dosis de 0.2 mg simplemente lo obtenemos multiplicando los extremos del IC anterior por la constante. Obtendríamos (3.8 · 0.2, 7.0 · 0.2) = (0.78, 1.4).

Concluimos que la pendiente es significativamente diferente de 0. Es decir, existe una relación positiva entre dosis y respuesta, que no puede ser atribuida al azar. Nuestros datos no son consistentes con la hipótesis nula de no relación entre FDC y dosis.

ESTIMACIÓN DE LA ORDENADA AL ORIGEN ( β o )

Tal como ocurre para βˆ 1 , bajo el modelo propuesto βˆ o^ tiene distribución

normal con media βo y varianza σ 2 ( βˆ o )que se estima como

∑

n

i

o e x x

x n

SE s

1

2

2 2 2

( )

Construimos intervalos de confianza y test de hipótesis para βo de forma análoga a como lo hicimos para β1.

La mayoría de los paquetes estadísticos devuelve el test para Ho: βo = 0, pero este test en general no tiene interés.
El parámetro βo en general carece de interpretación, salvo que el rango de variación de los datos contenga a X= 0.

FUENTES DE VARIABILIDAD EN NUESTROS DATOS

Habíamos observado cinco valores de disminución de la FC en nuestras ratas 5, 8, 12, 13 y 16 ¿Por qué varían estas cinco respuestas?

(1) Porque las diferentes ratas recibieron diferentes dosis de la droga.

VARIABILIDAD EXPLICADA POR LA VARIABLE REGRESORA

(2) Porque aunque hubieran recibido la misma dosis la respuesta no hubiera sido exactamente igual en las 5 ratas debido a diferentes causas. Por ejemplo,

las ratas no responden exactamente igual a la misma dosis,
diferente manejo del investigador al manipular las ratas que afecta la FC,
condiciones basales de las ratas ligeramente diferentes,
errores en los instrumentos de medición, etc. etc. VARIABILIDAD RESIDUAL (NO EXPLICADA POR LA DOSIS).

Tenemos entonces,

Una medida de la VARIABILIDAD TOTAL de la variable Y (cuando no tenemos en cuenta la variable regresora) es la suma de las desviaciones a la media al cuadrado.

Total Sum of Squares = TSS = (^) ∑

1

( )^2

i

Yi Y

y − y ˆ y ˆ − y

y − y y