









































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Análisis de regresión simple, intervalos de confianza y prueba de hipótesis para la pendiente de la regresión
Tipo: Apuntes
1 / 49
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!










































El análisis de regresión involucra el estudio la relación entre dos variables CUANTITATIVAS. En general interesa: b Investigar si existe una asociación entre las dos variables testeando la hipótesis de independencia estadística. b Estudiar la fuerza de la asociación , a través de una medida de asociación denominada coeficiente de correlación. b Estudiar la forma de la relación. Usando los datos propondremos un modelo para la relación y a partir de ella será posible predecir el valor de una variable a partir de la otra.
Para ello proponemos un MODELO que relaciona una variable dependiente (Y) con una variable independiente (X). La decisión sobre qué análisis usar en una situación particular, depende de la naturaleza del OUTCOME y del tipo de función que se propone para relacionar el outcome y la variable independiente.
Variables en regresión
Covariables o Variables independientes o Variables regresoras ⇓
Outcome o Variable dependiente o Variable de respuesta ⇓ Se usan como predictores o son variables de confusión que interesa controlar
Atributos sobre los cuales queremos medir cambios o hacer predicciones.
Llamaremos MODELO MATEMÁTICO a la función matemática que proponemos como forma de relación entre la variable dependiente (Y) y la o las variables independientes.
La función más simple para la relación entre dos variables es la FUNCIÓN LINEAL
Y = a + b X
♦ Esta expresión es una aproximación de la verdadera relación entre X e Y.
♦ Para un dado valor de X el modelo predice un cierto valor para Y.
♦ Mientras mejor sea la predicción, mejor es el modelo para explicar el fenómeno.
Por ejemplo, Y = 2 X + 3
Interpretación de los coeficientes:
b el coeficiente a es la PENDIENTE de la recta, mide el cambio en Y por cada unidad de cambio en X, en el ejemplo la pendiente es 2.
b El coeficiente b es la ORDENADA AL ORIGEN, el punto donde la recta intercepta el eje Y, es decir el valor de Y cuando X = 0.
0
5
10
15
20
25
0 2 4 6 8 10 x
y
♦ otros procedimientos estadísticos más complejos pueden ser mejor comprendidos luego de estudiar regresión lineal.
Consideremos el siguiente experimento controlado y aleatorizado para estudiar el efecto de una nueva droga sobre la frecuencia cardiaca de ratas sanas. Cinco ratas fueron asignadas aleatoriamente a una de cinco dosis y se registró la máxima disminución observada en la frecuencia cardiaca en una hora. Los datos obtenidos son: Dosis (mg) Máxima disminución de la FC (DFC)
5 8 12 13 16
La relación respuesta-dosis es aparentemente lineal. Parece razonable proponer DFC = β 0 + β 1 * DOSIS + error Y (^) i = β 0 + β 1 * X (^) i + ei
Podríamos intentar ajustar una recta “a ojo”. Propuestas: y (^) i = 5.5 + 3.5 * x (^) i yi = 0.5 + 7.0 * x (^) i
0
4
8
12
16
20
0 0.5 1 1.5 2 2.5 3 Dosis (mg)
Disminución latidos/min
¿Cuál recta es “mejor”? ¿Cómo decidir? Veamos los gráficos.
Para decidir cuál de las dos rectas ajusta mejor estos datos consideraremos una
medida de cuán lejos está cada dato de la recta propuesta ⇒ RESIDUO.
RESIDUOS RESIDUOS ⇓ ⇓ x yobs yajus (yobs –yajus) (yobs-yajus)^2 x yobs yajus (yobs – yajus) (yobs-y (^) ajus)^2 0.5 5.0 7.3 -2.3 5.1 0.5 5.0 4.0 1.0 1. 1.0 8.0 9.0 -1.0 1.0 1.0 8.0 7.5 0.5 0. 1.5 12.0 10.8 1.3 1.6 1.5 12.0 11.0 1.0 1. 2.0 13.0 12.5 0.5 0.3 2.0 13.0 14.5 -1.5 2. 2.5 16.0 14.3 1.8 3.1 2.5 16.0 18.0 -2.0 4. Total= 0.3 10.9 Total= -1 8. ⇑ ⇑ ( 5. 5 3. 5 )^2 ∑ yi^ −^ − xi
∑ yi −^ − xi
La mejor recta sería aquella que minimice la suma de las distancias al cuadrado
2 1
2 ∑ (^ yi −^ βˆ o −^ βˆ 1 xi ) ≤∑( yi − bo − b xi )
para cualquier elección de b o y b 1 que hagamos.
y = 5.5 + 3.5 x
0
4
8
12
16
20
0 0.5 1 1.5 2 2.5 3 Dosis (mg)
Disminución latidos/min
y = 0.5 + 7 x
0
4
8
12
16
20
0 0.5 1 1.5 2 2.5 3 Dosis (mg)
Disminución latidos/min
recta corta el eje vertical, es decir, la disminución esperada en el número de pulsaciones cuando la dosis es cero. No interpretable si el 0 no está contenido en el rango de valores de X.
se espera un cambio de 5.4 pulsaciones/min en la FC.
mínimos cuadrados cuando no hay variables regresoras.
x yobs yajus (yobs – yajus) (yobs-yajus)^2 0.5 5.0 5.4 -0.4 0. 1.0 8.0 8.1 -0.1 0. 1.5 12.0 10.8 1.2 1. 2.0 13.0 13.5 -0.5 0. 2.5 16.0 16.2 -0.2 0. Total= 0.0 1.
Notación
RESIDUO o RESIDUAL = outcome observado – valor predicho
y = 2.7 + 5.4 x
0
4
8
12
16
20
0 0.5 1 1.5 2 2.5 3 Dosis (mg)
Disminución latidos/min
indica si la relación es positiva o negativa, pero no mide la FUERZA de la asociación.
La razón es que su valor numérico depende de las unidades de medida de las dos variables. Un cambio de unidades en una de ellas puede producir un cambio drástico en el valor de la pendiente.
Ejemplo
x y recta ajustada x’ y recta ajustada 2 3 4 5
5.7 + 2.3 x 2 3 4 5
0.57 + 0.23 x
Por esa razón, puede resultar interesante considerar una versión estandarizada de la pendiente
y
x s
s
donde sx y sy son las desviaciones estándares de las X’s y de las Y’s respectivamente.
Esta es la pendiente que se obtendría al hacer la regresión de los scores Z de la variable dependiente respecto de los scores Z de la variable regresora.
INTERESANTE!!!
r s
s y
= x^ =
donde r es el coeficiente de correlación de Pearson. Notar que si sx = sy
Esta relación directa entre el coeficiente de correlación de Pearson y la pendiente de la recta de regresión sólo es válida en el contexto de regresión simple (una variable regresora) no vale para el caso de regresión múltiple (más de una variable regresora).
Cambio en # pulsaciones. Ratas dosis 0.5 mg.
Cambio en # pulsaciones. Ratas dosis 1.0 mg.
Cambio en # pulsaciones. Ratas dosis 2.5 mg.
Y i = βo + β 1 x i + εi i =1, 2, ..., n con εi independientes y εi ~ N (0 , σ^2 )
Y i = disminución en la FC de la rata i x i = dosis de droga recibida por la rata i εi = término error para la rata i
Supuestos
distribución Normal con media μx. [La distribución de la DFC para cada dosis de la droga es Normal con media μx].
⇒ βo = ordenada al origen = MEDIA POBLACIONAL de la variable resultante (DFC) cuando la variable regresora (dosis) toma valor 0. ⇒ β 1 = pendiente = cambio en la MEDIA POBLACIONAL de la variable resultante (DFC) cuando la variable regresora (dosis) aumenta en 1 unidad.
Comentarios.
término de error (ε) mide la variabilidad de la variable aleatoria Y para cada nivel FIJO de la variable X.
poblacional.
⇒ Hasta aquí:
⇒ En lo que sigue:
¿CÓMO ESTIMAMOS LA VARIANZA σ^2 COMÚN A TODAS LAS POBLACIONES?
Recordemos nuestro modelo
Cambio en # pulsaciones. Ratas dosis 0.5 mg.
Cambio en # pulsaciones. Ratas dosis 1.0 mg.
Cambio en # pulsaciones. Ratas dosis 2.5 mg.
μ0.5 μ1.
μ2.
Valor observado (Yi ) Valor predicho ( Yˆ , que estima ai μi )
Distancia entre y = (Y (^) i − Yˆi) = residuo del dato i i = 1, 2, ..., 5
Cada residuo ( Yi − Yˆi) provee oportunidad de medir la variabilidad en cada
población individual. Entonces, un candidato natural para estimar la varianza poblacional sería
5
1
2
=
i
Yi Yi
Sin embargo, no tenemos 5 residuos independientes porque existen dos vínculos entre ellos. En consecuencia, tenemos sólo 3 GRADOS DE LIBERTAD en la suma de los residuos. Entonces estimamos σ^2 con
5
1
2
i =
Yi Yi
Si el tamaño de muestra fuera n usaríamos
1
2
= n
n
i
i i
Notación
INFERENCIA PARA LA PENDIENTE
Intentaremos construir un intervalo de confianza y un test para β1.
Bajo los supuestos del modelo lineal (normalidad, homogeneidad de varianzas,
2 1
−
= tn SE
β
β β
x
e n
i
i
e n s
s
x x
s SE ( ) (^1 )
2
1
2
2 1
2 −
cuando:
(1) La varianza σ^2 disminuye. (2) La varianza de la variable regresora aumenta ⇒ Mientras más amplio el rango de valores de la covariable, mayor la precisión en la estimación. (3) El tamaño de muestra aumenta.
Ejemplo (continuación)
x i yi y ˆ i =2.7+5.4 x (^) i (^) ( yi − y ˆ i )^2 ( x (^) i − x )^2 0.5 5.0 5.4 0.16 1. 1.0 8.0 8.1 0.01 0. 1.5 12.0 10.8 1.44 0. 2.0 13.0 13.5 0.25 0. 2.5 16.0 16.2 0.04 1. Total= 1.90 2.
1
2
2 1
n
i
i
e
x x
s
variará poco de muestra en muestra (para este conjunto dado de valores de X).
Un intervalo de confianza de nivel (1 – α) para el parámetro β 1 (pendiente de la recta de regresión poblacional) está dado por:
donde t (^) n − 2 , α/ 2 es el percentil de la distribución t de Student con n – 2 grados de
libertad que deja a su derecha un área α/2.
Ejemplo (continuación)
Intervalo de confianza de nivel 95% para la pendiente
percentil de la distribución t con 3 grados de libertad que deja a su derecha 2.5% del área
¿Cómo interpretamos este intervalo?
El intervalo puede no tener sentido si un incremento en X de 1 unidad es relativamente grande o relativamente pequeño en términos prácticos. Si en nuestro ejemplo nos interesara un IC para un cambio en la dosis de 0.2 mg simplemente lo obtenemos multiplicando los extremos del IC anterior por la constante. Obtendríamos (3.8 · 0.2, 7.0 · 0.2) = (0.78, 1.4).
Concluimos que la pendiente es significativamente diferente de 0. Es decir, existe una relación positiva entre dosis y respuesta, que no puede ser atribuida al azar. Nuestros datos no son consistentes con la hipótesis nula de no relación entre FDC y dosis.
n
i
i
o e x x
x n
SE s
1
2
2 2 2
( )
Construimos intervalos de confianza y test de hipótesis para βo de forma análoga a como lo hicimos para β1.
Habíamos observado cinco valores de disminución de la FC en nuestras ratas 5, 8, 12, 13 y 16 ¿Por qué varían estas cinco respuestas?
(1) Porque las diferentes ratas recibieron diferentes dosis de la droga.
VARIABILIDAD EXPLICADA POR LA VARIABLE REGRESORA
(2) Porque aunque hubieran recibido la misma dosis la respuesta no hubiera sido exactamente igual en las 5 ratas debido a diferentes causas. Por ejemplo,
Tenemos entonces,
1
i
Yi Y
y − y ˆ y ˆ − y
y − y y