Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Regresión lineal, Apuntes de Biología

Asignatura: Bioestadística, Profesor: Diversos Diversos, Carrera: Biologia, Universidad: UV

Tipo: Apuntes

2016/2017

Subido el 30/12/2017

susanalomass
susanalomass 🇪🇸

5

(2)

4 documentos

1 / 37

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
26/04/2017 Tema 6.-Regresión Lineal. 1
Tema 6
6.0.-Ajuste recta mínimos cuadrados.
6.1.-Interpretación paramétrica de la regresión: el modelo lineal.
6.2.-Inferencia estadística sobre la pendiente.
6.3.-El coeficiente de correlación.
6.4.-Regresión múltiple.
Regresión lineal Se realizó un estudio para
describir la relación
entre la altura de los padres y
de los hijos. ¿Si el Dr. Jackson
mide 5 pies y10 pulgadas de
alto, cuánto se espera mida su
hijo?
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25

Vista previa parcial del texto

¡Descarga Regresión lineal y más Apuntes en PDF de Biología solo en Docsity!

Tema 6

6.0.- Ajuste recta mínimos cuadrados.

6.1.- Interpretación paramétrica de la regresión: el modelo lineal.

6.2.- Inferencia estadística sobre la pendiente.

6.3.- El coeficiente de correlación.

6.4.- Regresión múltiple.

Regresión lineal

Se realizó un estudio para describir la relación entre la altura de los padres y de los hijos. ¿Si el Dr. Jackson mide 5 pies y10 pulgadas de alto, cuánto se espera mida su hijo?

EJEMPLO LONGITUD Y PESO DE SERPIENTES.

En un estudio de una población salvaje de la serpiente Vipera berus , un grupo de

investigadores cazaron y midieron 9 hembras adultas. La siguiente tabla muestra la longitud y

el peso de las 9 serpientes:

X

Y (^) ¡Al aumentar la longitud aumenta el peso!

6.0 Ajuste recta mínimos cuadrados.

¿Cómo obtener una recta que se ajuste a la nube de puntos?

Para las x^ = 63 cm,^ y^ = 152 g,

SX = 4,6 37 cm, SY = 35,3 g, SXY = 154.625, r=0.

Recta de regresión ajustada (recta de mínimos cuadrados):

ŷ = b 0 + b 1x con b 1^ =SXY^ / S^2 X=154.625/4.637^2 = 7,

b 0 = y − b 1 ⋅ x =152 – 7,19 ⋅ 63 = – 301

ŷ = – 301+ 7,19 ⋅ x

XY X Y

S r S S

=

0

0 0 1 1 0 1 0 1 1 0 1 ˆ

y

y b b x y b b x b b x b y b

Y = bˆ 0 + b X 1

b 0

b 1

  • b 0 = Ordenada en el origen.
  • Valor de Y para X=0.
  • Constante.
  • (Y-Intercept).

b 1 = Pendiente de la recta. Incremento en Y cuando X incrementa en una unidad. Tasa de crecimiento. (Slope)

y ˆ 0

y ˆ 1

b1 sería, en promedio, el valor de la diferencia en la variable respuesta para dos casos que difieren en una unidad en la variable independiente X.

Condiciones para la validez de los métodos.

1 .Normalidad y varianza constante. La distribución de Y, para un valor de X, debe ser Normal. La varianza poblacional de Y condicionada a X debe ser constante. σ no depende de X.

2. Respuestas Independientes Desviación de esta hipótesis ocurre por ejemplo cuando tenemos varias observaciones del mismo individuo, los valores están correlacionados. 3. Correcta especificación del modelo Lineal. La media de Y es una función lineal de las Xs

  • Se puede analizar estudiando los residuos, hacemos pruebas de normalidad e igualdad de varianzas. En caso de incumplimiento se pueden utilizar otros modelos.
    • Su violación es más crítica que las condiciones anteriores. Deberíamos usar otros modelos.
  • Es la condición más importante, si falta especificación del modelo, las conclusiones pueden ser muy erróneas. Desviaciones sistmáticas de los errores pueden indicarnos falta de ajuste.

Normalidad Homogeneidad de varianzas

Respuestas independientes

Modelo correcto

Poco grave

Grave

Muy grave

b 1

b 0

SE b ( 1 ) ts Bandas de confianza: Intervalo de confianza para la recta para un x 0

2 0 0 1 0 2,(1 /2) (^2) 1

ˆ 1 (^ )

n (^) n i i

x x b b x t α (^) n (^) x x − − σ =

∑ −

Intervalo de predicción: Intervalo de confianza para la predicción de un caso en x 0

2 0 0 1 0 2,(1 /2) (^2) 1

ˆ 1 (^ )

n (^) n i i

x x b b x t α (^) n (^) x x

=

∑ −

p-valor

x 0

Contraste de hipótesis sobre β 1 (Pendiente de la población)

En muchas investigaciones es relevante considerar que cualquier aparente tendencia de los datos es ilusoria y refleja solamente la variabilidad aleatoria.

En dichas situaciones es natural formular la hipótesis nula:

H 0 : β 1 = 0 (Media de Y,para un valor de X, no depende X)

HA: β 1 ≠ 0

Estadístico de contraste: ts =

b 1

1 SE

b

Si Ho cierta entonces ts sigue una distribución t de Student con gl = n - 2

En el ejemplo de las serpientes:

b 1 = 7.19 gr/cm, SE b 1 = 0.953 gr/cm

ts = 7.54, t de Student con gl = 7

p-valor =0.00 013 < 0.

Rechazamos Ho para un nivel α=0.001, encontramos dependencia.

Si HA: β 1 > 0, entonces 0.00005 < p-valor < 0.

Si HA: β 1 < 0, entonces p-valor > 0.5 (ts > 0, no es compatible con HA)

Para medir la bondad del ajuste lineal podemos calcular la correlación entre los valores observados de y , y la predicción ŷ. El coeficiente de determinación R^2 =correlación^2 ( y, ŷ ), valor entre 0 y 1 En caso de regresión lineal simple (como la vista) R^2 =correlación^2 ( y, x )= r^2

Dado el posible cálculo de R^2 como

R^2 se suele referenciar como el porcentaje de la varianza de Y que explica la regresión.

Para el ajuste de las serpientes: r=0.94 R^2 =0.8 9 , 89 % de la varianza del peso de la serpiente se explica por el conocimiento de su longitud.

2 2 (^2 1 ) 2 2 1 1

n n i i i i Regresión i Resi Y

dual n i i i

Y

n

i

y y y y R y y y y

S C C

S C S

S

C

= =

= =

∑ ∑

∑ ∑

Bondad de ajuste: Coeficiente de Determinación R 2.

y

( y^ ˆ iy )

( yi −^ ˆ y ) ( yiy )

Longitud

Peso

σ =^ ˆ SY X

R^2

El R cuadrado corregido tiene en cuenta el tamaño del conjunto de datos, y su valor es ligeramente inferior al de su correspondiente R 2

2 2 1 2 1

( ˆ ) ( º variables 1)

n i i corregido (^) n i i

y y n n X R y y n

=

=

 −^  −^ −

= ^ 

 −^  −

En regresión simple nºvariablesX=

Inspeccionamos la Gráficas de Residuos versus los valores predichos en donde se aprecian distintos patrones:

Patrón correcto.

No homocedasticidad, tendencia a incrementar la varianza conforme la variable independiente aumenta.

No homocedasticidad tendencia a incrementar la varianza para valores centrales de la variable independiente.

No linealidad. Subestimación para valores pequeños y grandes de la variable independiente. Sobreestimación para valores centrales.

Linealidad y Homocedasticidad

Uso de Transformaciones

Si las suposiciones de linealidad, homocedasticidad o normalidad fallan, a veces un remedio consiste en transformar los datos mediante un cambio de escala que puede afectar a X, Y o a ambas variables.

EJEMPLO. CRECIMIENTO DE LAS PLANTAS DE SOJA. Un botánico plantó 60 brotes de soja. A los 12 días de crecimiento recolectó 12 plantas y las pesó después de secarlas. Repitió la experiencia a los 23, 27, 31 y 34 días de crecimiento. X: Días de crecimiento Y: Peso de una planta seca (gr)

Transformamos (X,Y) (X, Log(Y))

Tema 6.- Regresión Lineal. (^19)

2 2

1

con

n i i i xy

xy

x y

x x y y

s

r

s s n

s =

∑ (^) ( xx )( yy )

( xx )( yy )

( xx )( yy )

( xx )( yy )

26/04/

El coeficiente de correlación muestral, lo denotamos con la letra r, mide la fuerza de la relación lineal observada en la muestra. Del Tema 1 tenemos:

Correlación Covarianza

XY X Y

σ ρ = σ ⋅ σ

Coeficiente de correlación poblacional:

Covarianza poblacional.

Desviaciones típicas poblacionales

Cuanto mayor sea la variación de los puntos en torno a la recta, la correlación tenderá a cero.

Cuando dos variables son estadísticamente independientes, presentan una dispersión conjunta como la mostrada en la figura (d), siendo la correlación de cero.

¿Será cierta la implicación contraria?