Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Regresión Lineal Simple: Cálculo de la Recta de Mínimos Cuadrados - Prof. Segura Fragoso, Apuntes de Estadística

En este documento se explica el proceso de calcular la recta de mínimos cuadrados en una regresión lineal simple. Se incluyen ejemplos con datos de edad y talla, así como el cálculo de los coeficientes a y b. Además, se interpreta el significado de estos coeficientes y se realiza una predicción sobre la talla de un niño según su edad.

Tipo: Apuntes

2012/2013

Subido el 29/11/2013

riensita
riensita 🇪🇸

4.4

(96)

80 documentos

1 / 18

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Regresión lineal simple.
1
APUNTES
DE
BIOESTADÍSTICA APLICADA
EN
CIENCIAS DE LA SALUD
Capítulo 12
Relación entre dos variables cuantitativas.
Regresión lineal simple.
Antonio Segura Fragoso
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12

Vista previa parcial del texto

¡Descarga Regresión Lineal Simple: Cálculo de la Recta de Mínimos Cuadrados - Prof. Segura Fragoso y más Apuntes en PDF de Estadística solo en Docsity!

APUNTES

DE

BIOESTADÍSTICA APLICADA

EN

CIENCIAS DE LA SALUD

Capítulo 12

Relación entre dos variables cuantitativas.

Regresión lineal simple.

Antonio Segura Fragoso

REGRESIÓN LINEAL SIMPLE

Regresión y correlación

En el capítulo 11 hemos visto que la correlación sirve para averiguar si existe asociación o relación entre dos variables cuantitativas que han sido medidas simultáneamente en los sujetos de estudio. La Regresión lineal está muy relacionada con la correlación y proporciona un modelo matemático que permite predecir los valores que tomará una de las variables (a la que se denomina variable dependiente) en función de los valores de otra llamada variable independiente. Por ejemplo, si nuestro interés es saber si la temperatura corporal está relacionada con la frecuencia cardiaca, utilizaremos un análisis de correlación. Pero es posible que tengamos la sospecha de que la frecuencia cardiaca “depende” de la temperatura corporal. Esto significa que entendemos que hay un mecanismo fisiológico en el organismo según el cual el aumento de la temperatura conlleva un cambio en el número de pulsaciones. Estamos, por tanto, identificando que una de las dos variables depende de la otra. Es decir, que hay una variable dependiente (pulsaciones) a la que llamaremos “y” y otra variable independiente (temperatura) a la que llamaremos “x”. En resumen: Si el interés es la simple relación o asociación entre dos variables cuantitativas (sin plantearnos el concepto de dependencia entre ellas), correlación. Si el interés es tratar de elaborar un modelo matemático predictivo que permita predecir los valores de una variable dependiente en función de otra variable independiente… regresión.

Para que un análisis de regresión tenga sentido práctico se requieren dos elementos: a) Que haya una dependencia “biológica” entre las variables. Tendría sentido intentar explicar la variación del peso en función de la talla, pero probablemente no lo tendría intentar explicar los niveles de glucemia en función de la capacidad vital. b) La variable dependiente y la independiente tienen que estar correlacionadas.

Distintos modelos de regresión

El análisis de regresión persigue encontrar una ecuación matemática que describa satisfactoriamente esa relación de dependencia. Para ello hay dos grandes modelos:

  • Regresión lineal: cuando las variables dependiente e independiente se relacionan según una línea recta.
  • Regresión curvilínea: cuando las variables se relacionan según una línea curva (parábola, hipérbola, exponencial, etc...). En la Figura siguiente se muestran los dos modelos.

Como paso previo a plantearse el análisis de regresión es preciso responder estas dos preguntas:

1.- ¿ Tiene sentido biológico o clínico este problema ?. En este caso es claro que sí porque la relación biológica entre la edad (en los niños) y la talla es evidente. 2.- ¿ Están correlacionadas ambas variables? : los cálculos previos muestran que ambas variables están correlacionadas con r = 0,877 (p<0,001), es decir, un coeficiente de correlación alto y una buena significación estadística. Si la respuesta a alguna de las dos preguntas fuera negativa, no tendría sentido realizar la regresión.

Representemos gráficamente los datos mediante el diagrama de dispersión de la Figura siguiente

r = 0,

Se aprecia que hay una tendencia clara a que a medida que aumenta la edad de los niños, aumenta también su talla. El coeficiente de correlación es muy alto 0,877 y la recta que está en rojo, podría representar razonablemente al conjunto de datos del gráfico.

La cuestión es determinar qué recta es la mejor para representar esta relación y cuál es su ecuación matemática. Recordemos algunos conceptos.

Ecuación de la recta

La ecuación de una recta tiene la forma:

y = a + bx

en la que

y es la variable dependiente (talla),

x es la variable independiente (edad),

a es la ordenada en el origen, es decir, el valor de y cuando x vale cero,

b es la pendiente de la recta (coeficiente de regresión), es decir, el ángulo que forma con el eje

horizontal. Significa la cantidad en la que variará y por cada unidad de cambio en x (por

ejemplo, la talla aumentará 3 cm. por cada mes de aumento en la edad).

a y b son dos coeficientes cuyos valores hay que calcular.

Una vez conocidas a y b , podemos dar un valor a la variable independiente (edad de un niño

concreto en meses) y el resultado será un valor para la variable dependiente (la talla esperada de ese niño). De esta forma podemos predecir la talla en función de la edad, y esto se podría aplicar a cualquier niño.

Por ejemplo, supongamos que a vale 53 y b vale 2,5.

y = a + bx = 53 + 2 , 5 x = 53 + 2 , 5 × edad

Si queremos saber qué talla correspondería a un niño de 7 meses, la predicción sería

talla = 53 + 2 , 5 × edad = 53 + 2 , 5 × 7 = 53 + 17 , 5 = 70 , 5 cm

Pero esto era un ejemplo. Ahora, ¿cómo calcular el a y el b de la recta que mejor represente esta

relación?

Recta de mínimos cuadrados

Es evidente que a través de la nube de puntos que representa los datos de la edad y talla de los niños estudiados en la muestra, pueden trazarse infinitas rectas. Pero hay una de ellas que es la que mejor los representa (la que mejor se ajusta a los datos) y es la que hay que calcular. Para ello deberá cumplirse que las distancias de los puntos a la recta sean mínimas, menores que en cualquier otra recta. Estas distancias pueden medirse de varias formas, pero se utiliza el principio de los mínimos cuadrados, utilizando la distancia vertical (al cuadrado) de cada punto con el que le correspondería en la recta. Esto se ilustra en la Figura siguiente:

∑ ∑

n

x

x

n

x y

xy

x m

x m y m

b

i i

i i i i

i x

i x i y 2 2

y

a = my − bm x

donde,

x i e yi son los diferentes valores de las variables x e y.

m x y m y son sus respectivas medias aritméticas.

n es el número de sujetos, es decir, el tamaño de la muestra.

Para realizar los cálculos de a y b con los datos del ejemplo, sería necesario construir la Tabla siguiente.

Xi Yi Sujeto Edad Talla 1 3 55 165 9 2 6 68 408 36 3 5 64 320 25 4 5 66 330 25 5 3 62 186 9 6 4 65 260 16 7 9 74 666 81 8 8 75 600 64 9 9 73 657 81 10 7 69 483 49 11 6 73 438 36 12 5 68 340 25 13 8 73 584 64 14 6 71 426 36 Medias 6 68, Sumatorios ∑ (^84 956) 5.863 556 Sumatorios al cuadrado 7.

X i × Y i

2

X i

A partir de estos cálculos se puede calcular b y a

2 2

×

∑ ∑

n

x

x

n

x y

xy

b

i i

i i i i

a = my − bmx = 68 , 29 −( 2 , 44 × 6 )= 68 , 29 − 14 , 64 = 53 , 65

Por tanto la ecuación de la recta de regresión de mínimos cuadrados es la siguiente:

y = a + bx = 53 , 65 + 2 , 44 x

o sea,

talla = 53 , 65 + 2 , 44 edad

Interpretación de los coeficientes a y b

a = 53 , 65 significa el valor de la talla cuando la edad es cero (esto correspondería al momento del

nacimiento).

b = 2 44, significa que por cada mes de aumento de la edad, la talla aumenta 2,44 centímetros.

Recordemos que a es la ordenada en el origen Y b es el coeficiente de regresión o pendiente de la recta de regresión. En la figura 12.5 se ven gráficamente a y b. Figura 12.

r = 0,

b

a

a Ordenada en el origen. Valor de y cuando x vale 0

b Coeficiente de regresión. Pendiente de la recta. Aumento en y por una unidad de aumento en x

Predicción

Conocida la ecuación de la recta de regresión, puede realizarse cualquier predicción. Por ejemplo, ¿qué talla corresponderá a un niño de 4,5 meses de edad ?. A partir de la ecuación de la recta, se sustituye x por el valor 4,5, resultando:

Observar que la significación estadística de ambos coeficientes (R y B) es la misma p=0,001. Esto es lógico, ya que en cierto modo ambos indican el grado de relación entre las dos variables. Por tanto, para calcular la significación estadística de b, se puede utilizar la significación de R. Si R no es significativo, b tampoco lo será. Nota: esto solo es aplicable cuando hay una sola variable independiente.

Coeficiente de determinación R^2

El coeficiente de determinación R^2 es el cuadrado del coeficiente de correlación r y tiene un significado importante: es el porcentaje de la variabilidad de la variable dependiente que es explicada por la variable independiente. En el ejemplo, al ser r = 0,877, R^2 =0,769. Esto significa que el 76,9 % de la variabilidad de la talla en los niños es explicada por su edad. El resto hasta 100%, es decir, 23,1 % será debido a otros factores (por ejemplo alimentación, tipo constitucional, etc...) que no han sido tenidos en cuenta en el estudio.

Es evidente que el coeficiente de correlación (que mide el grado de relación que existe entre las variables) y el coeficiente de determinación están muy relacionados. Cuanto más pequeño sea r, menor será R^2 y por tanto menor será la explicación que proporciona la variable independiente.

Ejemplos:

R R

Variabilidad

explicada*

Variabilidad

sin explicar

  • % de variabilidad de Y explicada por X

El coeficiente de determinación R^2 indica la “bondad del ajuste” es decir, la capacidad de predicción de la variable independiente X sobre la variable dependiente Y. En otras palabras, indica el grado de coincidencia de los resultados predichos por la recta de regresión y los datos reales observados en los sujetos estudiados. Cuando R es débil y R^2 es pequeño, por ejemplo R=0,5 y R^2 = 0,25 = 25%, la bondad del ajuste es insuficiente. La regresión de X sobre Y solo explica el 25% de la variabilidad de Y. Los datos predichos seguramente se apartarán bastante de los observados. En estos casos sería aventurado realizar predicciones. La interpretación del grado de bondad del ajuste, puede ser la misma que la del coeficiente de correlación: Si R es débil, la bondad del ajuste R^2 es insuficiente. Si R es moderado, la bondad del ajuste R^2 es moderada. Si R es fuerte, la bondad del ajuste R^2 es buena.

-1 -0,9 -0,8 -0,6 -0,5 -0,1 0 0,1 0,5 0,6 0,8 0,9 1 Muy fuerte

Fuerte Moderada fuerte

Mode rada

Débil Muy débil o no correlación

Débil Mode rada

Moderada fuerte

Fuerte Muy fuerte

negativa positiva

R

R^2 Excelente^ Buena^ Moderada^ Escasa/nula^ Moderada^ Buena^ Excelente

Bondad del ajuste del modelo de regresión

Condiciones de utilización del análisis de regresión

Para que se puede aplicar un modelo de regresión lineal, deben cumplirse las siguientes condiciones: 1.- Las muestras deben ser aleatorias. Esto es fácil de conseguir diseñando el estudio de forma apropiada. 2.- Las dos variables deben tener una distribución normal: esto puede comprobarse antes de realizar los cálculos, tanto por métodos gráficos (por medio de histogramas, diagramas de cajas o gráficos de normalidad) como mediante tests estadísticos (test de Kolmogorov-Smirnov, test de Shapiro-Wilks). No obstante, los modelos funcionan bien incluso con desviaciones moderadas de la normalidad. 3.- Debe haber una tendencia lineal en los datos: de no existir, no sería adecuado plantearse una regresión lineal, sino con algún modelo curvilíneo. 4.- Debe haber homogeneidad de las varianzas. Esto quiere decir que cada grupo de valores de y para cada valor de x, deben tener varianzas similares (homoscedasticidad). Esto puede calcularse con el test de Bartlett.

La comprobación de algunas de estas condiciones exceden el ámbito de esta exposición esquemática por lo que no serán abordadas aquí. En este curso supondremos que se cumplen todas estas condiciones.

Resumen sobre la interpretación de un análisis de correlación/regresión lineal simple

Los elementos a valorar son los siguientes: -Coeficiente de correlación R: muestra el grado de asociación entre las dos variables. Debe hacerse una interpretación clínica del valor del coeficiente y una interpretación estadística de su valor p. Si la correlación es débil, no tiene mucho sentido valorar el coeficiente de regresión. -Coeficiente de determinación R^2 : indica el porcentaje de variabilidad de la variable dependiente que es explicada por la variable independiente. -Ecuación de la recta: Constante A: Valor de Y cuando X vale cero. Tiene poca importancia práctica. Coeficiente de regresión B: Muestra la magnitud del cambio en la variable dependiente por cada unidad de cambio en la variable independiente. La significación estadística (valor P) del coeficiente B es la misma que la del coeficiente de correlación. Ecuación de la recta:

A = 150 significa el valor del colesterol LDL para una persona que no hace ejercicio B = – 3,5 significa que por cada hora de ejercicio físico el LDL disminuye 3,5 unidades. Este coeficiente de regresión B lo interpretaremos con ciertas reservas, ya que la correlación es moderada y el ejercicio deja sin explicar una gran parte de la variabilidad del colesterol LDL. La significación estadística de B es la misma que la de R o sea p=0,01. Esto sirve para valorar el potencial preventivo que tiene el ejercicio físico. Sabemos que por cada hora de ejercicio, podemos reducir el LDL en 3,5 mg/dl.

Predicción: Realizar una predicción sobre el LDL que tendría un sujeto que haga 4 horas de ejercicio a la semana: LDL = 150 – 3,5(horas ejercicio) = 150 – 3,54 = 150 – 14 = 136 mg/dl

Ejemplo con X = horas de televisión a la semana e Y = IMC (Índice de Masa Corporal) -Coeficiente de correlación R: r = 0,35 (p =0,2) La correlación es muy débil y positiva. Hay una tendencia a que a más horas de TV más IMC. Esta asociación es débil, por lo que clínicamente es poco relevante. Además no es estadísticamente significativa (p=0,2). Esto significa que la probabilidad de que este coeficiente de correlación (o uno todavía más alejado de cero) pueda ser debido al azar del muestreo en el caso de que H0 (r = 0) fuera cierta, es grande (p=0,2), razón por la cual se acepta H0. Esta decisión lleva aparejado un riesgo de error beta o de Tipo 2, cuyo valor no calcularemos.

-Coeficiente de determinación R^2 : ¿Qué porcentaje de la variabilidad del IMC es explicado por la cantidad de horas de TV?.

R^2 = 0,35^2 = 0,122 = 12,2%. Esto significa que el % restante = 87,8% es explicado por otras variables distintas del nº de horas de TV (por ejemplo, la alimentación, el ejercicio físico, la genética, etc..). Bondad del ajuste mala.

-Ecuación de la recta: A = 25 significa el valor del IMC para una persona que no ven la TV B = 0,1 significa que por cada hora de TV el IMC aumenta 0,1 unidades. Este coeficiente de regresión B lo interpretaremos con muchísimas reservas, ya que la correlación es débil y la TV deja sin explicar la mayor parte de la variabilidad del IMC. La significación estadística de B es la misma que la de R o sea p=0,2.

Predicción: Realizar una predicción sobre el IMC que tendrían los sujetos que vean 10 horas de TV a la semana: IMC = 25 + 0,1(horas TV) = 25+ 0,110 = 25+1 = 26 (.... com muchísimas reservas....).

Más ejemplos de interpretación de R

Valor

R

Valor

P

Interpretación

0,9 0,01 Correlación fuerte (importante) y estadísticamente significativa. Poco probable que este R tan grande sea debido al azar del muestreo (si en la población de origen de la muestra R fuera = 0). Por ese motivo rechazamos H0 con riesgo de error alfa = 0,01. Conclusión: Alta utilidad clínica.

0,9 0,2 Correlación fuerte (importante) pero no significativa. Es más probable que este R tan grande pueda ser debido al azar del muestreo (si en la población de origen de la muestra R fuera = 0). Por ese motivo aceptamos H0 con riesgo de error beta = no lo calcularemos. Conclusión:Utilidad clínica valorable, pero menos clara que la anterior al no ser estadísticamente significativo y por tanto con un mayor riesgo de error aleatorio. 0,5 0,01 Correlación moderada y estadísticamente significativa. Poco probable que este R sea debido al azar del muestreo (si en la población de origen de la muestra R fuera = 0). Por ese motivo rechazamos H0 con riesgo de error alfa = 0,01. Conclusión: Utilidad clínica limitada debido a que la correlación no es muy fuerte. 0,5 0,2 Correlación moderada y no significativa. Es más probable que este R pueda ser debido al azar del muestreo (si en la población de origen de las muestras R fuera = 0). Por ese motivo aceptamos H con riesgo de error beta = no lo calcularemos. Conclusión: Utilidad clínica muy limitada debido a que la correlación no es muy fuerte y además no es estadísticamente significativa y por tanto con un mayor riesgo de error aleatorio. 0,3 0,01 Correlación débil aunque estadísticamente significativa. Poco probable que este R pequeño y poco relevante sea debido al azar del muestreo (si en la población de origen de la muestra R fuera = 0). Por ese motivo rechazamos H0 con riesgo de error alfa = 0,01. Conclusión: Utilidad irrelevante. 0,3 0,2 Correlación débil y no significativa. Es probable que este R pequeño y poco relevante pueda ser debido al azar del muestreo (si en la población de origen de las muestras R fuera = 0). Por ese motivo aceptamos H0 con riesgo de error beta = no lo calcularemos. Conclusión: Resultados intranscendentes.

población, podría servir para reducir las tasas de obesidad.

Ejercicio 2 .- En un estudio se han observado las siguientes datos relativos al número de fármacos que toman los pacientes y el grado de satisfacción con la atención recibida (en una escala de Likert de 1 (nada) a 10 (mucho)):

Nº de fármacos Satisfacción 4 2 1 4 2 7 3 4 1 4 5 3 2 8 4 4 2 6 1 7

a.- Calcular los coeficientes R, B y A.

r = – 0, a = 6,859; b = – 0,

Calcular la significación estadística de este coeficiente de correlación (p < 0,085)

b.- Realizar una predicción sobre el grado de satisfacción que tendría un sujeto que tomara 4 fármacos. Satisfacción = 6,859 – 0,784(nº fármacos) = 6,859 – 0,784*4 = 6,859 - 3,136 = 3,723 puntos

c.- ¿Qué porcentaje de la variabilidad del grado de satisfacción es explicado por el número de fármacos?. ¿Cómo es la bondad del ajuste?. R^2 = – 0,57^2 = 0,3249 = 32,49%. Bondad del ajuste moderada.

d.- Interpreta el valor de la constante y del coeficiente de regresión.

a = 6,859 significa el valor de la satisfacción para una persona que no toma fármacos b = – 0,784 significa que por cada fármaco más que se toma, la satisfacción disminuye 0, puntos.

Interpretar clínica y estadísticamente todos los resultados. Interpretar clínica y estadísticamente todos los resultados. El número de fármacos consumidos se correlaciona de forma negativa y moderada con la satisfacción. Esto significa que a más fármacos, menos satisfacción. Esta asociación es moderada, por lo que su importancia clínica es limitada. Además no es estadísticamente significativa (p=0,085) por lo que la probabilidad de que este coeficiente de correlación (o uno todavía mayor) pueda ser debido al azar del muestreo en el caso de que H0 fuera cierta, es relativamente alta (p=0,085), razón por la cual se rechaza H0. Esta decisión lleva aparejado un riesgo de error alfa o de Tipo 1, que es igual al valor de p (=0,085).

Por otra parte, el coeficiente de determinación R^2 = 0,3249 ≈ 0,32. Esto significa que los años de estudios explican solo el 32% de la variabilidad de la satisfacción y por tanto quedan sin explicar el 68% (dos terceras partes). Por ello, habría que buscar otros factores que contribuyeran en mayor medida a explicar la satisfacción. La bondad del ajuste es moderada. Aunque la correlación es moderada, tendría sentido interpretar el coeficiente de regresión: por cada fármaco de más que toma un paciente la satisfacción se reduce en 0,784 puntos.

Ejercicio 3 .- En un estudio realizado en escolares se han observado los siguientes datos relativos al número de días por semana que consumen alimentos azucarados y el número de caries que han presentado en un examen rutinario:

Nº días/semana Nº caries 0 2 3 2 0 1 5 1 4 2 0 1 7 4 6 3 5 2 3 3

a.- Calcular los coeficientes R, B y A.

r = 0, a = 1,293; b = 0,

Calcular la significación estadística de este coeficiente de correlación (p < 0,048)

b.- Realizar una predicción sobre el nº de caries que tendría un niño que consumiera dulces 2 veces por semana.

Nº caries = 1,293 + 0,245(nº días) = 1,293 + 0,245*2 = 1,293 + 0,49 = 1,783 caries

c.- ¿Qué porcentaje de la variabilidad del nº de caries es explicado por el número de días en que se consumen alimentos azucarados?. ¿Cómo es la bondad del ajuste?.

R^2 = 0,64^2 = 0,4096 = 40,96%. Bondad del ajuste moderada.

d.- Interpreta el valor de la constante y del coeficiente de regresión.

a = 1,293 significa el nº de caries (promedio) para los niños que no toman dulces b = 0,245 significa que por día más que se toman dulces, el nº de caries aumenta 0,245 caries

Interpretar clínica y estadísticamente todos los resultados.