










Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
En este documento se explica el proceso de calcular la recta de mínimos cuadrados en una regresión lineal simple. Se incluyen ejemplos con datos de edad y talla, así como el cálculo de los coeficientes a y b. Además, se interpreta el significado de estos coeficientes y se realiza una predicción sobre la talla de un niño según su edad.
Tipo: Apuntes
1 / 18
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!











Regresión y correlación
En el capítulo 11 hemos visto que la correlación sirve para averiguar si existe asociación o relación entre dos variables cuantitativas que han sido medidas simultáneamente en los sujetos de estudio. La Regresión lineal está muy relacionada con la correlación y proporciona un modelo matemático que permite predecir los valores que tomará una de las variables (a la que se denomina variable dependiente) en función de los valores de otra llamada variable independiente. Por ejemplo, si nuestro interés es saber si la temperatura corporal está relacionada con la frecuencia cardiaca, utilizaremos un análisis de correlación. Pero es posible que tengamos la sospecha de que la frecuencia cardiaca “depende” de la temperatura corporal. Esto significa que entendemos que hay un mecanismo fisiológico en el organismo según el cual el aumento de la temperatura conlleva un cambio en el número de pulsaciones. Estamos, por tanto, identificando que una de las dos variables depende de la otra. Es decir, que hay una variable dependiente (pulsaciones) a la que llamaremos “y” y otra variable independiente (temperatura) a la que llamaremos “x”. En resumen: Si el interés es la simple relación o asociación entre dos variables cuantitativas (sin plantearnos el concepto de dependencia entre ellas), correlación. Si el interés es tratar de elaborar un modelo matemático predictivo que permita predecir los valores de una variable dependiente en función de otra variable independiente… regresión.
Para que un análisis de regresión tenga sentido práctico se requieren dos elementos: a) Que haya una dependencia “biológica” entre las variables. Tendría sentido intentar explicar la variación del peso en función de la talla, pero probablemente no lo tendría intentar explicar los niveles de glucemia en función de la capacidad vital. b) La variable dependiente y la independiente tienen que estar correlacionadas.
Distintos modelos de regresión
El análisis de regresión persigue encontrar una ecuación matemática que describa satisfactoriamente esa relación de dependencia. Para ello hay dos grandes modelos:
Como paso previo a plantearse el análisis de regresión es preciso responder estas dos preguntas:
1.- ¿ Tiene sentido biológico o clínico este problema ?. En este caso es claro que sí porque la relación biológica entre la edad (en los niños) y la talla es evidente. 2.- ¿ Están correlacionadas ambas variables? : los cálculos previos muestran que ambas variables están correlacionadas con r = 0,877 (p<0,001), es decir, un coeficiente de correlación alto y una buena significación estadística. Si la respuesta a alguna de las dos preguntas fuera negativa, no tendría sentido realizar la regresión.
Representemos gráficamente los datos mediante el diagrama de dispersión de la Figura siguiente
r = 0,
Se aprecia que hay una tendencia clara a que a medida que aumenta la edad de los niños, aumenta también su talla. El coeficiente de correlación es muy alto 0,877 y la recta que está en rojo, podría representar razonablemente al conjunto de datos del gráfico.
La cuestión es determinar qué recta es la mejor para representar esta relación y cuál es su ecuación matemática. Recordemos algunos conceptos.
Ecuación de la recta
La ecuación de una recta tiene la forma:
y = a + bx
en la que
ejemplo, la talla aumentará 3 cm. por cada mes de aumento en la edad).
concreto en meses) y el resultado será un valor para la variable dependiente (la talla esperada de ese niño). De esta forma podemos predecir la talla en función de la edad, y esto se podría aplicar a cualquier niño.
Por ejemplo, supongamos que a vale 53 y b vale 2,5.
y = a + bx = 53 + 2 , 5 x = 53 + 2 , 5 × edad
Si queremos saber qué talla correspondería a un niño de 7 meses, la predicción sería
relación?
Recta de mínimos cuadrados
Es evidente que a través de la nube de puntos que representa los datos de la edad y talla de los niños estudiados en la muestra, pueden trazarse infinitas rectas. Pero hay una de ellas que es la que mejor los representa (la que mejor se ajusta a los datos) y es la que hay que calcular. Para ello deberá cumplirse que las distancias de los puntos a la recta sean mínimas, menores que en cualquier otra recta. Estas distancias pueden medirse de varias formas, pero se utiliza el principio de los mínimos cuadrados, utilizando la distancia vertical (al cuadrado) de cada punto con el que le correspondería en la recta. Esto se ilustra en la Figura siguiente:
∑
∑
∑
∑ ∑
∑
∑
i i
i i i i
i x
i x i y 2 2
y
donde,
Para realizar los cálculos de a y b con los datos del ejemplo, sería necesario construir la Tabla siguiente.
Xi Yi Sujeto Edad Talla 1 3 55 165 9 2 6 68 408 36 3 5 64 320 25 4 5 66 330 25 5 3 62 186 9 6 4 65 260 16 7 9 74 666 81 8 8 75 600 64 9 9 73 657 81 10 7 69 483 49 11 6 73 438 36 12 5 68 340 25 13 8 73 584 64 14 6 71 426 36 Medias 6 68, Sumatorios ∑ (^84 956) 5.863 556 Sumatorios al cuadrado 7.
2
A partir de estos cálculos se puede calcular b y a
2 2
∑
∑
∑
∑ ∑
i i
i i i i
Por tanto la ecuación de la recta de regresión de mínimos cuadrados es la siguiente:
y = a + bx = 53 , 65 + 2 , 44 x
o sea,
talla = 53 , 65 + 2 , 44 edad
Interpretación de los coeficientes a y b
nacimiento).
Recordemos que a es la ordenada en el origen Y b es el coeficiente de regresión o pendiente de la recta de regresión. En la figura 12.5 se ven gráficamente a y b. Figura 12.
r = 0,
b
a
a Ordenada en el origen. Valor de y cuando x vale 0
b Coeficiente de regresión. Pendiente de la recta. Aumento en y por una unidad de aumento en x
Predicción
Conocida la ecuación de la recta de regresión, puede realizarse cualquier predicción. Por ejemplo, ¿qué talla corresponderá a un niño de 4,5 meses de edad ?. A partir de la ecuación de la recta, se sustituye x por el valor 4,5, resultando:
Observar que la significación estadística de ambos coeficientes (R y B) es la misma p=0,001. Esto es lógico, ya que en cierto modo ambos indican el grado de relación entre las dos variables. Por tanto, para calcular la significación estadística de b, se puede utilizar la significación de R. Si R no es significativo, b tampoco lo será. Nota: esto solo es aplicable cuando hay una sola variable independiente.
Coeficiente de determinación R^2
El coeficiente de determinación R^2 es el cuadrado del coeficiente de correlación r y tiene un significado importante: es el porcentaje de la variabilidad de la variable dependiente que es explicada por la variable independiente. En el ejemplo, al ser r = 0,877, R^2 =0,769. Esto significa que el 76,9 % de la variabilidad de la talla en los niños es explicada por su edad. El resto hasta 100%, es decir, 23,1 % será debido a otros factores (por ejemplo alimentación, tipo constitucional, etc...) que no han sido tenidos en cuenta en el estudio.
Es evidente que el coeficiente de correlación (que mide el grado de relación que existe entre las variables) y el coeficiente de determinación están muy relacionados. Cuanto más pequeño sea r, menor será R^2 y por tanto menor será la explicación que proporciona la variable independiente.
Ejemplos:
El coeficiente de determinación R^2 indica la “bondad del ajuste” es decir, la capacidad de predicción de la variable independiente X sobre la variable dependiente Y. En otras palabras, indica el grado de coincidencia de los resultados predichos por la recta de regresión y los datos reales observados en los sujetos estudiados. Cuando R es débil y R^2 es pequeño, por ejemplo R=0,5 y R^2 = 0,25 = 25%, la bondad del ajuste es insuficiente. La regresión de X sobre Y solo explica el 25% de la variabilidad de Y. Los datos predichos seguramente se apartarán bastante de los observados. En estos casos sería aventurado realizar predicciones. La interpretación del grado de bondad del ajuste, puede ser la misma que la del coeficiente de correlación: Si R es débil, la bondad del ajuste R^2 es insuficiente. Si R es moderado, la bondad del ajuste R^2 es moderada. Si R es fuerte, la bondad del ajuste R^2 es buena.
-1 -0,9 -0,8 -0,6 -0,5 -0,1 0 0,1 0,5 0,6 0,8 0,9 1 Muy fuerte
Fuerte Moderada fuerte
Mode rada
Débil Muy débil o no correlación
Débil Mode rada
Moderada fuerte
Fuerte Muy fuerte
negativa positiva
Bondad del ajuste del modelo de regresión
Condiciones de utilización del análisis de regresión
Para que se puede aplicar un modelo de regresión lineal, deben cumplirse las siguientes condiciones: 1.- Las muestras deben ser aleatorias. Esto es fácil de conseguir diseñando el estudio de forma apropiada. 2.- Las dos variables deben tener una distribución normal: esto puede comprobarse antes de realizar los cálculos, tanto por métodos gráficos (por medio de histogramas, diagramas de cajas o gráficos de normalidad) como mediante tests estadísticos (test de Kolmogorov-Smirnov, test de Shapiro-Wilks). No obstante, los modelos funcionan bien incluso con desviaciones moderadas de la normalidad. 3.- Debe haber una tendencia lineal en los datos: de no existir, no sería adecuado plantearse una regresión lineal, sino con algún modelo curvilíneo. 4.- Debe haber homogeneidad de las varianzas. Esto quiere decir que cada grupo de valores de y para cada valor de x, deben tener varianzas similares (homoscedasticidad). Esto puede calcularse con el test de Bartlett.
La comprobación de algunas de estas condiciones exceden el ámbito de esta exposición esquemática por lo que no serán abordadas aquí. En este curso supondremos que se cumplen todas estas condiciones.
Resumen sobre la interpretación de un análisis de correlación/regresión lineal simple
Los elementos a valorar son los siguientes: -Coeficiente de correlación R: muestra el grado de asociación entre las dos variables. Debe hacerse una interpretación clínica del valor del coeficiente y una interpretación estadística de su valor p. Si la correlación es débil, no tiene mucho sentido valorar el coeficiente de regresión. -Coeficiente de determinación R^2 : indica el porcentaje de variabilidad de la variable dependiente que es explicada por la variable independiente. -Ecuación de la recta: Constante A: Valor de Y cuando X vale cero. Tiene poca importancia práctica. Coeficiente de regresión B: Muestra la magnitud del cambio en la variable dependiente por cada unidad de cambio en la variable independiente. La significación estadística (valor P) del coeficiente B es la misma que la del coeficiente de correlación. Ecuación de la recta:
A = 150 significa el valor del colesterol LDL para una persona que no hace ejercicio B = – 3,5 significa que por cada hora de ejercicio físico el LDL disminuye 3,5 unidades. Este coeficiente de regresión B lo interpretaremos con ciertas reservas, ya que la correlación es moderada y el ejercicio deja sin explicar una gran parte de la variabilidad del colesterol LDL. La significación estadística de B es la misma que la de R o sea p=0,01. Esto sirve para valorar el potencial preventivo que tiene el ejercicio físico. Sabemos que por cada hora de ejercicio, podemos reducir el LDL en 3,5 mg/dl.
Predicción: Realizar una predicción sobre el LDL que tendría un sujeto que haga 4 horas de ejercicio a la semana: LDL = 150 – 3,5(horas ejercicio) = 150 – 3,54 = 150 – 14 = 136 mg/dl
Ejemplo con X = horas de televisión a la semana e Y = IMC (Índice de Masa Corporal) -Coeficiente de correlación R: r = 0,35 (p =0,2) La correlación es muy débil y positiva. Hay una tendencia a que a más horas de TV más IMC. Esta asociación es débil, por lo que clínicamente es poco relevante. Además no es estadísticamente significativa (p=0,2). Esto significa que la probabilidad de que este coeficiente de correlación (o uno todavía más alejado de cero) pueda ser debido al azar del muestreo en el caso de que H0 (r = 0) fuera cierta, es grande (p=0,2), razón por la cual se acepta H0. Esta decisión lleva aparejado un riesgo de error beta o de Tipo 2, cuyo valor no calcularemos.
-Coeficiente de determinación R^2 : ¿Qué porcentaje de la variabilidad del IMC es explicado por la cantidad de horas de TV?.
R^2 = 0,35^2 = 0,122 = 12,2%. Esto significa que el % restante = 87,8% es explicado por otras variables distintas del nº de horas de TV (por ejemplo, la alimentación, el ejercicio físico, la genética, etc..). Bondad del ajuste mala.
-Ecuación de la recta: A = 25 significa el valor del IMC para una persona que no ven la TV B = 0,1 significa que por cada hora de TV el IMC aumenta 0,1 unidades. Este coeficiente de regresión B lo interpretaremos con muchísimas reservas, ya que la correlación es débil y la TV deja sin explicar la mayor parte de la variabilidad del IMC. La significación estadística de B es la misma que la de R o sea p=0,2.
Predicción: Realizar una predicción sobre el IMC que tendrían los sujetos que vean 10 horas de TV a la semana: IMC = 25 + 0,1(horas TV) = 25+ 0,110 = 25+1 = 26 (.... com muchísimas reservas....).
Más ejemplos de interpretación de R
0,9 0,01 Correlación fuerte (importante) y estadísticamente significativa. Poco probable que este R tan grande sea debido al azar del muestreo (si en la población de origen de la muestra R fuera = 0). Por ese motivo rechazamos H0 con riesgo de error alfa = 0,01. Conclusión: Alta utilidad clínica.
0,9 0,2 Correlación fuerte (importante) pero no significativa. Es más probable que este R tan grande pueda ser debido al azar del muestreo (si en la población de origen de la muestra R fuera = 0). Por ese motivo aceptamos H0 con riesgo de error beta = no lo calcularemos. Conclusión:Utilidad clínica valorable, pero menos clara que la anterior al no ser estadísticamente significativo y por tanto con un mayor riesgo de error aleatorio. 0,5 0,01 Correlación moderada y estadísticamente significativa. Poco probable que este R sea debido al azar del muestreo (si en la población de origen de la muestra R fuera = 0). Por ese motivo rechazamos H0 con riesgo de error alfa = 0,01. Conclusión: Utilidad clínica limitada debido a que la correlación no es muy fuerte. 0,5 0,2 Correlación moderada y no significativa. Es más probable que este R pueda ser debido al azar del muestreo (si en la población de origen de las muestras R fuera = 0). Por ese motivo aceptamos H con riesgo de error beta = no lo calcularemos. Conclusión: Utilidad clínica muy limitada debido a que la correlación no es muy fuerte y además no es estadísticamente significativa y por tanto con un mayor riesgo de error aleatorio. 0,3 0,01 Correlación débil aunque estadísticamente significativa. Poco probable que este R pequeño y poco relevante sea debido al azar del muestreo (si en la población de origen de la muestra R fuera = 0). Por ese motivo rechazamos H0 con riesgo de error alfa = 0,01. Conclusión: Utilidad irrelevante. 0,3 0,2 Correlación débil y no significativa. Es probable que este R pequeño y poco relevante pueda ser debido al azar del muestreo (si en la población de origen de las muestras R fuera = 0). Por ese motivo aceptamos H0 con riesgo de error beta = no lo calcularemos. Conclusión: Resultados intranscendentes.
población, podría servir para reducir las tasas de obesidad.
Ejercicio 2 .- En un estudio se han observado las siguientes datos relativos al número de fármacos que toman los pacientes y el grado de satisfacción con la atención recibida (en una escala de Likert de 1 (nada) a 10 (mucho)):
Nº de fármacos Satisfacción 4 2 1 4 2 7 3 4 1 4 5 3 2 8 4 4 2 6 1 7
a.- Calcular los coeficientes R, B y A.
r = – 0, a = 6,859; b = – 0,
Calcular la significación estadística de este coeficiente de correlación (p < 0,085)
b.- Realizar una predicción sobre el grado de satisfacción que tendría un sujeto que tomara 4 fármacos. Satisfacción = 6,859 – 0,784(nº fármacos) = 6,859 – 0,784*4 = 6,859 - 3,136 = 3,723 puntos
c.- ¿Qué porcentaje de la variabilidad del grado de satisfacción es explicado por el número de fármacos?. ¿Cómo es la bondad del ajuste?. R^2 = – 0,57^2 = 0,3249 = 32,49%. Bondad del ajuste moderada.
d.- Interpreta el valor de la constante y del coeficiente de regresión.
a = 6,859 significa el valor de la satisfacción para una persona que no toma fármacos b = – 0,784 significa que por cada fármaco más que se toma, la satisfacción disminuye 0, puntos.
Interpretar clínica y estadísticamente todos los resultados. Interpretar clínica y estadísticamente todos los resultados. El número de fármacos consumidos se correlaciona de forma negativa y moderada con la satisfacción. Esto significa que a más fármacos, menos satisfacción. Esta asociación es moderada, por lo que su importancia clínica es limitada. Además no es estadísticamente significativa (p=0,085) por lo que la probabilidad de que este coeficiente de correlación (o uno todavía mayor) pueda ser debido al azar del muestreo en el caso de que H0 fuera cierta, es relativamente alta (p=0,085), razón por la cual se rechaza H0. Esta decisión lleva aparejado un riesgo de error alfa o de Tipo 1, que es igual al valor de p (=0,085).
Por otra parte, el coeficiente de determinación R^2 = 0,3249 ≈ 0,32. Esto significa que los años de estudios explican solo el 32% de la variabilidad de la satisfacción y por tanto quedan sin explicar el 68% (dos terceras partes). Por ello, habría que buscar otros factores que contribuyeran en mayor medida a explicar la satisfacción. La bondad del ajuste es moderada. Aunque la correlación es moderada, tendría sentido interpretar el coeficiente de regresión: por cada fármaco de más que toma un paciente la satisfacción se reduce en 0,784 puntos.
Ejercicio 3 .- En un estudio realizado en escolares se han observado los siguientes datos relativos al número de días por semana que consumen alimentos azucarados y el número de caries que han presentado en un examen rutinario:
Nº días/semana Nº caries 0 2 3 2 0 1 5 1 4 2 0 1 7 4 6 3 5 2 3 3
a.- Calcular los coeficientes R, B y A.
r = 0, a = 1,293; b = 0,
Calcular la significación estadística de este coeficiente de correlación (p < 0,048)
b.- Realizar una predicción sobre el nº de caries que tendría un niño que consumiera dulces 2 veces por semana.
Nº caries = 1,293 + 0,245(nº días) = 1,293 + 0,245*2 = 1,293 + 0,49 = 1,783 caries
c.- ¿Qué porcentaje de la variabilidad del nº de caries es explicado por el número de días en que se consumen alimentos azucarados?. ¿Cómo es la bondad del ajuste?.
R^2 = 0,64^2 = 0,4096 = 40,96%. Bondad del ajuste moderada.
d.- Interpreta el valor de la constante y del coeficiente de regresión.
a = 1,293 significa el nº de caries (promedio) para los niños que no toman dulces b = 0,245 significa que por día más que se toman dulces, el nº de caries aumenta 0,245 caries
Interpretar clínica y estadísticamente todos los resultados.