





























Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
El coeficiente de correlación lineal (r), una medida de la fuerza de la correlación lineal entre dos variables cuantitativas. Se proporcionan ejemplos de cálculo del coeficiente de correlación lineal (r) y se discuten las aplicaciones de este coeficiente en la regresión lineal. Además, se explican los procedimientos para validar el coeficiente de correlación lineal (r) y se proporciona una descripción del modelo matemático que mejor se ajusta a los datos.
Tipo: Resúmenes
1 / 37
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!






























1.1. Introducción
En este capítulo se analizará la relación que podría existir entre dos variables a las que llamaremos x y y, y para ello es necesario conocer y familiarizarse con conceptos como: CORRELACIÓN y REGRESIÓN, a continuación se irá detallando cada uno de estos conceptos con sus respectivos ejemplos.
1.2. Diagramas de dispersión
Los gráficos de dispersión se usan para averiguar la intensidad de la relación entre dos variables numéricas. El eje X representa la variable independiente, mientras que el eje Y representa la variable dependiente. Los gráficos de dispersión permiten responder preguntas sobre los datos, por ejemplo: ¿cuál es la relación entre dos variables? ¿Cómo se distribuyen los datos? ¿Dónde están los valores atípicos?.
1.3. Correlación
La correlación es una medida estadística que expresa hasta qué punto dos variables están relacionadas (esto es, cambian conjuntamente a una tasa constante). Es una herramienta común para describir relaciones simples sin hacer afirmaciones sobre causa y efecto.
Existe una correlación lineal entre dos variables cuando existe una correlación y los puntos graficados de los datos pareados dan como resultado un patrón que se puede aproximar a una linea recta.
Los diagramas de dispersión pueden mostrar 4 tipos de correlación, los mismos que se muestran a continuación:
5
Los puntos se ajustan a un patrón, lo cual sugiere que hay correlación entre x y y pero el patrón no es el de una linea recta, correlación no lineal. Debido a las conclusiones basadas en exámenes visuales de diagramas de dispersión son subjetivos en gran me- dida, se necesitan mediciones mas objetivas. Para este efecto, se debe contar con un valor que permita realizar conclusiones de una forma mucho más formal.
1.4. Coeficiente de correlación lineal (r)
El coeficiente de correlación lineal (r) mide la fuerza de la correlación lineal entre los valores cuan- titativos x y y en una muestra. El coeficiente de correlación lineal (r) asume valores que van − 1 ≤ r < 0 para una correlación negativa y 0 ≤ r ≤ 1 para una correlación positiva. El coeficiente de correlación lineal (r), se calcula a partir de la siguiente expresión:
r = n (
xy) −
x ∗
y p n ∗
x^2 − (
x)^2 ∗
p n ∗
y^2 − (
y)^2
(Buen formato para realizar los cálculos)
Donde: nX: número de pares de datos muestrales : expresa la suma de los elementos indicados X x: suma de todos los valores de x X x^2 : indica que cada valor de x debe elevarse al cuadrado y después esos cuadrados deben sumarse.
(
x)^2 : indica que los valores de x deben sumarse y el total debe elevarse al cuadrado. X xy: indica que cada valor de x debe multiplicarse por su correspondiente valor de y. Después se debe obtener la suma de todos esos productos. r: es el coeficiente de correlación lineal para datos muestrales. ρ: es el coeficiente de correlación lineal para una población de datos pareados.
Otra ecuación que permite calcular el coeficiente de correlación lineal (r) es:
r =
zxzy n − 1
(Buen formato para entender)
Donde: zx: expresa la puntuación z para un valor muestral individual x.
zx =
x − x¯ sx
x: valor individual x. x ¯: media de los valores x. sx: desviación estándar en x.
zy: expresa la puntuación z para un valor muestral correspondiente y.
zy = y − y¯ sy
y: valor individual y. ¯y: media de los valores y. sy: desviación estándar en y.
Para cualquier recopilación de datos muestrales CUANTITATIVOS pareados, siempre es posible calcular el coeficeinte de correlación lineal si se cumplen los siguientes requisitos:
Ejemplo 1.2. Hector registró la cantidad de café que tomó (en mililitros) y la duración de su trayecto al trabajo (en minutos) durante cinco días esta semana. Calcule el coeficiente de correalción lineal (r).
Café (ml) 100 200 150 75 225 Duración (minutos) 18 14 15 20 12
Los puntos se ajustan a un patrón, lo cual sugiere que hay correlación lineal negativa entre La cantidad de café que tomó Héctor y la duración del trayecto a su trabajo
r = n ∗
xy −
x ∗
y p n ∗
x^2 − (
x)^2 ∗
p n ∗
y^2 − (
y)^2
Ejemplo 1.4. Hector registró la cantidad de café que tomó (en mililitros) y la duración de su trayecto al trabajo (en minutos) durante cinco días esta semana. Calcule el coeficiente de correalción lineal (r).
Duración (minutos) 18 14 15 20 12 Café (ml) 100 200 150 75 225
Los puntos se ajustan a un patrón, lo cual sugiere que hay correlación lineal negativa entre La cantidad de café que tomó Héctor y la duración del trayecto a su trabajo
r = n ∗
xy −
x ∗
y p n ∗
x^2 − (
x)^2 ∗
p n ∗
y^2 − (
y)^2
n Café [ml] Duración [minutos] x ∗ y x^2 y^2 1 18 100 1800 324 10000 2 14 200 2800 196 40000 3 15 150 2250 225 22500 4 20 75 1500 400 5625 5 12 225 2700 144 50625 Sumatorias 79 750 11050 1289 128750
r =
Ejemplo 1.5. Hector registró la cantidad de café que tomó (en mililitros) y la duración de su trayecto al trabajo (en minutos) durante cinco días esta semana. Calcule el coeficiente de correalción lineal (r).
Duración (minutos) 18 14 15 20 12 Café (ml) 100 200 150 75 50
Los puntos se ajustan a un patrón, lo cual sugiere que hay correlación lineal negativa entre La cantidad de café que tomó Héctor y la duración del trayecto a su trabajo, pero se puede apreciar un valor atípico.
r = n ∗
xy −
x ∗
y p n ∗
x^2 − (
x)^2 ∗
p n ∗
y^2 − (
y)^2
n Café [ml] Duración [minutos] x ∗ y x^2 y^2 1 18 100 1800 324 10000 2 14 200 2800 196 40000 3 15 150 2250 225 22500 4 20 75 1500 400 5625 5 12 50 600 144 2500 Sumatorias 79 575 8950 1289 80625
r =
A continuación, veamos un ejemplo donde se muestra el procedimiento de cálculo del coeficiente de correlación lineal (r) empleando las dos ecuaciones antes mencionadas:
Ejemplo 1.6. La siguiente tabla muestra la relación entre las calificaciones y el tiempo de estudio (en horas) de cada examen sobre 20 puntos que tomó Dexter este año. Calcule el coeficiente de correalción lineal (r).
Tiempo de estudio (minutos) 45 70 150 195 15 90 Calificación (sobre 20) 14 16 18 19 12 16
Cálculo del coeficiente de correlación lineal (r), empleando la relación:
r = n ∗
xy −
x ∗
y p n ∗
x^2 − (
x)^2 ∗
p n ∗
y^2 − (
y)^2
Los puntos se ajustan a un patrón, lo cual sugiere que hay correlación lineal positiva entre el tiempo de estudio y la calificación obtenida.
El valor P que muestra el Minitab es de 0.002 para un nivel de significancia de 0.05, se cumple que Valor P ≤ α : Por lo tanto se respalda la afirmación de una correlación lineal.
Uso de los valores críticos de Pearson (tabla A-6)
Considere los valores críticos de la tabla A-6 como positivos y negativos y compare estos valores con el valor del coeficiente de correlación lineal (r) calculado con las ecuaciones mencionadas anteriormente. A continuación se muestra parte de la tabla A-6 que muestra los valores críticos para dos diferentes valores de α, el que se usará para la validación son los valores de α = 0, 05.
Los criterios para la validación del coeficiente de correlación lineal (r) se describen a continuación:
Correlación: Si el coeficiente de correlación lineal calculado (r) se encuentra en la región de la cola izquierda o derecha mas allá del valor crítico para esa cola, se concluye que hay evidencia suficiente para respaldar la afirmación de una correlación lineal. Sin correlación: Si el coeficiente de correlación lineal calculado se encuentra entre los dos valores críticos, concluya que no hay evidencia suficiente para respaldar la afirmación de una correlación lineal.
Para el ejemplo 5.6, rcalculado = 0, 963 , para n = 6, tenemos un valor crítico de rcritico = 0, 811 , como rcalculado es positivo, tomaremos la cola derecha del gráfico para validar el rcalculado
Como el rcalculado se encuentra más allá del rcritico, (más cerca a 1), se concluye que existe evidencia suficiente para respaldar la afirmación de que existe correlación lineal entre las horas de estudio y la calificación obtenida.
A continuación se describen tres de los errores más comunes que se producen en la interpretación de resultados que involucran correlación:
1.5. Ejercicios Propuestos
Embarcaciones recreativas 99 99 97 95 90 90 87 90 90 Muertes de manatíes 92 73 90 97 83 88 81 73 68
a) Construya el diagrama de dispersión y comente el resultado b) ¿Existe evidencia suficiente para concluir que existe una correlación lineal entre el nú- mero de embarcaciones recreativas registradas y el número de muertes de manatíes por encuentros con embarcaciones?
Temperatura (◦C) 100 110 120 125 130 140 150 160 170 180 190 200 % de producto resultante 45 51 54 53 59 63 69 74 78 86 89 94
a) Construya el diagrama de dispersión y comente el resultado b) ¿Existe evidencia suficiente para concluir que existe una correlación lineal entre la tem- peratura del experimento y el porcentaje de producto obtenido?
Presión (libras por pulgada) 30 31 32 33 34 35 36 37 38 39 40 Resistencia (en miles de millas) 29.4 32.2 35.9 38.4 36.6 34.8 35.0 32.2 30.5 28.6 27.
a) Construya el diagrama de dispersión y comente el resultado b) ¿Existe evidencia suficiente para concluir que existe una correlación lineal entre la presión del neumático y su resistencia al uso?
1.6. Regresión
En esta sección se presentan métodos para encontrar la ecuación de la línea resta que mejor se ajusta a los puntos en un diagrama de dispersión de datos muestrales pareados. Esa línea recta con el mejor ajuste se denomina línea de regresión y su ecuación se llama ecuación de regresión. La ecuación de regresión sirve para realizar predicciones para el valor de ian de las variables, dado algún valor específico de la otra variable. Dada una colección de datos muestrales pareados, la línea de regresión es la recta que "mejor"se ajusta al diagrama de dispersión de los datos. La ecuación de regresión:
ˆy = a + bx
describe algebraicamente la línea de regresión. La ecuación de regresión expresa una relación entre x (llamada variable explicativa, variable predictora o variable independiente) y yˆ (llamada variable de respuesta o variable dependiente).
En Estadística la ecuación de la línea de regresión se expresa como: yˆ = a + bx, donde a es la intersección y b es la pendiente. Ambos valores a y b se pueden obtener a partir de los muchos programas de software y también a partir de cálculos manuales empleando fórmulas.
Para determinar los valores de la pendiente y la intersección de la ecuación de regresión se pueden emplear las siguientes ecuaciones:
Primera forma para determinar la pendiente y la intersección
b = r ∗
Sy Sx (ecuación para hallar la pendiente)
Donde: r: Coeficiente de correlación lineal Sx: Desviación estándar de los valores de x Sy: Desviación estándar de los valores de y
a = ¯y − b ∗ x¯ (ecuación para hallar la intersección)
Donde: y ¯: media de los valores en y x ¯: media de los valores en x
Veamos un ejemplo:
Ejemplo 1.7. La siguiente tabla muestra la relación entre las calificaciones y el tiempo de estudio (en horas) de cada examen sobre 20 puntos que tomó Dexter este año. Encuentre la ecuación de regresión lineal.
Tiempo de estudio (minutos) 45 70 150 195 15 90 Calificación (sobre 20) 14 16 18 19 12 16
Calculamos el coeficiente de correlación lineal:
n Tiempo de estudio [minutos] Calificación [sobre 20] x ∗ y x^2 y^2 1 45 14 630 2025 196 2 70 16 1120 4900 256 3 150 18 2700 22500 324 4 195 19 3705 38025 361 5 15 12 180 225 144 6 90 16 1440 8100 256 Sumatorias 565 95 9775 75775 1537
r =
Calculamos las desviaciones estándar para ambas variables:
n Tiempo de estudio [minutos] Calificación [sobre 20] 1 45 14 2 70 16 3 150 18 4 195 19 5 15 12 6 90 16 media ¯x =94.2 media y¯ =15. Sx =67.2 Sy =2.
Calculamos la pendiente:
b = r ∗
Sy Sx
La ecuación de regresión es:
ˆy = 12,374 + 0, 037 x
Ambos métodos proporcionan valores bastante próximos para la pendiente y la intersección.
Regla de redondeo para la pendiente y la intersección: Redondee a y b a tres dígitos signifi- cativos.
Pendiente
Indica la cantidad en que se incrementa o disminuye el valor de la variable y, cuando la variable x aumenta una unidad. El incremento se presenta cuando el valor de b es positivo y la disminución en el caso contrario.
Intersección
La intersección es el punto exacto en el cual la línea de regresión corta al eje y, asume un valor en y cuando x es igual a 0. Veamos un ejemplo:
Ejemplo 1.9. La siguiente tabla muestra la relación entre las calificaciones y el tiempo de estudio (en horas) de cada examen sobre 20 puntos que tomó Dexter este año. Interprete el significado de la pendiente y la intersección de la ecuación de regresión.
Tiempo de estudio (minutos) 45 70 150 195 15 90 Calificación (sobre 20) 14 16 18 19 12 16
La ecuación de regresión es:
y ˆ = 12,4 + 0, 037 x
b: 0.037, significa que la calificación se incrementa en 0.037 puntos por un minuto que se incrementa en el tiempo de estudio. a: 12.4, significa que si el tiempo de estudio de Dexter es 0 (no dedica tiempo a estudiar) la calificación que obtendrá es 12.4 puntos.
La validación del modelo de regresión se realiza encontrando los valores de yˆ a partir de la ecuación de regresión y los valores de x, estos datos se deben graficar sobre el diagrama de dispersión y asi determinar subjetivamente qué tan bien se ajusta la línea de regresión a los datos originales. Veamos un ejemplo:
Ejemplo 1.10. La siguiente tabla muestra la relación entre las calificaciones y el tiempo de estudio (en horas) de cada examen sobre 20 puntos que tomó Dexter este año. Valide el modelo de regresión sobre el diagrama de dispersión.
Tiempo de estudio (minutos) 45 70 150 195 15 90 Calificación (sobre 20) 14 16 18 19 12 16
La ecuación de regresión es:
y ˆ = 12,4 + 0, 037 x
Reemplazamos los valores de x en la ecuación y encontramos los valores de yˆ. Luego graficamos los valores de yˆ y x sobre el diagrama de dispersión original.
n Tiempo de estudio yˆ = 12,4 + 0, 037 x (x) 1 45 14. 2 70 15. 3 150 18. 4 195 19. 5 15 13. 6 90 15.
Se puede apreciar que la línea de regresión se ajusta bien a los puntos de los datos originales, por lo tanto la ecuación de regresión es un buen modelo para realizar predicciones.
Con frecuencia, las ecuaciones de regresión son útiles para predecir el valor de una variable, dado algún valor específico de la otra variable. Al realizar predicciones, es necesario tener en cuenta lo siguiente:
Utilice el siguiente esquema para realizar las predicciones: