Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Coeficiente de correlación lineal (r): cálculo y aplicaciones, Resúmenes de Ingeniería

El coeficiente de correlación lineal (r), una medida de la fuerza de la correlación lineal entre dos variables cuantitativas. Se proporcionan ejemplos de cálculo del coeficiente de correlación lineal (r) y se discuten las aplicaciones de este coeficiente en la regresión lineal. Además, se explican los procedimientos para validar el coeficiente de correlación lineal (r) y se proporciona una descripción del modelo matemático que mejor se ajusta a los datos.

Tipo: Resúmenes

2022/2023

Subido el 05/03/2024

leonel-tateshi-garcia-espinoza
leonel-tateshi-garcia-espinoza 🇧🇴

3 documentos

1 / 37

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
ESTADISTICA
autor
Septiembre 2022
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25

Vista previa parcial del texto

¡Descarga Coeficiente de correlación lineal (r): cálculo y aplicaciones y más Resúmenes en PDF de Ingeniería solo en Docsity!

ESTADISTICA

autor

Septiembre 2022

4 ÍNDICE GENERAL

Capítulo 1

REGRESIÓN LINEAL

1.1. Introducción

En este capítulo se analizará la relación que podría existir entre dos variables a las que llamaremos x y y, y para ello es necesario conocer y familiarizarse con conceptos como: CORRELACIÓN y REGRESIÓN, a continuación se irá detallando cada uno de estos conceptos con sus respectivos ejemplos.

1.2. Diagramas de dispersión

Los gráficos de dispersión se usan para averiguar la intensidad de la relación entre dos variables numéricas. El eje X representa la variable independiente, mientras que el eje Y representa la variable dependiente. Los gráficos de dispersión permiten responder preguntas sobre los datos, por ejemplo: ¿cuál es la relación entre dos variables? ¿Cómo se distribuyen los datos? ¿Dónde están los valores atípicos?.

1.3. Correlación

La correlación es una medida estadística que expresa hasta qué punto dos variables están relacionadas (esto es, cambian conjuntamente a una tasa constante). Es una herramienta común para describir relaciones simples sin hacer afirmaciones sobre causa y efecto.

1.3.1. Correlación lineal

Existe una correlación lineal entre dos variables cuando existe una correlación y los puntos graficados de los datos pareados dan como resultado un patrón que se puede aproximar a una linea recta.

1.3.2. Tipos de Correlación

Los diagramas de dispersión pueden mostrar 4 tipos de correlación, los mismos que se muestran a continuación:

5

1.4. COEFICIENTE DE CORRELACIÓN LINEAL (R) 7

Los puntos se ajustan a un patrón, lo cual sugiere que hay correlación entre x y y pero el patrón no es el de una linea recta, correlación no lineal. Debido a las conclusiones basadas en exámenes visuales de diagramas de dispersión son subjetivos en gran me- dida, se necesitan mediciones mas objetivas. Para este efecto, se debe contar con un valor que permita realizar conclusiones de una forma mucho más formal.

1.4. Coeficiente de correlación lineal (r)

El coeficiente de correlación lineal (r) mide la fuerza de la correlación lineal entre los valores cuan- titativos x y y en una muestra. El coeficiente de correlación lineal (r) asume valores que van − 1 ≤ r < 0 para una correlación negativa y 0 ≤ r ≤ 1 para una correlación positiva. El coeficiente de correlación lineal (r), se calcula a partir de la siguiente expresión:

r = n (

P

xy) −

P

x ∗

P

y p n ∗

P

x^2 − (

P

x)^2 ∗

p n ∗

P

y^2 − (

P

y)^2

(Buen formato para realizar los cálculos)

Donde: nX: número de pares de datos muestrales : expresa la suma de los elementos indicados X x: suma de todos los valores de x X x^2 : indica que cada valor de x debe elevarse al cuadrado y después esos cuadrados deben sumarse.

(

X

x)^2 : indica que los valores de x deben sumarse y el total debe elevarse al cuadrado. X xy: indica que cada valor de x debe multiplicarse por su correspondiente valor de y. Después se debe obtener la suma de todos esos productos. r: es el coeficiente de correlación lineal para datos muestrales. ρ: es el coeficiente de correlación lineal para una población de datos pareados.

Otra ecuación que permite calcular el coeficiente de correlación lineal (r) es:

r =

P

zxzy n − 1

(Buen formato para entender)

Donde: zx: expresa la puntuación z para un valor muestral individual x.

zx =

x − x¯ sx

x: valor individual x. x ¯: media de los valores x. sx: desviación estándar en x.

zy: expresa la puntuación z para un valor muestral correspondiente y.

zy = y − y¯ sy

8 CAPÍTULO 1. REGRESIÓN LINEAL

y: valor individual y. ¯y: media de los valores y. sy: desviación estándar en y.

1.4.1. Requisitos para calcular el coeficiente de Correlación lineal

Para cualquier recopilación de datos muestrales CUANTITATIVOS pareados, siempre es posible calcular el coeficeinte de correlación lineal si se cumplen los siguientes requisitos:

  1. La muestra de datos pareados (x, y, es una muestra aleatoria simple de datos cuantitativos. (Es importante que los datos muestrales no se hayan recopilado utilizando algún métodos inadecuado, como el uso de una muestra de respuesta voluntaria)
  2. El exámen visual del diagrama de dispersión debe confimar que los puntos se aproximan a un patrón en línea recta.
  3. Debido a quelos resultados pueden verse fuertemente afectados por la presncia de valores atípicos, es necesario eliminar tales valores si se sabe que representan errores.

1.4.2. Propiedades del coeficiente de Correlación lineal

  1. El valor de r siempre está entre − 1 y 1 inclusive. Es decir, − 1 ≤ r ≤ 1.
  2. Si todos los valores de cualquiera de las variables se convierten a una escala diferente, el valor de r no cambia.

Ejemplo 1.2. Hector registró la cantidad de café que tomó (en mililitros) y la duración de su trayecto al trabajo (en minutos) durante cinco días esta semana. Calcule el coeficiente de correalción lineal (r).

Café (ml) 100 200 150 75 225 Duración (minutos) 18 14 15 20 12

Los puntos se ajustan a un patrón, lo cual sugiere que hay correlación lineal negativa entre La cantidad de café que tomó Héctor y la duración del trayecto a su trabajo

r = n ∗

P

xy −

P

x ∗

P

y p n ∗

P

x^2 − (

P

x)^2 ∗

p n ∗

P

y^2 − (

P

y)^2

10 CAPÍTULO 1. REGRESIÓN LINEAL

  1. El valor de r no se ve afectado por la elección de x o y. Si se intercambian todos los valores de x y y, el valor de r no cambiará.

Ejemplo 1.4. Hector registró la cantidad de café que tomó (en mililitros) y la duración de su trayecto al trabajo (en minutos) durante cinco días esta semana. Calcule el coeficiente de correalción lineal (r).

Duración (minutos) 18 14 15 20 12 Café (ml) 100 200 150 75 225

Los puntos se ajustan a un patrón, lo cual sugiere que hay correlación lineal negativa entre La cantidad de café que tomó Héctor y la duración del trayecto a su trabajo

r = n ∗

P

xy −

P

x ∗

P

y p n ∗

P

x^2 − (

P

x)^2 ∗

p n ∗

P

y^2 − (

P

y)^2

n Café [ml] Duración [minutos] x ∗ y x^2 y^2 1 18 100 1800 324 10000 2 14 200 2800 196 40000 3 15 150 2250 225 22500 4 20 75 1500 400 5625 5 12 225 2700 144 50625 Sumatorias 79 750 11050 1289 128750

r =

  1. r mide la fuerza de una relación lineal. No está diseñado para medir la fuerza de una relación que no sea lineal.
  2. r es muy sensible a los valores atípicos en el sentido de que un único valor de este tipo podría afectar dramáticamente su valor.

Ejemplo 1.5. Hector registró la cantidad de café que tomó (en mililitros) y la duración de su trayecto al trabajo (en minutos) durante cinco días esta semana. Calcule el coeficiente de correalción lineal (r).

Duración (minutos) 18 14 15 20 12 Café (ml) 100 200 150 75 50

1.4. COEFICIENTE DE CORRELACIÓN LINEAL (R) 11

Los puntos se ajustan a un patrón, lo cual sugiere que hay correlación lineal negativa entre La cantidad de café que tomó Héctor y la duración del trayecto a su trabajo, pero se puede apreciar un valor atípico.

r = n ∗

P

xy −

P

x ∗

P

y p n ∗

P

x^2 − (

P

x)^2 ∗

p n ∗

P

y^2 − (

P

y)^2

n Café [ml] Duración [minutos] x ∗ y x^2 y^2 1 18 100 1800 324 10000 2 14 200 2800 196 40000 3 15 150 2250 225 22500 4 20 75 1500 400 5625 5 12 50 600 144 2500 Sumatorias 79 575 8950 1289 80625

r =

1.4.3. Cálculo del coeficiente de correlación lineal (r)

A continuación, veamos un ejemplo donde se muestra el procedimiento de cálculo del coeficiente de correlación lineal (r) empleando las dos ecuaciones antes mencionadas:

Ejemplo 1.6. La siguiente tabla muestra la relación entre las calificaciones y el tiempo de estudio (en horas) de cada examen sobre 20 puntos que tomó Dexter este año. Calcule el coeficiente de correalción lineal (r).

Tiempo de estudio (minutos) 45 70 150 195 15 90 Calificación (sobre 20) 14 16 18 19 12 16

Cálculo del coeficiente de correlación lineal (r), empleando la relación:

r = n ∗

P

xy −

P

x ∗

P

y p n ∗

P

x^2 − (

P

x)^2 ∗

p n ∗

P

y^2 − (

P

y)^2

Los puntos se ajustan a un patrón, lo cual sugiere que hay correlación lineal positiva entre el tiempo de estudio y la calificación obtenida.

1.4. COEFICIENTE DE CORRELACIÓN LINEAL (R) 13

El valor P que muestra el Minitab es de 0.002 para un nivel de significancia de 0.05, se cumple que Valor P ≤ α : Por lo tanto se respalda la afirmación de una correlación lineal.

Uso de los valores críticos de Pearson (tabla A-6)

Considere los valores críticos de la tabla A-6 como positivos y negativos y compare estos valores con el valor del coeficiente de correlación lineal (r) calculado con las ecuaciones mencionadas anteriormente. A continuación se muestra parte de la tabla A-6 que muestra los valores críticos para dos diferentes valores de α, el que se usará para la validación son los valores de α = 0, 05.

Los criterios para la validación del coeficiente de correlación lineal (r) se describen a continuación:

Correlación: Si el coeficiente de correlación lineal calculado (r) se encuentra en la región de la cola izquierda o derecha mas allá del valor crítico para esa cola, se concluye que hay evidencia suficiente para respaldar la afirmación de una correlación lineal. Sin correlación: Si el coeficiente de correlación lineal calculado se encuentra entre los dos valores críticos, concluya que no hay evidencia suficiente para respaldar la afirmación de una correlación lineal.

14 CAPÍTULO 1. REGRESIÓN LINEAL

Para el ejemplo 5.6, rcalculado = 0, 963 , para n = 6, tenemos un valor crítico de rcritico = 0, 811 , como rcalculado es positivo, tomaremos la cola derecha del gráfico para validar el rcalculado

Como el rcalculado se encuentra más allá del rcritico, (más cerca a 1), se concluye que existe evidencia suficiente para respaldar la afirmación de que existe correlación lineal entre las horas de estudio y la calificación obtenida.

1.4.5. Errores comunes relacionados con la correlación

A continuación se describen tres de los errores más comunes que se producen en la interpretación de resultados que involucran correlación:

  1. Suponer que la correlación implica causalidad
  2. Usar datos basados en promedios, ya que los promedios suprimen la variación individual y pueden inflar el coeficiente de correlación.
  3. Ignorar la posibilidad de una relación no lineal, si no existe una correlación lineal, puede haber alguna otra correlación que no sea lineal.

1.5. Ejercicios Propuestos

  1. A continuación se listan las cantidades de embarcaciones recreativas registradas en Florida (decenas de miles) y el número de muertes de mantíes por encuentros con embarcaciones durante cada uno de los últimos años.

Embarcaciones recreativas 99 99 97 95 90 90 87 90 90 Muertes de manatíes 92 73 90 97 83 88 81 73 68

a) Construya el diagrama de dispersión y comente el resultado b) ¿Existe evidencia suficiente para concluir que existe una correlación lineal entre el nú- mero de embarcaciones recreativas registradas y el número de muertes de manatíes por encuentros con embarcaciones?

16 CAPÍTULO 1. REGRESIÓN LINEAL

Temperatura (◦C) 100 110 120 125 130 140 150 160 170 180 190 200 % de producto resultante 45 51 54 53 59 63 69 74 78 86 89 94

a) Construya el diagrama de dispersión y comente el resultado b) ¿Existe evidencia suficiente para concluir que existe una correlación lineal entre la tem- peratura del experimento y el porcentaje de producto obtenido?

  1. Se sabe que la resistencia de un neumático depende de su presión. Se probó un nuevo tipo de neumático a distintas presiones, mostrandom los resultados siguientes:

Presión (libras por pulgada) 30 31 32 33 34 35 36 37 38 39 40 Resistencia (en miles de millas) 29.4 32.2 35.9 38.4 36.6 34.8 35.0 32.2 30.5 28.6 27.

a) Construya el diagrama de dispersión y comente el resultado b) ¿Existe evidencia suficiente para concluir que existe una correlación lineal entre la presión del neumático y su resistencia al uso?

1.6. Regresión

En esta sección se presentan métodos para encontrar la ecuación de la línea resta que mejor se ajusta a los puntos en un diagrama de dispersión de datos muestrales pareados. Esa línea recta con el mejor ajuste se denomina línea de regresión y su ecuación se llama ecuación de regresión. La ecuación de regresión sirve para realizar predicciones para el valor de ian de las variables, dado algún valor específico de la otra variable. Dada una colección de datos muestrales pareados, la línea de regresión es la recta que "mejor"se ajusta al diagrama de dispersión de los datos. La ecuación de regresión:

ˆy = a + bx

describe algebraicamente la línea de regresión. La ecuación de regresión expresa una relación entre x (llamada variable explicativa, variable predictora o variable independiente) y yˆ (llamada variable de respuesta o variable dependiente).

En Estadística la ecuación de la línea de regresión se expresa como: yˆ = a + bx, donde a es la intersección y b es la pendiente. Ambos valores a y b se pueden obtener a partir de los muchos programas de software y también a partir de cálculos manuales empleando fórmulas.

1.6.1. Requisitos para la determinación de a y b de la ecuación de regresión

  1. La muestra de datos pareados (x, y) es una muestra aleatoria de datos cuantitativos.
  2. El examen visual del diagrama de dispersión muestra que los puntos se aproximan a un patrón en línea recta.
  3. Los valores atípicos pueden tener un fuerte efecto en la ecuación de regresión; por lo tanto se debe eliminar los valores atípicos si estos representan errores.

1.6.2. Ecuaciones para determinar la pendiente y la intersección en la ecuación

de regresión

Para determinar los valores de la pendiente y la intersección de la ecuación de regresión se pueden emplear las siguientes ecuaciones:

1.6. REGRESIÓN 17

Primera forma para determinar la pendiente y la intersección

b = r ∗

Sy Sx (ecuación para hallar la pendiente)

Donde: r: Coeficiente de correlación lineal Sx: Desviación estándar de los valores de x Sy: Desviación estándar de los valores de y

a = ¯y − b ∗ x¯ (ecuación para hallar la intersección)

Donde: y ¯: media de los valores en y x ¯: media de los valores en x

Veamos un ejemplo:

Ejemplo 1.7. La siguiente tabla muestra la relación entre las calificaciones y el tiempo de estudio (en horas) de cada examen sobre 20 puntos que tomó Dexter este año. Encuentre la ecuación de regresión lineal.

Tiempo de estudio (minutos) 45 70 150 195 15 90 Calificación (sobre 20) 14 16 18 19 12 16

Calculamos el coeficiente de correlación lineal:

n Tiempo de estudio [minutos] Calificación [sobre 20] x ∗ y x^2 y^2 1 45 14 630 2025 196 2 70 16 1120 4900 256 3 150 18 2700 22500 324 4 195 19 3705 38025 361 5 15 12 180 225 144 6 90 16 1440 8100 256 Sumatorias 565 95 9775 75775 1537

r =

Calculamos las desviaciones estándar para ambas variables:

n Tiempo de estudio [minutos] Calificación [sobre 20] 1 45 14 2 70 16 3 150 18 4 195 19 5 15 12 6 90 16 media ¯x =94.2 media y¯ =15. Sx =67.2 Sy =2.

Calculamos la pendiente:

b = r ∗

Sy Sx

1.6. REGRESIÓN 19

La ecuación de regresión es:

ˆy = 12,374 + 0, 037 x

Ambos métodos proporcionan valores bastante próximos para la pendiente y la intersección.

Regla de redondeo para la pendiente y la intersección: Redondee a y b a tres dígitos signifi- cativos.

1.6.3. Interpretación de la pendiente y la intersección

Pendiente

Indica la cantidad en que se incrementa o disminuye el valor de la variable y, cuando la variable x aumenta una unidad. El incremento se presenta cuando el valor de b es positivo y la disminución en el caso contrario.

Intersección

La intersección es el punto exacto en el cual la línea de regresión corta al eje y, asume un valor en y cuando x es igual a 0. Veamos un ejemplo:

Ejemplo 1.9. La siguiente tabla muestra la relación entre las calificaciones y el tiempo de estudio (en horas) de cada examen sobre 20 puntos que tomó Dexter este año. Interprete el significado de la pendiente y la intersección de la ecuación de regresión.

Tiempo de estudio (minutos) 45 70 150 195 15 90 Calificación (sobre 20) 14 16 18 19 12 16

La ecuación de regresión es:

y ˆ = 12,4 + 0, 037 x

b: 0.037, significa que la calificación se incrementa en 0.037 puntos por un minuto que se incrementa en el tiempo de estudio. a: 12.4, significa que si el tiempo de estudio de Dexter es 0 (no dedica tiempo a estudiar) la calificación que obtendrá es 12.4 puntos.

1.6.4. Validación del modelo de regresión lineal

La validación del modelo de regresión se realiza encontrando los valores de yˆ a partir de la ecuación de regresión y los valores de x, estos datos se deben graficar sobre el diagrama de dispersión y asi determinar subjetivamente qué tan bien se ajusta la línea de regresión a los datos originales. Veamos un ejemplo:

Ejemplo 1.10. La siguiente tabla muestra la relación entre las calificaciones y el tiempo de estudio (en horas) de cada examen sobre 20 puntos que tomó Dexter este año. Valide el modelo de regresión sobre el diagrama de dispersión.

Tiempo de estudio (minutos) 45 70 150 195 15 90 Calificación (sobre 20) 14 16 18 19 12 16

La ecuación de regresión es:

20 CAPÍTULO 1. REGRESIÓN LINEAL

y ˆ = 12,4 + 0, 037 x

Reemplazamos los valores de x en la ecuación y encontramos los valores de yˆ. Luego graficamos los valores de yˆ y x sobre el diagrama de dispersión original.

n Tiempo de estudio yˆ = 12,4 + 0, 037 x (x) 1 45 14. 2 70 15. 3 150 18. 4 195 19. 5 15 13. 6 90 15.

Se puede apreciar que la línea de regresión se ajusta bien a los puntos de los datos originales, por lo tanto la ecuación de regresión es un buen modelo para realizar predicciones.

1.6.5. Predicciones a partir de la ecuación de regresión

Con frecuencia, las ecuaciones de regresión son útiles para predecir el valor de una variable, dado algún valor específico de la otra variable. Al realizar predicciones, es necesario tener en cuenta lo siguiente:

  1. Modelo Malo: Si la ecuación de regresión no parece ser útil para hacer predicciones, no use la ecuación de regresión para realizarlas. Para los malos modelos, el mejor valor predicho de una variable es simplemente su media muestral.
  2. Buen modelo: Utilice la ecuación de regresión para realizar predicciones sólo si la gráfica de la línea de regresión sobre el diagrama de dispersión confirma que la línea de regresión se ajusta razonablemente bien a los puntos.
  3. Correlación: Use la ecuación de regresión para realizar predicciones sólo si el coeficiente de correlación lineal (r9 indica que existe una correlación lineal entre las dos variables.
  4. Alcance: Utilice la línea de regresión para realziar predicciones sólo si los datos no van mas allá del alacance de los datos muestrales disponibles.

Utilice el siguiente esquema para realizar las predicciones: