Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


estadística cap11, Apuntes de Estadística

Asignatura: Estadística para Ciencias de la Salud, Profesor: Antonio Segura Fragoso, Carrera: Enfermería, Universidad: UCLM

Tipo: Apuntes

2012/2013

Subido el 29/11/2013

riensita
riensita 🇪🇸

4.4

(96)

80 documentos

1 / 19

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Correlación
1
APUNTES
DE
BIOESTADÍSTICA APLICADA
EN
CIENCIAS DE LA SALUD
Capítulo 11
Contraste de Hipótesis. Asociación entre dos
variables cuantitativas. Correlación lineal de
Pearson.
Antonio Segura Fragoso
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Vista previa parcial del texto

¡Descarga estadística cap11 y más Apuntes en PDF de Estadística solo en Docsity!

APUNTES

DE

BIOESTADÍSTICA APLICADA

EN

CIENCIAS DE LA SALUD

Capítulo 11

Contraste de Hipótesis. Asociación entre dos

variables cuantitativas. Correlación lineal de

Pearson.

Antonio Segura Fragoso

ASOCIACIÓN ENTRE DOS VARIABLES CUANTITATIVAS.

CORRELACIÓN de Pearson.

Correlación

El problema consiste en averiguar si existe asociación o relación entre dos variables cuantitativas que han sido medidas simultáneamente en los sujetos de estudio.

Coeficiente de correlación de Pearson r.

Para su explicación seguiremos el siguiente ejemplo: Se desea saber si existe relación (o asociación) entre la temperatura corporal y la frecuencia cardiaca en sujetos afectados por un síndrome febril. Se procede a la medición de ambas variables en un grupo de sujetos y se obtienen los siguientes resultados:

Sujeto Pulsaciones/m (x)

Temperatura ºC (y)

1 2 3 4 5 6 7 8 9

10

100 80 115 55 110 85 75 125 65 90

40 38, 39, 36, 41 39, 37, 41 38 38

media desv. estándar

m(x) = 90 σ = 22,

m(y) = 38, σ = 1,

Como se ve, ambas variables han sido medidas de forma cuantitativa en cada uno de los sujetos. De esta forma conocemos para cada individuo su número de pulsaciones y su temperatura corporal.

De forma intuitiva diremos que existe relación (o asociación) entre pulsaciones y temperatura cuando se observe que ambas variables están ligadas (o co-varían), es decir, que hay una tendencia a que en los sujetos en que aumenta una, aumente también la otra. O también que en los sujetos que aumenta, la otra disminuya. Por el contrario, diremos que no existe relación (son independientes) si no se observa esta ligazón, o sea que si una aumenta o disminuye, la otra se comporte de forma aleatoria (en unos sujetos aumenta y en otros disminuye).

Esto puede apreciarse observando la representación gráfica de las dos variables que, como sabemos, es el diagrama de dispersión:

En la Figura siguiente se muestran 3 posibles diagramas de dispersión que muestran diferentes relaciones entre las variables Temperatura y Pulsaciones. El gráfico 1 es el que corresponde a los datos del ejemplo. En él se ve cómo ambas variables co-varían en sentido positivo ya que hay una tendencia clara a que al aumentar la temperatura, aumentan las pulsaciones. En el gráfico 2

En la Figura siguiente se muestran los cálculos de las covarianzas en los tres gráficos de la Figura anterior.

Cuando existe relación entre las variables, la co-varianza se aparta de cero ya que las desviaciones tienden a concentrarse en una determinada dirección y al multiplicarlas alcanzan valores positivos o negativos y no se anulan al sumarlas. Es el caso de los ejemplos 1 y 2.

Por el contrario, cuando no hay relación entre las variables (la distribución de los puntos es muy dispersa), el valor de la co-varianza se acerca a cero, es pequeño, ya que al producirse las desviaciones en todas direcciones, al multiplicarlas y después sumarlas tienden a anularse, como puede apreciarse con los datos del ejemplo 3.

Temperatura Puls 1 producto xi yi (xi-mx) (yi-my) (xi-mx)(yi-my) 36,5 55 -2,45 -35 85, 37,5 75 -1,45 -15 21, 38 65 -0,95 -25 23, 38 90 -0,95 0 0 38,5 80 -0,45 -10 4, 39,5 115 0,55 25 13, 39,5 85 0,55 -5 -2, 40 100 1,05 10 10, 41 110 2,05 20 41 41 125 2,05 35 71, mx=38,95 my=90 suma=

30 9

270 Cov = =

Temperatura Puls 2 producto xi yi (xi-mx) (yi-my) (xi-mx)(yi-my) 36,5 100 -2,45 29 -71, 37,5 75 -1,45 4 -5, 38 65 -0,95 -6 5, 38 95 -0,95 24 -22, 38,5 85 -0,45 14 -6, 39,5 75 0,55 4 2, 39,5 50 0,55 -21 -11, 40 65 1,05 -6 -6, 41 55 2,05 -16 -32, 41 45 2,05 -26 -53, mx=38,95 my=71 suma= - 202

22 , 4 9

202 =−

Cov =

Temperatura Puls 3 producto xi yi (xi-mx) (yi-my) (xi-mx)(yi-my) 36,5 100 -2,45 19 -46, 37,5 50 -1,45 -31 44, 38 100 -0,95 19 -18, 38 55 -0,95 -26 24, 38,5 125 -0,45 44 -19, 39,5 50 0,55 -31 -17, 39,5 95 0,55 14 7, 40 60 1,05 -21 -22, 41 115 2,05 34 69, 41 60 2,05 -21 -43, mx=38,95 my=81 suma= - 19,

2 , 16 9

19 , 5 =−

Cov =

Grados x pulsaciones

Grados x pulsaciones

Grados x pulsaciones

Por tanto, la co-varianza parece ser una buena medida de la co-variación. Pero tiene el inconveniente de que depende de las unidades en que están medidas las variables. Esto produce dos problemas:

  • Primero: es difícil de interpretar. La covarianza del ejemplo 1 es 30 pulsaciones multiplicado por grados de temperatura (lo cual es difícil de entender).
  • Segundo: depende de las unidades de medida. Si una variable está medida en unidades “grandes” (por ejemplo millones de glóbulos rojos), el valor de la covarianza será enorme. En cambio, si las unidades son “pequeñas” por ejemplo la creatinina cuyo valor puede ser de 0,6 mg/dl, el valor de la covarianza será muy pequeño.

El resultado es que nunca sabremos realmente si hay mucha o poca covarianza cuando comparemos variables distintas.

La solución a este problema es buscar un índice o coeficiente derivado de la covarianza que carezca de unidades y permita la comparación entre cualesquiera variables. Este es el llamado coeficiente de correlación de Pearson.

Coeficiente de correlación de Pearson

El coeficiente de correlación que se designa por r , derivado de la co-varianza, tiene por fórmula:

x y

i x i y

x y

xy xy

n
x m y m
arianza
r

σσ σ σ

cov (,)

(,)

donde σx y σy son las desviaciones estándar de las variables x e y.

Es decir, el coeficiente de correlación es simplemente la covarianza de x e y dividida por el producto de sus desviaciones estándar (es una especie de covarianza estandarizada), y tiene algunas particularidades importantes:

  • Carece de unidades ya que las unidades están en el numerador y en el denominador y se anulan.
  • Puede demostrarse que su valor oscila entre -1 y +.

Interpretación de los valores de r

Cuando su valor se aproxima a 1 o -1, indica la máxima correlación entre las variables (directa o inversa).

Cuando se aproxima a cero, indica ausencia de correlación (independencia entre las variables).

La correlación es:

Perfecta: r = 1 Excelente: 0,9 < r < 1 Buena: 0,8 < r < 0, Regular: 0,5 < r < 0, Mala: r < 0,

O visto sobre una escala,

-1 -0,9 -0,8 -0,6 -0,5 -0,1 0 0,1 0,5 0,6 0,8 0,9 1 Muy fuerte

Fuerte Moderada fuerte

Mode rada

Débil Muy débil o no correlación

Débil Mode rada

Moderada fuerte

Fuerte Muy fuerte

negativa positiva

Ejemplo:

esquemática por lo que no serán abordadas aquí.

En los ejemplos que siguen se supondrá que se cumplen todas estas condiciones.

Contraste de hipótesis sobre la correlación entre dos variables cuantitativas

De la misma forma que en el caso de la diferencia de medias o proporciones, este grado de correlación observado ¿es real o puede ser debido al azar del muestreo?.

Recordemos los datos observados en la muestra en la Figura siguiente.

Figura 11.

Correlación observada entre temperatura y pulsaciones
Correlación observada 0,89, buena/excelente
Esta correlación es muy alta. La temperatura corporal se correlaciona de
forma directa (a más..más) con la frecuencia cardiaca.
Pero…….. ésta diferencia observada ¿es real o podría ser explicada por el
azar del muestreo?

Temperatura Puls 1 producto xi yi (xi-mx) (yi-my) (xi-mx)(yi-my) 36,5 55 -2,45 -35 85, 37,5 75 -1,45 -15 21, 38 65 -0,95 -25 23, 38 90 -0,95 0 0 38,5 80 -0,45 -10 4, 39,5 115 0,55 25 13, 39,5 85 0,55 -5 -2, 40 100 1,05 10 10, 41 110 2,05 20 41 41 125 2,05 35 71, mx=38,95 my=90 suma=270 (^) 0 , 89 33 , 7

cov( (^) ,) 30 ( ,)= = × = = x y

xy

rxy σ σ

Una vez planteada la pregunta y observados los datos, seguiremos los pasos habituales para realizar el contraste de hipótesis:

1.- Plantear la hipótesis nula Ho y la hipótesis alternativa H 1. 2.- Definir el estadístico de contraste. 3.- Definir el nivel de significación (α). Habitualmente α = 0,05. 4.- Calcular el valor del estadístico de contraste. 5.- Se busca en las tablas de probabilidad del estadístico si éste supera o no la variabilidad aleatoria, es decir, si cae en la zona de aceptación o de rechazo de H0. Para ello se busca en las tablas la “p” correspondiente a su valor. Si p< α (<0,05), se rechaza Ho, y se acepta alternativamente H 1 como verdadera. Esta decisión tiene asociado un riesgo de error α que consiste en considerar verdadera H 1 cuando en la realidad sea falsa y la verdadera es Ho que no debía haber sido rechazada. Si p ≥ α (≥0,05) se acepta H0 (es decir se considera verdadera) y se corre un riesgo β (error de tipo II) de cometer un error y que en realidad H0 sea falsa.

1.- Plantear la hipótesis nula Ho y la hipótesis alternativa H 1

Hipótesis nula: La hipótesis nula H0 se podría formular de todas estas formas que son equivalentes:

  • La temperatura corporal y la frecuencia cardiaca son independientes.
  • La temperatura corporal y la frecuencia cardiaca no están relacionadas.
  • No hay asociación entre la temperatura corporal y la frecuencia cardiaca...

En términos estadísticos se formularía así:

H0: r ( x , y )= 0

Hipótesis alternativa: La Hipótesis alternativa H1 en este caso la formularemos como la contraria de H0. Es decir:

  • La temperatura corporal y la frecuencia cardiaca no son independientes.
  • La temperatura corporal y la frecuencia cardiaca están relacionadas.
  • Existe asociación entre la temperatura corporal y la frecuencia cardiaca.

Y en términos estadísticos H1 quedaría así formulada:

H1: r ( x , y )≠ 0

2.- Definir el estadístico de contraste:

En este caso se utilizará el estadístico r de Pearson cuya fórmula, como hemos visto, es la siguiente:

x y

i x i y

x y

xy xy

n
x m y m
arianza
r

σσ σ σ

cov (,)

(,)

Siendo

x i e yi son los diferentes valores de las variables x e y.

Toda el área bajo la curva es igual a 1 (o 100%). Sobre ella, se puede determinar la zona de variabilidad aleatoria o aceptación de H0 y la zona de rechazo de H0. El punto crítico que separa ambas zonas, es el valor de r correspondiente al nivel de significación α =0,05. Este valor lo tendremos que mirar en las tablas de probabilidad de r.

La distribución del coeficiente de correlación lineal r, al igual que la distribución chi-cuadrado, t de Student, y F depende también de los grados de libertad. En este caso los grados de libertad son n-2.

g. d. l. der = n − 2

El motivo es que en el cálculo intervienen dos variables, cada una con una restricción.

Busquemos entonces en las tablas de probabilidad de r.

Tabla de probabilidad de rTabla de probabilidad de r Tabla de probabilidad de r

Valores de r

Valores de α o p

Grados de libertad

Ojo: Esta tabla es bilateral y el nivel de significación hay que buscarlo en la columna de α = 0,

Como vemos, la tabla tiene en el interior valores de r. En la fila superior de encabezamiento, valores de probabilidad α a la izquierda y derecha del valor de r de que se trate. Y en la columna exterior, a la izquierda, diferentes grados de libertad, desde 1 a 100. 100 g.d.l. se considera ya como infinito. Por tanto en esta tabla están todas las curvas de r posibles. El primer paso es elegir la fila con los grados de libertad apropiados a nuestro problema. En el

ejemplo que estamos manejando, n-2 g.d.l. = 10-2=8 gdl.

El segundo paso es determinar cuál sería el valor de r que corresponde al nivel de significación que marca el punto crítico que separa la zona de aceptación de la zona de rechazo de H0. El nivel de significación elegido es α =0,05 en la curva r. A este valor de α le corresponde un valor de r = 0,6319. Este es el punto crítico que separa la zona de aceptación de la zona de rechazo de H0. Como nuestro valor r observado es de 0,89, mayor que 0,639, caerá en la zona de rechazo. Ya sabemos que la decisión será rechazar H0. Y sabemos que p es menor de 0,05. Pero vamos a intentar afinar un poco más el valor de p de este contraste de hipótesis.

Para ello busquemos en las tablas cuál es el valor p, que corresponde al estadístico r que habíamos calculado que era 0,89. Situándonos en la fila de 8 gdl, no encontramos este valor 0,89, pero todavía es menos de 0,01. Es lo más que podemos afinar, por tanto p<0,01.

Como conclusión , rechazaríamos H0 y adoptaríamos la hipótesis alternativa H1. H1 quiere decir que aceptamos que la correlación observada en la muestra entre las variables temperatura y pulsaciones es demasiado grande para ser explicada por el azar del muestreo y aceptamos que es real y que existe en la población de la que procede la muestra estudiada, y que lo que ocurre es que la suposición de la que partimos de que H0 es cierta, es errónea. Dicho en otros términos, la probabilidad de encontrar una correlación tan grande como la observada (o aún máyor) si H0 fuera cierta es tan pequeña, que no nos creemos H0 y la rechazamos, adoptando entonces H1. La probabilidad de que nos equivoquemos al tomar esta decisión es alfa < 0,01.

Aunque ya lo vimos en el capítulo anterior, recordemos la interpretación correcta de p.

Interpretación de los valores de p

Volvemos a recordar estos conceptos. El valor p es la probabilidad de que simplemente por variación aleatoria (error de muestreo) se produzca la diferencia o desigualdad que hemos encontrado en una muestra (o una diferencia aún más grande), si no existiese en absoluto desigualdad en la población de la que procede la muestra (Martínez-González, 2006). En cierto modo, el valor de p es una medición de nuestro grado de sorpresa ante un resultado. Cuanto más pequeño es el valor p, mayor la sorpresa por el resultado (Ware, 1992). Los valores p no miden si la diferencia es muy grande o muy pequeña, ni mucho menos si es importante o no desde el punto de vista práctico. Un error que se comete a menudo es considerar que el valor p (o alfa) es la probabilidad de que H sea cierta. No es correcto. Es simplemente la probabilidad de haber observado en una muestra una diferencia tan grande como la que hemos visto (o más grande aún), si H0 fuera verdad.

Decisiones tras conocer el valor p

P < 0,05 P ≥ 0,

Se rechaza H0 No se puede rechazar H

No parece que el azar lo explique todo No se puede descartar que el azar lo explique todo

El “efecto” es mayor que el error El “efecto” es similar al error

EJERCICIOS

Ejercicio 1 .- En un estudio se han observado las siguientes puntuaciones en el Índice de Barthel y la escala del Dolor. ¿Existe relación entre ambas variables?. Interpreta los resultados tanto clínica como estadísticamente.

Sujeto I Barthel Dolor 1 87 2 2 45 5 3 70 3 4 23 7 5 90 1 6 66 4 7 79 3 8 100 0 9 88 1 10 69 3 11 70 2 12 65 3

Solución: r = - 0,963; P<0,

Ejercicio 2 .- En una investigación en pacientes diabéticos se han observado las siguientes resultados en los valores de Glucemia y Hemoglobina glucosilada. ¿Existe relación entre ambas variables?. Interpreta los resultados tanto clínica como estadísticamente..

Sujeto Glucemia Hb glucosilada 1 123 6 2 146 6, 3 100 5, 4 165 6, 5 98 5, 6 111 6, 7 114 6, 8 147 6,

Solución: r = 0,866; P = 0,

Ejercicio 3 .- ¿Existe relación entre los niveles de colesterol y la presión arterial sistólica en el siguiente grupo de pacientes?. Interpreta los resultados tanto clínica como estadísticamente.

Sujeto Colesterol PA Sistólica 1 201 120 2 247 114 3 223 165 4 267 123 5 198 145 6 247 157 7 222 120

Solución: r = - 0,128; P = 0,

Ejercicio 4 .-El Índice de Masa Corporal (IMC = peso en kg/talla en metros) es la medida más usada para evaluar el grado de obesidad de las personas. Sin embargo, no es tan clara la relación con la cantidad de grasa corporal. Se desea averiguar el grado de correlación del IMC con el porcentaje de grasa corporal, medida por impedancia. Para ello se diseña un estudio transversal en una muestra de varones adultos, observándose los siguientes resultados:

SUJETO IMC % GRASA 1 2 3 4 5 6 7 8 9

a)Formular H0. b)calcular el coeficiente de correlación y su significación estadística. c)¿Existe relación entre ambas variables?. Interpreta los resultados tanto clínica como estadísticamente.

Solución: a) H0: no existe correlación entre IMC y % GRASA b) r = 0,782; Con g.d.l.=n-2=10, en la tabla de r se obtiene un valor de p < 0, El valor exacto de p, calculado con el ordenador es P = 0, c)Interpretación Clínica: El coeficiente de correlación es 0,782, es decir una correlación moderada-fuerte. Esto tendría importancia clínica, ya que permitiría usar el IMC (que es muy fácil de calcular), como un indicador razonable del porcentaje de grasa corporal (que es más complicado de obtener). Interpretación estadística: La correlación, además de ser importante, es estadísticamente significativa (p<0,01). La decisión es rechazar H0, aceptando alternativamente H1. Esta decisión conlleva un riesgo de error de tipo 1 o alfa, igual al valor de p obtenido (p<0,01). Esto significa que si en la población de la que se obtuvo la muestra estudiada la correlación fuera cero (r = 0), la probabilidad de que por el azar del muestreo se hubiera obtenido un r = 0,782 o mayor, es <0,01.

Ejercicio 5 .- El dolor es una de las razones más comunes para que un niño acuda al servicio de urgencias. La adecuada gestión del síntoma dolor depende de la capacidad para evaluar con precisión el grado de dolor, usando una herramienta válida. Dos de las escalas más usadas son Faces Pain Scale Revised (FPS-R) y Color Analog Scale (CAS). Se desea averiguar el grado de correlación entre ambas escalas.

El valor exacto de p, calculado con el ordenador es P < 0, c)Interpretación Clínica: El coeficiente de correlación es 0,826, es decir una correlación fuerte. Esto tendría importancia clínica, ya que permitiría usar indistintamente una u otra escala. No obstante, serían necesarios estudios con mayor número de niños, con suficiente número en las diversas edades (sobre todo en los más pequeños menores de 7 años), sexo, etnia, etc, para comprobar que estos resultados son consistentes. Interpretación estadística: La correlación, además de ser importante, es estadísticamente significativa (p<0,01). La decisión es rechazar H0, aceptando alternativamente H1. Esta decisión conlleva un riesgo de error de tipo 1 o alfa, igual al valor de p obtenido (p<0,001). Esto significa que si en la población de la que se obtuvo la muestra estudiada la correlación fuera cero (r = 0), la probabilidad de que por el azar del muestreo se hubiera obtenido un r = 0,826 o mayor, es <0,01. Nota: para comprobar la concordancia entre ambas escalas habría que hacer otros análisis estadísticos: validez convergente (correlación de Pearson y grado de acuerdo (método de Bland- Altman); validez discriminante (prueba t de Student comparando niños con dolor y sin dolor); reproducibilidad (test-retest), etc.

Ejercicio6 .-El hábito de fumar es perjudicial para la salud de las personas fumadoras, y también de los fumadores pasivos, que inhalan el humo en ambientes cerrados. Pero cuando una mujer embarazada fuma ¿repercute sobre la salud del niño?. Para ello se diseña un estudio longitudinal en una muestra de mujeres embarazadas a las que se pregunta su edad, el número de cigarrillos diarios que fuman, y posteriormente, tras el parto, se anota el peso del recién nacido. Se han observado los siguientes resultados:

Mujer nº N CIGARRILLOS EDAD PESO NIÑO 1 0 30 3, 2 10 31 2, 3 5 26 2, 4 15 35 2, 5 0 28 2, 6 15 36 2, 7 20 34 2, 8 0 28 3, 9 20 36 2, 10 10 34 2, 11 5 24 2, 12 0 22 3, 13 15 38 2, 14 10 24 3, 15 5 25 3 16 0 31 3, 17 0 29 3, 18 5 26 2, 19 15 24 2, 20 20 40 2, 21 10 33 3 22 15 35 2, 23 0 27 3, 24 15 30 2, 25 10 28 2, 26 0 20 3, 27 15 30 2, 28 10 28 2,

Interesa saber lo siguiente: ¿Existe relación entre el número de cigarrillos que fuma la madre y el peso al nacer del niño? ¿Existe relación entre la edad de la madre y el peso al nacer del niño? ¿Fuman más las mujeres más mayores?

Para cada una de las preguntas… a)Formular las correspondientes H0. b)Calcular los coeficientes de correlación y su significación estadística. c)Interpretar los resultados obtenidos tanto clínica como estadísticamente.

Soluciones:

¿Existe relación entre el número de cigarrillos que fuma la madre y el peso al nacer del niño?

a)H0: no existe correlación entre N CIGARRILLOS y PESO NIÑO; r = 0 b) r = – 0,75; Con g.d.l. = n-2 = 26, en la tabla de r no se encuentra una fila de 26 g.d.l. Se toma la más próxima que es 25 g.d.l y se obtiene un valor de p < 0, El valor exacto de p, calculado con el ordenador es P < 0, c)Interpretación Clínica: El coeficiente de correlación es – 0,75, es decir una correlación negativa moderada/fuerte. Esto significa que a más número de cigarrillos, menor peso del niño. Tiene importancia clínica, ya que puede afectar al desarrollo futuro del niño. También tiene importancia preventiva, ya que refuerza

A modo de comprobación, se ofrecen las medias de peso de los niños (en gramos) según las diferentes categorías de número de cigarrillos de las madres. Se aprecian varios resultados que coinciden con lo observado en la correlación: a) Cuanto más fuman las madres, menor es el peso del niño (casillas amarillas). b) Cuanto mayor es la madre, menor es el peso del niño (casillas azules) c) las madres más mayores y más fumadoras, tienen los niños más pequeños (casilla roja)

< 30 años

30 o más años Total

PESO BEBES PESO BEBES PESO BEBES

Media gramos Media gramos Media gramos No fumadoras 3.283 3.450 3. hasta 10 cigarrillos/día 2.886 2.700 2. más de 10 cigarrillos/día 2.900 2.544 2. Total 3.057 2.707 2.

EDADR

También se aprecia con mucha claridad en este diagrama de barras tridimensional en el que se cruzan las mismas tres variables de la tabla anterior: EDAD, NCIGARRILLOS y PESO. Las madres que no fuman (barras verdes) son las que tienen los niños con mayor peso. Las madres mayores y fumadoras (barra azul) tienen los niños más pequeños.