Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis Estadístico de Frecuencias: Covarianza y Correlación, Apuntes de Matemáticas

Documento que presenta el cálculo de la covarianza y la correlación entre dos variables estadísticas a partir de datos tabulados. El texto explica los conceptos básicos de covarianza y correlación, y luego calcula estas magnitudes para un conjunto de datos de ejemplo.

Tipo: Apuntes

2019/2020

Subido el 16/03/2022

Brayan_Flores_Moya
Brayan_Flores_Moya 🇨🇱

2 documentos

1 / 27

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
UNIVERSIDAD DE TARAPAC ´
A
FACULTAD DE CIENCIAS
BIOESTAD´
ISTICA
Apuntes de Clases
Primer Semestre de 2020
Profesor: Alvaro Cort´ınez Pontoni
Departamento de Matem´atica
1. Descripci´on Bivariante
En muchas ocasiones, a la hora de realizar un estudio estad´ıstico nos interesa es-
tudiar dos aspectos concretos de la poblaci´on; por ejemplo, si se pretende analizar el
rendimiento de ciertos alumnos ser´ıa interesante estudiar el umero de horas que estu-
dia cada alumno y la nota que obtiene en cada evaluaci´on. Para este tipo de estudios,
se utilizar´an variables estad´ısticas bidimensionales.
Realizaremos la descripci´on bivariante desde dos puntos de vista. El primero, cuando
se tienen los datos agrupados en una tabla de distribuci´on de frecuencias bivariante y
el segundo en que los datos est´an representados por pares ordenados num´ericos.
1.1. Tablas Bivariantes
Tambi´en llamadas ”tablas de doble entrada”, permiten presentar dos variables de
cualquier tipo, en base a sus valores posibles y la repetici´on de cada par. Cuando ambas
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b

Vista previa parcial del texto

¡Descarga Análisis Estadístico de Frecuencias: Covarianza y Correlación y más Apuntes en PDF de Matemáticas solo en Docsity!

UNIVERSIDAD DE TARAPAC ´A

FACULTAD DE CIENCIAS

BIOESTAD´ISTICA

Apuntes de Clases

Primer Semestre de 2020

Profesor: Alvaro Cort´ınez Pontoni Departamento de Matem´atica

1. Descripci´on Bivariante

En muchas ocasiones, a la hora de realizar un estudio estad´ıstico nos interesa es- tudiar dos aspectos concretos de la poblaci´on; por ejemplo, si se pretende analizar el rendimiento de ciertos alumnos ser´ıa interesante estudiar el n´umero de horas que estu- dia cada alumno y la nota que obtiene en cada evaluaci´on. Para este tipo de estudios, se utilizar´an variables estad´ısticas bidimensionales.

Realizaremos la descripci´on bivariante desde dos puntos de vista. El primero, cuando se tienen los datos agrupados en una tabla de distribuci´on de frecuencias bivariante y el segundo en que los datos est´an representados por pares ordenados num´ericos.

1.1. Tablas Bivariantes

Tambi´en llamadas ”tablas de doble entrada”, permiten presentar dos variables de cualquier tipo, en base a sus valores posibles y la repetici´on de cada par. Cuando ambas

variables cualitativas, se usa m´as el nombre de ”tablas de contingencia”. Las variables cuantitativas pueden ser representadas mediante valores o intervalos.

Con la intenci´on de reunir en una s´ola estructura (tabla) toda la informaci´on dispo- nible, creamos una tabla formada por I ×J casillas, organizadas de forma que se tengan I filas y K columnas. La casilla denotada de forma general mediante el sub´ındice ij har´a referencia a los elementos de la muestra que se asignan a la celda (i, j), es decir en la fila i y columna j.

En la celda (i, j) se registra la frecuencia (absoluta o relativa) con que se presenta la observaci´on (xi, yj ). Las variables pueden ser cuantitativas o cualitativas.

X\Y^ y 1 y 2 · · · yJ ni· x 1 n 11 n 12 · · · n 1 J n 1 · x 2 n 21 n 22 · · · n 2 J n 2 · ... · · · · · · ... · · · ...

xI nI 1 nI 2 · · · nIJ nI· n·i n· 1 n· 2 · · · n·J n··

La notaci´on es la siguiente:

· nij es la frecuencia absoluta del par (xi, yj )

· ni· es la frecuencia marginal absoluta de la observaci´on xi:

ni· =

∑^ J j=

nij

· n·j es la frecuencia marginal absoluta de la observaci´on yj :

n·j =

∑^ I i=

nij

· n·· es la suma de todas las frecuencias, es decir, el total de obsrvaciones, lo que corresponde al tama˜no muestral n:

n·· =

∑^ I i=

∑^ J j=

nij =

∑^ I i=

ni· =

∑^ J j=

n·j = n

Las frecuencias marginales pueden se representadas en tablas de distribuci´on de frecuencias univariantes:

xi ni· x 1 n 1 · x 2 n 2 · ... ...

xI nI· n··

yj n·j y 1 n· 1 y 2 n· 2 ... ...

yJ n·J n··

En base a estas tablas unidimensionales, se puede obtener toda la estad´ıstica des- criptiva univariante que hasta el momento se ha visto, por ejemplo: ¯x, ¯y, M dx, M dy, M ox, M oy, S x^2 , S y^2 , etc, adem´as de gr´aficos.

Ejemplo. Para el ejemplo del n´umero de asignaturas aprobadas en un semestre (Y ) y el n´umero de horas semanales dedicadas al estudio (X) de los estudiantes de cierta universidad, se tienen las siguientes tablas marginales: xi ni 0 8 1 12 2 22 3 30 4 31 5 28 131

yj nj 0 - 10 11 10 - 20 35 20 - 30 48 30 - 40 37 131

Obs´ervese que en las tablas del ejemplo se suprimieron los sub´ındices con punto (·). Considerando el contexto, ´estos pueden eliminarse, sin olvidar, eso s´ı, que se trata de tablas marginales y, por lo tanto, sus frecuencias fueron obtenidas a partir de sumas.

Ejemplo. Obtendremos el promedio, la desviaci´on est´andar, la media- na y la moda para ambas distribuciones marginales del ejemplo anterior. Para eso, procederemos de la misma forma que hici´eramos en la descripci´on univariante para tablas de Tipo I y II. A prop´osito, y con el fin de repasar, los c´alculos para la variable Y se har´an utilizando las frecuencias relativas.

xi ni Ni xi · ni x^2 i · ni 0 8 8 0 0 1 12 20 12 12 2 22 42 44 88 3 30 72 90 270 4 31 103 124 496 5 28 131 140 700 131 410 1566

x¯ =

∑ (^) x i ·^ ni n = (^410131) = 3 , 1298

Sx =

√ ∑ x^2 i · ni n −^ x¯

2

√ 1566 131 −^3 ,^1298

2

=

√ 2 ,1586 = 1, 4692

P os(M dx) = n^ + 1 2

= 1322 = 66 =⇒ M dx = 3

M ox = 4

yj y∗ j nj fj Fj y j∗ · fj y∗ j 2 · fj 0 - 10 5 11 0.0840 0.0840 0.4198 2. 10 - 20 15 35 0.2672 0.3512 0.4008 60. 20 - 30 25 48 0.3664 0.7176 9.1603 229. 30 - 40 35 37 0.2824 1 9.8855 345. 131 1 23.4736 637.

yj nij y 1 ni 1 y 2 ni 2 ... ... yI niJ ni·

De hecho, se pueden construir distribuciones de frecuencias sobre valores acumula- dos, por ejemplo, la distribuci´on de X para Y > yj.

Todas estas tablas condicionales, son, como se ve, unidimensionales y se les puede aplicar toda la estad´ıstica descriptiva univariante hasta ahora vista.

Ejemplo. Volvamos al conjunto de alumnos de cierta universidad, en que se re- gistr´o el n´umero de asignaturas aprobadas en un semestre (Y ) y el n´umero de horas semanales dedicadas al estudio (X). Vamos a obtener la distri- buci´on del n´umero de horas de estudio para quienes aprobaron 4 o m´as asignaturas y para quienes aprobaron s´olo una o ninguna. Para hacerlas comparables, calcularemos las frecuencias relativas.

Distribuci´on de Y Para X ≥ 4 yj nj fj 0 - 10 1 0. 10 - 20 7 0. 20 - 30 26 0. 30 - 40 25 0. 59 1

Distribuci´on de Y Para X ≤ 1 yj nj fj 0 - 10 9 0. 10 - 20 8 0. 20 - 30 2 0. 30 - 40 1 0. 20 1

Calculemos ahora el n´umero promedio de asignaturas aprobadas por los alumnos que estudiaron entre 10 y 20 horas. Para eso construimos la tabla de distribuci´on de frecuencias de X para 10 < Y < 20:

xi ni xi · ni 0 2 0 1 6 6 2 10 20 3 10 30 4 5 20 5 2 10 35 86

x¯ =^86 35

Es decir, los alumnos que estudiaron entre 10 y 20 horas, aprobaron en promedio casi 2.5 asignaturas.

1.2. Tablas tipo (X, Y )

Si cada observaci´on proviene de dos variables cuantitativas, es decir, a cada indi- viduo le corresponde un par (xi, yi), ´estos pueden ser presentados en una tabla de la forma:

Dosis de QTc Metadona (mm/seg) (mg/d´ıa) Paciente N´umero X^ Y 1 1000 600 2 550 625 3 97 560 4 90 585 5 85 590 6 126 500 7 300 700 8 110 570 9 65 540 10 650 785 11 600 765 12 660 611 13 270 600 14 680 625 15 540 650 16 600 635 17 330 522

En las tablas bivariantes, si las variables son cuantitativas, es posible repetir los pares (xi, yj ) tantas veces como lo indica su respectiva frecuencia. Espec´ıficamente, si la frecuencia es ni, sabemos que tenemos:

( ︸x 1 , y 1 ), (x 1 , y︷︷ 1 ) , · · · , (x 1 , y 1 )︸ nij veces

De esta forma, podr´ıamos escribir cada uno de los elemenos (xi, yj ) en una tabla simple, lo cual puede resultar muy tedioso,sobretodo si el n es muy grande.

  1. Covarianza y Correlaci´on

Uno de los puntos m´as fuertes del an´alisis bivariante, es la b´usqueda de una relaci´on entre las variables. El comportamiento conjunto de dos variables permite teorizar sobre c´omo una de ellas puede usarse para predecir la otra. Comenzamos con el concepto de covarianza, que representa la variaci´on conjunta de las variables. Se denota por cov(x, y) o Sxy:

Definici´on. La Covarianza entre X e Y se define como:

Sxy =

∑^ n i=

(xi − x¯)(yi − ¯y)

n

Sxy =

∑^ n i=

xi · yi n −

   

∑^ n i=

xi n ·

∑^ n i=

yi n

   

Se puede recordar como la diferencia entre el promedio de los productos y el pro- ducto de los promedios de x y y.

Esta medida por si mismo no tiene una interpretaci´on, m´as bien ser´a una herra- mienta para las siguientes medidas.

Ejemplo. Calcularemos la covarianza para el caso de los pacientes con torsade de pointes:

Sxy =

∑^ I i=

∑^ J j=

xi · yj · nij

n −

   

∑^ I i=

xi · ni·

n ·

∑^ J j=

yj · n·j

n

   

Sxy =

∑^ I i=

∑^ J j=

xi · yj · fij −

  ∑^ I i=

xi · fi· ·

∑^ J j=

yj · f·j

 

Si alguna de las variables se presenta en intervalos, se utilizar´a la marca de clase.

Ejemplo. Calculemos la covarianza para la tabla de un ejemplo ante- rior, que registra el tiempo de estudio y n´umero de asignaturas aprobadas. Reemplazaremos los intervalos por las marcas de clase.

X\Y^5 15 25

Ya hab´ıamos calculado los promedios:

¯x = 3 , 1298 y¯ = 23 , 4736 La covarianza es, entonces:

Sxy =

131 −^3 ,^1298 ·^23 ,^4736

131 −^73 ,^4677

Como ya se dijo, la covarianza es una medida de variaci´on conjunta. El signo nos proporciona una idea de, si hubiera alg´un tipo de dependencia entre las variables, ´esta ser´ıa directa, si el signo es positivo e inversa si el signo es negativo. Pero no nos da una magnitud de dicha relaci´on. Seg´un las unidades de medidas que se utilicen, la covarianza puede crecer o disminuir mucho. Se requiere, por lo tanto, buscar una forma de ”normalizar.esta medida. Para eso introducimos el C¸ oeficiente de Correlaci´on”:

Definici´on. Dadas las obsercaciones (x 1 , y 1 ), (x 2 , y 2 ), ..., (xn, yn), el coeficiente de correlaci´on entre X e Y , denotado por rXY o simplemente r se define como:

r = √ cov(x, y) V (X) · V (Y )

= (^) SS 2 xy x ·^ S y^2

El coeficiente de correlaci´on es una magnitud sin unidades de medida. Sirve para medir la calidad de un ajuste lineal. Se tiene que:

− 1 ≤ r ≤ 1.

Por lo tanto:

  1. Si r < 0, entonces existe una relaci´on lineal inversa entre X e Y. A medida que se acerca a -1, mejor es la relaci´on lineal inversa. Si es igual a -1, entonces la relaci´on es perfecta y decimos que son inversamente dependientes.

S^2 x =

) 2

⇒ Sx = 274 , 4840 S^2 y = 653465517 −

) 2

⇒ Sy = 74 , 7491

Por lo tanto:

r =

274 , 4840 · 74 , 7491 = 0,^5137

Hay una relaci´on directa no muy fuerte entre las variables.

Se puede ver, adem´as, dada la semejanza de las f´ormulas del coeficiente de correla- ci´on y la pendiente a de la recta, que una se puede obtener a partir de la otra:

ρ = a · Sy Sx

en que Sx y Sy son las desviaciones t´ıpicas de X e Y , respectivamente.

Ejemplo. Volvamos al ejemplo en que se estudia el n´umero de asignaturas apro- badas en un semestre (Y ) y el n´umero de horas semanales dedicadas al estudio (X):

X\Y^ 0 - 10 10 - 20 20 - 30 30 - 40

Ya hab´ıamos calculado la covarianza y las desviaciones est´andar:

Sx = 1 , 4692

Sy = 9 , 2798

Sxy = 7 , 60

Por lo tanto, el coeficiente de correlaci´on es:

r = 7 ,^60 1 , 4692 · 9 , 2798

Se ve una relaci´on directa entre el tiempo de estudio y el n´umero de asignaturas aprobadas, aunque esta relaci´on es d´ebil.

Algunos comentarios sobre el coeficiente de correlaci´on. Este coeficiente de correlaci´on es s´olo v´alido para variables cuantitativas. Para otros tipos de variables, con escalas nominales u ordinales, existen otros coeficientes, que no son considerados en este apunte.

M´as adelante, en Inferencia Estad´ıstica, se ver´a que el coeficiente de correlaci´on ”poblacional”se denota por ρ y sobre ´el se realizan inferencias. En particular, se con- trasta si ´este es 0 o no. Sin embargo, el hecho de que no sea cero, no necesariamente implica que haya una ”buena¸correlaci´on entre las variables. En Sampieri et al (2014) se hace la siguiente clasificaci´on:

xi yi 1000 600 550 625 97 560 90 585 85 590 126 500 300 700 110 570 65 540 650 785 600 765 660 611 270 600 680 625 540 650 600 635 330 522 el diagrama de dispersi´on es:

Al conjunto de puntos se le suele llamar ”nube de puntos”. Por lo tanto, lo que se busca es encontrar la forma de la nube de puntos en t´erminos de una relaci´on funcional, que en este caso es una recta.

Una recta est´a determinada por dos puntos. Si hay m´as puntos, ´estos deben ser coli- neales para determinar la recta. Naturalmente esto es pr´acticamente imposible cuando se trabaja con observaciones. Por lo tanto, lo que buscamos en realidad, es la recta que pase lo m´as cercano a todos los puntos. La expresi´on matem´atica de esa recta permitir´a predecir valores de una de las variables si se conoce el valor de la otra.

Ejemplo. En el diagrama de dispersi´on anterior, la recta que pasa lo m´as cerca posible de todos los puntos es algo as´ı:

Una recta tiene la forma:

y = a + bx

Esto se puede escribir de diferentes maneras y, de hecho, en los textos se puede encontrar como y = ax + b. Independiente de las letras que se utilicen para representar la recta, debe quedar claro que la constante que acompa˜na a la variable x es la pendiente y la constante libre o t´ermino libre es el corte con el eje Y. Usaremos en este apunte, y con el fin de no confundirnos, la expresi´on y = a + bx.

Como la recta pasa cerca de los puntos, para cada xi habr´a una diferencia entre yi y el valor sobre la recta, es decir a + bxi que denotaremos por ˆyi. Esa diferencia es el error (aleatorio) de estimaci´on: