Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis datos bivariantes: Tablas doble entrada, correlación y distribución frecuencias, Apuntes de Estadística

El tema 3 de estadística i, donde se enseña el análisis de datos bivariantes. Se explica la estructura de las tablas de doble entrada, la correlación y sus tipos, así como las medidas de dependencia lineal. Se recomiendan lecturas adicionales y se brinda un ejemplo de datos bivariantes.

Tipo: Apuntes

2014/2015

Subido el 08/01/2015

victordepedro35
victordepedro35 🇪🇸

3.8

(5)

2 documentos

1 / 21

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Estad´ıstica I
Tema 3: An´alisis de datos bivariantes
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15

Vista previa parcial del texto

¡Descarga Análisis datos bivariantes: Tablas doble entrada, correlación y distribución frecuencias y más Apuntes en PDF de Estadística solo en Docsity!

Estad´ıstica I

Tema 3: An´alisis de datos bivariantes

Tema 3: An´alisis de datos bivariantes

Contenidos

3.1 Tablas de doble entrada.

I (^) Datos bivariantes.

I (^) Estructura de la tabla de doble entrada.

I (^) Distribuciones de frecuencias marginales.

I (^) Distribuci´on conjunta de frecuencias relativas.

I (^) Distribuciones de frecuencias condicionadas.

I (^) Tabla de doble entrada para variables cuantitativas.

3.2 Correlaci´on.

I (^) Diagrama de dispersi´on.

I (^) Tipos de relaci´on entre dos variables cuantitativas.

I Medidas de dependencia lineal.

Datos bivariantes

Ejemplo Nivel educativo (X ) y situaci´on laboral (Y ) de 10 Madrile˜nos.

Nivel educativo (1=Primaria o menos, 2=Secundaria, 3=Post-secundaria)

Situaci´on laboral (1=Empleado, 2=Desempleado, 3=Inactivo)

Individuo 1 2 3 4 5 6 7 8 9 10

Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2

Situaci´on laboral (Y ) 3 1 1 3 3 3 3 3 1 3

Datos bivariantes

I (^) Datos bivariantes: provienen de la observaci´on simult´anea de dos

variables (X , Y ) en una muestra de n individuos. Los datos

bivariantes son parejas de valores, num´ericos o no, de la forma:

(x 1 , y 1 ), (x 2 , y 2 ),... , (xn, yn)

I Se usan para describir las dos variables conjuntamente o una variable

en funci´on de la otra.

I (^) A menudo se intenta describir el comportamiento de una de las

variables, que se llama la variable dependiente y se denota por Y , en

funci´on de la otra variable, que se llama la variable independiente o

explicativa, y se denota por X.

Estructura de la tabla de doble entrada/tabla de

contingencia

Ejemplo Datos de 1508 madrile˜nos (Encuesta de Condiciones de Vida).

X : Nivel educativo, Y : Situaci´on laboral

Y

Empleado Desempleado Inactivo

Primaria 95 6 315

X Secundaria 393 28 257

Post-secundaria 317 8 89

I (^) Se denomina distribuci´on conjunta de (X , Y ) al conjunto formado

por los valores observados en forma de pares, junto con las

frecuencias absolutas correspondientes a cada par.

Estructura de la tabla de doble entrada

I (^) Tabla de doble entrada con k filas y m columnas

Y

y 1 · · · yj · · · ym Total

x 1 n 11 · · · n 1 j · · · n 1 m n 1 

. . .

X x i n i 1 · · · n ij · · · n im n i

xk nk 1 · · · nkj · · · nkm nk

Total n  1 · · · n j · · · n m n 

I Notaci´on:

n ij frecuencia absoluta en la casilla (i, j)

Total de fila i: n i = n i 1

  • n i 2
  • · · · + n im

Total de columna j: n j = n 1 j

  • n 2 j
  • · · · + n kj

n ·· tama˜no muestral n ·· = n

Distribuciones de frecuencias marginales

I (^) Se denomina distribuci´on marginal de X al conjunto de valores que

toma X junto con sus frecuencias absolutas marginales.

I (^) An´alogamente se define la distribuci´on marginal de Y.

I (^) Observaci´on: Si en lugar de tener dos variables (X , Y ) tuvi´eramos

tres (X , Y , Z ) tendr´ıamos tres distribuciones marginales.

Distribuci´on conjunta de frecuencias relativas

I (^) f ij = n ij /n ·· frecuencia relativa en la casilla (i, j)

Y

y 1 · · · y j · · · y m Total

x 1 f 11 · · · f 1 j · · · f 1 m f 1 

X xi fi 1 · · · fij · · · fim fi

x k f k 1 · · · f kj · · · f km f k

Total f 1 · · · fj · · · fm 1

I (^) Frecuencia relativa marginal de la fila i:

fi = fi 1 + · · · + fij + · · · + fim

I (^) Frecuencia relativa marginal de la columna j:

fj = f 1 j + · · · + fij + · · · + fkj

Distribuci´on de frecuencias condicionadas

Ejemplo Distribuci´on de frecuencias del nivel educativo para inactivos.

X |Y = Inactivo Primaria Secundaria Post-secundaria Total

n i 3

Distribuci´on de frecuencias del nivel educativo para desempleados.

X |Y = Desemp. Primaria Secundaria Post-secundaria Total

n i 2

Se ha visto, as´ı, la definici´on m´as sencilla de distribuci´on condicionada.

Puede condicionarse tambi´en al hecho de que la variable tome varios

valores, por ejemplo: X |(Y = Inactivo) ∪ (Y = Desempleado).

Tabla de doble entrada para variables cuantitativas

Ejemplo 43 alumnos encuestados

X : N´um. de veces que han ido al teatro en el ´ultimo mes

Y : N´um. de veces que han ido al cine en el ´ultimo mes

Y

0 1 2 3 4 Total

X 2 3 3 2 0 0 8

Total 20 11 8 3 1 43

I (^) Si X e Y son cuantitativas discretas tomando un n´umero peque˜no

de valores, la tabla se construye de la misma forma que para el caso

de variables cualitativas.

Diagrama de dispersi´on

I (^) La representaci´on gr´afica m´as com´un para dos variables

cuantitativas es el diagrama de dispersi´on

Ejemplo m

2 habitables y Precio de 15 viviendas.

Tipos de relaci´on entre variables cuantitativas

Medidas de dependencia lineal

I sxy >> 0 ⇒ Relaci´on lineal positiva.

I sxy << 0 ⇒ Relaci´on lineal negativa.

I sxy ≈ 0 ⇒ No existe relaci´on lineal o existe relaci´on no lineal.

I Inconvenientes de la covarianza:

I No est´a acotada ni superior ni inferiormente. Por lo tanto no se sabe

cu´ando es sxy suficientemente grande o peque˜na.

I (^) Depende de las unidades de medida de las variables:

Si sxy es la covarianza de X e Y , y a, b ∈ R, b 6 = 0 y T = a + bY ,

entonces sxt = bsxy.

Medidas de dependencia lineal

I Coeficiente de correlaci´on lineal de Pearson:

r(x,y ) =

sxy

s x s y

I ¿Ventajas?

I (^) Est´a acotado: − 1 ≤ r (x,y ) ≤ 1

I Es adimensional.

I (^) Interpretaci´on del coeficiente de correlaci´on de Pearson:

I r(x,y ) > 0 Dependencia Directa.

I (^) r (x,y ) < 0 Dependencia Indirecta.

I (^) |r (x,y ) | = 1 Relaci´on Lineal Perfecta.

I r (x,y ) = 0 X e Y est´an Incorreladas (ausencia de relaci´on lineal).