Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis de Correspondencias: Técnica Estadística para Tablas de Contingencia - Prof. Lópe, Apuntes de Estadística

El documento 'análisis de correspondencias' de salvador figueras explica la técnica estadística del mismo nombre aplicada a la análisis de tablas de contingencia. El texto presenta ejemplos con datos de parados en aragón clasificados por sexo, provincia y nivel de estudios, y describe cómo obtener perfiles fila y columna, así como las dimensiones principales que más contribuyen a la inercia de los datos. El documento también incluye gráficos para facilitar la comprensión.

Tipo: Apuntes

2012/2013

Subido el 23/12/2013

ricardomartinflores96
ricardomartinflores96 🇪🇸

3.6

(5)

10 documentos

1 / 33

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
© Citar como: Salvador Figueras, M (2003): "Análisis de Correspondencias", [en línea] 5campus.com,
Estadística <http://www.5campus.com/leccion/correspondencias> [y añadir fecha consulta]
Lección
Estadística ANÁLISIS DE CORRESPONDENCIAS
© Citar como: Salvador Figueras, M (2003): "Análisis de Correspondencias", [en línea]
5campus.com, Estadística <http://www.5campus.com/leccion/correspondencias> [y añadir
fecha consulta]
Presentación:
El Análisis de Correspondencias es una técnica estadística que se aplica al análisis
de tablas de contingencia y construye un diagrama cartesiano basado en la asociación entre
las variables analizadas. En dicho gráfico se representan conjuntamente las distintas
modalidades de la tabla de contingencia, de forma que la proximidad entre los puntos
representados está relacionada con el nivel de asociación entre dichas modalidades.
En esta lección se va a dar una breve visión general de dicha técnica ilustrada con
ejemplos.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21

Vista previa parcial del texto

¡Descarga Análisis de Correspondencias: Técnica Estadística para Tablas de Contingencia - Prof. Lópe y más Apuntes en PDF de Estadística solo en Docsity!

Estadística [y añadir fecha consulta]

Lección

Estadística ANÁLISIS DE CORRESPONDENCIAS

© Citar como: Salvador Figueras, M (2003): "Análisis de Correspondencias" , [en línea] 5campus.com, Estadística [y añadir fecha consulta]

Presentación: El Análisis de Correspondencias es una técnica estadística que se aplica al análisis de tablas de contingencia y construye un diagrama cartesiano basado en la asociación entre las variables analizadas. En dicho gráfico se representan conjuntamente las distintas modalidades de la tabla de contingencia, de forma que la proximidad entre los puntos representados está relacionada con el nivel de asociación entre dichas modalidades. En esta lección se va a dar una breve visión general de dicha técnica ilustrada con ejemplos.

Estadística [y añadir fecha consulta] Introducción ¿Existe algún tipo de relación entre el sexo, la religión y la nacionalidad de una persona? ¿Hay alguna relación entre el sexo, el nivel de estudios y la provincia en la que viven de los parados de un país? ¿Es cierto que las personas con los ojos claros tienden a ser rubias y los que tienen los ojos oscuros tienden a tener el pelo de color castaño o negro? ¿Existe alguna relación entre el sector en el que se encuentra encuadrada una empresa y la posibilidad de que quiebre? ¿Existe alguna relación entre el estado marital de una persona que solicite un crédito y la posibilidad de que sea un moroso? ¿QUÉ TIENEN EN COMÚN TODOS ESTOS PROBLEMAS? ¿CÓMO RESOLVERLOS? En esta lección trataremos de responder a estas cuestiones.

Estadística [y añadir fecha consulta] Apartados

  1. Planteamiento del problema
  2. Perfiles Marginales y Condicionales
  3. Dependencia e Independencia en Tablas de Correspondencias
  4. Análisis de Correspondencias Clásico
  5. Reglas de interpretación de los Resultados
  6. Análisis de Correspondencias Múltiples

Estadística [y añadir fecha consulta] Contenidos 1.- PLANTEAMIENTO DEL PROBLEMA El Análisis de Correspondencias es una técnica estadística que se utiliza para analizar, desde un punto de vista gráfico, las relaciones de dependencia e independencia de un conjunto de variables categóricas a partir de los datos de una tabla de contingencia. Para ello asocia a cada una de las modalidades de la tabla, un punto en el espacio R n (habitualmente n=2) de forma que las relaciones de cercanía/lejanía entre los puntos calculados reflejen las relaciones de dependencia y semejanza existentes entre ellas. En esta lección comenzaremos analizando el problema bidimensional que es el que analiza el Análisis de Correspondencias propiamente dicho. Posteriormente consideraremos, brevemente, el problema n-dimensional con n≥3 que es el problema que analiza el Análisis de Correspondencias Múltiples. 1.1 Tabla de Correspondencias Sea X e Y dos variables categóricas con valores {x 1 ,...,xr } y {y 1 ,...,yc }, respectivamente. Se observan dichas variables en n.. elementos de una población obteniéndose los siguientes resultados:

Estadística [y añadir fecha consulta]

Ejemplo (Parados de Aragón): Los siguientes datos corresponden a la distribución del número de parados de Aragón (España) en el año 1996 clasificados por Sexo, Provincia y Nivel de Estudios Tabla 1 Tabla de correspondencias del paro en Aragón en 1996 Tabla de correspondencias

147 1120 908 268 149 127 94 2813 182 751 564 108 138 50 58 1851 415 6545 5690 1997 1415 670 877 17609 72 902 1646 561 417 461 236 4295 57 534 1127 288 331 260 127 2724 204 5931 9434 3250 2872 2196 1890 25777 1077 15783 19369 6472 5322 3764 3282 55069

Sexo y ProvinciaH_Huesca H_Teruel H_Zaragoza M_Huesca M_Teruel M_Zaragoza Margen activo

Est_Pri Cf_Esc Gra_Esc BUP FP Diplomado Universitario Margen activo

Nivel de Estudios

En este caso X = Sexo*Provincia y toma r=6 valores correspondientes a todas las combinaciones de Sexo (Hombre, Mujer) y Provincia (Huesca, Teruel y Zaragoza) e Y = Nivel de estudios y toma c=7 valores (Estudios Primarios, Certificado Escolar, Graduado Escolar, BUP, FP, Diplomado y Universitario) El número total de casos es 55069 y n (^) 3. = 17609 es la frecuencia marginal de parados varones de Zaragoza y n.4 = 6474 es la frecuencia marginal de parados cuyo nivel de estudios alcanza hasta BUP

Estadística [y añadir fecha consulta]

2. PERFILES MARGINALES Y CONDICIONALES Los perfiles marginales describen la distribución marginal de las variables X e Y. Vienen dados por las siguientes tablas: Perfil marginal de X X x 1 ... x (^) i ... xr Total Frecuencias Marginales ..

n

n 100

..

i. n

n 100

..

r. n

n 100 100

Perfil marginal de Y Y y 1 ... y (^) j ... yc Total Frecuencias Marginales ..

. 1 n

n 100

..

.j n

n 100

..

.c n

n 100 100

Los perfiles condicionales describen las distribuciones condicionadas asociadas a la Tabla de Correspondencias. Los perfiles fila describen las distribuciones condicionadas de la variable Y por los distintas modalidades de la variable X. Se obtienen a partir de la Tabla de Correspondencias y el perfil marginal de X mediante las siguientes expresiones:

Estadística [y añadir fecha consulta]

Y y (^1) ... yj (^) ... yc Totales

f(y/X=x 1 )

11 n

n 100 ...

1 j n

n 100 ...

1 c n

n 100 100

f(y/X=x (^) i) i.

i 1 n

n 100 ... i.

ij n

n 100 ... i.

ic n

n 100 100

f(y/X=xr ) r.

r 1 n

n 100 ... r.

rj n

n 100 ... r.

rc n

n 100 100

Ejemplo (Parados de Aragón)(continuación) En la Tabla 2 se muestran los perfiles fila así como el perfil marginal de la variable Sexo*Provincia. Así mismo, en la Figura 1 se representan, en forma de diagrama de líneas, los perfiles fila. Así, por ejemplo, se observa que un 9.8% de los Hombres de Teruel parados tienen un nivel de estudios primario cifra mucho más elevada que la correspondiente a la distribución marginal en la que únicamente un 2% de los parados poseen dicho nivel de estudios. Se aprecia (ver Figura 1) una clara distinción por Sexos. Así entre los parados que son hombres hay una mayor tendencia a tener niveles de estudios bajos (Estudios Primarios y Certificado Escolar) mientras que las mujeres hay una mayor tendencia a tener niveles superiores (Graduado Escolar, FP, BUP, Diplomado y Universitario) Tabla 2 Perfiles fila

Estadística [y añadir fecha consulta] % de Sexo y Provincia

5.2% 39.8% 32.3% 9.5% 5.3% 4.5% 3.3% 100.0% 9.8% 40.6% 30.5% 5.8% 7.5% 2.7% 3.1% 100.0% 2.4% 37.2% 32.3% 11.3% 8.0% 3.8% 5.0% 100.0% 1.7% 21.0% 38.3% 13.1% 9.7% 10.7% 5.5% 100.0% 2.1% 19.6% 41.4% 10.6% 12.2% 9.5% 4.7% 100.0% .8% 23.0% 36.6% 12.6% 11.1% 8.5% 7.3% 100.0% 2.0% 28.7% 35.2% 11.8% 9.7% 6.8% 6.0% 100.0%

H_Huesca H_Teruel H_Zaragoza M_Huesca M_Teruel M_Zaragoza

Sexo yProvincia

Marginal

Est_Pri Cf_Esc Gra_Esc BUP FP Diplomado Universitario

Nivel de Estudios Total

Nivel de Estudios

Universitario Diplomado

FP BUP

Gra_Esc Cf_Esc

Est_Pri

Porcentaje

50

40

30

20

10

0

Sexo y Provincia H_Huesca H_Teruel H_Zaragoza M_Huesca M_Teruel M_Zaragoza

Figura 1: Diagramas de línea correspondientes a los perfiles fila En la Tabla 3 se muestran los perfiles columna así como el perfil marginal de la variable Nivel de Estudios. Los perfiles columna aparecen, además, representados en forma de diagrama de líneas en la Figura 2 Tabla 3 Perfiles columna

Estadística [y añadir fecha consulta]

paro en las diplomadas de Huesca y una menor en los graduados escolares varones que viven en Zaragoza.

Estadística [y añadir fecha consulta]

3.- DEPENDENCIA E INDEPENDENCIA EN TABLAS DE CORRESPONDENCIAS

La existencia o no de algún tipo de relación entre las variables X e Y se analiza mediante contrastes de hipótesis sobre la independencia de dichas variables. El test de

hipótesis habitualmente utilizado es el de la χ^2 de Pearson.

En dicho test la hipótesis nula es H 0 : X e Y son independientes y la alternativa es H 1 : X e Y son dependientes

El test se basa en comparar los perfiles fila y columna con los perfiles marginales correspondientes, teniendo en cuenta que si H 0 es cierta todos los perfiles fila (resp. columna) son iguales entre sí e iguales al perfil marginal de X (resp. de Y).

El estadístico del test viene dado por la expresión:

G^2 =

= =

r −

i 1

c j (^1) ij

2 ij ij

e

n e

= =

r −

i 1

c j 1 ..

.j

2

..

.j i.

ij i.

n

n

n

n

n

n

n

= =

r −

i 1

c j 1 ..

i.

2

..

i. .j

ij .j

n

n

n

n

n

n

n

donde e (^) ij = E[nij |H 0 cierta] = ..

i. .j

n

n n

. Intuitivamente, valores pequeños de G^2 significan que

los valores de n (^) ij y e (^) ij son cercanos y, por lo tanto, que H 0 es cierta y, por el contrario, valores grandes de G^2 darían evidencia de que H 0 es falsa.

Bajo la hipótesis nula G^2 se distribuye, asintóticamente, según una χ 2 (r − 1 )(c− 1 )y el p-

valor del test viene dado por:

P[ χ 2 (r − 1 )(c− 1 )≥ G 2 obs]

donde G 2 obs es el valor observado en la muestra del estadístico G^2. Para un nivel de

significación 0<α<1 la hipótesis H 0 se rechaza si dicho p-valor es menor o igual que α.

Si la hipótesis nula se rechaza, las variables X e Y son dependientes. En este caso conviene analizar los perfiles condicionales fila y columna así como los residuos del modelo para estudiar qué tipo de dependencia existe entre ellas. Los residuos más

Estadística [y añadir fecha consulta]

4.- ANÁLISIS DE CORRESPONDENCIAS CLASICO El examen de las razones específicas de las desviaciones de la hipótesis de independencia es la razón de ser del Análisis de Correspondencias. El método consiste, esencialmente, en encontrar la descomposición en valores singulares de la matriz:

C = (cij ) con c ij =

eij

nij −eij

para, a partir de ella, construir un sistema de coordenadas (habitualmente bidimensional) asociado a las filas y columnas de la tabla de contingencia, que refleje las relaciones existentes entre dichas filas y columnas.

En dicha representación juegan un papel importante las llamadas "distancias χ^2 " entre perfiles que son las que el Análisis de Correspondencias intenta reproducir en sus representaciones gráficas. Dichas distancias son distancias pitagóricas ponderadas entre perfiles que vienen dadas por las siguientes expresiones:

Distancia entre perfiles filas dij = ∑

c k 1

2

j.

jk i.

ik

. k n

n

n

n

n

Distancia entre perfiles columnas d1ij = ∑

r k 1

2

.j

kj .i

ki

k. n

n

n

n

n

Estas distancias tienen la llamada propiedad de equivalencia distribucional la cual afirma que si dos filas (columnas) de N son proporcionales entonces su amalgamiento no afectará a las distancias entre columnas (filas). Por lo tanto las distancias χ^2 son invariantes a variaciones en la codificación de las categorías con comportamiento similar en cuanto a sus perfiles condicionales. 4.1 Objetivos del Análisis de Correspondencias El Análisis de Correspondencias busca encontrar 2 matrices de coordenadas cartesianas

A =

a

ar

que represente a los puntos fila con a (^) i = (a (^) i1 ,...,a (^) ik)’

Estadística [y añadir fecha consulta]

B =

b

bc

que represente a los puntos columna con b (^) j = (b (^) j1 ,...,bjk)’

(habitualmente k=2) tales que se verifique que:

1) La distancia euclídea al cuadrado entre ai y a i' sea la distancia χ^2 entre las filas i y i'

2) La distancia euclídea al cuadrado entre bi y bj' sea la distancia χ^2 entre las columnas j y j'

3) El producto escalar entre ai y bj sea proporcional a los residuos tipificados c ij.

4.2 Cálculo de las coordenadas Existen diversas formas de calcular las matrices A y B anteriores. Dichas formas reciben el nombre de normalizaciones y se diferencian en a cuál de los objetivos 1) a 3) dan más prioridad. Una de las más utilizadas es la llamada normalización simétrica o canónica que busca satisfacer el objetivo 3 anterior. Para ello descompone la matriz C anterior en valores singulares calculando matrices U, D y V tales que C = = UDV’ U’U= V’V = I U rxK, V cxK, K = min{r-1,c-1} D = diag(μ 1 ,…,μK) μi reciben el nombre de valores singulares i=1,...,K Las matrices A y B se calculan a partir de las expresiones:

A = D r^ −^1 /^2 UD y B = D c^ −^1 /^2 VD 

donde D r = diag(n (^) 1. ,...,nr. ) y D c = diag(n (^) .1 ,...,n.c ). 4.3 Interpretación baricéntrica Se verifica que:

a 0

n

r n

k (^1) .. kj

∑ k.^ =

=

; j=1,...,K

b 0

n

c n

k 1 kj ..

.k =

=

; j=1,...,K

por lo que los puntos a i’^ i=1,...,r y b j’^ j=1,...,c tendrá una media baricéntrica igual al origen. Además:

Estadística [y añadir fecha consulta] Miden la importancia de cada una de las modalidades de las variables analizadas en la construcción de los ejes factoriales construidos por el Análisis de Correspondencias. Vienen dadas por:

Contribución i-ésima fila : Ctk(i)= (^2) k

2 i. ik r j 1

2 j. jk

2

i. ik n a

n a

n a

=

Contribución j-ésima columna : Ct (^) k(j)= (^2) k

2 .j jk c i 1

2 .i ik

2

. j jk n b

n b

n b

=

Se verifica que Ct (i) Ct (j) 1

c j 1 k

r i 1

∑ k =^ ∑ =

= = Se utilizan para interpretar el significado de los ejes utilizando, para cada uno de ellos, las modalidades con contribuciones más fuertes Contribuciones relativas Miden la importancia de cada factor para explicar la posición, en el diagrama cartesiano, de cada una de las modalidades de las variables analizadas, representando la parte de la distancia al origen de coordenadas, explicada por dicho factor. Vienen dadas por:

Cr (^) k(i) =

=

K l 1

2 il

2 ik

a

a

Cr (^) k(j) =

=

K l 1

2 jl

2 jk

b

b

y son los cuadrados de los cosenos de los ángulos entre la dimensión k-ésima y el punto representando el perfil de la fila i-ésima o la columna j-ésima. Se verifica que:

Cr (i) Cr (j) 1

c j 1 k

r i 1

∑ k =^ ∑ =

= = Se utilizan para analizar las proximidades entre los puntos haciendo más hincapié en aquellos factores cuyas contribuciones sean más elevadas a la hora de explicar dichas proximidades. Elementos suplementarios

Estadística [y añadir fecha consulta] Son filas o columnas de la tabla de contingencia no utilizadas en el cálculo de los ejes factoriales pero que, una vez calculados éstos, se sitúan en el diagrama cartesiano con el fin de ayudar en la interpretación de los resultados obtenidos. Sus coordenadas se calculan utilizando las relaciones baricéntricas existentes entre los puntos fila y columna. No todos los paquetes estadísticos proporcionan, explícitamente, esta utilidad por lo que se aconseja estudiar los manuales de ayuda en cada caso. Ejemplo (Paro en Aragón) (continuación) En las Tablas 5 a 7 y las Figuras 3 a 5 se muestran los resultados obtenidos al realizar un Análisis de Correspondencias con normalización simétrica a los datos de la Tabla 1 utilizando el programa Correspondence de SPSS 10.0. En la Tabla 5 se muestran las contribuciones de cada una de las K = min{6-1,7-1} = 5 dimensiones calculadas por el programa, a la intercia total. Se observa que, solamente la primera dimensión contribuye un 82.5% a dicha inercia y que las dos primeras contribuyen un 96.9% por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones Tabla 5 Contribuciones a la inercia total de cada dimensión Resumen

.218 .047 .825 .825 .004. .091 .008 .144 .969. .035 .001 .021. .024 .001 .010. .006 .000 .001 1. .057 3160.768 .000a^ 1.000 1.

Dimensión 1 2 3 4 5 Total

Valor propio Inercia Chi-cuadrado Sig. Explicada Acumulada

Proporción de inercia Desviacióntípica 2

Correlaci ón

Confianza para el Valorpropio

a.30 grados de libertad En la Tabla 6 y la Figura 3 se muestran las puntuaciones de los perfiles fila de la Tabla 1 así como las contribuciones totales de cada perfil fila a la inercia de cada dimensión y las contribuciones relativas de cada dimensión la inercia del punto. Se observa (ver Figura 3) que la primera dimensión discrimina por Sexos. Además, (ver Tabla 6) los puntos fila que más contribuyen la inercia de la primera dimensión son las Mujeres de Zaragoza y los Hombres de las 3 provincias. Dicha dimensión es, a su vez, la que más contribuye a explicar la inercia de cada uno de dichos puntos.