Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Coeficientes de Asociación: Reducción del Error en Variables Nominales y Ordinales - Prof., Apuntes de Estadística

Este tema aborda las medidas de asociación basadas en la reducción proporcional del error para las relaciones entre variables medidas a nivel nominal y ordinal. Se estudian coeficientes de asociación como lambda y tau-y, que permiten evaluar la reducción de errores al utilizar información adicional sobre las variables independientes. Se incluyen ejemplos y aplicaciones a las ciencias sociales.

Tipo: Apuntes

2010/2011

Subido el 14/12/2011

cokimiss
cokimiss 🇪🇸

4.4

(7)

2 documentos

1 / 6

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TEMA 2: MEDIDAS DE ASOCIACIÓN PARA VARIABLES NOMINALES Y
ORDINALES
Este tema aborda las medidas de asociación basadas en la reducción proporcional
del error para las relaciones entre variables medidas a nivel nominal y ordinal.
I. COEFICIENTES BASADOS EN LA REDUCCIÓN PROPORCIONAL DEL ERROR
El problema de la predicción es común a todas las ciencias, por tanto parece
adecuado basar una medida de asociación en la idea de realizar predicciones
precisas de los valores de alguna variable dependiente.
Si nuestro conocimiento teórico y empírico nos indica que las personas más
religiosas votan con más frecuencia que las no religiosas a partidos de derechas,
estamos diciendo que conociendo las diferencias de puntuación en el nivel de
religiosidad podemos realizar predicciones más precisas sobre el partido que se va
a votar. Si fuera posible evitar todos los errores de predicción del partido por el que
se va a votar al basar nuestras predicciones en el nivel de religiosidad, en tal caso
existiría una asociación perfecta entre ambas variables. En la realidad ocurre que la
asociación no es perfecta, aunque si bastante alta, la medida de asociación que se
obtenga expresará la proporción de los errores predictivos originales que se pueden
evitar gracias al nivel del conocimiento de religiosidad.
Según sea el nivel de medición de las variables cuya asociación tratamos de
conocer así será el tipo de valor que se trata de predecir. Cuando disponemos de
variables nominales lo que interesa predecir es la categoría o puntuación exacta de
la variable dependiente, siendo suciente predecir el valor modal de la variable
dependiente.
Si el análisis de asociación se basa en variables ordinales pretenderemos predecir el
orden del rango de pares de valores en la variable dependiente. Cuando las
variables vienen dadas a nivel de intervalo trataremos de predecir el valor de la
media aritmética de la variable independiente.
La predicción de la variable se realiza siguiendo dos reglas:
La predicción 1 se realiza bajo la regla de la mínima suposición, cuando no se
conoce más que la distribución de la variable dependiente.
La predicción 2 se realiza bajo condiciones más favorables, al conocerse la
distribución de las categorías de las variables independientes y de la distribución en
cada una de ellas de las correspondientes categorías de la variable dependiente.
Las medidas de asociación que vamos a estudiar consisten en un contraste entre
los errores cometidos al realizar la primera de las predicciones y los errores
cometidos al utilizar la segunda predicción utilizando la moda (variables nominales),
el orden de rango (variables ordinales) y la media (variables de intervalo).
Errores cometidos con predicción II-Errores con
predicción I
Medida de asociación RPE=-------------------------------------------------------------------------------
Errores cometidos con predicción I
II. MEDIDAS DE ASOCIACIÓN PARA VARIABLES NOMINALES LAMBDA Y TAU-
Y DE GOODMAN Y KRUSKAL
1. COEFICIENTE LAMBDA
Este coeciente también es llamado coeciente de predictividad de GUTTMAN.
Se trata de una medida asimétrica de asociación creada para analizar distribuciones
bivariables en las que ambas variables son de tipo nominal. La fórmula para
Lambda se puede expresar en términos de la reducción proporcional en el error
cometido al predecir la moda.
my= suma de las frecuencias modales de las categorías de la variable
independiente x (número de errores cometidos bajo la predicción II).
STADÍSTICA APLICADA A LAS CIENCIAS SOCIALES II
PAGE 1
Profª. Remedios Castillo Pérez
pf3
pf4
pf5

Vista previa parcial del texto

¡Descarga Coeficientes de Asociación: Reducción del Error en Variables Nominales y Ordinales - Prof. y más Apuntes en PDF de Estadística solo en Docsity!

TEMA 2: MEDIDAS DE ASOCIACIÓN PARA VARIABLES NOMINALES Y

ORDINALES

Este tema aborda las medidas de asociación basadas en la reducción proporcional del error para las relaciones entre variables medidas a nivel nominal y ordinal.

I. COEFICIENTES BASADOS EN LA REDUCCIÓN PROPORCIONAL DEL ERROR

El problema de la predicción es común a todas las ciencias, por tanto parece adecuado basar una medida de asociación en la idea de realizar predicciones precisas de los valores de alguna variable dependiente. Si nuestro conocimiento teórico y empírico nos indica que las personas más religiosas votan con más frecuencia que las no religiosas a partidos de derechas, estamos diciendo que conociendo las diferencias de puntuación en el nivel de religiosidad podemos realizar predicciones más precisas sobre el partido que se va a votar. Si fuera posible evitar todos los errores de predicción del partido por el que se va a votar al basar nuestras predicciones en el nivel de religiosidad, en tal caso existiría una asociación perfecta entre ambas variables. En la realidad ocurre que la asociación no es perfecta, aunque si bastante alta, la medida de asociación que se obtenga expresará la proporción de los errores predictivos originales que se pueden evitar gracias al nivel del conocimiento de religiosidad. Según sea el nivel de medición de las variables cuya asociación tratamos de conocer así será el tipo de valor que se trata de predecir. Cuando disponemos de variables nominales lo que interesa predecir es la categoría o puntuación exacta de la variable dependiente, siendo suficiente predecir el valor modal de la variable dependiente. Si el análisis de asociación se basa en variables ordinales pretenderemos predecir el orden del rango de pares de valores en la variable dependiente. Cuando las variables vienen dadas a nivel de intervalo trataremos de predecir el valor de la media aritmética de la variable independiente. La predicción de la variable se realiza siguiendo dos reglas:

• La predicción 1 se realiza bajo la regla de la mínima suposición, cuando no se

conoce más que la distribución de la variable dependiente.

• La predicción 2 se realiza bajo condiciones más favorables, al conocerse la

distribución de las categorías de las variables independientes y de la distribución en cada una de ellas de las correspondientes categorías de la variable dependiente. Las medidas de asociación que vamos a estudiar consisten en un contraste entre los errores cometidos al realizar la primera de las predicciones y los errores cometidos al utilizar la segunda predicción utilizando la moda (variables nominales), el orden de rango (variables ordinales) y la media (variables de intervalo). Errores cometidos con predicción II-Errores con predicción I Medida de asociación RPE=------------------------------------------------------------------------------- Errores cometidos con predicción I

II. MEDIDAS DE ASOCIACIÓN PARA VARIABLES NOMINALES LAMBDA Y TAU-

Y DE GOODMAN Y KRUSKAL

1. COEFICIENTE LAMBDA

Este coeficiente también es llamado coeficiente de predictividad de GUTTMAN. Se trata de una medida asimétrica de asociación creada para analizar distribuciones bivariables en las que ambas variables son de tipo nominal. La fórmula para Lambda se puede expresar en términos de la reducción proporcional en el error cometido al predecir la moda.

∑my= suma de las frecuencias modales de las categorías de la variable independiente x (número de errores cometidos bajo la predicción II).

PAGE 1

My= frecuencia modal global de la variable dependiente Y (número de errores cometidos bajo la predicción I). N= Tamaño total de la muestra.

Ejemplo: Supongamos que estudiamos la situación matrimonial de los cabezas de familia españoles. TIPO DE FAMILIA (X)

SITUACIÓN MATRIMONIAL CABEZA DE FAMILIA (Y)

CABEZA DE FAMILIA

VARÓN

CABEZA DE FAMILIA MUJER

Niños > años

Niños < años

Niños > años

Niños < años

TOTAL

Casado 6444 4804 78 50 11376

Separado 20 126 250 106 502

Divorciado 19 237 284 276 816

Viudo 47 300 236 1614 2197

total 6530 5467 848 2046 14891 Fuente: García Ferrando, M.: Socioestadística (1994).

Nuestro interés consiste en realizar predicciones sobre la situación matrimonial de las personas que son cabezas de familia. A partir de la información de la tabla resulta fácil predecir que cabezas de familia están casados. El valor modal de la variable situación matrimonial es casado, lo más racional sería predecir en relación a un cabeza de familia es que esté casado, si elegimos esa categoría acertamos con más frecuencia que si hubiésemos elegido otra. De 14.891 cabezas de familia entrevistados 11.376 están casados, si hubiésemos supuesto que todos eran casados nos habríamos equivocado en 3.515 ocasiones. Si en lugar de predecir la moda global consideramos cada categoría de la variable independiente en relación a la variable dependiente “situación matrimonial” reproduciría una reducción en el error de predicción de la moda. Podremos ver cuantas veces acertaríamos y cuantas nos equivocaríamos al predecir la situación matrimonial del cabeza de familia si al realizar la entrevista conociésemos el número de cabezas de familia que son varones o mujeres y que tienen o no viviendo en el hogar niños menores de 15 años. Si supiésemos que el cabeza de familia es un varón que tiene hijos menores de 15 años al predecir su situación matrimonial como casado acertaríamos 6.444 veces en 6530 entrevistas y nos equivocaríamos en 86 ocasiones. Si el cabeza de familia no tiene hijos menores de 15 años y predijéramos que está casado acertaríamos 4804 veces de 5467, nos equivocamos en 663 ocasiones. Si el cabeza de familia es mujer y tiene en casa hijos de -15 años podríamos predecir con facilidad que su situación es de divorciada pues es la categoría modal para este tipo de familia acertaríamos en 284 ocasiones de 848. Por último si supiéramos que el cabeza de familia es mujer y tiene hijos de + años en casa, la mejor predicción sería viuda acertando en 1614 ocasiones de 2046. El CÁLCULO se realiza sumando las predicciones correctas para cada categoría de la variable independiente (predicción tipo II) y contrastando el resultado con la frecuencia global de la categoría modal de la variable dependiente.

∑my=6444+4804+284+1614=13146 predicciones correctas

13146-11376=1770 errores menos que los cometidos si hubiésemos calculado la moda global de la situación matrimonial, lo que significa una reducción del 33.3% en los errores realizados al predecir la situación matrimonial de los cabezas de familia. Este valor es Lambda y se obtiene sustituyendo los errores totales y las reducciones parciales de error. my-My 13146-11376 1770

PAGE 1

E2=

Sucesivamente para cada columna de la variable independiente.

Total E2= 2.730.

Tau-y=

Tau-y== = 0. Este coeficiente obtenido indica que se han reducido en un 53% los errores cometidos al predecir la colocación de los casos en las categorías de la variable dependiente, mediante la información que aporta la distribución de los casos en la variable independiente.

Ejemplo: cuanto puede reducirnos el error de predicción sobre la categoría modal el conocimiento de la tolerancia a la hora de predecir el nivel de estudio?

Baja Media Alta Total Universitaria 5 21 37 63 Secundaria 19 68 49 136 Primaria 59 13 13 85 Total 83 102 99 284 = 0.

Tau-y= E1= E2=

Es más aconsejable utilizar porque reduciríamos el error en un 27%. El uso de Tau-y es mejor cuando en las categorías de la variable independiente nos encontramos poca homogeneidad, es decir, el doble de casos en una categoría que en otra.

3. COEFICIENTE RHO DE SPEARMAN

EL Coeficiente Rro de Spearman, es uno de los más utilizados para medir la asociación de variables ordinales, mide la dirección y la fuerza, su uso es recomendado en los casos en que se cuenta con el ordenamiento de todos los casos individuales en las dos variables de modo que en cada variable los ordenamientos tienen un recorrido de 1 a N. Ejemplo: Medias y ordenamiento de la evaluación de la actuación de empresarios y obreros en algunas regiones españolas, (escala de 1 a 10).

PAGE 1

EMPRESARIOS OBREROS

REGIÓN Media orden media orden d (^) d^2

CATALUÑA 3,87 6 6,81 5 1 1

PAÍS VASCO 3,82 7 6,17 6 1 1

ANDALUCÍA 4,78 2 7,64 3 -1 1

CANARIAS 5,87 1 8,30 1 0 0

MADRID 4,57 5 7,18 4 1 1

BARCELONA 4,65 4 6,06 7 -3 9

GALICIA 4,78 3 8,08 2 1 1

d= d 2 = El ordenamiento se refiere a las medias de la evaluación en una escala del 1 al 10 de la actuación de los empresarios en general y el segundo ordenamiento se refiere a la evaluación de la actuación de los obreros. Se trata de saber si la población en una misma región evalúa diferentemente o en el mismo sentido a los empresarios y a los obreros. El coeficiente rho de Spearman (rs ) mide el grado de asociación de dos variables ordinales, basándose en las diferencias de rango. Para su cálculo se utiliza el sumatorio de los valores de las diferencias al cuadrado, porque la suma de los valores simples es siempre igual a 0. Cuando el sumatorio de las diferencias al cuadrado , sabemos que las dos variables no se ordenan idénticamente.

En el ejemplo:

El valor de rho (r (^) s) varía entre -1 y +1 indicando -1 una ordenación opuesta de los casos en las variables, y +1 un perfecto acoplamiento de las dos ordenaciones. Cuando (rs )=0 significa que no existe una ordenación sistemática de ningún tipo entre dos variables. La interpretación de r (^) s no se hace en término de reducción proporcional del error RPE, sino en términos de la fuerza de la asociación o correlación entre variables.

EJERCICIOS TEMA 2

  1. Nos interesa conocer en un grupo de 5 personas la relación entre las calificaciones obtenidas en la asignatura de Historia y Antropología, siendo A la máxima calificación y E la peor calificación. Calcule el coeficiente de asociación más adecuado e interprete el resultado.

Historia Antropología A D C E B C D B E A

  1. Dados los siguientes datos ¿Cuánto puede reducirse el error de predicción sobre la delincuencia conociendo el sexo? ¿Qué coeficientes permitirán una mayor reducción proporcional del error, Lambda o Tau-y? Justifique su respuesta. Delincuencia Sexo Hombre Mujer Total Delincuentes 170 180 350 No delincuentes 290 360 650

PAGE 1