Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis de Ítems en Tests: Dificultad, Discriminación y Transformaciones de Puntuaciones , Apuntes de Psicometría

Apuntes del tema 4 de psicometría de Miguel Ángel Castellanos

Tipo: Apuntes

2020/2021

Subido el 01/03/2021

lorena.s
lorena.s 🇪🇸

4.8

(4)

15 documentos

1 / 5

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Tema 4. Análisis de los elementos y
puntuaciones
1. Análisis de las opciones del ítem
Todos los tests, independientemente de su ámbito de aplicación, están formados por un cierto número de ítems
que son las piezas en las que se fundamentan y la calidad de estos ítems determinará la calidad del test
completo.
Para poder llevar a cabo los diferentes análisis se deberá disponer de una matriz de datos con las respuestas de
los sujetos a cada uno de los ítems del test. En el caso de los ítems de elección múltiple es preciso disponer
inicialmente de las respuestas de los sujetos a las diferentes opciones de cada ítem, asignando además códigos
especiales a las omisiones y a los no intentados. Posteriormente, para algunos análisis, las puntuaciones
deben estar codificadas en términos de “acierto” (1) y “no acierto” (0).
1.1. Opciones del ítem
Imagina que ya es junio y estás en el Salón de Actos José Germain con el examen de Castellanos sobre la
mesa. Las dos primeras preguntas son:
La diferencia entre ambos es que en la primera hay una pregunta claramente descartable y en la segunda no. Un
test está bien construido cuando para una persona que no tiene ni idea todas las respuestas les resultan más o
menos equiprobables.
A la hora de diseñar un test, nos interesa que las respuestas incorrectas
de nuestro ítem sea un buen distractor y dificulte en mayor o menor medida
la elección de la opción correcta. Así, con el objetivo de establecer buenos
distractores, se lleva a cabo un procedimiento matemático conocido como
análisis de frecuencias en el que se analiza la frecuencia con la que es
escogida cada una de las alternativas presentadas. Si tras dicho análisis de
frecuencias se han llevado a cabo los ajustes oportunos se deberían obtener
un resultado similar a este.
Las respuestas incorrectas tienen que:
Tener un atractivo similar
Que no sean tan claras como para que no las elijan
A medida que los sujetos sean más inteligentes, las escojan en menor medida (como se ve en la tabla)
1.2. Índices de Dificultad
El índice de dificultad (ID) es una proporción que nos da información acerca de lo
difícil/fácil que es un ítem. Como se calcula con el número de aciertos, a mayor índice de
dificultad, más fácil será el ítem.
ítem -
25%
25%
25%
25%
A
30
50
70
90
B
35
25
15
5
C
35
25
15
5
pf3
pf4
pf5

Vista previa parcial del texto

¡Descarga Análisis de Ítems en Tests: Dificultad, Discriminación y Transformaciones de Puntuaciones y más Apuntes en PDF de Psicometría solo en Docsity!

Tema 4. Análisis de los elementos y

puntuaciones

1. Análisis de las opciones del ítem

Todos los tests, independientemente de su ámbito de aplicación, están formados por un cierto número de ítems que son las piezas en las que se fundamentan y la calidad de estos ítems determinará la calidad del test completo.

Para poder llevar a cabo los diferentes análisis se deberá disponer de una matriz de datos con las respuestas de los sujetos a cada uno de los ítems del test. En el caso de los ítems de elección múltiple es preciso disponer inicialmente de las respuestas de los sujetos a las diferentes opciones de cada ítem, asignando además códigos especiales a las omisiones y a los no intentados. Posteriormente, para algunos análisis, las puntuaciones deben estar codificadas en términos de “acierto” (1) y “no acierto” (0).

1.1. Opciones del ítem

Imagina que ya es junio y estás en el Salón de Actos José Germain con el examen de Castellanos sobre la mesa. Las dos primeras preguntas son:

La diferencia entre ambos es que en la primera hay una pregunta claramente descartable y en la segunda no. Un test está bien construido cuando para una persona que no tiene ni idea todas las respuestas les resultan más o menos equiprobables.

A la hora de diseñar un test, nos interesa que las respuestas incorrectas de nuestro ítem sea un buen distractor y dificulte en mayor o menor medida la elección de la opción correcta. Así, con el objetivo de establecer buenos distractores, se lleva a cabo un procedimiento matemático conocido como análisis de frecuencias en el que se analiza la frecuencia con la que es escogida cada una de las alternativas presentadas. Si tras dicho análisis de frecuencias se han llevado a cabo los ajustes oportunos se deberían obtener un resultado similar a este.

Las respuestas incorrectas tienen que:

 Tener un atractivo similar  Que no sean tan claras como para que no las elijan  A medida que los sujetos sean más inteligentes, las escojan en menor medida (como se ve en la tabla)

1.2. Índices de Dificultad

El índice de dificultad (ID) es una proporción que nos da información acerca de lo difícil/fácil que es un ítem. Como se calcula con el número de aciertos , a mayor índice de dificultad, más fácil será el ítem.

ítem - 25% 25% 25% 25%

A 30 50 70 90

B 35 25 15 5

C 35 25 15 5

Lo que pasa es que esta fórmula no tiene en cuenta las respuestas acertadas al azar. Pero la siguiente fórmula corrige este efecto. A este nuevo índice se le llama índice de dificultad corregido (IDc).

1.3. Varianza del ítem

Es frecuente calcular también la varianza del ítem como un índice que permite ver el grado de variación de las puntuaciones. La varianza de una variable dicotómica donde p representa proporción de aciertos y q proporción de fallos.

El valor máximo de la varianza será el punto en el que haya un máximo nivel de dispersión. La varianza de las puntuaciones del ítem se maximiza cuando pi= 0,50 (o^2 =0,25). A medida que la proporción se aleja en una u otra dirección de este valor, la varianza disminuye (si todos son 0 la varianza es 0 y si todos son 1 la varianza también es 0). La varianza expresa el poder discriminante del ítem , que alcanza el valor máximo en pi= 0,50. Esta es la razón por la que en los tests enmarcados en el contexto normativo de las diferencias individuales se recomienda que haya un gran número de ítems con dificultades medias.

1.4. Índice de Discriminación

El índice de discriminación (no confundir con el poder discriminante del que acabamos de hablar) indica la correlación que existe entre un ítem y un criterio de interés ; puede ser interno al test (la puntuación empírica del sujeto en el test) o externo al mismo (una variable externa al test con la que interesa maximizar la correlación).

Así, decimos que un ítem tiene un buen nivel de discriminación si es capaz de diferenciar a los sujetos que obtienen puntuaciones elevadas en el test de aquellos que no.

¿Cómo se calcula el índice de discriminación?

ÍTEM PUNTUACIÓN DEL TEST (X) CORRELACIÓN

Continuo Continuo Pearson

Dicotómico Continuo Biserial-puntual Dicotomizado Continuo Biserial Dicotómico Dicotómico Phi Dicotomizado Dicotomizado Tetracórica

Correlación biserial-puntual

Este tipo de correlación se utiliza cuando los ítems son dicotómicos (acierto/fallo) y la puntuación final del test continua/cuantitativa.

μp es la media de los sujetos que han acertado el ítem solo.

2.2. Transformaciones no lineales

Para las puntuaciones de los test también pueden establecerse lo que se conocen como transformaciones no lineales. Este tipo de transformaciones alteran la forma de las distribuciones originales (la Alicia de nuestro ejemplo se deformaría considerablemente). Vemos cuáles son las más habituales:

Percentiles

Simplemente para refrescarte la memoria: un percentil tiene asociada una puntuación directa determinada y representa el porcentaje de examinados del grupo normativo que puntúan por debajo de dicha puntuación. Para que nos entendamos, si realizas un test de inteligencia y tu puntuación final te coloca en el percentil 90, estás de enhorabuena; has obtenido una puntuación superior a la del 90% de personas de tu grupo normativo.

Sin duda, la ventaja principal del cálculo de percentiles es su facilidad. Ahora bien, los percentiles tienen dos problemas importantes.

No existe equivalencia entre unos percentiles y otros ; solo se pueden comparar los que pertenecen a la misma distribución.  Conociendo el percentil de dos personas en un test de inteligencia podemos saber quién de ellas es más "lista" pero no cuánto más.

Asimetría positiva O__

Asimetría negativa __/O

Puntuaciones típicas normalizadas (ZN)

Un problema de las distribuciones de puntuaciones directas y sus transformaciones lineales que hemos calculado anteriormente es que dependen de ciertas características de los ítems particulares del test. Por ese motivo, suele ser conveniente transformar la escala a algún otro sistema de puntuaciones o de unidades independiente de dichas características.

Aunque no todas las distribuciones de los test sean normales, es preferible normalizar las puntuaciones (es decir, ajustarlas a la curva normal o campana de Gauss que tantas veces has visto por ahí). Pasos para calcular puntuaciones típicas normalizadas:

  1. Transformamos el percentil pertinente en una probabilidad (por ejemplo, percentil 50  p=0.5).
  2. Buscamos la probabilidad en la tabla correspondiente de la distribución normal y obtenemos su puntuación típica.

Puntuaciones típicas normalizadas derivadas (ZND)

Las puntuaciones típicas normalizadas también pueden transformarse linealmente, como se ha hecho anteriormente con las típicas directas, fijando previamente la media y la desviación típica de la escala deseada.

Entre las escalas normalizadas derivadas más comunes se encuentran la escala de estaninos o eneatipos y la "Standard Ten", "sten" o decatipos. Veamos brevemente cada una de ellas:

Eneatipos: Los eneatipos son un tipo de puntuaciones con media 5 y desviación típica de 2. Asimismo, sus valores no pueden en ningún caso ser superiores a 9 ( si lo fueran, se redondearía a 9 ). Tampoco tienen decimales. Su fórmula es la siguiente: EN= 5+2zN  Decatipos: Los decatipos son muy similares a los eneatipos aunque su valor máximo se sitúa en 10 y su media y desviación típica son 5,5 y 2, respectivamente. Si traducimos estos datos a una pequeña fórmula matemática, obtendríamos esta expresión DC= 5.5+2zN

3. Sesgos. Detección del sesgo

Cuando evaluamos determinados constructos de las personas a través de test, necesitamos que las puntuaciones obtenidas sean completamente independientes de sus características personales (etnia, género, discapacidad, etc.) porque, si no, tal y como decíamos antes, la medida no estaría reflejando el constructo pertinente (tiene sentido, ¿no?). Recuerda la lectura de Stephen Jay Goul (La falsa medida del hombre) y la cantidad de barbaridades que se cometieron precisamente por no ver más allá de una puntuación final y obviar por completo el sesgo de los test.

Para conocer si un ítem está sesgado o no se utiliza un método conocido como Análisis del Funcionamiento Diferencial de los Ítems (DIF). La lógica del método es la siguiente: un ítem se considera insesgado si la probabilidad de éxito para el ítem es la misma para sujetos igualmente capaces, independientemente del subgrupo a que pertenezcan. Un ítem sesgado es aquel en el que, por el contrario, las probabilidades de éxito son diferentes, a pesar de la igualdad en capacidades.

Procedimientos:

Método Χ^2 aciertos

Está pensado para tener dos poblaciones. Se va a analizar cada uno de los ítems para ver si están sesgados. La idea es que los ítems se comporten igual para estas dos poblaciones (tabla), si hubiera diferencias estaría sesgado.

El problema es que estas comparando el comportamiento de un ítem contra el test x de modo que asumo que en primer grupo están los menos inteligentes y en el último están los más inteligentes. Pero si en mi test estuviesen todos los ítems sesgados ocurriría que en el último estarían todos los hombres y muchas de las mujeres más inteligentes, pero el resto de las mujeres más inteligentes también estarían entre Q2 y Q3 porque han sido castigadas por todos los ítems.

Método Δ

Se calcula el índice de discriminación. Aquí lo que hacemos es una transformación Δ=13+4zX

La gráfica negra, cuando las puntuaciones se encuentran en torno a la bisectriz significa que los ítems están bien. De todos modos como este método te permite representar todos los ítems si hay alguno que se aleja (12) significaría que está sesgado y se puede eliminar.

En el caso del rojo, está hacia su derecha lo cual significa que los ítems están sesgados a favor de los hombres.

ítem - 25% 25% 2 5% 25%

Hombre 15 30 40 70

Mujer 15 30 40 70