Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Analisis de Datos, Apuntes de Psicometría

Asignatura: Psicometría, Profesor: Cristino Pérez, Carrera: Psicología, Universidad: UGR

Tipo: Apuntes

2016/2017

Subido el 20/05/2017

bgraacia
bgraacia 🇪🇸

3

(9)

10 documentos

1 / 32

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Análisis de los
ítems
Albert Bonillo
PID_00216203
Tiempo de lectura y comprensión: 3�horas
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20

Vista previa parcial del texto

¡Descarga Analisis de Datos y más Apuntes en PDF de Psicometría solo en Docsity!

Análisis de los

ítems

Albert Bonillo

PID_

Tiempo de lectura y comprensión: 3￿horas

Se garantiza permiso para copiar, distribuir y modificar este documento según los términos de la GNU Free Documentation License, Version 1.3 o cualquiera posterior publicada por la Free Software Foundation, sin secciones invariantes ni textos decubierta delantera o trasera. Pueden consultarse los términos de la licencia en http://www.gnu.org/licenses/fdl-1.3.html.

Introducción

El objetivo de este módulo es introducir al estudiante en el tema del análisis de ítems. Consideramos un error que este tema no esté presente en todos los planes docentes de la asignatura de Psicometría , ya que es suficientemente im- portante para que valga la pena tratarlo. Es cierto que, tradicionalmente, el estudio de la psicometría se ha focalizado más hacia las propiedades de los instrumentos de medida, que preguntan sobre aspectos opinativos y construc- tos psicológicos, que hacia los instrumentos que miden conocimiento o habi- lidad. Sin embargo, el psicólogo de a pie trabaja tanto o más con los segundos que con los primeros.

Queremos que el estudiante sepa, desde el principio, que este módulo no lo hará experto en ninguno de los aspectos que en él se tratan. Le proporcionará, deseamos y esperamos, una buena introducción a cada uno de los temas, pero es fácil que por placer –o necesidad profesional, o ambas– necesite profundizar en algunos de los aspectos tratados. Recomendaremos textos que sí los traten en profundidad.

El módulo se inicia precisamente distinguiendo entre instrumentos en fun- ción de su objetivo. En segundo lugar, y ya centrados en pruebas de ejecución máxima, mostraremos cuáles son los aspectos que hay que tener en cuenta en la construcción de sus ítems. En el tercer apartado veremos cómo analizar las propiedades psicométricas de la prueba y de los ítems a partir de la teoría clásica de test (TCT). Veremos los conceptos de dificultad y discriminación, y aprenderemos a valorar si un ítem es correcto o quizá necesita una revisión. En el cuarto apartado veremos una introducción a la teoría de respuesta al ítem (TRI), que es una alternativa de análisis a la TCT. Veremos la TRI de manera más sucinta que la TCT. El modelo de TRI resuelve problemas teóricos de la TCT, pero los cálculos de esta son más sencillos y fácilmente aplicables que los de aquella.

Dejaremos para el final las conclusiones que resuman todo lo presentado.

1. Tipos de pruebas

Es tradicional que, cuando desde el ámbito de la psicología hablamos de una prueba –o de un instrumento de medida– pensemos de inmediato en una en- cuesta de opinión, un test de personalidad o similar. Desde el punto de vista del tipo de prueba, estas que hemos mencionado no son distintas del cuestio- nario de satisfacción sobre el servicio que encontramos a la salida de muchos hoteles. Pretenden medir, en una persona, el valor determinado de un cons- tructo cuya existencia se presupone.

Caso distinto es una prueba que pretenda ordenar a los mejores candidatos a un puesto de trabajo. En este contexto, donde es de suponer que existe un criterio –ser un buen trabajador para el puesto ofertado–, la medida del cons- tructo puede pasar a un segundo plano. El objetivo del instrumento es que ca- da uno de los ítems optimice la correcta clasificación de las personas. Veamos, pues, qué características tienen las pruebas en función de lo que pretenden.

1.1. Pruebas de ejecución típica frente a pruebas de ejecución máxima

Si clasificamos las pruebas por su objetivo, distinguiremos entre dos tipos bá- sicos. Denominamos pruebas de ejecución típica –o de ejecución de rasgos– a aquellas que miden aspectos no escalables, o dicho de otra manera, a aquellas cuyas preguntas no tienen respuestas correctas ni erróneas, sino que se trata de aspectos de opinión, de preferencia o similar. Por el contrario, llamamos pruebas de ejecución máxima a aquellas que evalúan constructos que sí son escalables, y que son aquellos en los que tiene sentido hablar de respuestas co- rrectas y erróneas. Un examen, un test de inteligencia o cualquier instrumento que mida aptitud sería clasificado dentro de este epígrafe.

Aunque todos los conceptos que hemos visto hasta ahora en módulos anterio- res –fiabilidad, validez y transformación de las puntuaciones obtenidas– son aplicables a ambos tipos de instrumentos, las estrategias para su estudio suelen variar ligeramente y se suelen estudiar aplicándolos a las pruebas de ejecución típica. Es cierto que, por ejemplo, un test de inteligencia debe ser fiable, pe- ro puede no tener demasiado sentido administrarlo dos veces en unas pocas semanas, ya que los participantes podrían haber obtenido la respuesta correc- ta en el tiempo transcurrido y contaminar así los resultados. Sin embargo, sí tiene sentido repetir un test de personalidad con pocos días de diferencia y comprobar de ese modo si la medida del instrumento es tan estable como se supone que es el constructo medido. En definitiva, las características que se deben estudiar dependen, cómo no, del objetivo del instrumento.

En muchas ocasiones, el psicólogo profesional no utiliza instrumentos estan- darizados, sino que debe crear él mismo el instrumento. Si el estudiante tra- bajara en el departamento de recursos humanos de una multinacional y esta le pidiera una prueba para ocupar un puesto muy específico, ¿qué haría? Tras comprobar que esta prueba no existe en el mercado debería crearla. Y debería hacerlo teniendo en cuenta qué se pretende hacer con esa prueba: seleccio- nar al mejor trabajador para ese puesto. ¿Y a partir de ahí? Supongamos que ese puesto requiere ciertos conocimientos. El psicólogo debería construir una prueba que, a partir del número mínimo de ítems, pueda seleccionar al mejor de los candidatos.

Aprendamos, pues, qué debe tenerse en cuenta cuando (no) hay (más remedio) que crear una prueba.

  1. La opción correcta debe ser solo una, acompañada por distractoras plausi- bles.
  2. La opción correcta debe estar repartida entre las distintas ubicaciones.
  3. Las opciones deben ser preferiblemente tres.
  4. Las opciones deben presentarse usualmente en vertical.
  5. El conjunto de opciones de cada ítem debe aparecer estructurado.
  6. Las opciones deben ser autónomas entre sí, sin solaparse ni referirse unas a otras. Por ello, deben evitarse las opciones “Todas las anteriores” y “Ninguna de las anteriores”.
  7. Ninguna opción debe destacar del resto ni en contenido ni en apariencia.

Fuente: Tomado de Moreno, Martínez y Muñiz (2004)

En el contenido, deben preguntarse cosas fundamentales. Parece obvio, pero ¿cuántos exámenes recordamos en los que se nos preguntaban algunas cues- tiones que aparecieron poco (o nada) en clase? Una prueba debería contener solo (pero todos) los conceptos fundamentales de la asignatura que valora. La creencia de que al preguntar cuestiones menores, en el fondo, estamos obli- gando al alumno a estudiar toda la materia es absurda y favorece el azar. Res- pecto al azar, recordad a aquellos alumnos que solo estudiaban medio progra- ma –o menos– y confiaban en tener suerte el día del examen.

Sobre la expresión, las tres cuestiones apuntadas son obvias, pero de nuevo no siempre se cumplen.

Un ejemplo paradigmático de Moreno, Martínez y Muñiz (2004) muestra que es mejor redactar este ítem: En física se denomina sublimación a un cambio de materia:

1. Sólida a gaseosa. 2. Líquida a sólida. 3. Gaseosa a líquida. que este: En física, sublimación: 1. Supone un cambio de materia sólida a materia gaseosa. 2. Se refiere a un cambio de materia líquida a materia sólida. 3. Consiste en un cambio de materia gaseosa a materia líquida.

Sobre las opciones de respuesta, destacaremos la recomendación de que las opciones sean independientes entre sí, lo que automáticamente conlleva no usar los célebres “Todas/Ninguna de las anteriores”. Es obvio que para rechazar una opción como “Todas las anteriores son correctas” solo necesitamos saber que una de las otras opciones no lo es. Así, de un plumazo, podemos eliminar dos opciones de las posibilidades y la elección se facilita mucho. Si el test tiene tres opciones, ya conocemos la respuesta, y si tiene cuatro, incluso podemos arriesgarnos a contestar al azar entre las dos restantes.

Para saber más Si deseáis profundizar en este tema, os recomendamos acudir al texto original de Moreno, Martínez y Muñiz (2004), en el que, en un tono muy didáctico y con ejemplos muy accesibles, encontraréis una explicación muy exhaustiva de cada uno de los criterios.

Ejemplo de prueba de ejecución máxima

A partir de las directrices mostradas, y para ilustrar con un ejemplo concreto y cer- cano los conceptos que se presentarán en este módulo, hemos construido el siguiente examen. Contiene diez preguntas sobre este mismo módulo y la opción correcta está resaltada en negrita.

1. La dificultad (ID) es un índice que indica la probabilidad de…

A.￿acertarlo. B. fallarlo. C. contestarlo.

2. El valor de discriminación de un ítem (ID) debe ser…

A. negativo. B. distinto de 0. C.￿positivo.

3. Un distractor debería tener discriminación…

A. positiva. B.￿negativa. C. cercana a 0.

4. Un test de personalidad es una prueba de...

A. ejecución máxima. B.￿ejecución￿típica. C. rendimiento.

  1. La fórmula para calcular IDc es...

A..

B..

C.￿.

6. El modelo de TRI calcula, a partir del conocimiento,...

A. la puntuación total esperada. B.￿la￿probabilidad￿de￿acertar￿un￿ítem. C. la discriminación del test.

  1. Los parámetros a , b y c de la TRI indican, respectivamente,…

A.￿discriminación,￿dificultad,￿pseudoadivinación. B. dificultad, discriminación, pseudoadivinación. C. pseudoadivinación, discriminación, dificultad.

8. Si, por nivel de dificultad, solo pudiéramos tener ítems de un tipo, estos deberían ser, generalmente,…

A. fáciles. B. difíciles. C.￿medios.

9. Un ítem que pregunte sobre un aspecto del temario difícil debería ser...

A. fácil. B. medio. C.￿difícil.

10. La evaluación del sesgo pretende…

A.￿hacer￿más￿justas￿las￿pruebas. B. evaluar la dificultad de los ítems.

Ved también En el último apartado de este módulo se detalla un ejemplo de respuestas (ficticias) de un grupo de veinte alumnos a es- ta prueba, junto a los cálculos de la mayoría de los índices a los que haremos referencia en este texto.

3. Teoría clásica

Existen dos grandes modos de acercarse al análisis de ítems. Distinguiremos, pues, entre la teoría clásica de test (TCT) y la teoría de respuesta al ítem (TRI). La primera la estudiaremos en este apartado y la segunda, en el siguiente. ¿Qué supuestos tiene la TCT? Aunque se estudia en profundidad en el apartado de fiabilidad, se resumen en la ecuación

X = V + E

Esta implica que la puntuación que una persona obtiene al contestar un ins- trumento de medida ( X ) contiene el denominado “nivel verdadero” de esa persona ( V ) y una parte de error. El objetivo de la TCT es, pues, medir y mini- mizar ese error, lo que implica analizar la fiabilidad de la medida. Como no podía ser de otra manera, y siempre bajo estos supuestos, todos los indicado- res de calidad de los ítems dependen de la muestra de personas que los han contestado.

Veamos, ahora, las principales propiedades que se han de medir de un ítem.

3.1. Dificultad

El índice￿de￿dificultad de un ítem (ID) es la proporción de personas que lo contestan correctamente. Es decir,

Al tratarse de una proporción, ya que los acertantes son un subconjunto de los que contestan, es obvio que sus valores fluctúan entre 0 y 1, y frecuentemente se expresan como un porcentaje. Paradójicamente, los valores cercanos a 1 indican una baja dificultad –debería llamarse pues índice de facilidad y no de dificultad– y valores cercanos a 0 indican dificultad máxima. En la fila titulada como ID del ejemplo de prueba de ejecución máxima del final del módulo podemos ver las dificultades de los ítems.

La fórmula anterior presenta un problema: no tiene en cuenta que una parte de los aciertos se dan por puro azar. Al tratarse de preguntas con alternativas cerradas, es lógico pensar que una parte de los acertantes no conocían la res- puesta y que si han acertado es “solo” porque han elegido una de las alterna- tivas, no porque “sepan” la respuesta. El problema que se nos plantea es des- conocer cuántos lo han hecho. La solución es muy intuitiva. Si cien personas que no saben japonés contestaran un examen redactado en esa lengua con

Lectura de la fórmula A : Número de personas que aciertan el ítem. N : Número total de personas que lo contestan.

preguntas de cuatro alternativas, ¿cuántas preguntas esperaríamos que acerta- ran? La esperanza matemática –y el sentido común– nos dice que veinticin- co. ¿Y si hubiera cinco alternativas de respuesta? Obviamente, veinte. Por lo tanto, el número de aciertos total –y por ende, la probabilidad de acertar una pregunta– depende en cierta medida del número de alternativas de respuesta.

Por tanto, es recomendable utilizar la siguiente fórmula.

Inmediatamente, observamos que la diferencia entre ambas fórmulas es que en la segunda se resta de A un número que se obtiene de dividir los errores ( E ) entre el número de alternativas erróneas ( K -1).

Para aprehender este concepto, observemos los resultados del ítem 4. Lo han acertado 8 de los 20 participantes. Su dificultad sin corregir es por tanto del 0,4. Ahora bien, al corregir el índice por el acierto al azar [12/(3-1)]/20= 0,3, obtenemos un 0,3, esto es, podemos suponer que el 30% de las personas lo han acertado de casualidad. Vale la pena observar que con el primer cálculo obtendríamos una dificultad del 40% (podríamos etiquetarlo como de dificul- tad media), mientras que con el segundo obtendríamos una IDc = 0,1 (dificul- tad alta):

Aunque conceptualmente no tiene sentido, puesto que sigue siendo una pro- porción, el IDc puede ser inferior a 0: en ese caso, se asigna IDc = 0. Esto es lo que ocurre con el ítem 10, que tiene una dificultad corregida de –5%, lo que no tiene sentido. Observemos también cómo los ítems 1 y 3 son perfectamente inútiles, el primero por fácil y el segundo por difícil.

Un ítem que todos aciertan o que todos fallan no sirve para nada más que para perder el tiempo contestándolo. Si todo aquel que responde acierta, es como si regaláramos a todos los alumnos una parte de la puntuación. Y si todos lo fallan, es como si los penalizáramos. Supongamos una prueba que tiene 10 ítems y una puntuación teórica entre 0 y 10. En el primer caso que hemos expuesto, la puntuación real podría fluctuar entre 1 y 10, y en segundo entre 0 y 9. Está claro que esto no habla bien de las propiedades de la prueba.

Una vez que sabemos la dificultad de un ítem, planteémonos, ¿cómo deberían ser las dificultades de todos los ítems de una prueba? Como dice la directriz dos de Moreno, Martínez y Muñiz (2004), la dificultad de un ítem debe rela- cionarse con la del concepto que recoge. Esto es, si un contenido es fácil, el

Lectura de la fórmula A : Número de personas que aciertan el ítem E : Número de personas que fa- llan el ítem K : Número de alternativas (u opciones) de respuesta N : Número total de personas que lo contestan

Podemos ver en el gráfico varias cuestiones que merecen la pena destacarse. En primer lugar, observamos que hay dificultades negativas, y que estas se expli- can por aplicar la corrección del azar a ítems muy difíciles. En segundo lugar, cabe tener en cuenta que la prueba de enfermería cuenta con 100 ítems (frente a los 250 del resto de las convocatorias), lo que explica la evidente diferencia en las pendientes. En tercer lugar, las curvas de las pruebas de farmacia están, en el gráfico, “más altas” que las de medicina, lo que indica que son pruebas más fáciles. En cuarto lugar, las curvas son muy semejantes intraprogramas, es decir, la dificultad de las pruebas es muy semejante año tras año.

3.2. Discriminación

¿Es suficiente saber si un ítem es fácil o difícil para decidir si es adecuado o no? Intuitivamente, podríamos pensar que sí, pero estaríamos equivocados. De hecho, si tuviéramos que destacar una propiedad psicométrica de los ítems sobre el resto, esta sería la discriminación. Si un ítem no discrimina, no es útil para la medición, y ese es el objetivo para el que fue redactado.

Como su nombre indica, entendemos como discriminación la capaci- dad de un ítem de distinguir entre las personas que tienen un buen ren- dimiento en el test, respecto a las que lo tienen malo.

¿Quiénes deben contestar correctamente una pregunta de examen? No es tan importante si son muchos o pocos alumnos como que los acertantes sean, en general, “de los buenos alumnos”. ¿A qué nos referimos cuando decimos “los buenos”? A aquellos que tienen una alta puntuación en la prueba. Es decir, un ítem debe ser más acertado entre aquellos que han obtenido una alta puntuación en la prueba que entre los que no la tienen. Obviamente, una pregunta no puede ser buena si solo la aciertan los peores alumnos: debe ocurrir lo contrario.

El índice de discriminación más popular es el índice D, conocido también como índice basado en las proporciones de aciertos.

Para saber más Si deseáis conocer con más detalle la propuesta, que aquí solo apuntamos, podéis con- sultar el artículo original (Bo- nillo, 2012).

Las proporciones se calcularían como hemos visto en la primera fórmula pre- sentada y, de nuevo, puede expresarse como porcentajes. Pero ¿quiénes son los alumnos de alto y bajo rendimiento? Existen varias maneras de definir el punto de corte de la puntuación total en la prueba para hacer esta clasifica- ción. Por un lado, es frecuente utilizar la mediana de la puntuación total en la prueba, lo que crea dos grupos de igual tamaño. Esta estrategia tiene como ventaja que todos los participantes participan en el cálculo, pero tiene como

Lectura de la fórmula Pa : Proporción de personas del grupo de alto rendimiento que acierta el ítem Pb : Proporción de personas del grupo de bajo rendimiento que acierta el ítem

claro inconveniente que los grupos son poco extremos. Intuitivamente com- probamos que dos personas con rendimiento muy semejante pueden estar en grupos diferentes solo por una pequeña diferencia.

Es preferible utilizar grupos más extremos para poder estudiar correctamente este índice. Kelley (1939) recomienda utilizar los percentiles superior e inferior del 27%. ¿Por qué 27% y no 25%? Aunque el artículo original demuestra que el 27% es ligeramente mejor que el 25%, en el ejemplo con respuestas ficticias que mostramos se utiliza el 25% como criterio para separar el grupo de rendi- miento alto –se interpretaría como aquel que obtiene puntuaciones superiores al 75% de sus homólogos– del bajo –que reúne el 25% de las puntuaciones más bajas. Calcular el percentil 27 no siempre es sencillo, mientras que el 25 sí lo es, y las variaciones entre uno y otro son muy menores.

¿Cuáles son los límites de D? Es obvio que, teóricamente, puede fluctuar entre 1 y –1. El primer valor se daría solo cuando todas las personas del grupo supe- rior acertaran y todas las del inferior fallaran. En valor –1 solo podría darse en el caso contrario, y entonces deberíamos sospechar si la respuesta considerada como correcta lo es. Ninguna de estas dos situaciones suele darse en la realidad.

¿Cómo debemos pues interpretar este índice? En primer lugar, solo valores positivos indican discriminación. Está claro que un ítem debe ser más acertado entre los mejores. Pero ¿qué valores indican una buena discriminación? Ebel y Frisbie (1991) propusieron la siguiente clasificación, que debe ser tomada como orientación:

Tabla 2. Puntos de corte de los valores de discriminación (D) y su interpretación

D Interpretación de la discriminación 0,40 o superior Ítems con discriminación muy buena. 0,30-0,39 Ítem con una discriminación razonablemente buena, aun- que susceptible a ser mejorado. 0,20-0,29 Se requiere mejorar el ítem. <20 Discriminación pobre. El ítem debe ser eliminado o bien de- be ser revisado en profundidad.

Un motivo para tomar la tabla anterior con precaución es que el índice D de- pende –y mucho– de la dificultad. Si un ítem es muy difícil, tendrá pocos acer- tantes (por definición), incluso en el grupo de alto rendimiento. Si Pa es baja, la D solo puede ser baja. No parece justo comparar D de ítems de dificultades muy diferentes. Una alternativa propuesta al índice D es calcular la diferencia de proporciones relativa, en lugar de la absoluta. Es decir,

Calculemos la discriminación de los ítem 4 y 5, que tienen la misma dificultad.

Observad atentamente los resultados de administrar el ítem 5. La discrimina- ción de la opción de respuesta B es más alta que la de la respuesta correcta, la C. Debemos interpretarlo como que los mejores eligen en mayor medida un distractor –como es la B– que la respuesta correcta –como es la C. Esto impli- ca que debemos comprobar si la pauta pudiese contener un error. En nuestro caso no es así, y podemos atribuir al azar que la opción C haya sido tan ele- gida. Ahora bien, quizá deberíamos recalcar a los alumnos qué significa cada elemento de la fórmula (puesto que es lo que se pregunta en el ítem 5) y for- talecer así el aprendizaje.

¿Qué propiedades matemáticas debe tener un distractor? Obviamente, tener discriminación negativa, es decir, ser más elegido entre los peores que entre los mejores. Además, sería óptimo que todos los distractores tuvieran una dis- criminación parecida, ya que indicaría que sus capacidades de atracción son semejantes. Conseguir esto es especialmente difícil, y esta dificultad crece ex- ponencialmente con las alternativas de respuesta. En resumen: es mucho más difícil redactar tres distractores que sean efectivos que dos. Por ello, la mayoría de los estudios realizados recomiendan usar como mucho tres alternativas de respuesta.

No debemos creer que las propiedades que hasta ahora hemos presentado son independientes entre sí: nada más alejado de la realidad. Si un ítem tiene una opción de respuesta inverosímil (por ejemplo, Maradona como autor de El Quijote ), el ítem será más fácil y necesariamente discriminará peor.

Como ya hemos hecho cuando hemos estudiado la dificultad, ahora nos plan- teamos si existe alguna manera de estudiar el conjunto de las discriminaciones de los ítems de una prueba.

De nuevo, la propuesta es nuestra (Bonillo, 2012) y consiste en mostrar en un gráfico, denominado diagrama de cajas, la discriminación de la opción correcta y de cada uno de los distractores, ordenados de mayor a menor.

La figura siguiente muestra esto aplicado a, de nuevo, los exámenes de acceso a la formación sanitaria especializada.

Figura 2. Discriminación de los distractores de las pruebas FSE

Debemos tener en cuenta que en esta figura aparecen las cinco convocatorias analizadas (esto es, [250 ítems × 2 programas × 2 años + 100 ítems de EIR] × 5 alternativas = 5.500 valores). Así, y para cada ítem, el distractor 1 es el más discriminativo, y el 4 el que menos. Como suele ocurrir en estos gráficos, las cajas muestran la media –en trazo grueso– y los cuartos –en los límites de las cajas. Las patillas ( whiskers ) muestran los valores mínimos y máximos no alejados ni extremos. Los alejados se muestran con puntos y los extremos, con asteriscos.

Se observa que las discriminaciones de las alternativas correctas son semejan- tes entre especialidades y convocatorias. Destacan de las demás las discrimi- naciones relativas a la prueba de EIR, que son más bajas y menos dispersas. En el análisis de los distractores se observa que existe un escalado entre estos, pero que se reduce cuantas más alternativas se contemplan; es decir, la diferencia entre la tercera y la cuarta alternativa es mucho menor que entre la primera y la segunda. También se observa que las alternativas tres y cuatro –recordemos que son ordenadas por su discriminación y que no deben identificarse con al- ternativas de respuesta D y E, por ejemplo– tienen discriminaciones muy bajas o casi nulas. Si consideramos que el límite superior de las cajas de la última alternativa es superior a 0, podemos decir que más del 25% de los ítems tie- nen una alternativa de respuesta con discriminación positiva –es decir, más elegida por el grupo con rendimiento alto. Además, la última alternativa pre- senta muchos valores extremos y alejados, esto es, ítems en los que, por su

Para saber más De nuevo, si queréis conocer con detalle esta propuesta, podéis consultar el artículo original (Bonillo, 2012), ya que en este módulo no pode- mos extendernos mucho más de lo que ya hemos hecho.