Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


libro psicometria, Apuntes de Psicometría

Asignatura: Psicometría, Profesor: , Carrera: Psicología, Universidad: UAM

Tipo: Apuntes

2016/2017

Subido el 06/02/2017

Silviatay
Silviatay 🇪🇸

4.1

(64)

31 documentos

1 / 278

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Vista previa parcial del texto

¡Descarga libro psicometria y más Apuntes en PDF de Psicometría solo en Docsity!

Índice de contenidos

Índice de contenidos

Primera Parte

8 Medición en Ciencias Sociales y de la Salud

Segunda Parte

Prólogo Escribir un libro exige tomar un conjunto de opciones previas sobre su contenido y estilo. Una vez recibida la oferta de Editorial Síntesis, muchos fueron los debates entre los auto- res para definir en concreto el libro que queríamos escribir: ¿para qué tipo de lectores?, ¿qué contenidos incluir?, ¿a qué nivel hacerlo?, ¿cómo establecer un estilo didáctico man- teniendo el rigor formal?, ¿cómo fomentar destrezas y no sólo conocimientos? En reali- dad, la respuesta a la primera de estas preguntas sirve para responder en parte las siguien- tes. El libro que presentamos es un libro de Psicometría que puede resultar de interés para estudiantes e investigadores de las Ciencias Sociales y de las Ciencias de la Salud. Hemos encontrado dos razones fundamentales para escribirlo: en primer lugar, que parte del libro sirva a nuestros estudiantes de grado como referencia básica para el aprendizaje de la asignatura troncal de Psicometría; en segundo lugar, la opción por describir determinados temas que consideramos relevantes para una formación más elevada y que es difícil en- contrar en otros de los buenos textos sobre Medición escritos en español. La primera parte del libro incluye 7 temas de lo que podríamos definir como Psico- metría fundamental, pensados como los contenidos básicos para las asignaturas troncales de grado. ¿Qué es lo que consideramos como fundamental (podríamos calificarlo como “mínimo”) para la formación psicométrica de un estudiante de grado? Nuestras opciones se han fundamentado en un intento de mejorar el proceso de enseñanza y aprendizaje de la Psicometría en los nuevos planes de estudio requeridos en el proceso de acomodación al Espacio Europeo de Educación Superior. Por tanto, tenemos presente un marco concreto de desarrollo de los contenidos: una asignatura troncal que podría oscilar entre 6 y 9 crédi- tos ECTS, con contenidos fundamentales (aunque no exclusivos) de Teorías de los Tests y poniendo énfasis en complementar los contenidos teóricos con la formación práctica. En este sentido, y adicionalmente a una rigurosa formación teórica en los modelos fundamen- tales de medición (Teoría Clásica y Teoría de la Respuesta al Ítem), pretendemos que el estudiante se encuentre capacitado para entender la información psicométrica básica que aportan diversos instrumentos de evaluación, fundamentalmente los tests; optamos además por que el estudiante se enfrente con problemas concretos de medición, maneje el software fundamental para el estudio psicométrico de un test y sea capaz de elaborar in- formes técnicos sobre los resultados. Los estudiantes que adquieran estas competencias serán capaces de redactar buenos ítems, de analizar sus propiedades métricas, de aplicar las mejores técnicas y procedimientos para estudiar la fiabilidad y validez de las puntua- ciones de los tests, así como de interpretar adecuadamente las asignadas mediante el ba- remo correspondiente. Con esta primera parte del libro pretendemos establecer las bases para la adquisición de estos conocimientos, pero no sirve del todo para adquirir las destre- zas de tipo más aplicado. Completaremos la formación con la propuesta y seguimiento de varios trabajos prácticos cuyas guías los estudiantes tendrán disponibles en nuestras pági- nas de docencia.

14 Medición en Ciencias Sociales y de la Salud

Los temas de la segunda parte, que podrían considerarse como la iniciación a una Psicometría aplicada avanzada, se refieren a contenidos más específicos, propios de los que deben saber los estudiantes que quieran especializarse en temas de Metodología (en materias optativas y en estudios de posgrado) o los investigadores en Ciencias Sociales y de la Salud que desarrollan o adaptan tests. Los temas incluidos en esta segunda parte pueden considerarse como extensiones y aplicaciones particulares de los descritos en la primera parte. Así, hemos optado por desarrollar más ampliamente los contenidos sobre modelos psicométricos, incluyendo procedimientos alternativos para estimar la fiabilidad, el tema de la medición del cambio y contenidos más avanzados sobre TRI (procedimien- tos estadísticos y modelos politómicos). Sobre la validación de puntuaciones, en esta se- gunda parte se tratan con bastante detenimiento los temas de análisis factorial confirmato- rio, funcionamiento diferencial de los ítems y adaptación de tests a otras culturas, así co- mo otras estrategias específicas de validación. Finalmente, se incluye un tema sobre tests informatizados y otros formatos de ítems. Con ello hemos querido avanzar en determina- das aplicaciones psicométricas que cada vez resultan más usuales en la investigación y en la práctica profesional, pero que seguramente no tienen cabida en las materias troncales de los planes de estudio de grado. Tanto una como otra parte quedarían didácticamente cojas sin la descripción básica de los programas informáticos disponibles para hacer las cosas. En este sentido, en el libro se describen los procedimientos básicos para realizar las estimaciones con diversos pro- gramas informáticos: SPSS y FACTOR (modelo clásico y análisis factorial exploratorio), MULTILOG (para la TRI) y MPLUS (para el análisis factorial confirmatorio).

Introducción

Psicometría

Etimológicamente, la Psicometría es la disciplina que tiene por objeto la medición de la “psique”; hoy en día diremos mejor la medición de capacidades, atributos o características psicológicas. Su objetivo es establecer “teorías sobre” y “métodos para” la medición en Psicología y en otras disciplinas afines. Se caracteriza en primer lugar porque utiliza la formulación matemática para desarrollar teorías y modelos para la medición de variables psicológicas. La define, en segundo lugar, su interés por promover métodos, técnicas e instrumentos para la mejor medición posible de dichas variables en cualquier contexto de especialización de las Ciencias Sociales y de la Salud. Las variables objeto de medición pueden ser de diverso tipo, y no son independientes de las perspectivas teóricas asumidas: rasgos, actitudes, procesos, conductas, conocimientos, destrezas, actividad psicofisiológi- ca, etc. En este sentido, es objeto de la Psicometría el análisis de cualquier asignación numérica que se realiza sobre variables psicológicas, obtenida por diversos procedimien- tos o instrumentos, en términos de su precisión (error de medida) y validez (inferencias de diverso tipo que pueden realizarse a partir de dichas asignaciones), que en definitiva son los conceptos clave bajo cualquiera de los prismas teóricos de la disciplina y las propieda- des psicométricas fundamentales que deberemos analizar. En general, el objeto de la me- dición son las personas, aunque también pueden serlo los grupos, las instituciones o estí- mulos de diverso tipo. En cuanto a los instrumentos empleados para la obtención de pun- tuaciones, los tests son los más utilizados, aunque no son los únicos (por ejemplo, pueden derivarse mediciones a partir de los juicios subjetivos de unas personas sobre ciertas ca- racterísticas de otras o establecer diseños observacionales para efectuar determinados re- gistros conductuales). Algunos antecedentes y eventos históricos pueden ayudarnos a comprender la identidad y el sentido de la Psicometría como disciplina:

  1. La Psicofísica. Aunque algunos ancestros de la medición psicológica son previos, es en el ámbito de los estudios psicofísicos del siglo XIX donde surge el problema de la me- dición de las sensaciones, dentro del objetivo general de la Psicofísica establecido por

16 Medición en Ciencias Sociales y de la Salud

Fechner como la ciencia exacta que estudia las relaciones funcionales entre el cuerpo y la mente. A partir de los trabajos de Weber, Fechner establece su famosa ley logarítmi- ca, S = k log E, para describir la relación matemática entre un continuo estimular, E, y la sensación producida en la persona, S. Los psicofísicos perciben enseguida la dificul- tad que representa la medición de hechos mentales (sensaciones) y proponen varios métodos indirectos para su medición. Realizaban experimentos donde incrementaban progresivamente la cantidad de estimulación (por ejemplo una señal acústica) y medían la sensación contando el número de veces que una persona percibía cambios en dicha estimulación desde el umbral absoluto (cuando el evaluado empieza a percibir el ruido) hasta el nivel de intensidad física presentado en un ensayo concreto. En el laboratorio de Leipzig, fundado por Wundt, algunos investigadores como Donders y Cattell emple- an el tiempo de reacción y la cantidad de eventos recordados como medida de rendi- miento en diversos procesos psicológicos (atención, memoria…).

  1. El interés inicial por la medición de las diferencias individuales. A finales del siglo XIX Galton funda el famoso laboratorio antropométrico de Londres, cuna del estudio de las diferencias individuales, tratando de estudiar las distribuciones de diversas medi- ciones físicas y psicológicas de las personas, tal como habían hecho en Astronomía (entre ellos Gauss) para estudiar las diferencias individuales a la hora de estimar la ve- locidad del movimiento de los astros. Además de medidas antropométricas, Galton em- pleó determinados instrumentos para medir la fuerza física o la capacidad de discrimi- nación auditiva y visual; también le interesó medir los errores que cometían las perso- nas en ciertas tareas de estimación de longitudes o ángulos. Uno de sus colaboradores, J. M. Cattell, acuñará en 1890 el término “test mental” para referirse al rendimiento en diversas tareas sensoriomotoras en las que se cuantificaba el tiempo de reacción o las estimaciones subjetivas (por ejemplo de longitud, tiempo transcurrido, discriminación táctil, dolor...).
  2. El interés inicial por la medición de capacidades cognitivas superiores. En los albores del siglo XX, el Ministerio Francés de Instrucción Pública propone a Binet que esta- blezca procedimientos para diferenciar a los niños con deficiencia mental (que no son capaces de conseguir los objetivos escolares) de los que no tienen problemas intelec- tuales. Binet y Simon propondrán tests de inteligencia para medir capacidades cogniti- vas superiores, como la comprensión del lenguaje, el razonamiento, la memoria o la capacidad de abstracción, mediante tareas no muy diferentes a las que se plantean en los actuales tests de inteligencia o de aptitudes intelectuales. Diseñaron tests de diferen- te dificultad y contenido para las distintas edades (entre 3 y 15 años), lo que se conside- ra que representa el primer intento de adaptar la dificultad de los tests al diferente nivel previsible de los evaluados. Por ejemplo, para los niños más pequeños propusieron ta- reas de reconocimiento del cuerpo humano, de memoria de series cortas de dígitos o de comparación de longitudes de líneas; para los mayores propusieron ítems sobre cons- trucción de frases con determinadas palabras, recuerdo de textos escritos, repeticiones de series largas de dígitos, resolución de problemas, etc. Acuñaron el concepto de edad mental, como la media del rendimiento en un test de los estudiantes de una edad real determinada. Unos años más tarde se adaptan los tests de Binet en Estados Unidos (Terman impulsa varias versiones) y comienzan a interpretarse normativamente las puntuaciones mediante el baremo cronológico de cociente intelectual (CI). La aplica- ción masiva de tests de inteligencia (y los correspondientes formatos de respuesta de opción múltiple) se inicia con la evaluación de los soldados estadounidenses que parti-

Capítulo 1. Introducción 19

psicológicos. La que más relevancia aplicada ha tenido ha sido la Teoría de las escalas de medida de Stevens (definiendo las propiedades y las transformaciones admisibles asocia- das a los niveles de medida nominal, ordinal, de intervalo y de razón), si bien ha sido fuer- temente criticada desde otras perspectivas (teorías representacional, de medición conjunta, operacionalista, etc.). Una introducción a estos temas puede consultarse en Ponsoda (2008); los planteamientos teóricos y los principales puntos de controversia, a veces im- portantes (incluso hasta poner en duda la posibilidad de medición de lo psicológico), están bien descritos en los libros de Michell (1999) y Borsboom (2005). Tipos de tests y ámbitos de aplicación Consideramos genéricamente un test como un procedimiento estandarizado que sirve para muestrear ciertas conductas de las personas a partir de sus respuestas a una serie de indi- cadores (ítems), puntuarlas e inferir su nivel verdadero en el constructo o variable latente. A partir de las respuestas correctas a unos ítems de analogías verbales y sinónimos debe- mos inferir la aptitud verbal de las personas; tras manifestar el grado de acuerdo con de- terminadas afirmaciones debemos inferir el nivel de actitudes xenófobas; después de res- ponder a un conjunto de ítems sobre aspectos gramaticales del inglés debemos inferir el nivel de comprensión escrita en el idioma. Para hablar propiamente de test, se han de cumplir tres condiciones. En primer lugar, los ítems han de tener propiedades psicométricas conocidas y se han de haber elaborado siguiendo las oportunas normas de construcción. No siempre es fácil distinguir a simple vista cuándo estamos ante un test o ante algo que sólo lo es en apariencia, por no haberse elaborado adecuadamente. En segundo lugar, un test requiere una administración contro- lada. Se han de seguir las instrucciones, las condiciones de administración y de puntua- ción establecidas en el proceso de construcción del test. En tercer lugar, el test debe pre- tender evaluar a una persona en un atributo de interés. A veces se confunden los tests con otros instrumentos, como las encuestas, cuya finalidad no es puntuar a cada persona que responde, sino saber, por ejemplo, las tendencias de voto a los distintos partidos. Son muy diversos los tipos de atributos psicológicos a medir, y por tanto los tipos de tests y los formatos de ítems de que disponemos en Psicología. Hace unos años que varios historiadores de la Psicología Española (Quintana, Albert y López-Martín, 2008) rescata- ron y editaron unos “Apuntes para un curso de Psicología aplicada a la selección profesio- nal”, elaborados en 1924 por el doctor Rodrigo Lavín como material docente de su cátedra de Psicología Experimental. Esta auténtica joya casi centenaria, de recomendable lectura, representa una de las primeras veces que en España se habla sistemáticamente de los tipos y usos de los tests; decía ya entonces el autor que “Como la observación nos da muy po- cos datos utilizables y la conversación o entrevista no basta para descubrir las habilida- des de los solicitantes, es necesario recurrir a los tests. Se puede decir que estamos en el comienzo de los tests y, a pesar de eso, hay un desarrollo extraordinario de ellos; ello in- dica lo que sucederá andando el tiempo”. Hablaba el autor de que existían entonces tests de capacidades o habilidades, tanto generales como específicas, y que en la selección pro- fesional eran de especial importancia los tests de fuerza, de resistencia a la fatiga, de con- trol motor y de capacidades mentales (atención, sensación y percepción, imaginación e in- teligencia general). Seguramente influenciado por los procedimientos de medida de

20 Medición en Ciencias Sociales y de la Salud

Wundt, de los psicofísicos y de Galton, Rodrigo Lavín describía con detalle algunos apa- ratos mecánicos y ciertos procedimientos de puntuación que podían emplearse para la me- dición de competencias y habilidades, así como algunas tareas de papel y lápiz que podían plantearse para medir la capacidad imaginativa o la inteligencia general (ya entonces esta- ba al tanto de los tests de Binet y de los empleados en el ejército estadounidense). Transcurrido cierto tiempo, en las primeras páginas de sus imperecederos apuntes so- bre “Introducción a la Teoría de los Tests” (una parte ha sido reeditada en Psicothema ba- jo el título de “Los tests y el análisis factorial” en 1996), don Mariano Yela recordaba la connotación etimológica de la palabra (testis, testigo, testimonio) y realizaba una clasifi- cación de los tests atendiendo al método general seguido (tests psicométricos vs. tests proyectivos), a su fin (cualitativos vs. cuantitativos), a la relación con el aplicador (perso- nales vs. impersonales), al modo de aplicación (individuales vs. colectivos), al material que se emplea (impresos vs. manipulativos) y, fundamentalmente, atendiendo al tipo de atributo que miden (diferenciando diversos tests de rendimiento, de aptitud o de persona- lidad). Actualmente las cosas han cambiado bastante en cuanto a los tipos de tests que se ela- boran en Psicología para la medición de atributos psicológicos, y por tanto, en relación a los recursos que un psicólogo aplicado puede emplear para su medición. A las tradiciona- les categorías del profesor Yela podrían proponerse otras, pero habría que añadir al menos dos fundamentales que tuvieran en cuenta el medio de aplicación (tests de lápiz y papel vs. tests informatizados) y el modelo en que se sustentan los análisis psicométricos (tests analizados desde la Teoría Clásica vs. desde la Teoría de la Respuesta al Ítem). Tratando de realizar un resumen sobre los diferentes tipos de tests de que disponemos en la actuali- dad en Psicología, atendiendo a varios criterios generales de clasificación, podríamos es- tablecer los siguientes:

  1. Según el tipo de rendimiento que desea medirse, hablamos de tests de rendimiento óptimo (aquellos que pretenden medir el rendimiento máximo que es capaz de alcanzar una persona, tal como se hace en tests de conocimientos o en los tests de inteligencia y aptitudes) o de tests de rendimiento típico (interesa medir el comportamiento usual, tal como se hace en los tests de personalidad o en las escalas de actitudes).

  2. Según el modelo psicométrico desde el que se analizan las propiedades de los ítems y de las puntuaciones de los evaluados, hablamos de tests analizados desde la TCT y de tests analizados desde la TRI. Ambos modelos pueden aplicarse a las puntuaciones de un mismo test.

  3. Según el medio de aplicación diferenciamos entre tests de lápiz y papel y tests informa- tizados. Dentro de estos últimos se distingue entre tests fijos informatizados (aquellos que presentan los mismos ítems a todos los evaluados), tests óptimos (aquellos que se eligen de un banco determinado para optimizar ciertas propiedades psicométricas en un grupo de personas específico) y tests adaptativos informatizados (los que presentan di- ferentes ítems del banco a los diferentes evaluados, dependiendo del nivel progresivo que vayan manifestando en la prueba).

  4. Según el modo de interpretar las puntuaciones hablamos de tests referidos a normas (la interpretación se realiza mediante un baremo obtenido en un grupo normativo) y tests referidos al criterio (la interpretación se refiere al rendimiento individual conseguido por una persona en relación a unos criterios o dominios establecidos de antemano). Ca- be interpretar desde ambas perspectivas el rendimiento en el mismo test.

Capítulo 1. Introducción 21

  1. Según el formato de respuesta establecido, diferenciamos distintos tipos de tests, por ejemplo: tests de respuesta construida (caso de las preguntas abiertas tipo ensayo), tests de respuesta seleccionada (son tests de rendimiento óptimo con varias opciones de res- puesta, normalmente con una sola opción correcta), tests de categorías ordenadas (por ejemplo con varias categorías para manifestar el grado de acuerdo con determinadas sentencias) o tests de respuesta binaria o elección forzosa (típicos, como veremos, de los tests ipsativos o de ciertos tests de personalidad). Los tests informatizados permiten formatos de ítems muy novedosos, así como procedimientos de respuesta y de puntua- ción singulares, empleando los recursos que tienen los ordenadores.
  2. Según el marco teórico psicológico de referencia hablamos, por ejemplo, de tests psi- cométricos, proyectivos, situacionales, conductuales o basados en modelos cognitivos.
  3. Según el establecimiento, o no, de tiempo límite para la realización de la prueba, hablamos, respectivamente, de tests de velocidad o tests de potencia. Son también muy variados los usos que se hacen de las puntuaciones en los tests. Navas (2001) recoge 6 funciones de los tests: diagnóstico (detección de problemas en el ámbito clínico o en el escolar), selección (de los trabajadores con el perfil más adecuado al puesto de trabajo), clasificación (por ejemplo, determinación del nivel de inglés para ubicar al es- tudiante en el curso adecuado), certificación (acreditación de que un profesional tiene la cualificación adecuada), consejo (para facilitar la decisión sobre los estudios a emprender, por ejemplo cuando interesa medir la prevalencia de enfermedades o los logros consegui- dos con programas de intervención psicosocial); y descripción e información (informan de lo que un alumno sabe, del rendimiento de un curso, profesor, colegio, comunidad, país… en relación a los demás). Los tests se emplean en la práctica totalidad de las especialidades, y por tanto en los diversos ámbitos de aplicación de la Psicología y de otras disciplinas afines. Medir lo psi- cológico representa muchas veces la difícil tarea de medir lo inobservable, objetivo en el que se ha avanzado mucho en las últimas décadas por varias razones fundamentales. En primer lugar, porque cada vez es mayor la demanda social, como así lo atestiguan los re- sultados de la encuesta realizada por Muñiz y Fernández Hermida (2000) entre varios mi- les de psicólogos colegiados dedicados a las diversas especialidades. Cada vez resulta más usual emplear tests en contextos de evaluación y tratamiento psicológicos, en procesos de evaluación psicopedagógica, de intervención psicosocial o de selección de personal. Cada vez son más importantes las consecuencias que para las personas y las organizaciones tie- nen las puntuaciones en los tests. Paso a paso, y aunque todavía con cierta lejanía respecto a otros países, tanto los profesionales de la Psicología como otros responsables de organi- zaciones públicas y privadas confían cada vez más en la utilidad de los tests para conse- guir ciertos objetivos aplicados. No es raro este incremento en el uso de los tests en una sociedad cada vez más sensible a la evaluación de los resultados de las intervenciones y a la acreditación de competencias individuales e institucionales. En segundo lugar, y también en relación con esta mayor sensibilidad social, se ha am- pliado mucho el tipo de atributos psicológicos que se precisa medir. Mientras que hace unos años las aplicaciones fundamentales se ceñían a tests de capacidades cognitivas o pruebas de personalidad, cada vez existen más requerimientos profesionales (y más es- pecíficos) sobre los rasgos, competencias o comportamientos que deben medirse. Además, la pluralidad epistemológica que caracteriza a nuestra disciplina y a nuestra profesión ha

22 Medición en Ciencias Sociales y de la Salud

impulsado la creación de tests desde posiciones teóricas diferentes y cada vez más fieles a los modelos teóricos en que se sustentan. En tercer lugar, porque cada vez es mayor la exigencia psicométrica a la que somete- mos a las puntuaciones de los tests. El ineludible requisito de “medir bien” (que podría- mos concretarlo en los tradicionales tópicos de fiabilidad y validez de las puntuaciones) está impulsando el desarrollo de nuevos tipos de tests y nuevos modelos psicométricos pa- ra estudiar las garantías que ofrecen sus aplicaciones, entre los que destacan los modelos de TRI. Cada vez son más los profesionales que no aplican los tests por mera rutina, sino que exigen buenos tests para objetivos específicos, es decir, los que han demostrado su utilidad para los fines que tienen planteados. Se ha evolucionado mucho desde la mera adaptación de tests elaborados originalmente en otro idioma y para otra cultura (a veces sin traspasar el necesario rubicón psicométrico), al uso de aquellos que manifiestan ga- rantías psicométricas aceptables, sean diseñados originalmente o adaptados de unas cultu- ras a otras. En cuarto lugar, porque los avances tecnológicos, fundamentalmente los informáticos, ayudan a medir mejor (de forma más válida y fiable) ciertos atributos y a incrementar la eficiencia de las aplicaciones.

Capítulo 2. Construcción de tests y análisis de ítems 25

ejemplo, alcance la misma puntuación que otro sin discapacidad que tenga su mismo nivel en el constructo. A veces se preparan cuadernillos e instrucciones en distintos idiomas, o en tamaños de letra y formato diferentes. Otras veces se cambia el modo de administra- ción, que puede pasar de colectivo a individual, o se leen o interpretan los ítems al evalua- do para facilitarle su comprensión. Schmeiser y Welch (2006) recomiendan prestar atención a lo que llaman restricciones administrativas. Las hay de distinto tipo: de tiempo, de coste, de medios (como aulas, or- denadores o vigilantes disponibles), etc. Los medios disponibles pueden condicionar el número de tests a construir si se quiere preservar la seguridad de la prueba. Por ejemplo, en contextos de evaluación educativa, la escasez de aulas o de vigilantes podría aconsejar la construcción de varios exámenes equivalentes, en vez de un único examen. De todas las restricciones, las más importantes son las relacionadas con el tiempo de administración. Dependiendo de la trascendencia del test (no tiene la misma un examen de una parte de la materia que uno con el que se consigue la acreditación para trabajar como médico, por ejemplo), de la edad de los evaluados o del tipo de ítems, será necesario un test con unas u otras características psicométricas, más largo o más corto y que requiera más o menos tiempo de aplicación. La longitud óptima del test es aquella que, siendo aceptable para los evaluados, proporciona puntuaciones con la calidad necesaria para justificar el uso previs- to o las decisiones que se toman en el proceso de evaluación. Vimos en el capítulo precedente que hay tests referidos a normas y referidos al crite- rio. El tipo de test también condiciona la prueba concreta que finalmente construyamos. También habrá que decidir si finalmente se va a dar a cada evaluado una o más puntua- ciones, y, en el caso de sólo una, cómo contribuyen a ella las diferentes partes del test. Además del propósito y de todo lo expuesto anteriormente, conviene construir la tabla de especificaciones, donde se detallan los contenidos del test, las destrezas cognitivas a evaluar y el porcentaje de ítems que debe corresponder a cada celdilla que resulta de cru- zar los contenidos y las destrezas. En evaluación educativa, hay que analizar el programa del curso, preguntar a los profesores qué explican y qué tiempo dedican a cada parte, hacer una revisión bibliográfica, etc. En selección de personal, se han propuesto técnicas propias, como el análisis de puestos o la técnica de los incidentes críticos, que facilitan la especificación de los contenidos y destrezas. La Tabla 2.1 (adaptada de la Tabla 9.2 de Schmeiser y Welch, 2006, p. 317) muestra la estructura de una tabla de especificaciones de un examen de Asesoramiento Psicológico. Incluye dos destrezas: Comprensión (de hechos, razones, relaciones, principios, fórmulas, gráficos y detección de errores en los procedimientos y en la práctica) y Aplicación (habi- lidad para seleccionar y aplicar principios y reglas, analizar e interpretar situaciones, ex- traer conclusiones y diagnosticar necesidades y problemas). La tabla muestra que el 42% de las preguntas del test evaluarán la destreza Compren- sión frente al resto (58%) que evaluará Aplicación. En cuanto a contenidos, hay partes menos importantes, como Fundamentos del asesoramiento (un 6% de los contenidos), y otras más importantes, como Asesoramiento individual (30%). La tabla debe detallar los contenidos de cada parte. Por ejemplo, dentro de la parte de Fundamentos del asesora- miento, los modelos de asesoramiento representan el 1% del total del test y se va a evaluar en ellos exclusivamente la destreza Comprensión.

26 Medición en Ciencias Sociales y de la Salud

Tabla 2.1. Ejemplo de tabla de especificaciones Peso del contenido Peso de las destrezas cognitivas Comprensión Aplicación Fundamentos del asesoramiento (^) 6% 4% 2% Modelos de asesoramiento 1% 1% 0% Propósitos y objetivos del asesora- miento 2%^ 1%^ 1% Consideraciones éticas y legales 2% 1% 1% El equipo de asesoramiento 1% 1% 0% Asesoramiento individual 30% 10% 20% … Asesoramiento grupal 10% 5% 5% … Desarrollo de carreras 20% 13% 7% … Total del test 100% 42% 58% Hay que detallar también las partes del constructo a evaluar cuando elaboremos un test en contextos no educativos. Por ejemplo, si queremos medir Dogmatismo, debemos estable- cer los diversos componentes o manifestaciones del mismo: dogmatismo ante la política, ante la educación de los hijos, ante la religión, en las relaciones familiares, etc. En un test de calidad de vida en diabéticos, el test deberá evaluar los determinantes de la calidad de vida en la población general (la situación familiar, social, laboral…) y, además, los es- pecíficos de la población de diabéticos a la que el test va dirigido (tolerancia al tratamien- to, temor ante la evolución de la enfermedad…). Construcción provisional del test El siguiente paso para la construcción del test es la elaboración de los ítems. Se suele re- comendar que al menos se elaboren el doble de ítems de los que se piensa que debiera te- ner el test. En los apartados sucesivos veremos que algunos ítems serán descartados por no satisfacer los controles de calidad. Al haber elaborado más ítems de los necesarios po- dremos quedarnos con los mejores. Debemos conseguir un conjunto de ítems ante los que quepa esperar respuestas distintas de los que tengan alto y bajo nivel en el constructo que queremos medir. Si, por ejemplo, pretendemos evaluar la actitud ante la inmigración, un ítem podría requerir al evaluado informar de si está o no de acuerdo con la frase: La inmi- gración trae más ventajas que inconvenientes. Cabe esperar que las personas con actitud positiva estén de acuerdo y las personas con actitud negativa, en desacuerdo. Si queremos medir el dominio de las ecuaciones de primer grado, podríamos proponer como ítem el si- guiente: Obtenga el valor de x en la ecuación 2x – 4 = 2. Los que dominen dichas ecua- ciones encontrarán la solución correcta y los que no, no. El rendimiento en ambos ítems depende del nivel de dominio del constructo que se quiere evaluar.

Capítulo 2. Construcción de tests y análisis de ítems 27

Tipos y formatos de ítems Como hemos visto, podemos hablar de tests de rendimiento óptimo y de rendimiento típi- co. En uno de rendimiento óptimo quien responde pretende obtener la máxima puntuación posible. Así ocurre ante un examen, una prueba de aptitudes, un test de inteligencia, etc. En un test de rendimiento típico quien responde debe hacerlo de forma que su puntuación informe de cómo es o de su posición personal sobre lo que se pregunta. En este caso, no tiene sentido hablar de rendimiento máximo. Los tests de rendimiento óptimo y típico di- fieren en las siguientes 3 características:

  1. El tiempo de administración del test. En los tests de rendimiento óptimo, hay que de- terminarlo con mucho cuidado. Vimos en el capítulo precedente que se distingue entre tests de velocidad y de potencia. En los primeros se fija el tiempo de administración de forma que sea muy difícil resolver todos los ítems. Con frecuencia la tarea es muy sen- cilla (por ejemplo, sumas de un solo dígito) y se trata de ver cuántas sumas es capaz de hacer cada persona en el tiempo disponible. En los tests de potencia, por el contrario, se suele dar tiempo suficiente para que sea posible dar una respuesta meditada a cada ítem. En los de velocidad, lo que importa es saber cuántos ítems es capaz de hacer el evaluado; mientras que en los de potencia se presta especial atención a las característi- cas de los ítems que hace. En la práctica, la mayoría de los tests de rendimiento óptimo son de potencia, si bien se fija el tiempo de administración de modo que no sobre de- masiado. Eso hace que el test pueda resultar parcialmente de velocidad para los evalua- dos más lentos. Para considerar a una prueba como un test de potencia suele establecer- se que una clara mayoría haya podido dar una respuesta meditada a un 90% o más de los ítems (Schmeiser y Welch, 2006). En los tests de rendimiento típico el tiempo de aplicación tiene escasa o nula relevan- cia. Muchos tests de personalidad, por ejemplo, no tienen un tiempo límite de aplica- ción y se permite que cada evaluado responda a su ritmo. Se dan a veces instrucciones del tipo “responda sin pensar demasiado” con la idea de obtener la primera respuesta a los ítems, no para indicar que el tiempo de administración es limitado.
  2. Tratamiento de las preguntas dejadas sin contestar. En un test de rendimiento óptimo, cuando no se responde a un ítem, caben dos posibilidades. Puede ser un ítem que el evaluado no ha tenido tiempo de leer (en lo sucesivo, ítem no alcanzado) o puede que no haya querido dar la respuesta tras haberlo leído (omisión). Si el test es (puro) de ve- locidad, cabe suponer que los ítems sin respuesta son ítems no alcanzados. Si fuese (puro) de potencia, cabe suponer que ha tenido tiempo suficiente para estudiar todos los ítems y que ha omitido deliberadamente la respuesta, y son, por tanto, omisiones. Por lo general, como no suele haber tests puros, lo que se suele hacer es considerar como ítems no alcanzados por un evaluado los que siguen a su última respuesta, y como omi- siones los no respondidos que preceden a su última respuesta. Tal proceder no está exento de cierta lógica, pero choca con las estrategias de respuestas de algunos evalua- dos. Por ejemplo, ciertas personas hacen una lectura rápida del test y responden a los ítems que les resultan fáciles. Después, pasan a responder, uno a uno, despacio, hasta donde lleguen. Con esta estrategia, los ítems dejados sin responder, previos al último ítem respondido en la primera pasada rápida, van a ser considerados como omisiones cuando han podido no ser vistos detenidamente (Schmeiser y Welch, 2006).

28 Medición en Ciencias Sociales y de la Salud

En los tests de rendimiento típico las no respuestas tienen otro significado. Suelen indi- car que el ítem no se entiende o hay desinterés y falta de motivación en el evaluado. Algunos tests dan pautas sobre qué hacer con las no respuestas. Por ejemplo, en el test de los cinco grandes factores de la personalidad NEO-FFI (Costa y McCrae, 1999) se recomienda la no calificación de quien tenga más de 10 ítems sin respuesta en los 60 ítems del test, y se dan pautas concretas de cómo puntuar los ítems dejados sin respues- ta cuando son menos de 10.

  1. Respuestas al azar y sesgos de respuesta. En los tests de rendimiento óptimo con ítems de opción múltiple (en los que se ha de elegir una respuesta entre varias) es posible ob- tener aciertos, respondiendo al azar, no sabiendo la respuesta correcta. Al final del capítulo estudiaremos distintas estrategias y soluciones a este problema. En los tests de rendimiento típico no caben las respuestas al azar si se está respondiendo al test con se- riedad, pero sí podemos encontrar sesgos de respuesta, como la tendencia a utilizar las categorías extremas, la aquiescencia y la deseabilidad social (Guilford, 1954). En los ítems en los que el evaluado ha de emitir su respuesta eligiendo una categoría, nos po- demos encontrar que dos evaluados, de nivel similar de rasgo, difieran en su tendencia al uso de las categorías extremas; uno podría utilizarlas en casi todas sus respuestas, mientras que otro podría no utilizarlas apenas. La aquiescencia es la tendencia a res- ponder afirmativa o negativamente a un ítem independientemente de su contenido. Para evitar este sesgo de respuesta resulta eficaz la redacción de ítems directos e inversos; en los primeros, se espera una respuesta afirmativa de los que tengan alto nivel de ras- go, mientras que en los segundos se espera negativa. El problema de la deseabilidad social y del falseamiento de las respuestas en los tests, dada su importancia en determi- nados contextos de evaluación psicológica, se considera con detalle en el capítulo 15 de este libro.

Formatos de ítems en tests de rendimiento óptimo^1

En los tests de rendimiento óptimo pueden elaborarse preguntas abiertas (formato de res- puesta construida) o preguntas con opciones preestablecidas (formato de respuesta selec- cionada). Los dos formatos más comunes de los ítems con respuesta seleccionada son los ítems de verdadero-falso y los de opción múltiple. a) Verdadero-falso: Se muestran dos alternativas y se ha de elegir la que se considera co- rrecta. Por ejemplo, un ítem de un test de Historia Moderna podría ser: Pi y Margall fue presidente de la 1ª República Española. V( ) F( ) (^1) En este capítulo expondremos los tipos de ítems de respuesta de uso más frecuente, tanto en tests de rendi- miento óptimo como típico. Sin embargo, conviene advertir que en los últimos años han surgido formatos inno- vadores de ítems, por ejemplo los que utilizan las posibilidades del ordenador, y que permiten evaluar construc- tos que los ítems tradicionales de lápiz y papel no pueden evaluar o no lo hacen con la misma eficacia (Olea, Abad y Barrada, 2010). En el capítulo 15 se mostrarán ejemplos de estos nuevos formatos.

Capítulo 2. Construcción de tests y análisis de ítems 31

consistencias en las respuestas. La probabilidad de que una persona elija la misma cate- goría ante una misma frase, supuesto que no haya cambiado su nivel de rasgo, será mayor si ha de responder con una escala de 5 categorías que con una de 20, de ahí que, cuando son muchas las categorías disponibles, se incremente la inconsistencia. Con sólo dos o tres categorías se puede dificultar la manifestación del auténtico nivel de rasgo. Por ejemplo, dos personas, una que esté muy de acuerdo y otra que esté sólo de acuerdo, tendrán que utilizar la misma categoría si la escala es En desacuerdo/No sé/ De acuerdo. En poblacio- nes especiales, como discapacitados o personas mayores, puede resultar más adecuada una escala de pocas categorías. En las escalas de grado de acuerdo, no está del todo claro si es mejor fijar un número par o impar de categorías. Hay razones a favor y en contra de la categoría central (que puede etiquetarse como indiferente, neutral, dudo, no sé…). Su inclusión permite que al- guien que realmente no está de acuerdo ni en desacuerdo con la frase pueda indicarlo. En un ítem sin categoría central tendría que manifestarse como ligeramente de acuerdo o en desacuerdo, cuando su posición ante el enunciado no es ésa. Los partidarios de eliminar la categoría central argumentan que con demasiada frecuencia dicha categoría termina sien- do la elegida por los que responden con poco cuidado o de forma poco sincera. Los parti- darios de un número par de categorías suelen serlo también de un número más alto de ca- tegorías, de forma que se pueda entender que el ítem tiene en realidad dos categorías cen- trales (ligeramente de acuerdo y ligeramente en desacuerdo). La investigación muestra que los indicadores psicométricos de los ítems no dependen de la existencia o no de cate- goría central cuando el número de categorías es mayor de tres (Morales et al., 2003). Por último, se han propuesto muchas tandas de etiquetas. Morales et al. (2003, pp. 55-

  1. muestran varias. Las etiquetas han de abarcar todo el continuo (de acuerdo- desacuerdo, frecuencia, importancia…) y además se ha de procurar que el salto en el con- tinuo entre cada dos etiquetas consecutivas sea de similar cuantía. La escala de respuesta Muy en desacuerdo/En desacuerdo/Indeciso incumpliría la primera exigencia, pues las personas que estén de acuerdo no tienen una categoría que les permita indicarlo. El ítem que sigue incumple la segunda exigencia, pues la distancia en el continuo entre las dos primeras categorías es menor que la que hay entre la segunda y tercera. La Educación está en crisis. Muy en desacuerdo En desacuerdo De acuerdo Muy de acuerdo Redacción de ítems de opción múltiple Se han propuesto conjuntos de recomendaciones para la correcta redacción de los ítems de opción múltiple. Se basan a veces, aunque no siempre, en estudios empíricos en los que se ha comprobado que su incumplimiento genera ítems de peor calidad. Haladyna, Downing y Rodríguez (2002) han propuesto 31 recomendaciones. Moreno, Martínez y Muñiz (2004) las han reelaborado y proponen las siguientes 12, clasificadas en 3 apartados, que reproducimos a continuación con ligeros cambios:

32 Medición en Ciencias Sociales y de la Salud

A. Elección del contenido que se desea evaluar.

  1. Cada ítem debe evaluar el contenido de una celdilla de la tabla de especificaciones, lo que garantiza que el test muestreará bien todo el contenido a evaluar. Hay que evi- tar los ítems triviales.
  2. El ítem deberá ser sencillo o complejo, concreto o abstracto, memorístico o de razo- namiento en función de las destrezas y contenidos que deba evaluar. Las dos primeras recomendaciones indican que la creación de los ítems ha de ceñirse a lo estudiado en el primer apartado sobre diseño del test y, en particular, a lo establecido en la tabla de especificaciones. B. Expresión del contenido en el ítem.
  3. Lo central debe expresarse en el enunciado. Cada opción es un complemento que debe concordar gramaticalmente con el enunciado, pues la opción que no concuerda suele ser incorrecta.
  4. La sintaxis o estructura gramatical debe ser correcta. Conviene evitar ítems dema- siado escuetos o profusos, ambiguos o confusos. Conviene cuidar especialmente las expresiones negativas para evitar que puedan ser interpretadas incorrectamente.
  5. La semántica debe estar ajustada al contenido y a la comprensión lingüística de las personas evaluadas. Si no es así, las respuestas al ítem dependerán del constructo que se pretende medir, como se pretende, pero también de la comprensión lingüística de los evaluados, que no se pretende. C. Construcción de las opciones.
  6. La opción correcta debe ser sólo una y debe ir acompañada por distractores plausi- bles. Si las opciones incorrectas no son plausibles, no sabremos cuántas opciones del ítem están actuando como auténticos distractores.
  7. La opción correcta debe estar repartida entre las distintas ubicaciones, evitando la tendencia natural a ubicar la opción correcta en las posiciones centrales (Attali y Bar- Hillel, 2003).
  8. Las opciones deben ser preferiblemente tres. Se han realizado trabajos que prueban que no suelen resultar mejores los ítems de 4 ó 5 opciones que los de 3 (p. ej., Abad, Olea y Ponsoda, 2001). Lo serían si la cuarta, quinta… opción fuesen de la misma cali- dad que las tres primeras, lo que no es frecuente. Por tanto, suele resultar más apropia- do, por ejemplo, un test de 80 ítems de 3 opciones que uno de 40 ítems de 6 opciones, a pesar de que el tiempo dedicado al procesamiento de los ítems sea parecido en ambos casos.
  9. Las opciones deben presentarse usualmente en vertical. Cuando se presentan en horizontal, una tras otra, es más fácil que alguna no se entienda correctamente.
  10. El conjunto de opciones de cada ítem debe aparecer estructurado. Por ejemplo, si las opciones fuesen valores numéricos, se recomienda que aparezcan ordenados. La or- denación facilita la correcta comprensión del ítem.

Capítulo 2. Construcción de tests y análisis de ítems 33

  1. Las opciones deben ser autónomas entre sí, sin solaparse ni referirse unas a otras. Por ello, deben evitarse las opciones “Todas las anteriores” y “Ninguna de las ante- riores”. A veces se redactan dos opciones de forma que necesariamente una de las dos es correcta, de lo que se puede inferir que las restantes son incorrectas.
  2. Ninguna opción debe destacar del resto ni en contenido ni en apariencia. Cuando una opción destaca en contenido o apariencia suele dar pistas sobre si es o no correcta. No es infrecuente encontrarse en un ítem varias opciones poco elaboradas y muy bre- ves, que son incorrectas, y una más elaborada, más extensa, que es la correcta. Hemos revisado (García, Ponsoda, Sierra, 2009) más de 50 exámenes de opción múltiple con los que se evalúa en la universidad y hemos comprobado que se suelen incumplir al- gunas de las recomendaciones expuestas. De hecho, hemos encontrado: Ítems con ninguna o más de una solución correcta. Ítems con demasiado texto. Con el loable propósito de que el estudiante vea el interés e importancia de lo que se pregunta, muchas veces se redactan ítems con mucho más tex- to del necesario, lo que puede dificultar su comprensión. Ítems que dan pistas de la solución correcta. A veces, la pista resulta de la falta de con- cordancia gramatical entre el enunciado y alguna opción. Otras veces, una opción es mucho más larga y está más elaborada que las demás. En otras ocasiones se ofrecen dos opciones que agotan las posibles respuestas. A veces se proponen ítems que apare- cen resueltos en otros ítems del mismo test. En estas situaciones, el rendimiento en el ítem no depende sólo del nivel de conocimiento, como debiera ser, sino de la capacidad del estudiante para captar estas pistas. Presencia de opciones del tipo “Ninguna de las anteriores” y “Todas las anteriores”. Muchas veces, por la necesidad de redactar el número de opciones preestablecido, se termina incluyendo una opción de este tipo, seguramente porque requiere menos es- fuerzo que elaborar una opción plausible nueva. Opciones incorrectas (o distractores) poco plausibles. Las opciones incorrectas poco plausibles son poco elegidas y tenemos entonces la duda de cuántas opciones realmente funcionales tiene el ítem. Las opciones incorrectas no deberían descartarse utilizando sólo el sentido común. Las alternativas no ciertas deben ser elegidas entre los errores o confusiones que usualmente tienen las personas que no conocen la respuesta correcta a la pregunta. Otra posible estrategia para generar buenos distractores sería el uso de al- ternativas de respuesta que son verdaderas para otras preguntas, pero que son inciertas para el enunciado al que se asocian. Redacción de ítems de categorías ordenadas Respecto a la manera de formular las cuestiones en los tests de rendimiento típico, se han propuesto algunas recomendaciones que pueden ayudar a su correcta redacción:

34 Medición en Ciencias Sociales y de la Salud

  1. Utilizar el tiempo presente.
  2. Deben ser relevantes, en el sentido de que su contenido debe relacionarse claramente con el rasgo. Hay que redactar frases ante las que darían respuestas distintas los que tengan alto y bajo nivel en el rasgo que se pretenda evaluar.
  3. Se debe cuidar que el contenido sea claro y evitar una excesiva generalidad. Resultan mejor los ítems formados por frases cortas, simples e inteligibles. Hay que evitar in- cluir dos contenidos en un ítem.
  4. Para minimizar la aquiescencia conviene redactar ítems de modo directo e inverso.
  5. Conviene evitar el uso de negaciones, pues dificultan la comprensión de la frase, y de universales (todo, siempre, nunca...), pues llevan a casi todos los evaluados a elegir la misma categoría de respuesta. Algunas escalas de Sinceridad utilizan precisamente es- tos universales para detectar el falseamiento de respuestas. Un enunciado de un posible ítem de una escala de Sinceridad sería Nunca me ha apetecido hacer algo prohibido, precisamente con la idea de que los evaluados que respondan sin falsear se habrán de manifestar en desacuerdo con el enunciado. Se recomienda generar tantos ítems directos como inversos. Lo preferible es que los ítems inversos no lleven negaciones. En un ítem para medir el interés por el estudio, la frase “Me gusta estudiar” daría lugar a un ítem directo, y las frases “No me gusta estudiar” y “Me aburre estudiar” darían lugar a ítems inversos. La última sería preferible a la penúl- tima pues evita la negación. La presencia de ítems directos e inversos en un test tiene en ocasiones más trascendencia psicométrica de la que aparentemente cabría esperar. Se ha encontrado que la presencia de ítems directos e inversos termina afectando a la estructura interna del test, es decir, a las dimensiones que se miden. Por ejemplo, Tomás y Oliver (1999) comprueban que esto ocurre en el test de Autoestima de Rosenberg. De ahí que haya instrumentos que sólo contienen ítems directos. Un error que suelen cometer los que tienen poca experiencia en la redacción de ítems es la introducción en la frase de más de un contenido. Por ejemplo, en un ítem hay que manifestarse de acuerdo o en desacuerdo ante el siguiente enunciado “Pienso que es bue- no premiar a los hijos cuando se portan bien y que da mejor resultado que castigarlos cuando hacen algo mal”. La frase en realidad contiene dos afirmaciones y la respuesta dada a la frase original puede referirse a la primera, a la segunda o a ambas. Otro error frecuente en la redacción de estos ítems es el uso inadecuado de la escala de respuesta. Por ejemplo, el ítem que sigue estaría mejor redactado con una escala de fre- cuencia que de grado de acuerdo, como se muestra en la redacción alternativa. Juego al tenis al menos una vez por semana. Muy en desacuerdo ( ) En desacuerdo ( ) Indeciso ( ) De acuerdo ( ) Muy de acuerdo ( )

Capítulo 2. Construcción de tests y análisis de ítems 37

tente. Al mismo tiempo, permite al profesor especificar claramente qué espera del estu- diante y cuáles son los criterios con los que va a calificar cada respuesta. Livingston (2009) expone las ventajas e inconvenientes de los distintos tipos de rúbricas. Sea cual sea el tipo de ítem de respuesta construida, la puntuación en el test se obtiene también aplicando la ecuación [2.1], es decir, sumando las puntuaciones obtenidas en los diferentes ítems. Tests de rendimiento típico La cuantificación de las respuestas a ítems de pruebas de rendimiento típico requiere cier- tos matices. Dado un formato de respuesta determinado, es necesario cuantificar las posi- bles respuestas a un ítem teniendo en cuenta si es un ítem directo o inverso. Por ejemplo, en un ítem con formato de respuesta de opción binaria (acuer- do/desacuerdo), cuantificaremos el acuerdo con 2 si el ítem está planteado para medir de manera directa el constructo de interés. Lo cuantificaremos con 1, si está redactado de manera inversa. Se muestran 2 ítems de un cuestionario de actitud ante al aborto volunta- rio: Abortar es matar. En desacuerdo ( ) De acuerdo ( ) La madre es la dueña de su cuerpo en asuntos de aborto. En desacuerdo ( ) De acuerdo ( ) En el primero, que es inverso, la respuesta “De acuerdo” se puntuaría con 1 y “En des- acuerdo” con 2; ya que estar en desacuerdo con esa afirmación indica una actitud más po- sitiva hacia el aborto voluntario. En el segundo ítem, que es directo, “De acuerdo” se puntuaría con 2 y “En desacuerdo” con 1; ya que estar de acuerdo con esa afirmación in- dica una actitud más positiva hacia el aborto voluntario. Si el formato de respuesta es de K categorías ordenadas, las diversas categorías se cuantificarán normalmente desde 1 hasta K, teniendo en consideración si el ítem es directo o inverso. Por ejemplo, en ítems de 5 categorías, las dos posibles cuantificaciones serán: 1 (Muy en desacuerdo), 2… 5 (Muy de acuerdo), en un ítem directo; y 5 (Muy en desacuer- do), 4… 1 (Muy de acuerdo), en un ítem inverso. El ítem podría también cuantificarse uti- lizando otras tandas de valores (por ejemplo, 0, 1, 2, 3 y 4, ó –2, –1, 0, 1 y 2). En realidad cualquier tanda de cinco valores enteros consecutivos es apropiada y proporciona los mismos resultados psicométricos. Además, la cuantificación de un ítem de opción binaria no ha de ser necesariamente 1 y 2 (podría ser, por ejemplo, 0 y 1). La puntuación de un evaluado en el test se obtiene sumando sus puntuaciones en los ítems (ecuación [2.1]).

Ejemplo 2.1. Cuantificación de ítems de categorías ordenadas

La Tabla 2.2 muestra dos ítems de un test de Calidad de vida, con tres categorías. Se indi- ca la cuantificación apropiada de cada categoría según sea el ítem directo o inverso. El primer ítem es directo y el segundo, inverso.

38 Medición en Ciencias Sociales y de la Salud

Tabla 2.2. Cuantificación de dos ítems de categorías ordenadas En desacuerdo Indeciso De acuerdo Me siento apoyado por mi familia 1 2 3 Mi vida carece de sentido 3 2 1 Análisis de ítems Con análisis de ítems^3 nos referimos a los procedimientos dirigidos a extraer información sobre su calidad. Estudiaremos procedimientos que permiten seleccionar los ítems más apropiados a los objetivos específicos del test. Después del proceso de análisis de ítems se podrán determinar los ítems que formarán parte del test definitivo, o construir la versión breve o reducida de un instrumento ya en uso. En cualquier caso, vamos a obtener indica- dores que no deben interpretarse de forma automática, sino inteligentemente, atendiendo al objetivo específico del test. En contextos de evaluación educativa, por ejemplo, el aná- lisis de ítems permite ir mejorando las preguntas con las que evaluamos y el examen en su conjunto, y nos puede informar sobre qué han aprendido o aprendido mal los estudiantes (Morales, 2009). Downing y Haladyna (1997) distinguen entre el análisis cualitativo de ítems y el aná- lisis cuantitativo. El primero precede a la aplicación del test y requiere comprobar, por lo general mediante expertos, que se han realizado adecuadamente las actividades comenta- das en los apartados previos. Aplicado el test, se recomienda hacer el análisis cuantitativo. Cuando hablamos de análisis de ítems sin más, nos referimos a este último. Requiere la obtención para cada ítem de diversos indicadores, que pueden encuadrarse en tres catego- rías: los de dificultad, los de discriminación y el de validez. Tras aplicar el test provisional a una muestra de evaluados representativa de la pobla- ción a la que va dirigida la prueba (se aconseja al menos entre 5 y 10 veces más evalua- dos^4 que ítems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de datos de N filas (evaluados) x J columnas (ítems). El elemento Xij de esta matriz indica el valor obtenido por el evaluado i en el ítem j. Según la ecuación [2.1], sumando (^3) Tanto la TCT como la TRI proporcionan indicadores de las características psicométricas de los ítems. En este tema estudiaremos los indicadores que aporta la TCT. Los que aporta la TRI se verán al estudiar esta teoría. Un segundo comentario tiene que ver con la ubicación en el libro de este apartado. El análisis de ítems se ocupa del estudio de los ingredientes básicos de los tests. La calidad del todo (el test) depende, como cabe esperar, de la calidad de las partes (los ítems). Es, entonces, inevitable, que en el estudio de los ítems aparezcan conceptos de la calidad del test que estudiaremos en capítulos sucesivos. Por esta razón, en la mayoría de los manuales el aná- lisis de los ítems más bien cierra los libros que los abre. Sin embargo, en el proceso de construcción de un test, el análisis de sus ítems precede a la determinación de los ítems que componen el test definitivo. Nuestra experien- cia docente aconseja exponer a los estudiantes este tema al inicio de la materia y no al final, y siguiendo esta lógica hemos preferido mantener esa misma ordenación en el libro. (^4) Varios ejemplos incumplirán esta recomendación. En este y siguientes capítulos expondremos ejemplos de tests con muy pocos ítems y muy pocos evaluados, muchos menos de los que necesitaría un test real. Son ejem- plos pensados para facilitar la comprensión de lo expuesto, que requieren pocos cálculos y escaso espacio.

Capítulo 2. Construcción de tests y análisis de ítems 39

por filas obtendremos las puntuaciones directas (X) de los evaluados en el test. La Tabla 2.3 muestra los datos obtenidos por cinco evaluados en un test de rendimiento óptimo de 3 ítems (X 1 , X 2 y X 3 ). La columna más a la derecha muestra la puntuación de cada uno en el test (X), que es su número de aciertos si los 1 y 0 de la tabla indican acierto y error en el ítem. Tabla 2.3. Resultados de 5 evaluados en 3 ítems y en el test X X 1 X 2 X 3 X 1 1 0 2 1 0 0 1 0 1 1 2 1 1 0 2 0 1 1 2 En el caso de un test de rendimiento típico, tendríamos una tabla similar. Los datos de 4 evaluados en un test de Autoestima, con 5 ítems tipo Likert de 7 alternativas, podrían or- ganizarse como se muestra en la Tabla 2.4. También en este caso, las puntuaciones en el test resultan de sumar las puntuaciones en los 5 ítems. Tabla 2.4. Resultados de 4 evaluados en 5 ítems y en el test X X 1 X 2 X 3 X 4 X 5 X 7 5 4 7 6 29 1 1 3 4 2 11 4 6 5 4 3 22 6 6 5 5 7 29 A estas tablas de datos se pueden aplicar los distintos indicadores que informarán de las características psicométricas de los ítems. Índice de dificultad Este indicador sirve para cuantificar el grado de dificultad de cada ítem. Se aplica a los ítems dicotómicos de los tests de rendimiento óptimo. El índice de dificultad de un ítem j, pj, se define como la proporción de evaluados que ha acertado el ítem. Es el cociente entre el número de evaluados que lo han acertado (Aj) y el total de evaluados que lo han respon- dido (Nj). j j j [2.2]

40 Medición en Ciencias Sociales y de la Salud

Ejemplo 2.2. Obtención del índice de dificultad

Supongamos que 5 evaluados responden a un test de 3 ítems. En la Tabla 2.5 se muestran sus puntuaciones. Nótese que los evaluados 4 y 5 han dejado ítems sin responder. Tabla 2.5. Puntuaciones de 5 evaluados en 3 ítems y en el test X Evaluado X 1 X 2 X 3 X 1 1 1 0 2 2 1 0 0 1 3 0 1 1 2 4 1 - - 1 5 0 - 1 1 Los índices de dificultad de los tres ítems serán: 0 , 60 5

1 1 1 0 , 67 3

2 2 2 N p^ A 0 , 50 4

3 3 (^3) N

A

p En los tests de opción múltiple es posible obtener aciertos respondiendo al azar. En el último apartado veremos los procedimientos que permiten descontar del número de acier- tos obtenidos por cada evaluado los que presumiblemente se deben a haber respondido al azar. Algo similar cabe plantearse en relación al índice de dificultad. En un test en el que no haya respuestas al azar tendremos presumiblemente menos aciertos de los que tendría- mos en ese mismo test si las hubiera habido. Se han propuesto fórmulas que corrigen los aciertos debidos a respuestas al azar. El índice de dificultad corregido de un ítem de op- ción múltiple de K opciones, c j , se obtiene aplicando la siguiente expresión (Schmeiser y Welch, 2006): 1 j j j c j [2.3]