




























































































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Psicometría, Profesor: , Carrera: Psicología, Universidad: UAM
Tipo: Apuntes
1 / 278
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!





























































































Prólogo Escribir un libro exige tomar un conjunto de opciones previas sobre su contenido y estilo. Una vez recibida la oferta de Editorial Síntesis, muchos fueron los debates entre los auto- res para definir en concreto el libro que queríamos escribir: ¿para qué tipo de lectores?, ¿qué contenidos incluir?, ¿a qué nivel hacerlo?, ¿cómo establecer un estilo didáctico man- teniendo el rigor formal?, ¿cómo fomentar destrezas y no sólo conocimientos? En reali- dad, la respuesta a la primera de estas preguntas sirve para responder en parte las siguien- tes. El libro que presentamos es un libro de Psicometría que puede resultar de interés para estudiantes e investigadores de las Ciencias Sociales y de las Ciencias de la Salud. Hemos encontrado dos razones fundamentales para escribirlo: en primer lugar, que parte del libro sirva a nuestros estudiantes de grado como referencia básica para el aprendizaje de la asignatura troncal de Psicometría; en segundo lugar, la opción por describir determinados temas que consideramos relevantes para una formación más elevada y que es difícil en- contrar en otros de los buenos textos sobre Medición escritos en español. La primera parte del libro incluye 7 temas de lo que podríamos definir como Psico- metría fundamental, pensados como los contenidos básicos para las asignaturas troncales de grado. ¿Qué es lo que consideramos como fundamental (podríamos calificarlo como “mínimo”) para la formación psicométrica de un estudiante de grado? Nuestras opciones se han fundamentado en un intento de mejorar el proceso de enseñanza y aprendizaje de la Psicometría en los nuevos planes de estudio requeridos en el proceso de acomodación al Espacio Europeo de Educación Superior. Por tanto, tenemos presente un marco concreto de desarrollo de los contenidos: una asignatura troncal que podría oscilar entre 6 y 9 crédi- tos ECTS, con contenidos fundamentales (aunque no exclusivos) de Teorías de los Tests y poniendo énfasis en complementar los contenidos teóricos con la formación práctica. En este sentido, y adicionalmente a una rigurosa formación teórica en los modelos fundamen- tales de medición (Teoría Clásica y Teoría de la Respuesta al Ítem), pretendemos que el estudiante se encuentre capacitado para entender la información psicométrica básica que aportan diversos instrumentos de evaluación, fundamentalmente los tests; optamos además por que el estudiante se enfrente con problemas concretos de medición, maneje el software fundamental para el estudio psicométrico de un test y sea capaz de elaborar in- formes técnicos sobre los resultados. Los estudiantes que adquieran estas competencias serán capaces de redactar buenos ítems, de analizar sus propiedades métricas, de aplicar las mejores técnicas y procedimientos para estudiar la fiabilidad y validez de las puntua- ciones de los tests, así como de interpretar adecuadamente las asignadas mediante el ba- remo correspondiente. Con esta primera parte del libro pretendemos establecer las bases para la adquisición de estos conocimientos, pero no sirve del todo para adquirir las destre- zas de tipo más aplicado. Completaremos la formación con la propuesta y seguimiento de varios trabajos prácticos cuyas guías los estudiantes tendrán disponibles en nuestras pági- nas de docencia.
Los temas de la segunda parte, que podrían considerarse como la iniciación a una Psicometría aplicada avanzada, se refieren a contenidos más específicos, propios de los que deben saber los estudiantes que quieran especializarse en temas de Metodología (en materias optativas y en estudios de posgrado) o los investigadores en Ciencias Sociales y de la Salud que desarrollan o adaptan tests. Los temas incluidos en esta segunda parte pueden considerarse como extensiones y aplicaciones particulares de los descritos en la primera parte. Así, hemos optado por desarrollar más ampliamente los contenidos sobre modelos psicométricos, incluyendo procedimientos alternativos para estimar la fiabilidad, el tema de la medición del cambio y contenidos más avanzados sobre TRI (procedimien- tos estadísticos y modelos politómicos). Sobre la validación de puntuaciones, en esta se- gunda parte se tratan con bastante detenimiento los temas de análisis factorial confirmato- rio, funcionamiento diferencial de los ítems y adaptación de tests a otras culturas, así co- mo otras estrategias específicas de validación. Finalmente, se incluye un tema sobre tests informatizados y otros formatos de ítems. Con ello hemos querido avanzar en determina- das aplicaciones psicométricas que cada vez resultan más usuales en la investigación y en la práctica profesional, pero que seguramente no tienen cabida en las materias troncales de los planes de estudio de grado. Tanto una como otra parte quedarían didácticamente cojas sin la descripción básica de los programas informáticos disponibles para hacer las cosas. En este sentido, en el libro se describen los procedimientos básicos para realizar las estimaciones con diversos pro- gramas informáticos: SPSS y FACTOR (modelo clásico y análisis factorial exploratorio), MULTILOG (para la TRI) y MPLUS (para el análisis factorial confirmatorio).
Etimológicamente, la Psicometría es la disciplina que tiene por objeto la medición de la “psique”; hoy en día diremos mejor la medición de capacidades, atributos o características psicológicas. Su objetivo es establecer “teorías sobre” y “métodos para” la medición en Psicología y en otras disciplinas afines. Se caracteriza en primer lugar porque utiliza la formulación matemática para desarrollar teorías y modelos para la medición de variables psicológicas. La define, en segundo lugar, su interés por promover métodos, técnicas e instrumentos para la mejor medición posible de dichas variables en cualquier contexto de especialización de las Ciencias Sociales y de la Salud. Las variables objeto de medición pueden ser de diverso tipo, y no son independientes de las perspectivas teóricas asumidas: rasgos, actitudes, procesos, conductas, conocimientos, destrezas, actividad psicofisiológi- ca, etc. En este sentido, es objeto de la Psicometría el análisis de cualquier asignación numérica que se realiza sobre variables psicológicas, obtenida por diversos procedimien- tos o instrumentos, en términos de su precisión (error de medida) y validez (inferencias de diverso tipo que pueden realizarse a partir de dichas asignaciones), que en definitiva son los conceptos clave bajo cualquiera de los prismas teóricos de la disciplina y las propieda- des psicométricas fundamentales que deberemos analizar. En general, el objeto de la me- dición son las personas, aunque también pueden serlo los grupos, las instituciones o estí- mulos de diverso tipo. En cuanto a los instrumentos empleados para la obtención de pun- tuaciones, los tests son los más utilizados, aunque no son los únicos (por ejemplo, pueden derivarse mediciones a partir de los juicios subjetivos de unas personas sobre ciertas ca- racterísticas de otras o establecer diseños observacionales para efectuar determinados re- gistros conductuales). Algunos antecedentes y eventos históricos pueden ayudarnos a comprender la identidad y el sentido de la Psicometría como disciplina:
Fechner como la ciencia exacta que estudia las relaciones funcionales entre el cuerpo y la mente. A partir de los trabajos de Weber, Fechner establece su famosa ley logarítmi- ca, S = k log E, para describir la relación matemática entre un continuo estimular, E, y la sensación producida en la persona, S. Los psicofísicos perciben enseguida la dificul- tad que representa la medición de hechos mentales (sensaciones) y proponen varios métodos indirectos para su medición. Realizaban experimentos donde incrementaban progresivamente la cantidad de estimulación (por ejemplo una señal acústica) y medían la sensación contando el número de veces que una persona percibía cambios en dicha estimulación desde el umbral absoluto (cuando el evaluado empieza a percibir el ruido) hasta el nivel de intensidad física presentado en un ensayo concreto. En el laboratorio de Leipzig, fundado por Wundt, algunos investigadores como Donders y Cattell emple- an el tiempo de reacción y la cantidad de eventos recordados como medida de rendi- miento en diversos procesos psicológicos (atención, memoria…).
psicológicos. La que más relevancia aplicada ha tenido ha sido la Teoría de las escalas de medida de Stevens (definiendo las propiedades y las transformaciones admisibles asocia- das a los niveles de medida nominal, ordinal, de intervalo y de razón), si bien ha sido fuer- temente criticada desde otras perspectivas (teorías representacional, de medición conjunta, operacionalista, etc.). Una introducción a estos temas puede consultarse en Ponsoda (2008); los planteamientos teóricos y los principales puntos de controversia, a veces im- portantes (incluso hasta poner en duda la posibilidad de medición de lo psicológico), están bien descritos en los libros de Michell (1999) y Borsboom (2005). Tipos de tests y ámbitos de aplicación Consideramos genéricamente un test como un procedimiento estandarizado que sirve para muestrear ciertas conductas de las personas a partir de sus respuestas a una serie de indi- cadores (ítems), puntuarlas e inferir su nivel verdadero en el constructo o variable latente. A partir de las respuestas correctas a unos ítems de analogías verbales y sinónimos debe- mos inferir la aptitud verbal de las personas; tras manifestar el grado de acuerdo con de- terminadas afirmaciones debemos inferir el nivel de actitudes xenófobas; después de res- ponder a un conjunto de ítems sobre aspectos gramaticales del inglés debemos inferir el nivel de comprensión escrita en el idioma. Para hablar propiamente de test, se han de cumplir tres condiciones. En primer lugar, los ítems han de tener propiedades psicométricas conocidas y se han de haber elaborado siguiendo las oportunas normas de construcción. No siempre es fácil distinguir a simple vista cuándo estamos ante un test o ante algo que sólo lo es en apariencia, por no haberse elaborado adecuadamente. En segundo lugar, un test requiere una administración contro- lada. Se han de seguir las instrucciones, las condiciones de administración y de puntua- ción establecidas en el proceso de construcción del test. En tercer lugar, el test debe pre- tender evaluar a una persona en un atributo de interés. A veces se confunden los tests con otros instrumentos, como las encuestas, cuya finalidad no es puntuar a cada persona que responde, sino saber, por ejemplo, las tendencias de voto a los distintos partidos. Son muy diversos los tipos de atributos psicológicos a medir, y por tanto los tipos de tests y los formatos de ítems de que disponemos en Psicología. Hace unos años que varios historiadores de la Psicología Española (Quintana, Albert y López-Martín, 2008) rescata- ron y editaron unos “Apuntes para un curso de Psicología aplicada a la selección profesio- nal”, elaborados en 1924 por el doctor Rodrigo Lavín como material docente de su cátedra de Psicología Experimental. Esta auténtica joya casi centenaria, de recomendable lectura, representa una de las primeras veces que en España se habla sistemáticamente de los tipos y usos de los tests; decía ya entonces el autor que “Como la observación nos da muy po- cos datos utilizables y la conversación o entrevista no basta para descubrir las habilida- des de los solicitantes, es necesario recurrir a los tests. Se puede decir que estamos en el comienzo de los tests y, a pesar de eso, hay un desarrollo extraordinario de ellos; ello in- dica lo que sucederá andando el tiempo”. Hablaba el autor de que existían entonces tests de capacidades o habilidades, tanto generales como específicas, y que en la selección pro- fesional eran de especial importancia los tests de fuerza, de resistencia a la fatiga, de con- trol motor y de capacidades mentales (atención, sensación y percepción, imaginación e in- teligencia general). Seguramente influenciado por los procedimientos de medida de
Wundt, de los psicofísicos y de Galton, Rodrigo Lavín describía con detalle algunos apa- ratos mecánicos y ciertos procedimientos de puntuación que podían emplearse para la me- dición de competencias y habilidades, así como algunas tareas de papel y lápiz que podían plantearse para medir la capacidad imaginativa o la inteligencia general (ya entonces esta- ba al tanto de los tests de Binet y de los empleados en el ejército estadounidense). Transcurrido cierto tiempo, en las primeras páginas de sus imperecederos apuntes so- bre “Introducción a la Teoría de los Tests” (una parte ha sido reeditada en Psicothema ba- jo el título de “Los tests y el análisis factorial” en 1996), don Mariano Yela recordaba la connotación etimológica de la palabra (testis, testigo, testimonio) y realizaba una clasifi- cación de los tests atendiendo al método general seguido (tests psicométricos vs. tests proyectivos), a su fin (cualitativos vs. cuantitativos), a la relación con el aplicador (perso- nales vs. impersonales), al modo de aplicación (individuales vs. colectivos), al material que se emplea (impresos vs. manipulativos) y, fundamentalmente, atendiendo al tipo de atributo que miden (diferenciando diversos tests de rendimiento, de aptitud o de persona- lidad). Actualmente las cosas han cambiado bastante en cuanto a los tipos de tests que se ela- boran en Psicología para la medición de atributos psicológicos, y por tanto, en relación a los recursos que un psicólogo aplicado puede emplear para su medición. A las tradiciona- les categorías del profesor Yela podrían proponerse otras, pero habría que añadir al menos dos fundamentales que tuvieran en cuenta el medio de aplicación (tests de lápiz y papel vs. tests informatizados) y el modelo en que se sustentan los análisis psicométricos (tests analizados desde la Teoría Clásica vs. desde la Teoría de la Respuesta al Ítem). Tratando de realizar un resumen sobre los diferentes tipos de tests de que disponemos en la actuali- dad en Psicología, atendiendo a varios criterios generales de clasificación, podríamos es- tablecer los siguientes:
Según el tipo de rendimiento que desea medirse, hablamos de tests de rendimiento óptimo (aquellos que pretenden medir el rendimiento máximo que es capaz de alcanzar una persona, tal como se hace en tests de conocimientos o en los tests de inteligencia y aptitudes) o de tests de rendimiento típico (interesa medir el comportamiento usual, tal como se hace en los tests de personalidad o en las escalas de actitudes).
Según el modelo psicométrico desde el que se analizan las propiedades de los ítems y de las puntuaciones de los evaluados, hablamos de tests analizados desde la TCT y de tests analizados desde la TRI. Ambos modelos pueden aplicarse a las puntuaciones de un mismo test.
Según el medio de aplicación diferenciamos entre tests de lápiz y papel y tests informa- tizados. Dentro de estos últimos se distingue entre tests fijos informatizados (aquellos que presentan los mismos ítems a todos los evaluados), tests óptimos (aquellos que se eligen de un banco determinado para optimizar ciertas propiedades psicométricas en un grupo de personas específico) y tests adaptativos informatizados (los que presentan di- ferentes ítems del banco a los diferentes evaluados, dependiendo del nivel progresivo que vayan manifestando en la prueba).
Según el modo de interpretar las puntuaciones hablamos de tests referidos a normas (la interpretación se realiza mediante un baremo obtenido en un grupo normativo) y tests referidos al criterio (la interpretación se refiere al rendimiento individual conseguido por una persona en relación a unos criterios o dominios establecidos de antemano). Ca- be interpretar desde ambas perspectivas el rendimiento en el mismo test.
impulsado la creación de tests desde posiciones teóricas diferentes y cada vez más fieles a los modelos teóricos en que se sustentan. En tercer lugar, porque cada vez es mayor la exigencia psicométrica a la que somete- mos a las puntuaciones de los tests. El ineludible requisito de “medir bien” (que podría- mos concretarlo en los tradicionales tópicos de fiabilidad y validez de las puntuaciones) está impulsando el desarrollo de nuevos tipos de tests y nuevos modelos psicométricos pa- ra estudiar las garantías que ofrecen sus aplicaciones, entre los que destacan los modelos de TRI. Cada vez son más los profesionales que no aplican los tests por mera rutina, sino que exigen buenos tests para objetivos específicos, es decir, los que han demostrado su utilidad para los fines que tienen planteados. Se ha evolucionado mucho desde la mera adaptación de tests elaborados originalmente en otro idioma y para otra cultura (a veces sin traspasar el necesario rubicón psicométrico), al uso de aquellos que manifiestan ga- rantías psicométricas aceptables, sean diseñados originalmente o adaptados de unas cultu- ras a otras. En cuarto lugar, porque los avances tecnológicos, fundamentalmente los informáticos, ayudan a medir mejor (de forma más válida y fiable) ciertos atributos y a incrementar la eficiencia de las aplicaciones.
ejemplo, alcance la misma puntuación que otro sin discapacidad que tenga su mismo nivel en el constructo. A veces se preparan cuadernillos e instrucciones en distintos idiomas, o en tamaños de letra y formato diferentes. Otras veces se cambia el modo de administra- ción, que puede pasar de colectivo a individual, o se leen o interpretan los ítems al evalua- do para facilitarle su comprensión. Schmeiser y Welch (2006) recomiendan prestar atención a lo que llaman restricciones administrativas. Las hay de distinto tipo: de tiempo, de coste, de medios (como aulas, or- denadores o vigilantes disponibles), etc. Los medios disponibles pueden condicionar el número de tests a construir si se quiere preservar la seguridad de la prueba. Por ejemplo, en contextos de evaluación educativa, la escasez de aulas o de vigilantes podría aconsejar la construcción de varios exámenes equivalentes, en vez de un único examen. De todas las restricciones, las más importantes son las relacionadas con el tiempo de administración. Dependiendo de la trascendencia del test (no tiene la misma un examen de una parte de la materia que uno con el que se consigue la acreditación para trabajar como médico, por ejemplo), de la edad de los evaluados o del tipo de ítems, será necesario un test con unas u otras características psicométricas, más largo o más corto y que requiera más o menos tiempo de aplicación. La longitud óptima del test es aquella que, siendo aceptable para los evaluados, proporciona puntuaciones con la calidad necesaria para justificar el uso previs- to o las decisiones que se toman en el proceso de evaluación. Vimos en el capítulo precedente que hay tests referidos a normas y referidos al crite- rio. El tipo de test también condiciona la prueba concreta que finalmente construyamos. También habrá que decidir si finalmente se va a dar a cada evaluado una o más puntua- ciones, y, en el caso de sólo una, cómo contribuyen a ella las diferentes partes del test. Además del propósito y de todo lo expuesto anteriormente, conviene construir la tabla de especificaciones, donde se detallan los contenidos del test, las destrezas cognitivas a evaluar y el porcentaje de ítems que debe corresponder a cada celdilla que resulta de cru- zar los contenidos y las destrezas. En evaluación educativa, hay que analizar el programa del curso, preguntar a los profesores qué explican y qué tiempo dedican a cada parte, hacer una revisión bibliográfica, etc. En selección de personal, se han propuesto técnicas propias, como el análisis de puestos o la técnica de los incidentes críticos, que facilitan la especificación de los contenidos y destrezas. La Tabla 2.1 (adaptada de la Tabla 9.2 de Schmeiser y Welch, 2006, p. 317) muestra la estructura de una tabla de especificaciones de un examen de Asesoramiento Psicológico. Incluye dos destrezas: Comprensión (de hechos, razones, relaciones, principios, fórmulas, gráficos y detección de errores en los procedimientos y en la práctica) y Aplicación (habi- lidad para seleccionar y aplicar principios y reglas, analizar e interpretar situaciones, ex- traer conclusiones y diagnosticar necesidades y problemas). La tabla muestra que el 42% de las preguntas del test evaluarán la destreza Compren- sión frente al resto (58%) que evaluará Aplicación. En cuanto a contenidos, hay partes menos importantes, como Fundamentos del asesoramiento (un 6% de los contenidos), y otras más importantes, como Asesoramiento individual (30%). La tabla debe detallar los contenidos de cada parte. Por ejemplo, dentro de la parte de Fundamentos del asesora- miento, los modelos de asesoramiento representan el 1% del total del test y se va a evaluar en ellos exclusivamente la destreza Comprensión.
Tabla 2.1. Ejemplo de tabla de especificaciones Peso del contenido Peso de las destrezas cognitivas Comprensión Aplicación Fundamentos del asesoramiento (^) 6% 4% 2% Modelos de asesoramiento 1% 1% 0% Propósitos y objetivos del asesora- miento 2%^ 1%^ 1% Consideraciones éticas y legales 2% 1% 1% El equipo de asesoramiento 1% 1% 0% Asesoramiento individual 30% 10% 20% … Asesoramiento grupal 10% 5% 5% … Desarrollo de carreras 20% 13% 7% … Total del test 100% 42% 58% Hay que detallar también las partes del constructo a evaluar cuando elaboremos un test en contextos no educativos. Por ejemplo, si queremos medir Dogmatismo, debemos estable- cer los diversos componentes o manifestaciones del mismo: dogmatismo ante la política, ante la educación de los hijos, ante la religión, en las relaciones familiares, etc. En un test de calidad de vida en diabéticos, el test deberá evaluar los determinantes de la calidad de vida en la población general (la situación familiar, social, laboral…) y, además, los es- pecíficos de la población de diabéticos a la que el test va dirigido (tolerancia al tratamien- to, temor ante la evolución de la enfermedad…). Construcción provisional del test El siguiente paso para la construcción del test es la elaboración de los ítems. Se suele re- comendar que al menos se elaboren el doble de ítems de los que se piensa que debiera te- ner el test. En los apartados sucesivos veremos que algunos ítems serán descartados por no satisfacer los controles de calidad. Al haber elaborado más ítems de los necesarios po- dremos quedarnos con los mejores. Debemos conseguir un conjunto de ítems ante los que quepa esperar respuestas distintas de los que tengan alto y bajo nivel en el constructo que queremos medir. Si, por ejemplo, pretendemos evaluar la actitud ante la inmigración, un ítem podría requerir al evaluado informar de si está o no de acuerdo con la frase: La inmi- gración trae más ventajas que inconvenientes. Cabe esperar que las personas con actitud positiva estén de acuerdo y las personas con actitud negativa, en desacuerdo. Si queremos medir el dominio de las ecuaciones de primer grado, podríamos proponer como ítem el si- guiente: Obtenga el valor de x en la ecuación 2x – 4 = 2. Los que dominen dichas ecua- ciones encontrarán la solución correcta y los que no, no. El rendimiento en ambos ítems depende del nivel de dominio del constructo que se quiere evaluar.
Tipos y formatos de ítems Como hemos visto, podemos hablar de tests de rendimiento óptimo y de rendimiento típi- co. En uno de rendimiento óptimo quien responde pretende obtener la máxima puntuación posible. Así ocurre ante un examen, una prueba de aptitudes, un test de inteligencia, etc. En un test de rendimiento típico quien responde debe hacerlo de forma que su puntuación informe de cómo es o de su posición personal sobre lo que se pregunta. En este caso, no tiene sentido hablar de rendimiento máximo. Los tests de rendimiento óptimo y típico di- fieren en las siguientes 3 características:
En los tests de rendimiento típico las no respuestas tienen otro significado. Suelen indi- car que el ítem no se entiende o hay desinterés y falta de motivación en el evaluado. Algunos tests dan pautas sobre qué hacer con las no respuestas. Por ejemplo, en el test de los cinco grandes factores de la personalidad NEO-FFI (Costa y McCrae, 1999) se recomienda la no calificación de quien tenga más de 10 ítems sin respuesta en los 60 ítems del test, y se dan pautas concretas de cómo puntuar los ítems dejados sin respues- ta cuando son menos de 10.
En los tests de rendimiento óptimo pueden elaborarse preguntas abiertas (formato de res- puesta construida) o preguntas con opciones preestablecidas (formato de respuesta selec- cionada). Los dos formatos más comunes de los ítems con respuesta seleccionada son los ítems de verdadero-falso y los de opción múltiple. a) Verdadero-falso: Se muestran dos alternativas y se ha de elegir la que se considera co- rrecta. Por ejemplo, un ítem de un test de Historia Moderna podría ser: Pi y Margall fue presidente de la 1ª República Española. V( ) F( ) (^1) En este capítulo expondremos los tipos de ítems de respuesta de uso más frecuente, tanto en tests de rendi- miento óptimo como típico. Sin embargo, conviene advertir que en los últimos años han surgido formatos inno- vadores de ítems, por ejemplo los que utilizan las posibilidades del ordenador, y que permiten evaluar construc- tos que los ítems tradicionales de lápiz y papel no pueden evaluar o no lo hacen con la misma eficacia (Olea, Abad y Barrada, 2010). En el capítulo 15 se mostrarán ejemplos de estos nuevos formatos.
consistencias en las respuestas. La probabilidad de que una persona elija la misma cate- goría ante una misma frase, supuesto que no haya cambiado su nivel de rasgo, será mayor si ha de responder con una escala de 5 categorías que con una de 20, de ahí que, cuando son muchas las categorías disponibles, se incremente la inconsistencia. Con sólo dos o tres categorías se puede dificultar la manifestación del auténtico nivel de rasgo. Por ejemplo, dos personas, una que esté muy de acuerdo y otra que esté sólo de acuerdo, tendrán que utilizar la misma categoría si la escala es En desacuerdo/No sé/ De acuerdo. En poblacio- nes especiales, como discapacitados o personas mayores, puede resultar más adecuada una escala de pocas categorías. En las escalas de grado de acuerdo, no está del todo claro si es mejor fijar un número par o impar de categorías. Hay razones a favor y en contra de la categoría central (que puede etiquetarse como indiferente, neutral, dudo, no sé…). Su inclusión permite que al- guien que realmente no está de acuerdo ni en desacuerdo con la frase pueda indicarlo. En un ítem sin categoría central tendría que manifestarse como ligeramente de acuerdo o en desacuerdo, cuando su posición ante el enunciado no es ésa. Los partidarios de eliminar la categoría central argumentan que con demasiada frecuencia dicha categoría termina sien- do la elegida por los que responden con poco cuidado o de forma poco sincera. Los parti- darios de un número par de categorías suelen serlo también de un número más alto de ca- tegorías, de forma que se pueda entender que el ítem tiene en realidad dos categorías cen- trales (ligeramente de acuerdo y ligeramente en desacuerdo). La investigación muestra que los indicadores psicométricos de los ítems no dependen de la existencia o no de cate- goría central cuando el número de categorías es mayor de tres (Morales et al., 2003). Por último, se han propuesto muchas tandas de etiquetas. Morales et al. (2003, pp. 55-
A. Elección del contenido que se desea evaluar.
tente. Al mismo tiempo, permite al profesor especificar claramente qué espera del estu- diante y cuáles son los criterios con los que va a calificar cada respuesta. Livingston (2009) expone las ventajas e inconvenientes de los distintos tipos de rúbricas. Sea cual sea el tipo de ítem de respuesta construida, la puntuación en el test se obtiene también aplicando la ecuación [2.1], es decir, sumando las puntuaciones obtenidas en los diferentes ítems. Tests de rendimiento típico La cuantificación de las respuestas a ítems de pruebas de rendimiento típico requiere cier- tos matices. Dado un formato de respuesta determinado, es necesario cuantificar las posi- bles respuestas a un ítem teniendo en cuenta si es un ítem directo o inverso. Por ejemplo, en un ítem con formato de respuesta de opción binaria (acuer- do/desacuerdo), cuantificaremos el acuerdo con 2 si el ítem está planteado para medir de manera directa el constructo de interés. Lo cuantificaremos con 1, si está redactado de manera inversa. Se muestran 2 ítems de un cuestionario de actitud ante al aborto volunta- rio: Abortar es matar. En desacuerdo ( ) De acuerdo ( ) La madre es la dueña de su cuerpo en asuntos de aborto. En desacuerdo ( ) De acuerdo ( ) En el primero, que es inverso, la respuesta “De acuerdo” se puntuaría con 1 y “En des- acuerdo” con 2; ya que estar en desacuerdo con esa afirmación indica una actitud más po- sitiva hacia el aborto voluntario. En el segundo ítem, que es directo, “De acuerdo” se puntuaría con 2 y “En desacuerdo” con 1; ya que estar de acuerdo con esa afirmación in- dica una actitud más positiva hacia el aborto voluntario. Si el formato de respuesta es de K categorías ordenadas, las diversas categorías se cuantificarán normalmente desde 1 hasta K, teniendo en consideración si el ítem es directo o inverso. Por ejemplo, en ítems de 5 categorías, las dos posibles cuantificaciones serán: 1 (Muy en desacuerdo), 2… 5 (Muy de acuerdo), en un ítem directo; y 5 (Muy en desacuer- do), 4… 1 (Muy de acuerdo), en un ítem inverso. El ítem podría también cuantificarse uti- lizando otras tandas de valores (por ejemplo, 0, 1, 2, 3 y 4, ó –2, –1, 0, 1 y 2). En realidad cualquier tanda de cinco valores enteros consecutivos es apropiada y proporciona los mismos resultados psicométricos. Además, la cuantificación de un ítem de opción binaria no ha de ser necesariamente 1 y 2 (podría ser, por ejemplo, 0 y 1). La puntuación de un evaluado en el test se obtiene sumando sus puntuaciones en los ítems (ecuación [2.1]).
La Tabla 2.2 muestra dos ítems de un test de Calidad de vida, con tres categorías. Se indi- ca la cuantificación apropiada de cada categoría según sea el ítem directo o inverso. El primer ítem es directo y el segundo, inverso.
Tabla 2.2. Cuantificación de dos ítems de categorías ordenadas En desacuerdo Indeciso De acuerdo Me siento apoyado por mi familia 1 2 3 Mi vida carece de sentido 3 2 1 Análisis de ítems Con análisis de ítems^3 nos referimos a los procedimientos dirigidos a extraer información sobre su calidad. Estudiaremos procedimientos que permiten seleccionar los ítems más apropiados a los objetivos específicos del test. Después del proceso de análisis de ítems se podrán determinar los ítems que formarán parte del test definitivo, o construir la versión breve o reducida de un instrumento ya en uso. En cualquier caso, vamos a obtener indica- dores que no deben interpretarse de forma automática, sino inteligentemente, atendiendo al objetivo específico del test. En contextos de evaluación educativa, por ejemplo, el aná- lisis de ítems permite ir mejorando las preguntas con las que evaluamos y el examen en su conjunto, y nos puede informar sobre qué han aprendido o aprendido mal los estudiantes (Morales, 2009). Downing y Haladyna (1997) distinguen entre el análisis cualitativo de ítems y el aná- lisis cuantitativo. El primero precede a la aplicación del test y requiere comprobar, por lo general mediante expertos, que se han realizado adecuadamente las actividades comenta- das en los apartados previos. Aplicado el test, se recomienda hacer el análisis cuantitativo. Cuando hablamos de análisis de ítems sin más, nos referimos a este último. Requiere la obtención para cada ítem de diversos indicadores, que pueden encuadrarse en tres catego- rías: los de dificultad, los de discriminación y el de validez. Tras aplicar el test provisional a una muestra de evaluados representativa de la pobla- ción a la que va dirigida la prueba (se aconseja al menos entre 5 y 10 veces más evalua- dos^4 que ítems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de datos de N filas (evaluados) x J columnas (ítems). El elemento Xij de esta matriz indica el valor obtenido por el evaluado i en el ítem j. Según la ecuación [2.1], sumando (^3) Tanto la TCT como la TRI proporcionan indicadores de las características psicométricas de los ítems. En este tema estudiaremos los indicadores que aporta la TCT. Los que aporta la TRI se verán al estudiar esta teoría. Un segundo comentario tiene que ver con la ubicación en el libro de este apartado. El análisis de ítems se ocupa del estudio de los ingredientes básicos de los tests. La calidad del todo (el test) depende, como cabe esperar, de la calidad de las partes (los ítems). Es, entonces, inevitable, que en el estudio de los ítems aparezcan conceptos de la calidad del test que estudiaremos en capítulos sucesivos. Por esta razón, en la mayoría de los manuales el aná- lisis de los ítems más bien cierra los libros que los abre. Sin embargo, en el proceso de construcción de un test, el análisis de sus ítems precede a la determinación de los ítems que componen el test definitivo. Nuestra experien- cia docente aconseja exponer a los estudiantes este tema al inicio de la materia y no al final, y siguiendo esta lógica hemos preferido mantener esa misma ordenación en el libro. (^4) Varios ejemplos incumplirán esta recomendación. En este y siguientes capítulos expondremos ejemplos de tests con muy pocos ítems y muy pocos evaluados, muchos menos de los que necesitaría un test real. Son ejem- plos pensados para facilitar la comprensión de lo expuesto, que requieren pocos cálculos y escaso espacio.
por filas obtendremos las puntuaciones directas (X) de los evaluados en el test. La Tabla 2.3 muestra los datos obtenidos por cinco evaluados en un test de rendimiento óptimo de 3 ítems (X 1 , X 2 y X 3 ). La columna más a la derecha muestra la puntuación de cada uno en el test (X), que es su número de aciertos si los 1 y 0 de la tabla indican acierto y error en el ítem. Tabla 2.3. Resultados de 5 evaluados en 3 ítems y en el test X X 1 X 2 X 3 X 1 1 0 2 1 0 0 1 0 1 1 2 1 1 0 2 0 1 1 2 En el caso de un test de rendimiento típico, tendríamos una tabla similar. Los datos de 4 evaluados en un test de Autoestima, con 5 ítems tipo Likert de 7 alternativas, podrían or- ganizarse como se muestra en la Tabla 2.4. También en este caso, las puntuaciones en el test resultan de sumar las puntuaciones en los 5 ítems. Tabla 2.4. Resultados de 4 evaluados en 5 ítems y en el test X X 1 X 2 X 3 X 4 X 5 X 7 5 4 7 6 29 1 1 3 4 2 11 4 6 5 4 3 22 6 6 5 5 7 29 A estas tablas de datos se pueden aplicar los distintos indicadores que informarán de las características psicométricas de los ítems. Índice de dificultad Este indicador sirve para cuantificar el grado de dificultad de cada ítem. Se aplica a los ítems dicotómicos de los tests de rendimiento óptimo. El índice de dificultad de un ítem j, pj, se define como la proporción de evaluados que ha acertado el ítem. Es el cociente entre el número de evaluados que lo han acertado (Aj) y el total de evaluados que lo han respon- dido (Nj). j j j [2.2]
Supongamos que 5 evaluados responden a un test de 3 ítems. En la Tabla 2.5 se muestran sus puntuaciones. Nótese que los evaluados 4 y 5 han dejado ítems sin responder. Tabla 2.5. Puntuaciones de 5 evaluados en 3 ítems y en el test X Evaluado X 1 X 2 X 3 X 1 1 1 0 2 2 1 0 0 1 3 0 1 1 2 4 1 - - 1 5 0 - 1 1 Los índices de dificultad de los tres ítems serán: 0 , 60 5
1 1 1 0 , 67 3
2 2 2 N p^ A 0 , 50 4
3 3 (^3) N
p En los tests de opción múltiple es posible obtener aciertos respondiendo al azar. En el último apartado veremos los procedimientos que permiten descontar del número de acier- tos obtenidos por cada evaluado los que presumiblemente se deben a haber respondido al azar. Algo similar cabe plantearse en relación al índice de dificultad. En un test en el que no haya respuestas al azar tendremos presumiblemente menos aciertos de los que tendría- mos en ese mismo test si las hubiera habido. Se han propuesto fórmulas que corrigen los aciertos debidos a respuestas al azar. El índice de dificultad corregido de un ítem de op- ción múltiple de K opciones, c j , se obtiene aplicando la siguiente expresión (Schmeiser y Welch, 2006): 1 j j j c j [2.3]