Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Lecturas psicometria, Apuntes de Psicometría

lecturas obligatorias psicometria para el primer parcial

Tipo: Apuntes

2019/2020

Subido el 24/11/2020

laura-nogueras-arjona
laura-nogueras-arjona 🇪🇸

5 documentos

1 / 19

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Lectura Barbero. Formats ítems.
La especificación del contenido a la hora de construir un test de aptitudes tiende a ser
menos específica puesto que está pensada para medir una característica más general y
persistente de la persona. Por ejemplo, si se quiere construir un test para medir la habilidad
verbal, constructo que se había definido anteriormente, se puede especificar que los ítems
que lo formen sean de analogías verbales, sinónimos y antónimos, ítems de frases
incompletas. Cuando lo que se quiere construir es un test (escala, cuestionario, inventario)
para medir constructos de naturaleza no cognitiva: intereses, actitudes, temperamento, etc.,
las especificaciones pueden ser bastante esquemáticas y a veces el contenido de los ítems
se deduce fácilmente de la misma definición del constructo.
La definición ofrecida por Thorndike acerca del constructo impulsividad, sugiere que los
ítems hagan referencia, entre otros, a los siguientes aspectos:
a) rapidez en las decisiones
b) interés por las actividades no planificadas
c) desagrado por las cosas y actividades muy planificadas
Formato de los ítems.
Haladyna (1994), considera que una primera aproximación es establecer dos grandes
categorías de ítems en función del tipo de respuesta que exijan de los sujetos: ítems de
elección e ítems de construcción.
Los ítems de elección son ítems de respuesta cerrada, en el los se exige a los sujetos que
respondan eligiendo una o varias alternativas de entre las propuestas. En los ítems de
construcción, el sujeto deberá elaborar su propia respuesta.
-Ítems de elección dos alternativas: Los sujetos han de elegir una entre dos
alternativas. Por ejemplo: Verdadero Falso, Si - No, Correcto - Incorrecto. Este tipo
de formato se utiliza normalmente para medir variables de tipo cognitivo:
habilidades, aptitudes y, fundamentalmente,para la construcción de test de
conocimientos y rendimiento. Presenta la ventaja de que es rápido y fácil de usar,
pero tiene el inconveniente de que los sujetos que no conozcan la respuesta y
respondan al azar tienen un 50% de posibilidad de elegir la respuesta correcta. No
es el formato adecuado para los tests de personalidad y los de actitudes, intereses,
etc., es decir, para los tests destinados a medir variables no cognitivas, dado que en
ellos no hay respuestas correctas ni incorrectas.
-Elección múltiple → Este tipo de ítems consta de : a) el enunciado propiamente
dicho y b) las alternativas u opciones de respuesta, que consisten en una lista de
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Vista previa parcial del texto

¡Descarga Lecturas psicometria y más Apuntes en PDF de Psicometría solo en Docsity!

Lectura Barbero. Formats ítems. La especificación del contenido a la hora de construir un test de aptitudes tiende a ser menos específica puesto que está pensada para medir una característica más general y persistente de la persona. Por ejemplo, si se quiere construir un test para medir la habilidad verbal, constructo que se había definido anteriormente, se puede especificar que los ítems que lo formen sean de analogías verbales, sinónimos y antónimos, ítems de frases incompletas. Cuando lo que se quiere construir es un test (escala, cuestionario, inventario) para medir constructos de naturaleza no cognitiva: intereses, actitudes, temperamento, etc., las especificaciones pueden ser bastante esquemáticas y a veces el contenido de los ítems se deduce fácilmente de la misma definición del constructo. La definición ofrecida por Thorndike acerca del constructo impulsividad, sugiere que los ítems hagan referencia, entre otros, a los siguientes aspectos: a) rapidez en las decisiones b) interés por las actividades no planificadas c) desagrado por las cosas y actividades muy planificadas Formato de los ítems. Haladyna (1994), considera que una primera aproximación es establecer dos grandes categorías de ítems en función del tipo de respuesta que exijan de los sujetos: ítems de elección e ítems de construcción. Los ítems de elección son ítems de respuesta cerrada, en el los se exige a los sujetos que respondan eligiendo una o varias alternativas de entre las propuestas. En los ítems de construcción, el sujeto deberá elaborar su propia respuesta.

- Ítems de elección → dos alternativas: Los sujetos han de elegir una entre dos alternativas. Por ejemplo: Verdadero Falso, Si - No, Correcto - Incorrecto. Este tipo de formato se utiliza normalmente para medir variables de tipo cognitivo: habilidades, aptitudes y, fundamentalmente,para la construcción de test de conocimientos y rendimiento. Presenta la ventaja de que es rápido y fácil de usar, pero tiene el inconveniente de que los sujetos que no conozcan la respuesta y respondan al azar tienen un 50% de posibilidad de elegir la respuesta correcta. No es el formato adecuado para los tests de personalidad y los de actitudes, intereses, etc., es decir, para los tests destinados a medir variables no cognitivas, dado que en ellos no hay respuestas correctas ni incorrectas. - Elección múltiple → Este tipo de ítems consta de : a) el enunciado propiamente dicho y b) las alternativas u opciones de respuesta, que consisten en una lista de

posibles respuestas de las cuales una es la correcta, o la más adecuada, y las otras son incorrectas y se denominan distractores. Se suelen utilizar de 3 a 5 alternativas de respuesta para disminuir la posibilidad de que los sujetos elijan la alternativa correcta por azar. Por ejemplo, en un ítem con cinco alternativas de respuesta, de las cuales sólo una es correcta, los sujetos tienen una posibilidad de acertar por azar de un 20% (1/5) frente a la del 50% (1/2) que tendrían si el ítem hubiera tenido dos alternativas. También este tipo de formato se utiliza para medir variables cognitivas y fundamentalmente en tests de conocimientos y rendimiento. No se utiliza para medir variables de personalidad, intereses, actitudes, etc., es decir, en el ámbito oréctico o afectivo. Presentan la ventaja de que son fáciles de administrar, corregir y puntuar y hoy día se pueden corregir mediante el uso de lectoras ópticas y los programas de ordenador adecuados; pero, presentan el inconveniente de que son más difíciles de construir que los de dos alternativas. Es difícil construir alternativas que sean realmente efectivas, hay veces que una alternativa incorrecta es tan obvia que resulta improbable que alguien la elija, con lo cual no está actuando como un distractor. Muñiz y García Mendoza (2002) muestran una clasificación de los ítems de elección múltiple en función de la estructura que tenga el enunciado y las distintas alternativas. El enunciado, o base del ítem, puede presentarse en forma interrogativa, enunciativa o como una frase truncada o incompleta. Cada una de estas formas dará lugar a un tipo de ítem.La forma más directa y la más recomendable de solicitar una respuesta a los sujetos es la interrogativa. Los ítems cuya base es una frase incompleta que continúa en alguna de las alternativas que se proponen suele utilizarse en tests educativos puesto que es fácil de construir a partir de frases de los textos. En relación con la forma de redactar las alternativas, hay dos tipos de ítems: los que presentan una única respuesta correcta y a~uellos en los que todas las alternativas son parcialmente correctas pero hay una que es más completa y la mejor respuesta de las presentadas. El primer tipo de ítems se suele utiLizar cuando no hay ambigüedad acerca de la veracidad o falsedad de la respuesta, y el segundo cuando se pretenden evaluar procesos mentales complejos.

  • Emparejamiento : Este formato implica que el sujeto empareje los elementos de dos columnas de acuerdo a las instrucciones dadas en el enunciado. Al igual que los formatos presentados anteriormente, está indicado para medir variables de tipo cognitivo y, sobre todo, conocimientos.
  • Formato Cloze o incompleto : En este tipo de ítems se ofrece a los sujetos, por ejemplo, un párrafo o una frase en la que faltan algunas palabras y

grande (una lista) y no siempre es necesario elegir una única opción, es posible elegir varias opciones. Es un formato típico de los cuestionarios. ítems de construcción En este tipo de ítems es el propio sujeto el que ha de elaborar su respuesta, de ahí que se denominen de respuesta abierta. Ahora bien, dentro de esta categoría de ítems hemos de distinguir los de respuesta corta y los de respuesta extensa o de ensayo.

  • Ítems de respuesta corta : A veces no son más que modificaciones de los ítems de elección múltiple pues el sujeto ha de elegir una única palabra; pero, en lugar de elegir de entre una serie de alternativas que se le ofrecen, la tiene que construir él mismo; otras veces el sujeto tiene que responder con una frase.
  • Ítems de respuesta extensa o de ensayo : Se pide a los sujetos, por ejemplo, que desarrollen un tema. Este tipo de formato de los ítems se utiliza para medir todo tipo de variables, tanto cognitivas como orécticas y afectivas, pero tiene un inconveniente importante y es que las respuestas de los sujetos son más difíciles de analizar y valorar que las de los ítems de respuesta cerrada, puesto que el investigador tiene que codificarlas en una serie de categorías antes de comenzar el análisis. La codificación incluye agrupar juntos a los sujetos que han emitido respuestas similares y es muy difícil encontrar a dos sujetos que hayan dado la misma respuesta. En este caso el investigador suele emitir juicios subjetivos acerca de lo que los sujetos querían o no decir cuando emitieron sus respuestas.

LECTURA MUÑIZ - DIRECTIUS CONSTRUCCIÓ D’ÍTEMS

Tienes las fotos en la carpeta de favoritos, igualmente es lo mismo q los apuntes pero más ampliado. Abad, F. J., Olea, J., Ponsoda, V. y García, C. (2011). Medición en ciencias sociales y de la salud. Madrid: Síntesis. Con análisis de ítems nos referimos a los procedimientos dirigidos a extraer información sobre su calidad. Estudiaremos procedimientos que permiten seleccionar los ítems más apropiados a los objetivos específicos del test. Después del proceso de análisis de ítems se podrán determinar los ítems que formarán parte del test definitivo, o construir la versión breve o reducida de un instrumento ya en uso Tras aplicar el test provisional a una muestra de evaluados representativa de la población a la que va dirigida la prueba (se aconseja al menos entre 5 y 10 veces más evaluados que ítems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de datos de N filas (evaluados) x J columnas (ítems). Índices de discriminación Un ítem que mida el constructo de interés debe discriminar entre los que tienen altos y bajos valores en el constructo. Las personas con alta y baja Responsabilidad deberán puntuar de forma diferente en un ítem que realmente mida este constructo, aunque podrán obtener puntuaciones parecidas en un ítem que mida otro constructo. Se han propuesto varios indicadores de la discriminación del ítem. Este indicador se obtiene exclusivamente para ítems dicotómicos. Requiere establecer dos subgrupos de evaluados a partir de sus puntuaciones en el test: el de los que tienen altas y el de los que tienen bajas puntuaciones. El indicador D toma valores entre –1 y 1. Cuando

  • D = 1, todos los evaluados del subgrupo superior han acertado el ítem y ninguno del subgrupo inferior lo ha hecho.
  • Cuando D = 0, la proporción de los que han acertado el ítem es la misma en ambos subgrupos.
  • Si D = –1, ninguno del subgrupo superior ha acertado el ítem y todos los del subgrupo inferior lo han hecho. Valores próximos a cero indican que el ítem no discrimina. Cuanto D más se acerca a uno, mayor es la capacidad discriminativa del ítem. Valores inferiores a 0,20 se consideran valores inaceptables e indican que el ítem ha de ser eliminado (Crocker y Algina, 1986).

En la actualidad se considera que la validez, definida como el grado en que las interpretaciones y los usos que se hacen de las puntuaciones están justificados científicamente, es la propiedad psicométrica más importante. Obviamente, la utilidad de unas puntuaciones escasamente fiables para tales fines estará seriamente comprometida. De ahí que se considere la fiabilidad como condición necesaria de la validez. Sin embargo, no será una condición suficiente si las puntuaciones verdaderas, aunque se estimen de manera muy precisa, no resultan apropiadas para conseguir el objetivo de la medida (representar un constructo, predecir un criterio de interés, etc). Es útil tener presente que la fiabilidad es una cuestión relativa a la calidad de los datos, mientras que la validez se refiere a la calidad de la inferencia. VALIDEZ De acuerdo con Kane (2006), entre 1920 y 1950 el uso principal de las pruebas consistió en predecir alguna variable de interés denominada criterio (por ejemplo, el rendimiento laboral o académico). En la actualidad este enfoque sigue siendo de suma importancia cuando se emplean las pruebas para seleccionar a los candidatos más aptos para un empleo, en los programas de admisión, en la adscripción de pacientes a tratamientos, etc. En estos casos, la evaluación de la utilidad de la prueba suele cuantificarse mediante la correlación entre sus puntuaciones y las de alguna medida del criterio (coeficiente de validez). Sin embargo, el éxito de este tipo de justificación depende de la calidad de la medida del criterio, especialmente de su representatividad. Por tanto, esta fase inicial de desarrollo del concepto terminó con la propuesta de dos vías regias para establecer la validez de las pruebas: la validación de criterio (la correlación entre las puntuaciones del test y las puntuaciones en el criterio) y la validación de contenido (la justificación de que los ítems para medir el criterio son una muestra representativa del contenido a evaluar). La validación es un proceso de acumulación de pruebas para apoyar la interpretación y el uso de las puntuaciones. Por tanto, el objeto de la validación no es el test, sino la interpretación de sus puntuaciones en relación con un objetivo o uso concreto.

REVISIÓN DEL MODELO PARA EVALUAR LA CALIDAD DE LOS TESTS UTILIZADOS

EN ESPAÑA

El modelo español fue impulsado por el Colegio Oficial de Psicólogos (COP), y culminó con la publicación del CET (Cuestionario de Evaluación de Tests) en el año 2000 (Prieto y Muñiz, 2000). Sin embargo, el CET no se aplicó hasta años más tarde, con el primer proceso de evaluación de tests promovido por el COP y su comisión de tests, el cual finalizó en 2011. Con la aplicación de este modelo revisado (CET-R), se espera aumentar la claridad y riqueza de información proporcionada en el proceso de evaluación. La consiguiente publicación de los resultados obtenidos con el modelo revisado contribuirá a diseminar información más exhaustiva y rigurosa sobre la calidad de los tests y sus puntos débiles. Con ello esperamos continuar contribuyendo a la estrategia informativa iniciada por el COP hace años, con el fin de mejorar el uso de los tests y, consecuentemente, la práctica profesional de la Psicología. ALGUNOS MODELOS INTERNACIONALES DE EVALUACIÓN DE TESTS Los pioneros en presentar sistemáticamente información sobre la calidad de los tests fueron los norteamericanos, a través de BUROS, que es un instituto de evaluación asociado a la Universidad de Nebraska. Fue en 1938 cuando se publicó la primera edición de la serie Buros’ Mental Measurements Yearbooks, con los resultados de las evaluaciones realizadas. Esta serie ha continuado publicándose de manera periódica hasta la fecha.Cabe destacar que, desde hace unos años, y dado al incremento de hispano-hablantes en Estados Unidos, BUROS tiene publicaciones especiales dedicadas a los tests publicados en español. Centrándonos en Europa, los progresos en esta área han sido impulsados principalmente por los colegios de psicólogos correspondientes, a través de sus comisiones de tests. Los primeros en realizar evaluaciones sistemáticas de los tests y publicar los resultados de dichas evaluaciones fueron los holandeses. En concreto, la primera publicación se hizo en 1969 (NIP, 1969). El modelo entonces utilizado ha sido revisado en cinco ocasiones, realizándose en 2009 la última revisión.

. A Holanda le siguió el colegio de psicólogos de Gran Bretaña, si bien es cierto que bastantes años después. Aunque comenzaron aplicando su propio modelo en la década de los 90. ; Bartram, Burke, Kandola, Lindley, Marshall, y Rasch, 1997), en los últimos años han adoptado el modelo de la EFPA, propuesto en 2002 (ver Bartram, 2002), que precisamente estuvo basado en los modelos locales propuestos por holandeses, británicos y españoles. Además de los británicos (e.g. Lindley, 2009), el modelo EFPA ha sido aplicado durante los últimos años por noruegos y alemanes.

uno experto en psicometría y otro experto en el campo profesional de evaluación al que el test va dirigido. Los evaluadores no deben tener relación directa con los autores de los tests, ni manifestar un conflicto de intereses que cuestione la objetividad en la valoración. El coordinador es el encargado de integrar las valoraciones de ambos evaluadores en un informe final. Si no existiera un acuerdo sustancial entre los evaluadores, se podría acudir a un tercer evaluador. El informe generado se envía al autor y/o al editor del test para que efectúen las observaciones y aclaraciones oportunas y puedan aportar información complementaria. Finalmente, tras realizar las modificaciones pertinentes, el informe se hace público a través de la página web del COP. EL NUEVO CUESTIONARIO DE EVALUACIÓN DE TESTS (CET-R): DESCRIPCIÓN DE LOS PRINCIPALES CAMBIOS Partiendo del CET original con las pequeñas modificaciones aplicadas por Hernández et al. (2014), los dos primeros autores trabajaron en una propuesta inicial de CET-R que, por una parte, resolviera los problemas de interpretación todavía observados en las evaluaciones realizadas y, por otra, incorporara algunos de los avances psicométricos y tecnológicos producidos durante los últimos años. Se procedió en cuatro fases. En primer lugar, se revisaron las sugerencias realizadas por los coordinadores de las distintas ediciones de evaluación de tests llevadas a cabo, introduciendo las modificaciones e instrucciones correspondientes. En segundo lugar, revisamos el modelo actualizado de la EFPA (Evers et al. 2013), añadiendo las cuestiones que consideramos más adecuadas para el contexto español, además de algunas otras que consideramos especialmente relevantes. Así pues, en la propuesta inicial se incluyeron criterios de evaluación sobre ciertas estrategias de validación, otras formas de evaluar la fiabilidad, o la interpretación de puntuaciones referidas a un criterio. Sin embargo, hemos dejado fuera la evaluación exhaustiva de cuestiones como la administración informatizada de tests, la evaluación a distancia mediante Internet, o la calidad de los informes automatizados, aunque sobre esta última cuestión sí se ha añadido un ítem abierto para que se evalúe la calidad del informe, además de mantener el ítem que ya existía describiendo el tipo de informe. Tampoco se ha incluido una evaluación exhaustiva de la aplicación de la TRI (sólo hay dos ítems evaluativos referidos a la precisión y a la adecuación del tamaño de las muestras cuando se aplica TRI), o la tipificación continua (aunque sobre esto hay una pregunta también). Estos aspectos fueron excluidos, o no evaluados exhaustivamente por varias razones. En primer lugar, al menos por ahora, la mayoría de los tests editados en España no requieren la consideración de estos aspectos. Además, queríamos evitar un cambio drástico respecto del CET original, con el fin de facilitar la comparabilidad con los resultados obtenidos en evaluaciones previas, y con el fin de mantener un número razonable de ítems que facilite la tarea de los evaluadores. Cabe señalar que todos los cambios se realizaron manteniendo, en términos generales, la

estructura, apartados y manera de calificar del CET original (aunque en algunos casos se realizaron aclaraciones adicionales sobre lo que suponía el criterio de excelencia y, por tanto, la máxima calificación).

  1. Una de las sugerencias de cambio más frecuente fue la de abandonar la clasificación tradicional de tipos de validez que mantenía el CET (y también la primera versión del CET- R) y adoptar la terminología sobre validez de los nuevos estándares de la AERA, la APA y el NCME (2014). Por ello, es este apartado de validez el que ha sufrido un mayor cambio respecto del CET original y respecto del nuevo modelo de la EFPA.
  2. Una de las sugerencias de cambio más frecuente fue la de abandonar la clasificación tradicional de tipos de validez que mantenía el CET (y también la primera versión del CET- R) y adoptar la terminología sobre validez de los nuevos estándares de la AERA, la APA y el NCME (2014). Por ello, es este apartado de validez el que ha sufrido un mayor cambio respecto del CET original y respecto del nuevo modelo de la EFPA. Por ello, en vez de seguir la clasificación tradicional de tipos de validez propia de las normas APA de 1985 (AERA, APA, NCME, 1985), y diferenciar entre validez de contenido, de constructo, y predictiva, en el CET-R, se recogen tres fuentes de evidencias de validez: las basadas en el contenido, las basadas en las relaciones con otras variables (con otro test que mida el mismo o un constructo relacionado, con un criterio que se pretende predecir, etc.), y las basadas en la estructura interna del test (como, por ejemplo, evaluando la estructura factorial). En realidad, lo importante es que en la documentación y el manual del test se recojan evidencias que apoyen la validez del uso de las puntuaciones, independientemente de que se hable de validez de constructo, o de evidencias de validez basada en la estructura interna del test (anteriormente considerada “validez de constructo”), por ejemplo. De hecho, el modelo actualizado de la EFPA sigue utilizando la clasificación tradicional. Sin embargo, hemos creído que la actualización del CET debía incorporar las recomendaciones de los estándares internacionales actuales. Tras realizar los ajustes y modificaciones pertinentes a partir de las sugerencias de los expertos, esta nueva versión fue presentada a la Comisión de Tests del COP, llegando así a la versión final. Como el modelo original, el CET-R está estructurado en tres apartados. El primero, centrado en la descripción técnica de la prueba, presenta ahora 28 ítems. El segundo apartado se ocupa de la evaluación técnica de las características del instrumento. Se incluyen 55 ítems, 9 sobre cuestiones generales, uno sobre análisis de ítems, 20 sobre validez, 15 sobre fiabilidad y 10 sobre baremos e interpretación de puntuaciones. A los ítems iniciales del CET, referidos a la calidad de los materiales y documentación, la fundamentación teórica, etc., se añade un ítem referido al desarrollo de los ítems (cuando

recogen explícitamente la mayoría de los criterios de evaluación del CET, e incluyen información detallada sobre los procesos de construcción del test y su estandarización, la calidad psicométrica de sus puntuaciones y los usos adecuados –e inadecuados- del test. Finalmente, tenemos constancia de que el CET está teniendo un impacto en la formación de los futuros psicólogos, ya que los profesores de psicometría, en muchos casos, utilizan este modelo en sus clases, guiando a los alumnos de forma práctica en los aspectos básicos de la evaluación de la calidad psicométrica y técnica de los tests. Reconocer lo anterior no resulta contradictorio con aceptar que, tras más de 15 años desde la publicación del CET, los conceptos de fiabilidad y validez se han enriquecido, y los requisitos científicos y profesionales exigidos por los tests se han ido adaptando a nuevas necesidades (De Boeck y Elosua, en prensa). Por ello era necesaria una revisión del modelo CET que permitiera incorporar los avances producidos, para seguir introduciendo mejoras en el uso de los tests por parte de psicólogos y educadores, e indirectamente, para seguir mejorando los procesos de construcción y edición de tests en nuestro país. Esta revisión se plasma en el CET-R, que será utilizado en la quinta edición de evaluaciones de tests que, impulsada por el COP, se ha puesto en marcha recientemente. La publicación de los resultados obtenidos en las evaluaciones de tests, es una de las estrategias informativa que sigue el COP con el fin de mejorar el uso de los tests y, con ello, la práctica profesional del psicólogo. Pero no es la única. El COP, junto con la EFPA y la ITC (International Test Comission), de las que es miembro, llevan a cabo acciones y proyectos muy variados con el fin de mejorar el uso de los tests. Las distintas acciones y proyectos se enmarcan dentro de dos estrategias complementarias: una más restrictiva y otra informativa (para una información más detallada ver Muñiz y Bartram, 2007; Muñiz y Fernández-Hermida, 2010; y Muñiz, 2012). La estrategia restrictiva agrupa al conjunto de acciones llevadas a cabo para restringir el uso de los tests a los profesionales que están realmente preparados para hacerlo. La estrategia informativa agrupa las iniciativas encaminadas a difundir información sobre la práctica de los tests con el fin de disminuir la probabilidad de que se haga un mal uso de las pruebas. En este sentido se han desarrollado códigos éticos y deontológicos (e.g. EFPA, 2005; Fernández-Ballesteros et al., 2001) y directrices sobre el uso de los tests, destacando los estándares técnicos de la AERA, APA y NCME (2014), así como las numerosas directrices elaboradas por la ITC: las directrices generales para el uso de los tests, (ITC, 2001), las directrices para la traducción y adaptación de los tests de unas culturas a otras (Hambleton, Merenda y Spielberger, 2005; Muñiz, Elosua y Hambleton, 2013), las directrices sobre el uso de tests informatizados, las directrices profesionales sobre la selección de tests y cómo proceder cuando los tests quedan obsoletos, las directrices sobre la seguridad en los tests, sobre el control de calidad de los tests, o sobre el uso de los tests en investigación. Lo más importante de las tres últimas está recogido en el trabajo de Muñiz, Hernández y Ponsoda

(2015). Todas ellas están disponibles en la página web de la ITC y, muchas de ellas, están traducidas al español y son accesibles a través de la página web del Consejo General de Psicología de España (http://www.cop.es) en el apartado de la comisión de tests. Una última estrategia informativa que merece atención es la norma ISO-10667, que regula todo el proceso de evaluación de personas en contextos laborales. Para una revisión más detallada de todas las acciones que se llevan en España para mejorar el uso de los test se puede consultar Elosua y Muñiz (2013). La evaluación de los tests publicados en España es una de las muchas acciones. Pero, como indican Elosua y Geisinger (2016), para que esta acción sea realmente útil, exige de un trabajo continuo de mejora, tanto procedimental, como formal y sustantiva. Y con ese objetivo de mejora se propone el CET-R. El objetivo último es claro: que los psicólogos tengan información contrastada y fiable que les permita hacer una mejor selección y uso de los tests disponibles. Todo ello repercutirá en una mejora de la práctica profesional y de su prestigio. Diez pasos para la construcción de un test Marco general Todo proceso de construcción de un instrumento de medida comienza por una explicación detallada y precisa de cuáles son las razones que motivan su desarrollo. Un nuevo instrumento no se construye porque sí, hay que justificarlo adecuadamente. Asimismo, hay que delimitar con claridad cuál es la variable objeto de medición, cuál va a ser el contexto de aplicación, las circunstancias en las que se va a aplicar el instrumento, el tipo de aplicación (individual, colectiva), el formato de administración (lápiz y papel, informática), y qué decisiones se van a tomar a partir de las puntuaciones (selección, diagnóstico, etc.). Los responsables de la construcción del instrumento de medida no solo deben especifi car el motivo por el cual quieren desarrollar una nueva herramienta, sino también deben delimitar con claridad cuál es el contexto en el que se va a aplicar, lo que incluye necesariamente la población objeto de medición. También debe especifi carse de antemano con qué propósito van a ser utilizadas las puntuaciones y qué decisiones se van a tomar a partir de ellas. En este sentido, las puntuaciones en un instrumento de evaluación pueden servir para propósitos varios, tales como seleccionar, diagnosticar, clasifi car, orientar, evaluar un dominio específi co, o incluso como método de cribado (AERA, APA y NCME, 2014). Se debe dejar claro que las inferencias que se extraigan de las puntuaciones de un instrumento de medida no son universales, son siempre para un uso, contexto y población determinados. Nótese que lo que puede ser válido para un grupo determinado de personas o población, tal vez no lo sea para otra, y lo que pueda ser válido en un contexto de evaluación, no tiene por qué serlo en otro diferente (Zumbo, 2007).