








Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Psicometría, Profesor: Cristino Cristino, Carrera: Psicología, Universidad: UGR
Tipo: Apuntes
1 / 14
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!









CENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓN
[email protected]://ceo.udea.edu.co 1
Juana Gómez Benito; María Dolores Hidalgo ¹ ² Abstract
This paper seeks to highlight the need for checking the validity metrics as a characteristic fundamental to the proper use of any test, scale or questionnaire. To do so, first, sets out the historical significance of the validity of a measuring instrument from a differenciated vision of the different types of possible evidence to a unitary concept that subsumes the construct validity of any evidence that would help convergent to make the correct inferences and interpretations of the scores are obtained by applying a test and establish relations with the object of measurement constructs, also addresses the current debate surrounding the consideration or not, as part of the validity of the social consequences of the use of tests. Secondly, outlines various types of evidence that are complementary sources of validity in the sense integrator defended by Messick. Finally, it briefly addresses two hot topics in the analysis of the validity of the test, such as the detection of possible bias on the part of its items with respect to any relevant variable (eg, ethnicity, gender, culture, etc.) and the study of the metric equivalent of two different versions of the same instrument.
¹ Facultad de Psicología. Universidad de Barcelona. Psicología. Universidad de Murcia Dirección postal María Dolores Hidalgo Montesinos Facultad de del primer autor: Juana Gómez Benito, Departament de Metodologia de les Ciències del Comportament. Facultat de Psicologia. Universitat de Barcelona. Passeig Vall d’Hebron, 171. 08035-Barcelona (España). E-mail: [email protected] ² Esta investigación Ministerio de Ciencia y Tecnología y la FEDER. es parte del proyecto número BSO2001-3751-C02- 02 financiado por el
CENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓN
[email protected]://ceo.udea.edu.co 2
Resumen El presente trabajo pretende poner en evidencia la necesidad de la comprobación de la validez como característica métrica fundamental para el correcto uso de todo test, escala o cuestionario. Para ello, en primer lugar, se expone el recorrido histórico de la significación de la validez de un instrumento de medida desde una visión disgregada de los distintos tipos de evidencias posibles a un concepto unitario que subsume en la validez de constructo cualquier evidencia convergente que ayude a realizar las inferencias e interpretaciones correctas de las puntuaciones que se obtengan al aplicar un test y establecer las relaciones con los constructos objeto de medida; se aborda también el debate actual en torno a la consideración o no, como parte de la validez, de las consecuencias sociales del uso de los tests. En segundo lugar, se delinean distintos tipos de evidencia que constituyen fuentes complementarias de validez en el sentido integrador defendido por Messick. Por último, se abordan brevemente dos temas candentes en el análisis de la validez del test, como son la detección del posible sesgo de parte de sus ítems con respecto a alguna variable relevante (como por ejemplo, etnia, género, cultura, etc.) y el estudio de la equivalencia métrica de dos versiones distintas del mismo instrumento. Perspectiva histórica del concepto de validez En las ciencias sociales y humanas tales como la Sociología, Psicología o la Educación se utilizan como instrumentos de medida tests, escalas, encuestas, cuestionarios y/o autoinformes, con la finalidad de obtener información acerca de opiniones, intereses, actitudes, habilidades, etc.. La comprobación de las características métricas de dichos instrumentos se constituye como la cuestión básica para decidir el uso o no de los mismos en un contexto aplicado. En este sentido es importante exigir a los cuestionarios y tests que sean fiables (precisos) y válidos. La segunda de las características métricas comentadas, la validez, resulta
CENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓN
[email protected]://ceo.udea.edu.co 4
concurrente se subsumen en criterial o de criterio. Queda así configurada la estructura tripartita de la validez (contenido, criterio y constructo), que Guion (1980) en un tono de humor definió como la visión trinitaria de la validez, y que aún hoy en día domina el campo aplicado de validación de los tests. Sin embargo, esta concepción acerca de la validez ha supuesto dos peligros para el constructor del test: i) pensar que se trata de tres tipos de validez distintos y ii) pensar que en un estudio de validez es imprescindible recoger evidencia sobre los tres aspectos de la misma. En todo este camino recorrido por la validez, es la de constructo la que va cobrando mayor importancia. Hacia mediados de los años cincuenta, Cronbach y Meehl (1955) publican un trabajo sobre este tema, entendiendo que es uno de los aspectos más importantes, donde la comprobación de la validez de constructo implica la recogida de distintas evidencias, no todas de ellas cuantitativas, y la integración de la información recogida. La idea que se empieza a fraguar es que el proceso de validación no difiere del proceso de construcción de teorías científicas y algunas de las estrategias para investigar la validez de constructo tienen el mismo fin. Cronbach y Meehl (1955) hablan de estudiar diferencias entre grupos, correlaciones entre subtests, estudios sobre la estructura interna del test, estudios factoriales, correlaciones con criterios externos, estudios longitudinales, estudios experimentales y estudios sobre el análisis del contenido. La aportación de Campbell y Fiske (1959) introduciendo los conceptos de validez discriminante y convergente, y la matriz multimétodo-multirrasgo para evaluarlas, suponen un paso más en la importancia de este tipo de validez. Messick (1975) defiende que el concepto de validez de constructo es un concepto más general que los de validez predictiva o concurrente, que son específicos de los criterios externos utilizados así como de los grupos evaluados, y que la validez de contenido no es una propiedad de las respuestas obtenidas sino del test construido. Messick concluye que en la medida, toda la evidencia de validez debe ser de constructo. Sin embargo, los
CENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓN
[email protected]://ceo.udea.edu.co 5
cambios importantes en la concepción de la validez se producen a principios de los años ochenta con las aportaciones de Cronbach (1988), Guion (1980), Linn (1980) y Messick (1980) (entre otros), cuyas posiciones se recogen en el libro editado por Wainer y Braun (1988) producto de una conferencia sobre validez. Los Standards de 1985 mencionan ya que los distintos tipos de validez (criterial, de contenido, factorial, discriminante, etc.,) son distintas formas de expresión de la validez de constructo, y cualquiera de las primeras contribuye a expresar parte de la última. También recogen otra idea gestada durante estos años, a saber, lo validado no es el test mismo sino una interpretación de los datos obtenidos por un determinado procedimiento, por lo que la validez de las puntuaciones del test deben ser establecidas en cada uso que se haga del mismo. Sin embargo, el cambio drástico en la concepción de la validez se produce en los inicios de los años 80. Durante estos años numerosos trabajos enfatizan la importancia de la validez de constructo, siendo la esencia misma de todo proceso de validación, además se apunta que la validez es una, y que no podemos hablar de distintos tipos de validez, sino que todo es validez de constructo. La evolución que sufre la validez durante los años ochenta se refleja en la definición dada en la edición de 1985 de los Standards of educational and psychological testing "La validez es la consideración más importante en la evaluación de un test. El concepto se refiere a la adecuación, significado y utilidad de las inferencias específicas hechas con las puntuaciones de los tests. La validación de un test es el proceso de acumular evidencia para apoyar tales inferencias. Una variedad de evidencias pueden obtenerse de las puntuaciones producidas por un test dado, y hay muchas formas de acumular evidencia para apoyar una inferencia específica. La validez, sin embargo, es un proceso unitario. Aunque la evidencia puede ser acumulada de muchas formas, la validez se refiere siempre al grado en que esa evidencia apoya las inferencias que se hacen a partir de las puntuaciones" (APA, AERA, NCME,1985, p. 8). La posición de Messick en cuanto a la validez contempla un aspecto más referido a
CENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓN
[email protected]://ceo.udea.edu.co 7
destacar los siguientes puntos: i) lo que se valida no es el test sino las puntuaciones del test, y por lo tanto la pregunta que tratamos de responder es ¿es válido el uso o la interpretación de las puntuaciones de este test?, ii) la validez no se puede resumir en un sólo indicador o índice numérico, al igual que ocurría con la fiabilidad (coeficiente de fiabilidad, error de medida, función de información,etc.), sino que la validez de las puntuaciones de un test se asegura mediante la acumulación de evidencia teórica, estadística, empírica y conceptual del uso de las puntuaciones, iii) una puntuación puede ser válida para un uso y no para otro, iv) la validación es un proceso continuo y dinámico y v) la teoría juega un papel muy importante como guía tanto del desarrollo de un test como de su proceso de validación. Tipos de evidencia Aunque Messick (1980, 1989) aboga por un concepto unitario de validez, y esta concepción ha sido adoptada por la comunidad científica, como queda recogido en los últimos estándares publicados (AERA, APA, NCME, 1999), él también señaló que diferentes tipos de inferencias con los tests requieren distintos tipos de evidencia. Estos tipos de evidencia pueden obtenerse estudiando el contenido del test en función de los contenidos del dominio de referencia, examinando las relaciones entre las respuestas a las tareas, ítems y/o partes del test, estudiando las relaciones entre las puntuaciones del test y otras medidas , investigando las diferencias a través de los grupos o sobre el tiempo, y estudiando las respuestas de los sujetos a tratamientos experimentales, entre otras aproximaciones. En general, Messick (1989, 1995) señala como aspectos a considerar en la validez:
CENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓN
[email protected]://ceo.udea.edu.co 8
pueden generalizar a otras poblaciones, situaciones o tareas. Este aspecto tiene especial importancia en la adaptación y/o traducción de escalas y tests de una cultura a otra.
CENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓN
[email protected]://ceo.udea.edu.co 10
tests. Así, se han comentado algunas de las posturas más recientes acerca de cómo obtener evidencia sobre la validez de los tests y dos de los temas más actuales en el campo de la medida, el problema del funcionamiento diferencial de los tests y de los ítems, y la adaptación de tests de una cultura a otra, que se conectan directamente con el proceso de validación de un test. Estos temas son de actualidad en revistas especializadas en psicometría, pero también lo son en revistas aplicadas de sociología, psicología, educación y medicina, principalmente desde su perspectiva más práctica. Es más, tanto los teóricos como los prácticos andan en estos momentos muy preocupados sobre el buen uso de los tests y por la calidad de los mismos, lo que conlleva un gran interés en establecer normas y directrices que regulen el uso de los tests. En este sentido las asociaciones más fuertes del ámbito psicológico, educativo y de la medida (American Psychological Association, APA, http://www.apa.org; American Educational Research Association, AERA, http://www.aera.net/; National Council on Measurement in Education, NCME, http://www.ncme.org/; y International Test Commission, ITC, http://www.intestcom.org/) se encuentran ocupadas, entre otros menesteres, en definir reglas éticas para el uso de los tests y para la construcción de los mismos con la finalidad de evitar la presencia de sesgos y factores culturales, la injusticia en la obtención de puntuaciones y, por supuesto, en la toma de decisiones. Todas estas asociaciones destacan la importancia de conocer a fondo, y estar bien formado, en los conceptos claves de la medida mediante tests y en los nuevos modelos de medida. En definitiva, la formación adecuada en medición es la clave para que los prácticos que usan tests, los usen y lo hagan de forma adecuada y ética. Referencias American Psychological Association. (1954). Technical recommendations for
CENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓN
[email protected]://ceo.udea.edu.co 11
psychological tests and diagnostic techniques. Psychological Bulletin, 51 (2, Pt.2). American Psychological Association (1966). Standards for educational and psychological tests and manuals. Washington, DC: Author. American Psychological Association, American Educational Research Association, and National Council on Measurement in Education (1974). Standards for educational and psychological test. Washington, DC: American Psychological Association. American Psychological Association, American Educational Research Association, and National Council on Measurement in Education (1985). Standards for educational and psychological testing. Washington, DC: American Psychological Association. American Psychological Association, American Educational Research Association, and National Council on Measurement in Education (1999). Standards for educational and psychological testing. Washington, DC: American Psychological Association. Anastasi, A. (1986). Evolving concepts for test validation. Annual Review of Psychology, 37, 1-15. Angoff, W.H. (1988). Validity: An evolving concept. En H. Wainer y H. Braun (Eds.) Test validity. Hillsdale, NJ: Lawrence Erlbaum Associates. Berk, R.A. (Ed.) (1982). Handbook of methods for detecting test bias. Baltimore: John Hopkins University Press. Campbell, D.T. y Fiske, A.W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56, 81-105.
CENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓN
[email protected]://ceo.udea.edu.co 13
Presente y perspectivas de futuro. Metodología de las Ciencias del Comportamiento, 2, 167-182. Holland, P.W. y Wainer, H. (Eds.) (1993). Differential Item Functioning. Hillsdale, NJ: LEA. Linn, R.L. (1980). Issues of validity for criterion-referenced measures. Applied Psychological Measurement, 4, 547-561. Linn, R.L. (1997). Evaluating the validity of assessments: The consequences of use. Educational Measurement: Issues and Practice, 16, 14-16. Mehrens, W.A. (1997). The consequences of consequential validity. Educational Measurement: Issues and Practice, 16, 16-18. Messick, S. (1975). The standard problem: Meaning and values in measurement and evaluation. American Psychologist, 30, 955-966. Messick, S. (1980). Test validity and the ethics of assessment. American Psychologist, 35, 1012-1027. Messick, S. (1989). Validity. En R.L. Linn (Ed.), Educational Measurement (3th. Ed.). New York: American Council on Education and Macmillan publishing company. Messick, S. (1995). Standards of validity and the validity of standards in performance assessment. Educational measurement: Issues and Practice, 14, 5-8. Millsap, R.E. y Everson, H.T. (1993). Methodology Review: Statistical approaches for assessing measurement bias. Applied Psychological Measurement ,17, 297-334. Moss, P.A. (1995). Themes and variations in validity theory. Educational
CENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓNCENTRO DE ESTUDIOS DE OPINIÓN
[email protected]://ceo.udea.edu.co 14
Measurement: Issues and Practice, 14, 5-13. Oakland, T., Poortinga, Y.H., Schlegel, J. y Hambleton, R.K. (2001). International Test Commission: Its History, Current Status, and Future Directions. International Journal of Testing, 1, 3-32. Popham, W.J. (1997). Consequential validity: Right concern-wrong concept. Educational Measurement: Issues and Practice, 16, 9-13. Potenza, M.T. y Dorans, N.J. (1995). DIF Assessment for polytomously scored items: A framework for classification and evaluation. Applied Psychological Measurement, 19, 23-37. Shepard, L.A. (1993). Evaluating test validity. Review of Research in Education, 19, 405-450. Shepard, L.A. (1997). The centrality of test use and consequences for test validity. Educational Measurement: Issues and Practice, 16, 5-8, 13, 24. Traub, R.E. (1997). Classical test theory in historical perspective. Educational Measurement: Issues and Practice, 16 (4), 8-14. Wainer, H. y Braun, H. (Eds.) (1988). Test validity. Hillsdale, NJ: LEA.