Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Validez de los Testpsicométricos: Tipos, Fuentes y Evolución Histórica - Prof. 1312, Apuntes de Psicometría

Este documento de josé antonio domínguez sarabia explica la validez de los testpsicométricos, su importancia y cómo se ha definido a lo largo del tiempo. Se abordan tipos de validez como predictiva, de contenido y de constructo, y se presentan fuentes de evidencias internas y externas. Además, se discute la evolución histórica de la teoría de la validez.

Tipo: Apuntes

2018/2019

Subido el 18/12/2019

franky_indie
franky_indie 🇪🇸

1

(1)

6 documentos

1 / 11

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Psicometría José Antonio Domínguez Sarabia Tema 4
1
Validez de las Inferencias
La primera fase en el proceso de validación es hacer una definición operativa (establecer la
relación entre el concepto teórico no observable e indicadores observables) y estructural
(intenta establecer la relación de esa variable psicológica con otra variable con la que se supone
que en principio debe estar relacionada) del constructo que queremos medir.
CONCEPTO DE VALIDEZ
La validez se refiere al grado en el que las evidencias empíricas y la teoría apoyan la
interpretación que hagamos de las puntuaciones del test desarrollado para un determinado
propósito.
Así de la definición propuesta deducimos que lo que se valida no es el test en sí mismo, sino que
se validan las inferencias o las decisiones que se toman a partir de sus puntuaciones en relación
con un objetivo o uso concreto.
Hemos de tener en cuenta que un test se elabora con un determinado propósito, para ser
aplicado en una determinada población. Aunque el constructor del mismo haya aportado
evidencias de validez, cualquier usuario que pretenda aplicar en poblaciones, circunstancias o
con objetivos distintos es responsable de aportar evidencias que justifiquen ese nuevo uso. La
variedad de evidencias que se habrán de recoger serán tanto de carácter empírico como teórico.
En primer lugar necesitamos un marco teórico claramente delimitado, dentro del cual sea
posible interpretar una medida y poder justificar dicha interpretación.
Por otro lado, son necesarias múltiples evidencias empíricas que anclen esos modelos teóricos
en el mundo real y aporten pruebas concluyentes que aporten evidencias de validez.
Se identifica la validez no como un producto final, sino como un proceso. Además, nunca
podremos afirmar que una determinada interpretación o uso es totalmente válido. La validez no
es una cuestión de todo o nada, sino de grado.
La validación de tests se refiere al proceso de acumulación de pruebas y evidencias que
justifiquen las conclusiones y decisiones que se tomarán a partir de las puntuaciones que los
sujetos obtengan en dicho test.
En definitiva, hay que tener en cuenta los siguientes aspectos sobre la validez:
- No se validan los tests. Pueden ser más o menos adecuados para un uso o decisión pero
no son válidos para siempre. Las evidencias que debemos aportar son de carácter
teórico y empírico.
- Necesitamos un buen modelo teórico que lo justifique para hacer una definición
operativa y estructural.
- Las evidencias empíricas se obtienen a partir de diseños y análisis.
- La validez no es validación, porque ésta es un proceso y no un producto. Necesitamos
teorías e hipótesis científicas para contrastar. Desde el punto de vista teórico debemos
aportar muchas pruebas, mientras que desde el práctico se suelen aportar dos o tres.
- Por último, la validez es cuestión de grados.
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Validez de los Testpsicométricos: Tipos, Fuentes y Evolución Histórica - Prof. 1312 y más Apuntes en PDF de Psicometría solo en Docsity!

Validez de las Inferencias

La primera fase en el proceso de validación es hacer una definición operativa (establecer la relación entre el concepto teórico no observable e indicadores observables) y estructural (intenta establecer la relación de esa variable psicológica con otra variable con la que se supone que en principio debe estar relacionada) del constructo que queremos medir.

CONCEPTO DE VALIDEZ

La validez se refiere al grado en el que las evidencias empíricas y la teoría apoyan la interpretación que hagamos de las puntuaciones del test desarrollado para un determinado propósito.

Así de la definición propuesta deducimos que lo que se valida no es el test en sí mismo, sino que se validan las inferencias o las decisiones que se toman a partir de sus puntuaciones en relación con un objetivo o uso concreto.

Hemos de tener en cuenta que un test se elabora con un determinado propósito, para ser aplicado en una determinada población. Aunque el constructor del mismo haya aportado evidencias de validez, cualquier usuario que pretenda aplicar en poblaciones, circunstancias o con objetivos distintos es responsable de aportar evidencias que justifiquen ese nuevo uso. La variedad de evidencias que se habrán de recoger serán tanto de carácter empírico como teórico.

En primer lugar necesitamos un marco teórico claramente delimitado, dentro del cual sea posible interpretar una medida y poder justificar dicha interpretación.

Por otro lado, son necesarias múltiples evidencias empíricas que anclen esos modelos teóricos en el mundo real y aporten pruebas concluyentes que aporten evidencias de validez.

Se identifica la validez no como un producto final, sino como un proceso. Además, nunca podremos afirmar que una determinada interpretación o uso es totalmente válido. La validez no es una cuestión de todo o nada, sino de grado.

La validación de tests se refiere al proceso de acumulación de pruebas y evidencias que justifiquen las conclusiones y decisiones que se tomarán a partir de las puntuaciones que los sujetos obtengan en dicho test.

En definitiva, hay que tener en cuenta los siguientes aspectos sobre la validez:

  • No se validan los tests. Pueden ser más o menos adecuados para un uso o decisión pero no son válidos para siempre. Las evidencias que debemos aportar son de carácter teórico y empírico.
  • Necesitamos un buen modelo teórico que lo justifique para hacer una definición operativa y estructural.
  • Las evidencias empíricas se obtienen a partir de diseños y análisis.
  • La validez no es validación, porque ésta es un proceso y no un producto. Necesitamos teorías e hipótesis científicas para contrastar. Desde el punto de vista teórico debemos aportar muchas pruebas, mientras que desde el práctico se suelen aportar dos o tres.
  • Por último, la validez es cuestión de grados.

EVOLUCIÓN HISTÓRICA DE LA TEORÍA DE LA VALIDEZ

Desde la definición inicial de Garret “ La validez de un test es la fidelidad con la que el test mide lo que se propone medir ” o la de Guilford “ En un sentido muy general, un test es válido para cualquier cosa con la que correlaciona ”, hasta el concepto actual expuesto en el apartado anterior han transcurrido no sólo muchos años sino también muchas demandas sociales, e incluso judiciales, relacionadas con el uso de los tests y grandes cambios en la psicología y la psicometría.

En cuanto a los tipos de validez, normalmente se distinguía entre validez predictiva, de contenido y de constructo.

Validez predictiva

Antes de los años 50, en pleno auge del conductismo y del positivismo lógico, el estudio de la validez era marcadamente pragmático, empírico e incluso ateórico.

La utilización preferente de los tests para fines de selección hacía que el sentido de la validez fuera eminentemente predictivo. La validez de un test se definía como su capacidad para predecir conductas criterio observables.

Así, la aparición de un nuevo test debía estar acompañada de la presentación de pruebas, sobre la relación entre las puntuaciones en el test y el comportamiento último que se intentaba predecir. Pruebas basadas generalmente en las técnicas correlacionales (coeficiente de validez) y de comparación de grupos. Se utilizaba el modelo de regresión XY, siendo X el test e Y el criterio elegido.

Esta concepción de la validez es la que tradicionalmente ha recibido el nombre de validez predictiva (por ejemplo, para seleccionar a vendedores se les pasaban tests a todos los aspirantes y se seleccionaban, por ejemplo, a los que realizaban el mayor número de ventas).

Los problemas para la medición de criterios adecuados (por ejemplo, limitaciones económicas y temporales de las organizaciones), hicieron que la utilidad de un nuevo test se probara por su correlación con otro test ya disponible para la predicción del criterio deseado. Esta práctica dio lugar al término validez concurrente. Aunque en su momento fue considerada como una forma distinta de validez, utilizaba los mismos procedimientos empíricos que la validez predictiva (por ejemplo, se les pasaban los test a los que ya eran vendedores y a partir de esos criterios se seleccionaban a los nuevos, para así ahorrar tiempo y dinero).

Validez de contenido

Este tipo de validez basada en la correlación con criterios observables externos fue cuestionada sobre todo desde el ámbito educativo, donde, de algún modo, sus elementos representan el propio criterio y las puntuaciones no solían utilizarse con fines predictivos. Para la mayoría de los expertos, la validez de estos tests residía en el grado en que su contenido, reflejaba el área de conocimiento o el dominio de rendimiento que se pretendía examinar con el test. Esta perspectiva fue etiquetada con la denominación validez de contenido.

Validez de constructo

Con el paso del tiempo los investigadores empiezan a preocuparse por saber qué es exactamente lo que miden sus tests. Intentan ponerle nombre a la variable que miden. Estamos hablando de la validación de constructo. Este tipo de validez implica recoger toda la información

Evidencias basadas en el contenido del test (interna)

Este tipo de evidencias está centrado en la información que se puede obtener del análisis de la relación entre los contenidos del test y el constructo que se pretende medir. Según los Standards hace referencia a los temas, palabras y formatos de los ítems, tareas o cuestiones que forman el test, así como a las instrucciones para los procedimientos de administración y puntuación. Por tanto, recogen de forma ampliada los contenidos que se venían agrupando bajo la denominación tradicional de validez de contenido.

¿Los ítems son buenos? ¿Hay factores internos (orden de ítems, instrucciones del test, etc.) o externos (entrevistador, contexto físico y temporal, etc.) que afecten a las puntuaciones y puedan llevarnos a tomar decisiones equivocadas?

Los procedimientos empíricos utilizados para obtener evidencias de validez basadas en el contenido del test se diferencian en función del tipo de estudios comentados previamente. Entre otros destacamos los siguientes:

  • Evaluar las relaciones entre constructo e ítems. Hay que determinar la adecuación de la definición del constructo (atributos observables del mismo y modelo teórico de elaciones con otras variables), de la tabla de especificaciones de los ítems y de la redacción de los ítems. Para determinar qué ítems son los mejores y cuáles los peores se suelen utilizar alguno de los siguientes procedimientos:

o Relevancia : los ítems incluidos son esenciales, importantes, y no superfluos. Procedimientos:  Antes de aplicar el test: consulta a expertos, congruencia ítem-objetivo.

 Después de aplicar el test se realiza el análisis de los ítems: varianza, discriminación del ítem, índice de fiabilidad del ítem.

o Representatividad : los ítems seleccionados cubren todos los aspectos, contenidos, que se pretenden medir. Son una muestra representativa de los ítems que se podría incluir. Procedimientos: Congruencia (coincidiencia) entre la tabla de especificaciones inicial y final. Está estrechamente relacionada con todo el proceso de construcción del test: a) en la definición del constructo: revisión bibliográfica exhaustiva y someter a la evaluación de los expertos la definición propuesta y las dimensiones identificadas; b) en la tabla de especificaciones: los pesos otorgados a cada dimensión, ¿son los correctos?, pedir opinión a los expertos; c) en los ítems redactados: relevancia, congruencia ítem-objetivo; d) ítems finalmente seleccionados: congruencia entre la tabla de especificaciones inicial y final.

  • Evaluar los factores contextuales internos o externos. Un modo de evaluar si estos factores añaden variabilidad no deseada y pueden alterar las puntuaciones de los sujetos es diseñar y realizar estudios piloto previos para determinar si estas variables influyen o no en la puntuación final.

Evidencias basadas en el proceso de respuesta (interna)

El análisis tanto teórico como empírico de los procesos de respuesta de las personas sometidas a examen, las estrategias de resolución de problemas y las representaciones mentales que utilizan para responder a los ítems pueden proporcionar evidencias respecto a la adecuación

entre el constructo y la naturaleza de dicho proceso de respuesta. Se trata pues de obtener evidencias que aseguren que el proceso de respuesta de las personas a los ítems es el previsto por la teoría sobre el constructo objeto de la medición. Esta visión que parte del análisis cognitivo pone el énfasis en los procesos más que en el constructo en sí mismo, donde se analizan las respuestas de las personas a cada uno de los ítems.

Hay modelos psicológicos que dan sentido al proceso de respuesta como la visualización de una figura desde una perspectiva cognitiva. Así, cuanto más lejos esté “?” de la letra de referencia más difícil será, y si está rotada la letra lo será aún más. Por lo tanto, habrá que atender a la rotación y a la lejanía.

Procedimientos empíricos para comprobarlo:

  • Relación entre procesos y productos: la proporción de respuesta correcta de K será mayor que de E.
  • Correlatos cognitivos: covariación con medidas que implican los mismos procesos (convergencia) o con otras en las que no intervienen (discriminación).
  • Expresión verbal del proceso.
  • Modelos TRI: b como evidencia de la complejidad cognitiva. Se calcula b para la rotación y para la lejanía para ver qué aporta mayor dificultad.
  • Modelos TRI: modelos componenciales. Que descomponen la dificultad de los ítems en parámetros representativos de sus componentes.

Limitaciones:

  • Aplicaciones prácticamente reducidas al ámbito de la psicología cognitiva.
  • Necesita modelos psicológicos muy elaborados.
  • No siempre hay modelos matemático-estadísticos que permitan aportar evidencias empíricas.

Evidencias basadas en la estructura interna del test (interna)

Este tipo de evidencias indica el grado en que las relaciones entre los ítems del test y los componentes del test conforman el constructo sobre el que se basan las interpretaciones de las puntuaciones del test e incluyen las distribuciones de respuestas a los ítems, las interrelaciones entre los ítems, y la relación entre las puntuaciones a los ítems individuales y las puntuaciones al test global, es decir, que, por ejemplo, los ítems 1, 2 y 3 de un test miden un constructo, los ítems 4, 5 y 6 del mismo test miden otro, etc.

La dimensionalidad del test o el funcionamiento diferencial de los ítems son los aspectos que se incluyen en este apartado. El estudio de la dimensionalidad persigue aportar evidencias que muestren, si las relaciones entre las respuestas a los ítems se ajustan a lo predicho por la teoría

En definitiva, el Análisis Factorial Exploratorio adecuado sería el siguiente:

Para proceder con el Análisis Factorial Confirmatorio se utilizan los índices de ajuste “modelo- realidad” que vemos en este gráfico:

Pero, ¿cómo se obtienen los factores y las saturaciones factoriales? A partir de las correlaciones entre los ítems: si dos ítems correlacionan mucho entre sí es muy probable que formen parte de la misma dimensión.

Aquí hay seis dimensiones distintas porque no hay correlación entre los ítems.

Aquí hay una sola dimensión porque hay correlaciones muy altas.

Esta es la matriz de correlaciones del AFE, por lo que se trata del AFC.

En este ejemplo tenemos una matriz de correlaciones de 5 ítems en los que la estructura factorial es bifactorial (factor 1 formado por ítems 1, 2 y 4; factor 2 formado por ítems 3 y 5).

La saturación factorial de los ítems anteriores es la siguiente. A la pregunta de si el test es adecuado solo lo sabremos dependiendo de la muestra a la que se le pase.

Ver “Hoja 1” de Análisis Factorial del TDAH.

Evidencias basadas en la relación con otras variables (externa)

Estas evidencias se centran en el análisis de la relación entre las puntuaciones del test y variables externas al test. Es decir, bajo este tipo de evidencias se incluirían todos aquellos estudios destinados a investigar las relaciones entre el constructo medido por el test y el conjunto de constructos o criterios de interés práctico incluido en la red nomológica o esquema conceptual.

Los Standards indican que se trata de obtener evidencias relativas a algún criterio que se espera pueda ser predicho por el test, así como relaciones con otros tests que hipotéticamente miden los mismos constructos y tests que miden constructos relacionados o diferentes. Por tanto, aquí estarían incluidas las evidencias convergentes y discriminantes de los estudios tradicionales de validación de constructo, las evidencias para establecer las relaciones entre las puntuaciones y algún criterio que se intenta predecir, y los estudios de generalización de la validez.

La estrategia para obtener evidencias discriminantes y convergentes presenta una doble vertiente. Por un lado, el análisis de las mediciones proporcionadas por el test en relación con las mediciones del mismo constructo obtenidas con otros procedimientos de medida. Este tipo de estudio nos proporcionaría evidencia convergente. Por otro lado, el estudio de la relación entre las mediciones proporcionadas por el test y las medidas de constructos con los que la variable de interés no tenga relación. Este segundo tipo de estudio nos proporcionaría evidencia discriminante.

La estrategia más utilizada para obtener tanto evidencias discriminantes como convergentes es conocida como matriz multirrasgo-multimétodo. Se trata de una matriz de coeficientes de correlación entre distintas variables psicológicas medidas mediante distintos procedimientos. Por ejemplo: ansiedad y depresión medidas mediante test y mediante observación.

Respecto a la relación test-criterio se trata de establecer elevada relación entre el test (medida de una variable psicológica supuestamente relacionada con el criterio) y el criterio (variable objetivo, relevante y que es la que nos interesa). Empíricamente suele demostrarse mediante la regresión lineal (𝑋 → 𝑌) o mediante el coeficiente de correlación de Pearson (𝑟𝑥𝑦 a veces llamado coeficiente de validez).

  • Pasos para demostrar la evidencia: o Identificar y definir el criterio y seleccionar un método para medirlo.

o Seleccionar una muestra representativa. o Aplicar el test.

o Obtener las medidas de las personas en el criterio:

  • Porcentaje de personas correctamente clasificadas: proporción de personas correctamente identificadas.
  • Chi-cuadrado y coeficiente kappa: estadísticos de ‘validez’.

Donde:

  • a: número de pacientes con la enfermedad diagnosticados como “positivos” por la prueba (verdaderos positivos).
  • b: número de pacientes sin la enfermedad diagnosticados como “positivos” por la prueba (falsos positivos).
  • c: número de pacientes con la enfermedad diagnosticados como “negativos” por la prueba (falsos negativos).
  • d: número de pacientes sin la enfermedad diagnosticados como “negativos” por la prueba (verdaderos negativos).

Las fórmulas son:

En definitiva:

Veamos todo esto con un ejemplo:

En primer lugar tenemos que tener en cuenta que el Gold Standard no está arriba, así que hay que fijarse bien en la distribución de a b c d.

  • 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 = 138 = 0,6154 → de los que son enfermos, el 61,54% lo identifica mi test como enfermos.
  • 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 = 67 = 0,85 → de los que son sanos, mi test identifica el 85% como sanos.

𝑆 = 𝑎𝑎+𝑐 𝐸 = 𝑏𝑑+𝑑 𝑉𝑃(+)^ = 𝑎𝑎+𝑏 𝑉𝑃(−)^ = 𝑐+𝑑𝑑

  • 𝑉𝑃(+) = 89 = 0,88 → el 88% de seguridad de que si mi test te ha identificado como enfermo, lo estás de verdad.
  • 𝑉𝑃(−) = 116 = 0,54 → el 54% de seguridad de que si mi test te ha identificado como sano, lo estás de verdad.
  • % 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑎𝑚𝑒𝑛𝑡𝑒 𝑐𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑑𝑜𝑠 = 8+6 20 = 0,7 → el 70% de personas han sido correctamente clasificadas.
  • 𝐾𝑎𝑝𝑝𝑎 = 𝐹𝑐−𝐹𝑎𝑁−𝐹𝑎 ; 𝐹𝑐 = 8 + 6 = 14; 𝐹𝑎 = 9∗13 20 + 11∗7 20 = 9,7 ; 𝐾 = 14−9,720−9,7 = 0,417 → indica lo bueno que es el test para medir el constructo que pretende medir.

La sensibilidad y la especificidad están en el mismo continuo, así que si un test tiene mucha sensibilidad lo lógico es que no tenga tanta especificidad, y viceversa.

Evidencias basadas sobre las consecuencias del uso del test (externa)

En este apartado se incluyen las evidencias y razonamientos para evaluar las consecuencias de las interpretaciones y uso de las mediciones, tanto positivas como negativas, intencionadas o no intencionadas, inmediatas o a largo plazo, especialmente aquellas asociadas con el sesgo en las puntuaciones e interpretaciones o asociadas con usos injustos de los tests. Este problema se hace especialmente acuciante cuando trabajamos con los denominados test de alto riesgo empleados para la toma de decisiones críticas para personas e instituciones: selección laboral, admisión en centros educativos, evaluación de programas o de centros educativos, etc. En estas situaciones el contexto social suele estar muy atento a todo el proceso de medida, a la interpretación de las puntuaciones y a las consecuencias que se puedan derivar del uso del test.

Consecuencias relacionadas con las puntuaciones:

  • Infrarrepresentación del constructo.
  • Varianza irrelevante.

Consecuencias relacionadas con aspectos sociales y políticos:

  • Contenido: aprender cosas nuevas/adaptar currículum.
  • Procedimiento: entrenamiento en test psicotécnicos.
  • Corrección y puntuación.

INTEGRANDO LAS EVIDENCIAS DE VALIDEZ

La validez es un concepto unitario, es decir, no hay distintos tipos de validez, sino que las fuentes de evidencias se adaptan a los objetivos. Además, la validez es cuestión de grado, pues desde principio a fin del proceso de construcción del test hay que acumular evidencias de la utilidad del mismo. Por último, hay que demostrar la adecuación de las decisiones para justificar lo que se va a hacer con las puntuaciones.