Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Fiabilidad de los Test: Coeficientes y Métodos - Prof. Castellanos, Apuntes de Psicometría

Diferentes tipos de coeficientes de fiabilidad para evaluar la precisión y consistencia de los tests, como la proporción de acuerdo de Spearman, el test-retest, formas paralelas y el alfa de Cronbach. Además, se presentan métodos para medir la velocidad y potencia de los tests y la fiabilidad en situaciones más complejas.

Tipo: Apuntes

2020/2021

Subido el 01/03/2021

lorena.s
lorena.s 🇪🇸

4.8

(4)

15 documentos

1 / 9

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Tema 3. Fiabilidad
Spearman define la fiabilidad como la proporción de varianza verdadera que hay en el test. El problema era que
desconocemos el valor de la puntuación verdadera. Solucionó este problema con el paralelismo ya que con ello
te permite calcular la fiabilidad a través de algo que si conocemos como la correlación entre dos test.
1) Consistencia entre jueces (Kappa)
Este otro tipo de coeficiente de fiabilidad se utiliza sobre todo en aquellos casos en los que diferentes jueces
atribuyen puntuaciones a un mismo sujeto y de estas diferencias de puntuaciones se calcula el coeficiente. Son
típicos escalas de observación, y en general de medidas con respuestas abiertas, donde el sujeto elabora la
respuesta. Hay varios índices que permiten estimar este tipo de fiabilidad, nosotros vamos a estudiar solo uno, el
índice Kappa de Cohen por ser el más utilizado.
Este índice requiere como mínimo de dos conjuntos de puntuaciones, aunque lo entenderemos mejor con un
ejemplo real, en la siguiente grafica tendremos una clasificación de 500 pacientes en 4 categorías diagnosticas
posibles (imaginemos depresión, ansiedad, extraversión y neocriticismo, por ejemplo), tendremos al Juez X y al
Juez Y.
Un elevado grado de acuerdo, es decir mayor fiabilidad, se producirá cuando la mayoría de frecuencias
conjuntas se encuentran en casillas coincidentes (C1,C1; C2,C2…), con esto definiríamos entonces la
proporción de acuerdos (P0) , suponiendo que el total de posibilidades es m entonces:
El máximo de este valor P0 es 1, que sería la existencia de acuerdo absoluto, pero es importante señalar que
alguna de las clasificaciones correctas podría producirse por azar por eso se considera que el mínimo no es 0, si
no la proporción de clasificaciones correctas por azar (Pe) .
Con ambos valores podremos calcular el coeficiente k propuesto por Cohen:
Ejemplo
pf3
pf4
pf5
pf8
pf9

Vista previa parcial del texto

¡Descarga Fiabilidad de los Test: Coeficientes y Métodos - Prof. Castellanos y más Apuntes en PDF de Psicometría solo en Docsity!

Tema 3. Fiabilidad

Spearman define la fiabilidad como la proporción de varianza verdadera que hay en el test. El problema era que desconocemos el valor de la puntuación verdadera. Solucionó este problema con el paralelismo ya que con ello te permite calcular la fiabilidad a través de algo que si conocemos como la correlación entre dos test.

1) Consistencia entre jueces (Kappa)

Este otro tipo de coeficiente de fiabilidad se utiliza sobre todo en aquellos casos en los que diferentes jueces atribuyen puntuaciones a un mismo sujeto y de estas diferencias de puntuaciones se calcula el coeficiente. Son típicos escalas de observación, y en general de medidas con respuestas abiertas, donde el sujeto elabora la respuesta. Hay varios índices que permiten estimar este tipo de fiabilidad, nosotros vamos a estudiar solo uno, el índice Kappa de Cohen por ser el más utilizado.

Este índice requiere como mínimo de dos conjuntos de puntuaciones , aunque lo entenderemos mejor con un ejemplo real, en la siguiente grafica tendremos una clasificación de 500 pacientes en 4 categorías diagnosticas posibles (imaginemos depresión, ansiedad, extraversión y neocriticismo, por ejemplo), tendremos al Juez X y al Juez Y.

Un elevado grado de acuerdo , es decir mayor fiabilidad, se producirá cuando la mayoría de frecuencias conjuntas se encuentran en casillas coincidentes (C1,C1; C2,C2…), con esto definiríamos entonces la proporción de acuerdos (P 0 ) , suponiendo que el total de posibilidades es m entonces:

El máximo de este valor P 0 es 1, que sería la existencia de acuerdo absoluto, pero es importante señalar que alguna de las clasificaciones correctas podría producirse por azar por eso se considera que el mínimo no es 0, si no la proporción de clasificaciones correctas por azar (Pe).

Con ambos valores podremos calcular el coeficiente k propuesto por Cohen:

Ejemplo

Aunque esto no acaba aquí, Cohen propuso además un error típico que permite estimar los límites del intervalo de confianza para delimitar su coeficiente, para de este modo poder tener un resultado más fiable aun, el supuesto que requiere es el de normalidad de las distribuciones de los coeficientes, este sería:

Para nuestro ejemplo el error típico es 0,03; y los limites inferior y superior del intervalo de confianza, con un nivel de confianza de 95%, y Zα/2 =1,96, son 0,516 y 0,6336 respectivamente.

5. Consistencia temporal

Es la repetición de las medidas, es la verdadera fiabilidad.

Test-Retest

En este método vamos a pasar el test dos veces a un conjunto de sujetos y después calcular la correlación entre las primeras puntuaciones y las segundas. Esa correlación será la fiabilidad que, como hemos visto

anteriormente, es .Siendo x la primera medición del test y x’ la segunda.

El cálculo de test-retest está basado en el supuesto de que todo se mantiene constante pero es posible que no sea así ya que los sujetos podrían haber aprendido, estar más cansados o incluso haberse producido un cambio de criterio en su respuesta. Para comprobarlo tenemos que hacer un contraste de medias y varianzas.

 Si existiesen diferencias entre las dos medias estaría causada por un cambio en los sujetos (cansancio, aprendizaje, maduración)  Si existiesen diferencias entre las varianzas , puede estar causada por un cambio de precisión del test (cambio de varianza error) o por un cambio en el criterio de respuesta de los sujetos (cambio de la varianza verdadera)

Formas paralelas

Esto ya lo hemos visto en el tema anterior. Hay que hacer contraste de medias y varianzas.

 Si las medias y las varianzas son iguales  los test son paralelos es exactamente la fiabilidad

 Si las medias son iguales y las varianzas no  los test son tau-equivalentes , no es exactamente la

fiabilidad pero es cercana

 Si las medias no son iguales  no hay equivalencia, no representa la fiabilidad

6. Consistencia interna

Estos procedimientos requieren una única aplicación del test, esto hace que sean de los más utilizados, existen varios métodos dentro de este marco. Mide la consistencia, coherencia dentro del propio test. No es la fiabilidad exactamente pero más o menos.

Dos mitades

Para este procedimiento se le aplica el test de forma normal al sujeto, y después, dividimos los ítems del test. A continuación, hay que comprobar que estas dos mitades son paralelas. Para ello tendremos que calcular la correlación entre ambas , si nos sale algo consistente significará que nuestro test es consistente.

Algo fundamental a tener en cuenta es bajo qué criterio dividamos los ítems, el criterio más habitual es dividirlo en la mitad par e impar (no podemos usar procedimientos del tipo primera parte y segunda parte, ya que en ciertos cuestionarios las preguntas últimas pueden ser más difíciles y eso afectaría a nuestros cálculos).

Es importante saber que , si las mitades son paralelas , realmente estaríamos calculando el coeficiente de fiabilidad de cada una de ellas , pero esta no es la única propiedad relacionada con el paralelismo que

7. Test de velocidad y test de potencia

Es importante que aprendamos a diferenciar entre estos dos tipos de test, ya que dependiendo si son de un tipo o de otro hemos hay ciertas cuestiones a la hora de calcular el coeficiente de fiabilidad que cambian.

Básicamente un test de velocidad es aquel compuesto por ítems fáciles, de forma que cualquier sujeto debería ser capaz de contestar de forma correcta a todos los ítems, entonces, lo que separa unas puntuaciones de otras es el número de ítems que llegan a contestar los sujetos en función del tiempo que se les da. Por otra parte, un test de potencia está formado ítems de dificultad variable, y el hecho de que un paciente sea capaz de resolver uno o no refleja sus capacidades en la variable medida, en este tipo de test en general suele haber tiempo para que la mayoría de sujetos lo completen en su totalidad. Ahora bien, esto son casos extremos, digamos “puros”, en general los test no suelen ser de potencia o velocidad pura, sino que son mixtos, y se acercan más a un tipo que a otro.

Veamos ahora formas de medir que grado de velocidad y de potencia tiene un test , empezaremos por el índice de velocidad de Gulliksen , que no os confunda el nombre, no es solo para test de velocidad. Para definir este índice es importante diferenciar varias puntuaciones:

Aciertos (A) o número de ítems contestados correctamente  Fallos (F) o número de ítems contestados incorrectamente  Omisiones (O) o número de ítems no contestados, pero que van seguidos de otros ítems a los que el sujeto responde  No intentados o no alcanzados (NI) que son ítems consecutivos, normalmente al final del test, no contestados por los sujetos y que no van seguidos de otros contestados. Se considera que no han sido presentados al sujeto o que éste no ha llegado a ellos por falta de tiempo

Con estas puntuaciones Gulliksen define la puntuación I de la siguiente forma:

Con esto, se crea el índice de velocidad calculando la razón entre la varianza de F y de I

En un test de velocidad pura, los fallos serán 0, ya que no son ítems difíciles (F=0), lo que daría una razón de 0 (el mínimo) al ser él numerador 0. Mientras que en uno de potencia pura no habrá omisiones ni no intentados (NI=0, O=0), F=I, lo que dará una razón de 1 (el máximo), al dividir igual entre igual. Aunque estamos hablando de nuevo, de los casos puros extremos.

Cuanto más cercano a 0 mayor nivel de velocidad del test , mientras que cuanto más cercano a 1 mayor nivel de potencia. Este índice tiene la enorme ventaja de poder calcularse con una sola aplicación del test.

Otro índice sería el propuesto por Stafford , utilizando las mismas definiciones de las puntuaciones que hemos visto en el cuadro, propone este otro índice:

IMPORTANTE NO LIARSE , en este caso el índice oscila entre 0 y 100, siendo 0 en test de potencia pura , y 100 en casos de velocidad pura. El razonamiento detrás de esto es el siguiente, cuando el test es de velocidad F y O serán 0, por lo que el índice dará 100. Mientras que en casos de potencia pura NI será 0, por lo que en consecuencia el índice será 0.

Por último, es importante tener en cuenta que en los test de velocidad no funcionan bien los coeficientes de consistencia interna por lo que será conveniente usar otros procedimientos. Recordad también, que hay otras situaciones más complejas en tipos de test más específicos.

8. Fiabilidad en situaciones más complejas: tests compuestos y puntuaciones diferencia

Leerlo y entenderlo pero no hacer caso a las formulas

Muchos test tienen puntuaciones que son puntuaciones totales que provienen del cálculo de puntuaciones en subtests. Por ejemplo, un test de inteligencia puede tener puntuaciones para razonamiento verbal, razonamiento numérico, comprensión lectora… y no solo nos da las puntuaciones en estos rasgos sino que también nos da una puntuación total en inteligencia.

Lo que nos interesa es la fiabilidad de ese test total. Hay que tener en cuenta las ponderaciones. Si la fiabilidad de rn es la más baja y es la que tiene más peso, la fiabilidad total será baja.

Por otro lado, hay muchas veces que se hace una medición de un test X1 y luego se vuelve a hacer una segunda medición X2 del mismo test. No nos interesa ni la puntuación de la primera ni de la segunda sino la diferencia de ambas. Esto son las puntuaciones diferenciales. Esto sirve para ver si hay mejoras o peoras.

9. Algunas consideraciones sobre las estimaciones del coeficiente de fiabilidad

Para calcular el coeficiente de fiabilidad debemos tener las mismas consideraciones al estimarlo que cualquier otro estimador, ya que su valor depende mucho del tipo de muestra que tenemos. La muestra debe tener un tamaño suficiente, ya que, a mayor número en la muestra, más preciso será el coeficiente. La muestra también tiene que ser representativa de la población a la que vamos a administrar el test. Tened en cuenta entonces, que, si el test va a ser administrado a diferentes grupos, tendremos que tener la fiabilidad de cada grupo, no sirve tener sólo la de un grupo. Aunque existen procedimientos para la “generalización de la fiabilidad” que nos permiten los resultados estudios, estos procedimientos se basan en que las condiciones de administración deben de ser las mismas, o lo más parecidas posibles, por lo que, si esto no se puede cumplir, no nos quedara otro remedio que calcular el coeficiente de nuevo.

Como veis, las características de las muestras con las que se obtienen los estimadores de los coeficientes, son muy importantes y tienen que ser descritas en el Manual del Test o en el apartado del Método de un artículo o trabajo de investigación, para poder estar seguros que las inferencias que hagamos con esa muestra son adecuadas metodológicamente al provenir de una muestra fiable. Actualmente se insiste mucho en la comunidad científica en que los coeficientes de fiabilidad deben introducirse siempre, aunque el estudio no sea psicométrico.

Como hemos visto en apartados anteriores, la fiabilidad se ve muy influida por las características de muestras, por lo que lo mejor y lo ideal sería que se calculase la fiabilidad de las puntuaciones en cada estudio de forma independiente, pero esto no se suele hacer, cuando los investigadores hablan de la fiabilidad de puntuaciones se refieren a datos de otros estudios o a los datos que vienen en el manual del test, esto se denomina “inducción de la fiabilidad”.

¿Cuáles son entonces los valores adecuados para calcular la fiabilidad de las puntuaciones? Por desgracia esta respuesta no es clara, no es posible crear criterios universales que nos permitan decidir cuáles son valores ideales, pero sí que cuando nos encontramos llevando a cabo esto podemos seguir unas recomendaciones, que nos dan una serie de puntos de referencia básicos.

Por ejemplo, podemos empezar a considerar aceptables aquellas puntuaciones con valores ≥0,70, pero estos valores deben ser muchos mayores cuando este valor lo vamos a utilizar para tomar la decisión en un sujeto concreto, en este caso el valor mínimo debe de ser de 0,90 y lo más deseable es que el valor sea 0,95. Pero no tenemos que basarnos solo en la fiabilidad, es muy importante tener en cuenta también a la validez de las puntuaciones.

la proporción corregida, es la proporción de aciertos sin corrección, es la proporción de respuestas erróneas y es el número de alternativas de los ítems.

El adecuar esta fórmula ha causado mucho debate en la historia de la TCT. Estas críticas pueden agruparte en:

Corrección basada en supuestos falsos sobre la conducta del sujeto al cuando responde al ítem, ya que supone que la respuesta es dada el azar , y esto no suele ser así y se puede comprobar fácilmente, ya que los distractores no son equiprobables  Penaliza a sujetos que tienen determinados rasgos de personalidad , como el riesgo.

La TRI resuelve este problema con la introducción de un parámetro, c, que es el acierto por adivinación.

PROBLEMAS ESPECIALES CON LOS TEST DE VELOCIDAD

Las ecuaciones vistas anteriormente no son completamente adecuadas en los test de velocidad, ya que en estos es poco probable que se produzcan errores, lo es más que haya no intentados. En este test los ítems son fáciles y es bastante probable que el sujeto tiempo conteste todo. Gulliksen nos dice que, si este tipo de test está bien construido, el número de omisiones y errores debería ser 0 y que la puntuación se obtendría con la suma de aciertos. Pero a veces, en estos test nos encontramos con protocolos en los que el número de errores en ítems finales es mucho mayor que al comienzo, de esto podemos suponer que los sujetos no han observado atentamente los ítems y que han dado respuestas al azar para responder más ítems. Cuando ocurre esto es necesario corregir las puntuaciones. Es importante, que en las instrucciones insistamos en que no se cometan errores y que no omitan ítems. Gulliksen plantea una fórmula para penalizar las omisiones y errores con una ponderación diferente:

A, F y O, tienen el significado que se da en los apartados anteriores, y C y D son constantes arbitrarias, con la limitación de que C > D. D tiene que ser considerablemente mayor que el número de alternativas, k, y C, debe de ser menor que k – 1, indicando que el valor más adecuado para C podría ser: C=[(k – 1)-1)].

12. Las puntuaciones con ponderación de los ítems

Las fórmulas anteriores no son consideradas correctas por algunos autores, esto lo argumentando que dan el mismo peso a todos los ítems, por lo que sugieren procedimientos para obtener puntaciones como sumas ponderadas donde representa el peso que recibe cada ítem en la fórmula. Se han propuesta diferentes normas para decidir esos pesos:

  1. Ponderar por la fiabilidad: el error del compuesto será menor si tienen más peso los componentes más fiables. Aunque la ponderación simple por la fiabilidad de los componentes no maximizará la fiabilidad compuesta. La solución a esto está en la matriz de varianzas-covarianzas.
  2. Ponderación por validez: cuando tenemos una puntuación criterio, el peso relativo de los diferentes aspectos que intervienen en la puntuación pueden decidirse por técnicas de regresión lineal múltiple. La lógica de esto es, minimizar los errores de predicción del criterio.
  3. Puntuaciones factoriales: atribuyen pesos a los ítems según su importancia para el factor.

13. La estimación de las puntuaciones en la TCT

ESTIMADORES PUNTUALES

La puntuación observada X, que hemos obtenido por medio de las formulas anteriores es un estimador puntual de la puntuación verdadera, que recordamos que es, E(X)=V.

Pero, aunque estamos este estimador a veces es recomendable obtener un estimador por medio de la regresión lineal sobre la puntuación observada. Kelley propuso esto usando el modelo de la regresión lineal simple. Esta fórmula no tiene el típico aspecto de ecuación de predicción, que son de X sobre Y, ya que se aplican propiedades de la TCT.

La ecuación, utilizando estimadores muestrales donde ′ es la puntuación verdadera pronosticada para un sujeto, s, es la puntuación observada para el sujeto, , es el coeficiente de fiabilidad y la media empírica, amos estimados en un grupo de referencia. La varianza de estas puntuaciones verdaderas será menor que la de las observadas, debido que no está aumentada por el error de medida.

Para aplicar correctamente la ecuación tenemos que asumir la distribución normal y que, para el valor especificado de X, la distribución de puntuaciones verdaderas en torno a ella también es normal.

ESTIMACIONES DE INTERVALOS O BANDAS DE PUNTUACIONES (B. Regresión en el formulario)

El intervalo de puntuaciones simboliza un rango de puntuaciones en vez de un valor único y se usa en ocasiones para interpretar las puntuaciones de los test. Se crean de la misma forma que los intervalos de confianza , y nos permiten constituir proposiciones probabilísticas sobre la confianza acerca de un valor conocido. Recordamos que tienen límite inferior y superior. Para construirlo es necesario tener estimadores del error típico y aceptar una distribución en los errores, esta distribución suele ser la normal. Un problema es que se asume que el error típico es el mismo a lo largo de todo el rango de puntuaciones

Intervalo de confianza para la puntuación observada alrededor de la puntuación verdadera

Este intervalo nos puede resultar extraño, ya que no conocemos la puntuación verdadera. Apartando esto, es bastante útil para establecer puntos de corte para tomar decisiones. Por ejemplo, si para una selección de personal buscamos personas en un intervalo de confianza alrededor de 130 de CI, los pasos que debemos de seguir para crear este intervalo son:

1) Establecer el nivel de confianza (NC): puede ser 0’95 o 0’ 2) Determinar la z que corresponde a este NC: si escogemos 0’95, | (^) /2| = 1′96 y si escogemos 0’99, | (^) /2| = 2′ 3) Calculamos el error máximo: utilizando el Error Típico de Medida, suponiendo en este caso una desviación típica de 15, media 100, y coeficiente de fiabilidad 0,90; aplicamos:. = | (^) /2| ∗ 4) Obtendríamos el error típico (tema 2) y el error máximo 4,74 y 9,29 respectivamente 5) Construiríamos los limites de forma habitual En este caso 120,71 y 139,

Intervalos de confianza alrededor de la puntuación observada para estimar la puntuación verdadera

Esta técnica se usa mucho en psicometría. En ella se recomienda construir el intervalo sobre la puntuación V’, estimada mediante la ecuación de Kelley, y no sobre la puntuación observada X’ (al contrario del anterior). El error típico adecuado para esta estimación es una modificación del error típico de medida, denominado, error típico de estimación, utilizando los estimadores muestrales se obtiene:

donde, es la desviación típica de las puntuaciones observadas y ′ es un estimador del coeficiente de fiabilidad. Este error será meno o igual al error de medida, siendo igual solo cuando la fiabilidad es 1.

Continuando con los datos del ejemplo anterior, construiremos un IC al 95% para estimar la puntuación verdadera, para ello debemos en primer lugar la estimación de la puntuación verdadera V’ con el sujeto X=121, con los procedimientos que hemos visto anteriormente: