











Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
El concepto de fiabilidad de las pruebas y cómo se mide mediante el coeficiente de pearson y el coeficiente α de cronbach. Se discute la importancia de la estabilidad temporal de las pruebas y cómo se puede obtener el coeficiente de fiabilidad total de un test mediante la fórmula de spearman-brown. Además, se abordan los factores que afectan a la fiabilidad de un test y cómo se puede estimar su longitud para alcanzar un coeficiente de fiabilidad determinado.
Tipo: Apuntes
1 / 19
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!












Se entiende por fiabilidad el grado de estabilidad, precisión o consistencia que manifiesta el test como instrumento de medición de un rasgo determinado. Si un herrero mide varias veces con una cinta métrica la longitud de una barra de hierro, siempre obtendrá la misma medición, debido a que tanto la cinta métrica como la barra permanecen invariantes. Ahora bien, cuando empleamos un test para medir un rasgo psicosocial determinado, puede ocurrir que ni uno ni otro permanezcan invariantes de una situación a otra; análogamente, sería como disponer de una cinta métrica elástica y de una barra de hierro sometida a diferentes temperaturas (y, por lo tanto, más o menos dilatada). Es labor de la psicometría establecer en cada caso el grado de estabilidad del instrumento de medición.
Hasta el momento, el modelo clásico de puntuación verdadera y el planteamiento de la fiabilidad como correlación entre formas paralelas, se han establecido en términos paramétricos; es decir, suponiendo conocidos los datos de la población de referencia. Lo real es que en la práctica vamos a disponer de datos obtenidos en una muestra o grupo normativo concreto. Esto significa que, de modo directo, únicamente vamos a disponer de las puntuaciones empíricas de dicha muestra, a partir de las cuales podemos obtener los estadísticos que sean oportunos.
Tradicionalmente, la fiabilidad de un test puede entenderse de tres maneras diferentes:
a) Aludiendo a la estabilidad temporal de las medidas que proporciona.
b) Haciendo referencia al grado en que diferentes partes del test miden un rasgo de manera consistente.
c) Enfatizando el grado de equivalencia entre dos formas paralelas.
Si disponemos de las puntuaciones de N personas en un test y, después de transcurrido un tiempo, volvemos a medir a las mismas personas en el mismo test, cabe suponer que siendo el test altamente fiable, deberíamos obtener una correlación de Pearson elevada entre ambos mediciones. Dicha correlación entre la evaluación test y la evaluación retest (rxx) se denomina coeficiente de fiabilidad test-retest , e indicará tanta mayor estabilidad temporal de la prueba cuanto más cercano a uno sea.
Este modo de operar se desprende directamente del modelo lineal clásico, según el cuál se define la fiabilidad como la correlación entre las puntuaciones empíricas en dos formas paralelas, ya que no existe mayor grado de paralelismo entre dos tests que cuando en realidad es uno aplicado dos veces.
Ejemplo: A una muestra de 10 estudiantes de COU se le aplica un cuestionario de hábitos de estudio. Transcurridos dos meses, se vuelve a aplicar el mismo test a las mismas personas bajo las mismas condiciones. Sus puntuaciones directas en las dos aplicaciones fueron las siguientes:
Persona Test Restest
1 2 3 4 5 6 7 8 9
Para obtener el coeficiente de fiabilidad test-retest basta con correlacionar los datos de las dos últimas columnas:
rxx = 0.
En este caso se obtiene una elevada estabilidad de las puntuaciones. Si los niveles de rasgo (hábitos de estudio) de las personas no han variado a lo largo de los dos meses transcurridos entre las dos aplicaciones, podemos decir que el test proporciona bastantes garantías respecto a la precisión con la que mide, dado que una persona concreta obtiene puntuaciones muy parecidas (o similares) en las dos aplicaciones.
Más concretamente, y haciendo uso del teorema demostrado en el tema anterior, podemos interpretar que el 87 % de la varianza empírica se debe a la variabilidad de las personas a nivel de puntuaciones verdaderas.
Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de medida es un rasgo estable (pruebas de inteligencia general, aptitudes, rasgos de personalidad, etc.) dado que, de lo contrario, no se podría discernir entre la inestabilidad debida al rasgo de la causada por el instrumento de medición. Es aconsejable dejar periodos largos entre la evaluación test y la retest cuando los ítems y las respuestas pueden memorizarse con facilidad; de lo contrario, los sujetos podrían emitir pautas de respuesta similares en las dos aplicaciones del test únicamente por efectos del recuerdo y del deseo de responder de manera congruente, con lo que rxx se incrementaría debido a factores ajenos a la fiabilidad de la prueba. Debe tenerse en cuenta, sin embargo, que cuanto mayor es el intervalo temporal que se deja entre ambas aplicaciones, mayor es la posibilidad de que las puntuaciones de los sujetos oscilen diferencialmente debido a factores de tipo madurativo y, por lo tanto, esto tiene un efecto concreto en el decremento de la correlación entre las puntuaciones del test y del retest.
Ítems
Sujeto 1 2 3 4 5 6 P I Total
Media Desviación típica
En este caso se obtiene que rPI = 0.34, y por tanto:
rxx =
De nuevo el tope de rxx lo tenemos en 1, con lo que podemos decir que las dos mitades del test no son muy consistentes entre sí. Unicamente un 51 % de la varianza de las puntuaciones empíricas se debe a la varianza de las puntuaciones verdaderas. No podríamos afirmar con suficiente certeza que ambas mitades miden con precisión el rasgo de interés.
La razón de dividir el test en la mitad par y la impar es garantizar su equivalencia. Los tests de rendimiento óptimo suelen tener ítems ordenados en dificultad, de tal forma que se comienza a responder los ítems más fáciles hasta llegar a los situados al final del test, que son los más difíciles. Si realizásemos la partición en dos mitades atendiendo a su disposición en la prueba (la primera mitad formada por los primeros n/2 ítems, la segunda por los n/2 ítems últimos) difícilmente podría cumplirse que ambas tuvieran la misma media.
2.2.- COEFICIENTE α DE CRONBACH
En el tema precedente vimos que si los k ítems de un test fueran paralelos, el coeficiente de fiabilidad del test podría obtenerse aplicando la fórmula general de Spearman-Brown:
jl
jl xx k
k
siendo k el nº de ítems del test y ρjl la correlación de Pearson entre cualquier par de ítems.
Expresada la fórmula anterior para datos muestrales, quedaría como:
jl
jl xx (^) k r
kr r 1 +( − 1 )
Una fórmula equivalente a la anterior; es decir, que proporciona exactamente el mismo resultado, es la denominada coeficiente α de Cronbach :
2
2 1 (^1) x
j S
k
k
donde k es el nº de ítems
2 S (^) j es la suma de las varianzas de los ítems y Sx (^2) es la varianza del test
Dado que las puntuaciones en el test son la suma de las puntuaciones en los ítems, la varianza del test puede expresarse como:
= <
jl
k
j
S (^) x Sj 2 cov( j , l ) 1
2 2
por lo que la expresión inicial puede quedar como:
< 2
2 cov( ,)
(^1) x
jl S
jl
k
k
A veces, por razones de índole práctica o investigadora, se diseña un test y una segunda versión del mismo, denominada forma paralela, que intenta evaluar o medir lo mismo que el test original pero con diferentes ítems. Como ya hemos explicado, dos versiones o formas se consideran paralelas si, aplicadas a una misma muestra de personas, obtienen medias y varianzas probabilísticamente similares.
La correlación de Pearson entre las puntuaciones obtenidas en una misma muestra en dos formas paralelas se considera el coeficiente de fiabilidad de cualquiera de ellas, e indicará el grado en que pueden considerarse equivalentes.
Ejemplo:
Sujetos Forma 1 Forma 2
1 2 3 4 5
Medias 9.4 10 Varianzas 19.44 10. Varianzas (ins.) 24.3 13.
rxx = r 12 = 0.
No es común diseñar una forma paralela de un test para obtener datos sobre su fiabilidad. Cuando se diseñan (tarea por otra parte difícil) es porque van a utilizarse en determinados trabajos que requieren 2 aplicaciones sucesivas de un test que se puede recordar con facilidad.
Por ejemplo, para evaluar la eficacia de ciertos programas cortos de enriquecimiento cognitivo o motivacional, conviene utilizar antes y después del entrenamiento pruebas equivalentes aunque con contenidos diferentes (formas paralelas) para evitar los efectos del recuerdo.
Asumiendo el postulado fundamental del modelo clásico, que expresa la relación:
es fácil demostrar que se cumple la siguiente relación para datos muestrales:
Sx^2 = Sv^2 + Se^2
A la desviación típica de los errores de medida (Se) se denomina error típico de medida. En cierta manera, el Se representa también una medida de precisión: cuanto más cercano a cero sea el error típico de medida de un test, eso significará que dicho test proporciona a cada persona una puntuación X cercana a su nivel de rasgo V.
En términos paramétricos, habíamos demostrado en el tema anterior que:
2
2
x
v
Para datos muestrales, la expresión anterior queda establecida como:
2
2 2
2 1 x
e x
v xx (^) S
r = = −
De donde se deduce que el error típico de medida puede obtenerse a partir de la expresión:
S (^) e = Sx 1 − r xx
Un test impreciso puede proporcionar a dos personas puntuaciones empíricas diferentes aunque sus niveles de rasgo sean iguales. Utilizando los procedimientos de las estadística inferencial, podemos contrastar, con cierta probabilidad, si dos puntuaciones empíricas diferentes suponen o no niveles de rasgo distintos.
Para realizar el contraste, para las puntuaciones de dos personas (designadas con los subíndices i y j) planteamos las siguientes hipótesis:
H 0 : Vi = Vj
H 1 : Vi ≠ Vj
Puede comprobarse que el estadístico de contraste se expresa como:
Además, debe tenerse en cuenta que el coeficiente alfa aumenta cuando incrementamos la longitud del test y que resultaría fácil obtener valores elevados cuando se incluyen ítems redundantes, lo que, evidentemente, no resulta deseable.
En cuanto al coeficiente de fiabilidad (rxx), su cuantía depende en parte de la variabilidad de la muestra donde se obtiene y también de la longitud (número de ítems) del test.
Debemos conocer que un mismo test tiene diferentes rxx en diferentes grupos normativos (muestras de personas donde se obtiene el coeficiente). Más concretamente, un mismo test suele obtener un rxx mayor en un grupo heterogéneo que en otro menos heterogéneo (de menor varianza). Por ejemplo, resulta normal que un test de Inteligencia obtenga un rxx mayor en una muestra de la población general que una muestra de universitarios o en otra de personas con deficiencias cognitivas (estas últimas más homogéneas). La razón es simple: el coeficiente de fiabilidad, obtenido por el método que sea, se fundamenta estadísticamente en una correlación de Pearson que, como es sabido, se incrementa a medida que lo hacen las varianzas de las variables que se correlacionan.
Por otra parte, si los ítems están bien formulados y resultan discriminativos, un test incrementará su rxx a medida que incrementa su longitud (número de ítems), aunque no lo hace de manera lineal. La siguiente gráfica muestra el coeficiente de fiabilidad de un test alargado N veces (N: 1, 2, 3, .. 50), cuando el coeficiente de fiabilidad del test de partida es 0.1, 0.4 y 0.7:
N
49 46
43 40
37 34
31 28
25 22
19 16
13 10
7 4
1
Fiabilidad del test alargado N veces
1,
,
,
,
,
0,
Queremos indicar con la gráfica anterior que el incremento es más significativo cuando el test inicial tiene un número pequeño de ítems y bajo coeficiente de fiabilidad, que cuando el test de partida tiene ya un coeficiente de fiabilidad considerable.
La fórmula general de Spearman-Brown, adaptada ahora a los datos obtenidos en una muestra concreta, permite estimar cuál será el coeficiente de fiabilidad (Rxx) de un test que se forma con “n” versiones paralelas de un test inicial que tiene un coeficiente de fiabilidad rxx:
xx
xx xx (^) n r
nr R 1 +( − 1 )
Las n-1 formas añadidas deben ser formas paralelas equivalentes al test inicial; de lo contrario, la fórmula anterior no tiene significado alguno.
Por ejemplo, supongamos que una prueba de atención de 25 ítems obtiene en un grupo normativo un rxx= 0,6. Si se añadieran 75 ítems (tres formas paralelas) al test inicial, el test alargado tendría 100 ítems (4 veces el inicial), y su fiabilidad sería:
xx
xx xx (^) n r
nr R
Si las 3 formas añadidas fuesen auténticamente paralelas a la original al pasar de 25 a 100 ítems el coeficiente de fiabilidad pasa de 0.6 a 0.86.
Imagínese ahora que el test de atención de 25 ítems tiene un rxx = 0,92. Si se añaden 75 ítems más paralelos, el test alargado tendría de coeficiente de fiabilidad:
xx
xx xx (^) n r
nr R
En el primer caso, el incremento que se produce al multiplicar por 4 la longitud inicial del test de atención es de 0.26, mientras que en el segundo caso, el incremento es únicamente de 0.06. Esto se debe a que el coeficiente de fiabilidad del test inicial es mayor en el segundo caso que en el primero.
Podemos observar que cuando n = 2 (cuando se duplica la longitud del test original), la fórmula se convierte en la que hemos aplicado para estimar el coeficiente de fiabilidad por el método de las dos mitades. Efectivamente, ahora podemos entender mejor que rPI sería el coeficiente de fiabilidad de un test mitad (con la mitad de los elementos que tiene el test entero) y que el resultado de esa correlación hay que corregirlo, haciendo n = 2 en la fórmula de Spearman-Brown, para obtener el coeficiente de fiabilidad del test completo.
1. Señale el objetivo que se pretende conseguir con cada una de las siguientes actuaciones en la construcción de un cuestionario.
a) Correlacionar las puntuaciones totales en el cuestionario con las mismas puntuaciones obtenidas un mes después. b) Correlacionar las puntuaciones de la mitad par con las obtenidas en la mitad impar. c) Valorar todas las covariaciones que se producen entre los diferentes elementos. d) Correlacionar las puntuaciones totales en el test con las obtenidas por los mismos sujetos en una forma paralela.
2. Señale qué factores pueden afectar al coeficiente de fiabilidad de un test (rxx ). 3. Un psicólogo construye una escala de actitudes para evaluar el dogmatismo religioso. La escala consta de 4 ítems, y en cada uno se puede manifestar la opinión según una escala de 7 puntos (del 1 al 7). A continuación se detallan las respuestas de un grupo normativo de 5 personas:
Sujeto ítem 1 ítem 2 ítem 3 ítem 4
1 1 5 2 7
2 2 3 4 6
3 4 4 3 3
4 5 5 6 7
5 6 7 6 7
Obtenga e interprete el coeficiente α de la prueba.
4. ¿ Cuál sería el coeficiente α de un test formado por 20 ítems completamente independientes entre sí? 5. De un test formado por 40 elementos se sabe que la correlación entre las puntuaciones en los 20 elementos pares y en los 20 elementos impares es igual a 0,5. Obtenga el coeficiente de fiabilidad del test de 40 elementos. 6. Un psicólogo social diseña un test de actitudes hacia la no violencia formado por 4 ítems, en cada uno de los cuales los sujetos pueden manifestar su opinión según una escala de 3 puntos (0, 1 ,2). A continuación se detallan las respuestas dadas por un grupo normativo de 8 personas:
Sujetos
nº 1 nº 2 nº 3 nº 4 nº 5 nº 6 nº 7 nº 8
Ítem nº 1 2 2 2 2 2 2 1 0
Ítem nº 2 2 2 2 2 1 1 0 0
Ítem nº 3 2 1 2 0 0 1 0 0
Ítem nº 4 1 1 0 1 0 0 0 0
Obtenga el coeficiente de fiabilidad de test por el método de dos mitades. Aplique para ello la fórmula de Spearman-Brown.
7. Se aplican dos formas paralelas de un test a un grupo normativo de 10 personas. Sus puntuaciones empíricas directas en ambas formas fueron las siguientes:
Sujetos 1 2 3 4 5 6 7 8 9 10
Forma A 6 3 5 4 4 6 5 5 6 3
Forma B 6 3 4 4 5 6 3 5 6 5
Obtenga el coeficiente de fiabilidad del test según el método de formas paralelas.
8. A continuación se detallan las puntuaciones que un grupo normativo de 4 personas obtiene en un test de personalidad, cuyo coeficiente de fiabilidad fue 0.8:
Sujeto: 1 2 3 4 ─────────────── Xi : 14 6 16 4
a) Calcule la varianza verdadera del test. b) Calcule el error típico de medida del test.
9. Un psicólogo que trabaja en un centro dedicado a evaluar la rapidez visomotora de los conductores confecciona una pequeña prueba para medir esta habilidad. La prueba consta de 6 elementos que se valoran de forma dicotómica. La tabla siguiente muestra las respuestas que se obtuvieron en un grupo normativo formado por 4 aspirantes a conductores:
a) Obtenga el coeficiente de fiabilidad del test. b) Obtenga la diferencia mínima que debe producirse entre las puntuaciones de dos conductores en el test para considerar, con probabilidad 0.99, que sus puntuaciones verdaderas son distintas.
otros 20 al test B; y el D, de añadir otros 20 al C, ¿cabe esperar que r (^) bb – r (^) aa = r (^) cc – rbb = r (^) dd – r (^) cc?
14. Un cuestionario para evaluar el rendimiento en Aritmética está formado por 4 ítems, que se valoran de forma dicotómica (1 el acierto y 0 el fallo). Se aplicó a una muestra de 100 niños. A continuación se detalla alguna información estadística de la mitad par (P), impar (I) y del total del test (X). También aparecen las frecuencias de aciertos (F) de cada uno de los 4 ítems, no habiendo omisiones en ninguno.
Correlaciones :
Medias 1,50 1,10 2, Sj 0,67 0,83 1,
Ítem 1 2 3 4
F 50 70 60 80
a) Imagínese que aplicamos el test a un niño antes y después de un programa de entrenamiento en aritmética. Diga cuál debe ser la diferencia mínima entre sus dos puntuaciones para considerar, con probabilidad 0.99, que dicho entrenamiento ha tenido eficacia; es decir, para considerar que su nivel de rasgo se ha incrementado. b) Obtenga e interprete un indicador de la consistencia interna global de la prueba.
15. Un test A tiene 100 ítems y un coeficiente de fiabilidad de 0.5. Un test B tiene el mismo coeficiente de fiabilidad, pero tiene 10 ítems. ¿Significa esto que si a ambos tests añadimos 50 ítems paralelos, los dos tests alargados tendrían la misma fiabilidad? SI( ) NO( ) Depende ( ). Razone su respuesta.
16. Tenemos un test de 5 ítems con coeficiente de fiabilidad de 0.10. Aplicando la fórmula n = R(1-r)/(1-R)r, para que R = 0.95, n ha de ser 171.
a) ¿Cuántos ítems se han de añadir al test para que su fiabilidad sea 0.95? Realice el cálculo necesario. b) ¿Puede el valor “n” de la fórmula anterior ser negativo? SI ( ) NO ( ) DEPENDE ( ). Razone su respuesta.
17. Antonio, Bernardo y Carlos hacen el mismo test y sus puntuaciones son 25, 21 y 28 puntos, respectivamente. Realizado el contraste de igualdad de puntaciones verdaderas entre Antonio y Bernardo, con un nivel de confianza de 0.95, no podemos mantener la hipótesis nula de igualdad de puntuaciones verdaderas.
a) Realizamos el correspondiente contraste, con el mismo nivel de confianza, para comparar las puntuaciones verdaderas de Carlos y Bernardo ¿llegaríamos a la misma decisión que antes sobre sus puntuaciones verdaderas? b) Realizamos el correspondiente contraste, con el mismo nivel de confianza, para comparar las puntuaciones verdaderas de Carlos y Antonio ¿Mantendríamos la hipótesis nula de igualdad de puntuaciones verdaderas?
13. No. A incrementos constantes en longitud, no se producen incrementos constantes en r (^) xx. 14. a) Z = 2.33 en las tablas en contraste unilateral. r (^) xx = (2)(0.45)/(1+0.45) = 0. Se = 0. Diferencia mínima: (2.33)(0.70)√2 = 2.
b) S 12 = 0.25; S 22 = 0.21; S 32 = 0.24; S 42 = 0.16. 0. 45
15. NO. En el primer caso, el test inicial se habrá alargado 1.5 veces para llegar a los 150 ítems del test final. En el segundo, el test inicial ha de alargarse 6 veces, para llegar a los 60 ítems. Partiendo del mismo coeficiente de fiabilidad, normalmente se llega a coeficientes distintos cuando el test se alarga 1.5 y 6 veces. 16. a) Ítems que ha de tener el test = (171)(5) = 855 Ítems a añadir = 855 – 5 = 850.
b) r y R son coeficientes de fiabilidad, por lo que 0 < r, R < 1. Por lo tanto, en la fórmula, “n” no puede tomar valores negativos. En la fórmula equivalente que se estudia en un tema posterior (validez), entonces sí que “n” puede tomar un valor negativo e indica que el valor de Rxy propuesto no es alcanzable alargando el test. En el caso de la fiabilidad, todo valor menor de 1 es alcanzable y “n” da siempre positivo.
17. a) Si se rechaza el contraste de igualdad de puntuaciones verdaderas cuando la diferencia entre las puntuaciones observadas es de 4 puntos, necesariamente se ha de rechazar la igualdad cuando la diferencia es mayor. La diferencia entre Carlos y Bernardo es de 7 puntos.
b) Si se rechaza el contraste de igualdad de puntuaciones verdaderas cuando la diferencia entre las puntuaciones observadas es de 4 puntos, no podemos saber qué sucederá cuando la diferencia sea menor. Se puede aceptar o rechazar la hipótesis nula. La diferencia entre Carlos y Antonio es de 3 puntos. Habrá que hacer el contraste para saberlo.