

























Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Psicometría, Profesor: , Carrera: Psicología, Universidad: USAL
Tipo: Apuntes
1 / 33
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!


























DEFINICIÓN: la psicometría es el área especializada de la Psicología científica que se ocupa de dos contendidos básicos: las teorías acerca de la medición aplicada a la Psicología y la fundamentacion, construcción y análisis de los métodos de medición que se emplean en la Psicología. La psicometría tiene una larga tradición en la Psicología (psicofísica de Fechner 1860, Alemania; laboratorio antropométrico de Galton, 1883, Inglaterra.
La medición psicológica
Medir es representar mediante números las características psicológicas de los estímulos y/o de las personas en un atributo determinado. La legitimidad de la medición depende de que las inferencias se lleven a cabo entre los números sean apropiadas empíricamente.
Relaciones empíricas: H>A H-A H/A Relaciones numéricas: 16>8 8 2
No se puede establecer por ningún procedimiento para decidir que una persona tiene el doble de depresión que otra. Para poder interpretar las diferencias una condición es que haya una unidad de medida constante a lo largo de la escala. Hay relaciones que si son posibles como la de mayor / menor. Con los procedimientos de clasificación si se puede establecer el orden de nivel. Lo que se intenta en Psicología es estandarizar los instrumentos de medida para asignar números.
Niveles de medida (Stevens, 1946)
En psicometría al > < se le llama dominancia (Luís domina a Ana)
Los niveles de medida determinan el estadístico que tengo que usar. Susan Embretson (“TRI para psicólogos”) considera que con una escala ordinal se mide aproximadamente a una escala intervalo si:
1971, Dawes. “métodos de medición de actitudes”.
Si yo quiero escalar unos estímulos se comparan todos con todos. Escala de intervalo= 0 aleatorio. 1 u.m. B: aquí sería 2 + 1= 3 2 u.m. A aquí pongo 2 A qui pongo 2 C por ejemplo aquí pongo un 0
implica menor nivel en el constructo. Ejem= vivir solo=No, es indicador de menor nivel de independencia que sí vivir solo, asi que el No vale 0 y el sí vale 1. Definir cómo se combinan los valores para obtener la medida. En el ejemplo la puntuación es la suma de la puntuación en los ítems= acumulación de puntos (en el modelo de TCT). Al conjunto de respuestas de una persona se le llama “patrón de respuestas”. En éste ejemplo, la puntuación no representa bien la ejecución.
Congruencia/consistencia: ISab: Nab (nº personas de acuerdo con A y con B) Na (nº personas de acuerdo con A)
ISab: índice de semejanza entre los ítems a y b. Supongamos que los ítems están repartidos entre los niveles 1 y 11, donde 11 es una actitud muy positiva y 1 muy negativa. Mda: 10,03 refleja una actitud muy positiva Mdb: 1.7 refleja una actitud muy negativa
Por lo que se supone que nadie estará de acuerdo con los 2 a la vez. Si z es un item muy positivo, se espera que la gente que diga sí a A también lo diga a z. Por lo que se espera que Naz sea casi igual que Na. Las respuestas son congruentes si cuando los índices de semejanza son muy altos cuando dos ítems tienen medianas muy parecidas, y cuando tienen medianas muy distintas tienen que tener índices de semejanza muy bajos. Si no pasa esto es porque los ítems no se expresan bien o porque las personas han mentido.
Ejemplo: ítems D y E. Los dos tienen una mediana que vale G. Si su IS es 0,40, habría que comprobar si funcionan bien los índices porque eso significa que sólo un 40% contestan igual a los dos.
Enfoque centrado en las personas y enfoque centrado en las respuestas. Ambos incluyen modelos matemáticos que son los test psicométricos. Un test es un instrumento que proporciona una medida objetiva y estandarizada de una muestra de conducta (Ann Anastasi). Un test es un instrumento estandarizado que significa que en la documentación anexa al test se especifican muy precisamente las reglas de uso del test, que hay que seguir con fidelidad, como por ejemplo el tiempo para contestar, las respuestas admisibles, como se codifican numéricamente las respuestas, procedimiento de puntuación (cómo se obtiene una puntuación) y cómo se interpreta. Si se hace esto se obtienen medidas objetivas es decir, libres de la influencia del calificador. Esta medida se obtiene a partir de una muestra de conducta. A la población posible de ítems (todos los ítems posibles) se le llama dominio o contenido.
creencia sentimiento conducta 1 2 3 4 5 Cada cuadrito en blanco es un test posble. De este dominio (que es el conjunto de todos) obtengo una muestra de estilos, y a sus respuestas les aplico un modelo de medida. Test ______ conducta__________ Modelo_________Medida Muestra (Rs) medida La medida trata de representar el nivel de la actitud de una persona en el continuo latente. Una medida tiene que tener fiabilidad (en cierto modo depende del tamaño de la muestra) y validez (la calidad de la representación de la puntuación). Ejemplo: si quiero medir la habilidad de cálculo de niños y sólo meto test de sumas, no es representativo, no es válido.
CRITERIOS DE CLASIFICACIÓN DE LOS TEST
La primera línea de trabajo es la psicofísica clásico. Fue desarrollada por Fechner (1860) que concreto que el objetivo analizando la relación entre la magnitud de las sensaciones subjetivas (medidas dap) y la magnitud de estímulos físicos. FECHNER
Magnitud del estimulo
Magnitud de la sensación
Dap= diferencia apenas perceptible. Es el cambio mínimo subjetivo en la sensación y es constante UA= umbral absoluto. Aquel valor percibido al menos el 50% de las veces UD= umbral diferencial. Cambio necesario en la estimulación para que el sujeto perciba un cambio mínimo en la sensación. E= estimulo E1= UA+UD
Fechner supuso que era una escala de razón porque el 0 significa sensación 0. El problema es que el detector humano de estímulos no es estable. Si se presenta un estimulo repetidamente muy cercano a su UA unas veces dice que se percibe y otras no. Los UD no son iguales a lo largo del continuo de estimulación. La función matemática que las relaciona se denomina función psicofísica.
E2=E1+UD1 UD1 Umbral diferencial inferior: PIS-C
Escalamiento de longitud relativa de líneas Valor estándar: 40
F1= valores de los estímulos variables F2= Porcentaje de personas que consideraron el estimulo variable mayor que el estimulo estándar
Además de los estímulos variables, hay un estimulo constante o estándar. La magnitud es la misma. Ese estimulo constante suele tener la magnitud del punto a partir del cual queremos calcular los umbrales. La recogida de datos consiste en formar pares de estímulos en el cual un estimulo es el constante y el otro es uno de los variables. Se presentan aleatoriamente estos pares a un observador y se le pide que diga cual de los estímulos de cada par es mayor no se permiten juicios de igualdad. Aquel valor que corresponde a la mediana es lo que se denomina punto de igualdad subjetiva (PIS) Una vez recogidos los datos, el dato clave para calcular el umbral el umbral es el F2. El PIS es la mediana de la distribución y esta entre 39 y 41. por un método de interpolación lineal veremos donde esta el PIS.
39 x PIS 41
2 puntos
2 67-35 2x 50-35 x= 0´94 PIS= 39+0´94=39´ x 50-35 67-
Si no hay diferencia prácticamente entre el PIS y el estándar podemos decir que los datos son razonables.
UDs: diferencia entre el centil 75 de los datos y el PIS UDi: diferencia entre el PIS y el centil 25
C75: entre 41 (67%) y 42 (77%) se hace interpolación como la anterior C25: entre 38 (23%) y 39 (35%) se hace interpolación como la anterior C75= 41´ C25= 38´ UDs= 1´ UDi= 1´
En los métodos de escalamiento, las diferencias individuales no se consideran porque son promedios.
Tanto Fechner como Stevens construyeron su metodología de escalamiento para medir aspectos psicofísicos. Estimulo psicológico : cuando la intensidad percibida no esta asociada de manera sistemática con una variable física. Se han propuesto muchos métodos para evaluar estos estímulos. Uno de ellos fue propuesto por Thurstone y Chave que publico el método de intervalos aparentemente iguales. Este método fue propuesto para construir escalas de actitudes sociales. Actitud: valoración de un “objeto” aprendido socialmente que se manifiesta en creencias, sentimientos y conductas. “objeto”: estimulo psicológico que puede ser una institución, un fenómeno social, un país incluso una teoría. Se le ha dado mucha importancia al constructo por sus connotaciones aplicadas. Las actitudes pueden ser modificadas puesto que son aprendidas. Todo esto provoco que se construyeran métodos para evaluar las actitudes de las personas. Los clásicos para medir las actitudes fueron tres: Thurstone (enfoque centrado en los estímulos), Likert (enfoque centrado en los sujetos) y Guttman (enfoque centrado en las respuestas) Thurstone propuso un método muy bueno llamado método de comparaciones binarias, sin embargo no es bueno para muestras muy grandes. Si se quieren escalar tres estímulos, la metodología de Thurstone propone presentar pares con los tres estímulos: m=
2
esta muy influido por Fechener. Si hay muchos estímulos por ejemplo 60:
uno de los métodos mas simples propuestos por Thurstone es el de intervalos aparentemente iguales. La actitud del sujeto se puede medir registrando que piensan las personas acerca de los objetos, que sentimientos experimentan y las conductas que manifiesta en relación con el objeto social. El método de Thurstone es un continuo bipolar que va de positivo a negativo. El centro seria la neutralidad. Si las personas difieren en la actitud había que buscar indicadores típicos de las personas con los distintos niveles en el atributo. Los indicadores son creencias, sentimientos y conductas. El constructor de la prueba trata de buscar items que describan creencias, sentimientos y conductas de los que tienen una actitud negativa. Lo mismo en los diferentes puntos del continuo. Esos indicadores se expresan verbalmente, esas frases se pueden considerar items. Items: proposiciones verbales, que describen opiniones que varían desde actitudes muy desfavorables hasta muy favorables, incluyendo actitudes neutrales (en torno a 100) El ítem debe ser calculado en el continuo, es decir, darle una puntuación. Hay que buscar una escala, entorno a 30 items que sean muy buenos. Uno de los consejos es que aproximadamente hagan el doble o triple de items de los que se van a tener al final para coger los mejores. Algunos autores proponen incluir intenciones de futuras conductas.
Hay que escalarlos, disponiéndolos en un cuestionario y pasarlos a una muestra de personas que técnicamente se les llama jueces por lo que se llama prueba de jueces llevando a cabo una clasificación en una escala de 11 categorías, desde muy desfavorable (1), neutral (6) hasta muy favorable (11) A partir de esos datos cuantificamos el nivel de esas frases en el continuo. (fotocopias) Para facilitar el trabajo de los jueces se suele utilizar un procedimiento estandarizado por lo que se pide que califiquen los items de 1 a 11. Cuando los jueves puntúan una frase solo están analizando el significado de la frase, no dan su opinión acerca del tema.
ITEMS
Jueces i1 i2 i
1 8 1 9 2 7 3 10
Para poder posicionar una frase en el continuo hay que promediar las puntuaciones dadas por los jueces, se denomina “valor escalar” y suele ser la mediana. Supongamos para el ítem uno que la mediana da como resultado 7,
Una escala ideal tendrá en torno a 33 items, un ítem en cada categoría relativos a sentimientos, creencias y conductas. Pero esto se da pocas veces. De los 100 items hay que seleccionar los mejores. Para ello se emplean una serie de criterios:
Una vez construida la escala, se usa con fines diagnósticos, es decir, que se usa para diagnosticar las actitudes de personas o colectivo de personas. Se pasa la escala con los items aleatorizados apersonas a las que quiero evaluar la actitud. Se le da instrucciones muy simples. (Ej. Marca los items con los que estas de acuerdo)
Si tengo pocos items, habrá mucho error de estimación. La longitud del test incide en la calidad de la medida en lo que se refiere a la FIABILIDAD. La VALIDEZ esta influida sobre todo por la representatividad de la muestra de items. Los items se pueden clasificar en tres indicadores (sentimientos, creencias y conductas). Estos tampoco son iguales variando de extremadamente negativo a extremadamente positivo. El test tiene que ser una muestra representativa del dominio. Una muestra de items tiene que ser representativa del dominio y la puntuación debe ser valida y grande para que sea fiable. Clasificación:
El modelo de medida ha sustentado su análisis: Modelo matemático (*) Dominio ítem respuesta medida
Modelo de la estadística clásica de los test: “modelo de puntuación verdadera”, se origina a principios del siglo XX, se puede clasificar en el enfoque centrado en las personas. Son modelos que se incluye en teoría en respuesta a los items y se clasifica como un enfoque centrado en las respuestas.
Enfoque centrado en las personas.
La finalidad de los métodos de medida es cuantificar el nivel de las personas en un atributo psicológico. Cuantificar diferencias entres sujetos, partiendo de un supuesto general. Los items son invariables y son replicas unos de otros. Para clasificar este aspecto se considera el enfoque principal “test psicometricos clásicos” que se inserta en la teoría clásica de los test, esta teoría es muy antigua (1904) y son indicios independientemente, por un lado Spearman pone las bases de control, establece fundamentes estadísticos. Por otro lado Thorndike comienza a utilizar los test para evaluar el rendimiento de los alumnos, usando procedimientos también estadísticos. Esta teoría se aplica de manera, ahora, rutinaria. En este enfoque los items son invariantes, como en los test clásicos. Las teorías suelen tener items:
Enfoque centrado en las respuestas
La finalidad es cuantificar el nivel de las personas y los times en la misma escala (aunque también se permite en una misma escala). El supuesto es que los estímulos y las personas varían en el constructo. Un método clásico para medir las actitudes es el “escalograma” de Guttman, pero el mas importante es la teoría de la respuesta a los items (Rash). Cada aspa representa dos sujetos, y se observa gran variabilidad. A la derecha están puntuados los items. El ítem 1 de mayor facilidad requiere menor competencia para resolverlo. varían en el continuo los items y las respuestas. “modelos de medición conjunto”
TEMA 2: TEORIA CLÁSICA DE LOS TEST
Leer Muñiz, J.(1998).TCT. Madrid,Pirámide. Pp 17-56; 217-232;265-271. Con pastas marrones,2ºedic.
Es la teoría que fundamenta la construcción y uso de los test. Incluye un modelo matemático que se llama modelo de la puntuación verdadera/modelo de los test paralelos/modelo de medidas paralelas…cuyo objetivo es cuantificar la fiabilidad de las puntuaciones de un test.(a veces a la fiabilidad se le llama confiabilidad) La fiabilidad es una cuestión de grado. En general todas las medidas tienen error. Las medidas son fiables cuando esa cantidad de error es pequeña.
Cuando no hay asociación Sve=0, pero si la relación entre las variables es perfecta no hay una puntuación estandarizada para definirlo. La correlación es lo mismo pero con medidas estandarizadas (puntuaciones típicas) F 0 E 5ve Rve= N Sv Se
Si no hay correlación Rve=0 para ello se necesita que ve=0 esto ocurre cuando V y E son independientes por lo que nos queda: S^2 x= S^2 v+S 2 e+2S^2 ve= S 2 v+S^2 e Es decir, S^2 x= S^2 v+S 2 e donde S^2 x es la variabilidad observada en un test. Si un test es perfectamente fiable S 2 x= S^2 v+0 pero esto no pasa nunca. Si tenemos dos test paralelos nos encontramos que un sujeto obtiene la misma puntuación en los dos, ambos son igual de fiables. Si son paralelos tenemos que: Vj = Vk y Svj = Svk y Mvj=Mvk La varianza en cualquier medida tiene dos partes: la varianza “v” y la varianza “e”: S^2 x= S 2 v+S^2 e Por lo tanto en dos test paralelos: S^2 xk= S^2 vk+S 2 ek S^2 xj= S 2 vj+S 2 ej Si dos test son paralelos tiene la misma media de puntuación observada y la misma varianza o desviación típica. Solo se puede medir la fiabilidad si estos test se ajustan a la definición de test paralelos. Sin embargo no puede ser completamente verificado ya que solo veo “X”, no veo ni “V” ni “E”. Dos test paralelos necesariamente tienen la misma media y desviación típica, si no la tienen no son paralelos. Pero que dos variables tengan la misma media y la misma desviación típica no implica que sean paralelos, por lo que la verificación empírica es indirecta. Éste modelo es poco fiable porque no se puede comprobar sujeto a sujeto. Si dos test no tienen la misma media de puntuaciones observadas no son paralelos. No puedo saber si 2 test son paralelos con seguridad, solo puedo saber si no lo son. Si cumplen todos los supuestos se supone que son paralelos, no se dice nada y se actua como si fueran paralelos. Para cuantificar la fiabilidad se usan dos estadísticos (estadísticos de fiabilidad):
El coeficiente de fiabilidad
El coeficiente de fiabilidad se define como una correlación de Pearson entre medidas paralelas o test paralelos. (recordatorio de estadística: correlación para putuaciones diferenciales rxy=_Exy______) X y X´ --- Rxx´=coeficiente de fiabilidad x= X-X x´= X´-X´ N Sx Sy
F 0 E 5 xx´^
F 0 E 5 xx^
F 0 E 5 xx´ Rxx´= Sxx´= Rxx´= = N Sx Sx´ N N Sx Sx´
F 0 E 5(V-V) = S^2 v Sxx´ Sxx´ N = Sx Sx´ S^2 x F 0E 5v^2 Sve´=0 Sev´=0 See´=
F 0 E 5 (v+e) (v´+e´)^
F 0 E 5 vv´^
F 0 E 5ve´^
F 0 E 5ev´^
F 0 E 5ee´ x= v+e Sxx´ = + + +
Como los errores son independientes los errores no tienen porque ser iguales en los test paralelos. La covarianza de puntuaciones verídicas es igual a la varianza de esas puntuaciones.(si no lo entiendo por aquí mirarlo del cuaderno rojo). Entonces:
S^2 v Rxx´= Proporción de la varianza de puntuaciones verdaderas S^2 x
Error típico de medida
Se define como la desviación típica de los errores (Se). La desviación típica de los errores es igual a:
Se= Sx 1-Rxx
Este estadístico y el coeficiente de fiabilidad se comportan de la siguiente manera:
Fiabilidad perfecta nula Rxx 0 1 Se Sx 0
Si es perfecto respecto al coeficiente de fiabilidad = S^2 x= S 2 v+S^2 e S^2 x= S 2 v+ Si la fiabilidad es nula= X=V+E X=V+0 / S^2 x= S 2 v+S^2 e S^2 x= 0+S^2 e En este caso el coeficiente de fiabilidad es 0 y en el caso del error típico de medida es Sx El rango del error típico de medida puede ir desde 0 hasta la desviación típica de las puntuaciones observadas. El rango del coeficiente de fiabilidad va desde de 0 a 1 siempre es positivo porque es un coeficiente entre varianzas. Thurstone defendió que no se debería usar test cuyo coeficiente de fiabilidad fuera menor de 0’80.
Calculo empírico de Rxx´
El coeficiente de fiabilidad se obtiene a partir de unos datos obtenidos de los diseños empíricos de fiabilidad cuyo objetivo es obtener datos que se puedan ajustar a la definición de test paralelos. Hay cuatro diseños empíricos. Están ordenados por costo (de mas a menos)
N=200 1/2N: Fa, Fb 1/2N: Fb, Fa Fa= forma a Fb= Forma b
Se hace un contraste de significación de diferencias. La correlación entre Fa y Fb es la estimación del coeficiente: Rxaxb r (^) xx La amenaza a la bondad del diseño es que las formas no sean equivalentes. Hay que buscar unos elementos y una forma de recogida de datos que no violen las condiciones.
F 0 6 1 y test de velocidad: cuando el test tiene muchos componentes de velocidad, muy exigentes en tiempo, miramos los datos. Normalmente no se contestan los últimos items. En los test impresos es muy difícil distinguir entre omisiones y no alcanzados ya que no se responde por orden. La gente suele optar por poner un 0 a los no alcanzados Por lo tanto se suele considerar que los items no alcanzados, al evaluarlos con un 0 suelen subir el coeficiente F 06 1.
Las estimaciones de fiabilidad varían entre métodos. Lo suyo es realizar dos estimaciones: una de consistencia interna y la otra un test-retest..
Para que la fiabilidad sea buena: Rxx F 0B B 0.
Factores que influyen en la magnitud de Rxx
Rxx= n rx1x2/1+ (n-1) rx1x
r (^) x1x2= coeficiente de fiabilidad obtenido en el test Rxx= coeficiente de fiabilidad predicho si modificamos la longitud n= cociente entre longitud final y la longitud inicial. Ejemplos:
items= 40 40+20=60 r (^) x1x2= 0.65 n= 60/40=1.5 Rxx=??
Rxx= 1.5 * 0.65 / 1+(1.5-1) 0.65= 0.
Esa predicción se cumplirá empíricamente si los items que se añaden son replicas de los items que había. ¿Cuántos items hay que añadir a un test de 40 items para obtener una fiabilidad de 0.80?
n= Rxx (1-rx1x2)/ r (^) x1x2 (1- Rxx) n= 0.80 (1-0.65)/0.65 (1- 0.80)= 2. 2.15*40=86 por lo que hay que añadir 46 items.
Se= Sx 1- Rxx S^2 e = S 2 x 1- Rxx
El modelo de test paralelos dice que los errores se distribuyen aleatoriamente por lo que la variabilidad de los errores es la misma en puntuaciones altas y bayas ya que los errores no están asociados con la puntuación verdadera. De esta forma la desviación típica de los errores de las puntuaciones altas es la misma que la de las puntuaciones bajas: Se (^) A=Se (^) B Este supuesto se llama homocedasticidad del error. De esta forma el error típico del grupo de admitidos seria igual al del grupo de aspirantes: S^22 1-R 22 = S 21 1- R 11 R 22 = 1- ((S^2 1/S (^2) 2) (1- R 11 )) En la practica suele ocurrir que el error no es homocedastico, porque el error de medida es mayor en los extremos. Si un atributo se distribuyen normalmente, una medida en ese atributo también lo tiene que hacer. Cuando construya un test para medir ese atributo, la puntuaciones en el test también se tienen que distribuir normalmente. Para que en el test las puntuaciones se distribuyan así, la mayor parte de los items tienen que tener una dificultad media, pocos difíciles y pocos fáciles. Se sigue una regla de “selección de times” habrá pocos items para medir bien a las personas de alto y bajo nivel. habrá mayor fiabilidad en el medio que en los extremos. Para tratar de solventar este problema , la teoría clásica de los test ha propuesto soluciones parciales: