Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


psicometria, Apuntes de Psicometría

Asignatura: Psicometría, Profesor: , Carrera: Psicología, Universidad: USAL

Tipo: Apuntes

Antes del 2010

Subido el 16/12/2009

merxukys
merxukys 🇪🇸

3.5

(4)

1 documento

1 / 33

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
INTRODUCCION A LA PSICOMETRÍA
DEFINICIÓN: la psicometría es el área especializada de la Psicología científica que se ocupa de
dos contendidos básicos: las teorías acerca de la medición aplicada a la Psicología y la
fundamentacion, construcción y análisis de los métodos de medición que se emplean en la
Psicología.
La psicometría tiene una larga tradición en la Psicología (psicofísica de Fechner 1860, Alemania;
laboratorio antropométrico de Galton, 1883, Inglaterra.
La medición psicológica
Medir es representar mediante números las características psicológicas de los estímulos y/o de
las personas en un atributo determinado.
La legitimidad de la medición depende de que las inferencias se lleven a cabo entre los números
sean apropiadas empíricamente.
DEPRESIÓN
8 16
Relaciones empíricas: H>A H-A H/A
Relaciones numéricas: 16>8 8 2
No se puede establecer por ningún procedimiento para decidir que una persona tiene el doble de
depresión que otra.
Para poder interpretar las diferencias una condición es que haya una unidad de medida constante
a lo largo de la escala.
Hay relaciones que si son posibles como la de mayor / menor. Con los procedimientos de
clasificación si se puede establecer el orden de nivel.
Lo que se intenta en Psicología es estandarizar los instrumentos de medida para asignar números.
Niveles de medida (Stevens, 1946)
1. Nominal: Los números son sólo etiquetas, nombres. La propiedad que
representan los números es la de igualdad o desigualdad. Los sujetos llevarán el
mismo número si son iguales en el atributo medido, y diferente número si son
distintos. Para medir bien las categorías deben ser exhaustivas (entre todos
tienen que definir todo el fenómeno), mutuamente excluyentes y tienen que estar
claramente definidas.
2. Ordinal: Los sujetos medidos pueden ordenarse en un atributo determinado. La
propiedad que incluye es la de orden e igualdad/desigualdad ( > < y = y no=).
Ejemplo: test. No hay la misma distancia en el atributo a medir, por lo que sólo
podemos decir que uno puntúa más que otro en la característica.
*--*--*-*------------*----------*----------------*------*-------------*-------*
1 2 3 4 5 6 7 8 9 10
Luís: 6 Ana: 3 Sólo podemos decir que Luís sabe más que ana, pero no que
sabe el doble que Ana. No se puede calcular la diferencia o distancia entre los ítems.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21

Vista previa parcial del texto

¡Descarga psicometria y más Apuntes en PDF de Psicometría solo en Docsity!

INTRODUCCION A LA PSICOMETRÍA

DEFINICIÓN: la psicometría es el área especializada de la Psicología científica que se ocupa de dos contendidos básicos: las teorías acerca de la medición aplicada a la Psicología y la fundamentacion, construcción y análisis de los métodos de medición que se emplean en la Psicología. La psicometría tiene una larga tradición en la Psicología (psicofísica de Fechner 1860, Alemania; laboratorio antropométrico de Galton, 1883, Inglaterra.

La medición psicológica

Medir es representar mediante números las características psicológicas de los estímulos y/o de las personas en un atributo determinado. La legitimidad de la medición depende de que las inferencias se lleven a cabo entre los números sean apropiadas empíricamente.

DEPRESIÓN

Relaciones empíricas: H>A H-A H/A Relaciones numéricas: 16>8 8 2

No se puede establecer por ningún procedimiento para decidir que una persona tiene el doble de depresión que otra. Para poder interpretar las diferencias una condición es que haya una unidad de medida constante a lo largo de la escala. Hay relaciones que si son posibles como la de mayor / menor. Con los procedimientos de clasificación si se puede establecer el orden de nivel. Lo que se intenta en Psicología es estandarizar los instrumentos de medida para asignar números.

Niveles de medida (Stevens, 1946)

  1. Nominal: Los números son sólo etiquetas, nombres. La propiedad que representan los números es la de igualdad o desigualdad. Los sujetos llevarán el mismo número si son iguales en el atributo medido, y diferente número si son distintos. Para medir bien las categorías deben ser exhaustivas (entre todos tienen que definir todo el fenómeno), mutuamente excluyentes y tienen que estar claramente definidas.
  2. Ordinal: Los sujetos medidos pueden ordenarse en un atributo determinado. La propiedad que incluye es la de orden e igualdad/desigualdad ( > < y = y no=). Ejemplo: test. No hay la misma distancia en el atributo a medir, por lo que sólo podemos decir que uno puntúa más que otro en la característica. --------------------------------------------------------------------- 1 2 3 4 5 6 7 8 9 10 Luís: 6 Ana: 3 Sólo podemos decir que Luís sabe más que ana, pero no que sabe el doble que Ana. No se puede calcular la diferencia o distancia entre los ítems.

En psicometría al > < se le llama dominancia (Luís domina a Ana)

  1. Intervalo: el 0 es arbitrario, y no significa carencia de actitud. Ejm: grados Cº (0º no es ausencia de temperatura). Hay una unidad de medida constante en toda la escala, así que puedo calcular diferencias entre los sujetos. Por ejemplo, para medir los cambios en una persona es conveniente usar ésta escala para saber cuánto ha cambiado exactamente. Propiedades: > <, = y no=, u.m. constante.
  2. Razón: 0 absoluto. 0 es ausencia de magnitud. Incluye todas las propiedades anteriores más la del 0 absoluto. Se pueden hacer afirmaciones del tipo ¿rapidez en corredores de 100 metros? 0 significa carencia de rapidez.

Los niveles de medida determinan el estadístico que tengo que usar. Susan Embretson (“TRI para psicólogos”) considera que con una escala ordinal se mide aproximadamente a una escala intervalo si:

  • el fenómeno latente, el constructo que estoy midiendo, se distribuye normalmente en la población
  • si las puntuaciones del test también se distribuyen normalmente En éstos casos se pueden usar técnicas paramétricas.

1971, Dawes. “métodos de medición de actitudes”.

  • Medición de índice: tiene menos potencia que la representativa. Se mide un fenómeno directamente a través de variables asociadas. Es muy común en sociología. Ejemplo: si quiero medir la clase social de las personas, busco índices asociados a la clase social: nivel de renta, nivel de estudios, zona de vivienda, tipo de colegio… PMA-V(Thurstone). Pretende medir un atributo latente, que es las aptitudes mentales verbales primarias, y para ello evalúa tareas que servirán de índices asociados para medirlo. Como por ejemplo las personas con más dominios del lenguaje tienen mejores aptitud, se busca el criterio de la gente que domina lenguaje saca buenas notas? sí, pues eso sirve de criterio. [en una medida de índice, hay relación unívoca, no biunívoca]
  • Medida representativa: medida en la que hay un homomorfismo entre un sistema de relaciones empíricas (datos de las respuestas) y un sistema de relaciones numéricas (números que representan las respuestas). Hay una relación biunívoca entre las relaciones de los números y las relaciones de los datos. Thurstone (1927): Ley juicio comparativo. Alumno de Thurstone:Mariano Yela, que importa a Europa. Profesor de la complutense hasta hace nada. Adaptó muchos test. La ley del juicio comparativo es el fundamento de la medición de estímulos psicológicos. Se basa en la psicofísica clásica de Fechner. Decibelios: .variable física .variable psicológica: percepción de la intensidad. Thurstone analiza la percepción subjetiva de la gravedad de un delito. Los valores sociales cambian y con ellos la percepción de la gravedad del delito. Si dos estímulos son igual de intensos y le obligamos a alguien a que emita un juicio de dominancia el sujeto responderá más o menos mitad y mitad de veces. O sea que el valor subjetivo del estímulo A menos el estímulo B en escala z sería 0. A>B: 50% B>A:50% Za – Zb = 0

Si yo quiero escalar unos estímulos se comparan todos con todos. Escala de intervalo= 0 aleatorio. 1 u.m. B: aquí sería 2 + 1= 3 2 u.m. A aquí pongo 2 A qui pongo 2 C por ejemplo aquí pongo un 0

implica menor nivel en el constructo. Ejem= vivir solo=No, es indicador de menor nivel de independencia que sí vivir solo, asi que el No vale 0 y el sí vale 1. Definir cómo se combinan los valores para obtener la medida. En el ejemplo la puntuación es la suma de la puntuación en los ítems= acumulación de puntos (en el modelo de TCT). Al conjunto de respuestas de una persona se le llama “patrón de respuestas”. En éste ejemplo, la puntuación no representa bien la ejecución.

  • Aplicación del modelo a los objetos (estímulos, personas…)
  • Verificación de la calidad métrica de los valores: fiabilidad y validez. Hay procedimientos para evaluar la calidad de la métrica. Las propiedades mas importantes son: - Fiabilidad: tiene que ver con el error d medida que afecta a las puntuaciones. Se dice que una medida es fiable cuando el error es pequeño (siempre hay error). Al interpretar hay que ver reálmente si sus puntuaciones se corresponden con lo que quiero medir. Por ejemplo, tengo un atributo latente en el que un invidente va a ocupar una puntuación determinada. El auténtico nivel de una persona en un atributo se llama puntuación verdadera, y la suma de un atributo latente. Los indicadores me han permitido llegar a la suma del patrón de respuesta (puntuación observada). El MCTest define el error de medida como la diferencia entre la medida real y la medida observada. E= X – V. (E: error, X: observada, V: verdadera).Uno de los aspectos que inciden mas en la precisión es la magnitud de la muestra de respuestas (pocas respuestas, medidas poco fiables). Para medir con precisión necesito muchas respuestas. Se han propuesto procedimientos para evaluar la fiabilidad. El error depende de:
  • la magnitud de la muestra de observaciones (más observaciones, menos error) (es decir, las medidas suelen ser más fiables cuanto más ítems tienen).
  • menos error cuanto más adecuados son los indicadores a la población de interés No sólo hay muestreo de personas, también lo hay de ítems. - Validez: hace referencia a la calidad de la representación de las diferencias en el continuo latente. Es la propiedad más importante de un instrumento. En esencia es lo que indica si es útil o no una medida y en qué grado lo es. Se representa fundamentalmente lo que quiero medir y no otras cosas.

Congruencia/consistencia: ISab: Nab (nº personas de acuerdo con A y con B) Na (nº personas de acuerdo con A)

ISab: índice de semejanza entre los ítems a y b. Supongamos que los ítems están repartidos entre los niveles 1 y 11, donde 11 es una actitud muy positiva y 1 muy negativa. Mda: 10,03 refleja una actitud muy positiva Mdb: 1.7 refleja una actitud muy negativa

Por lo que se supone que nadie estará de acuerdo con los 2 a la vez. Si z es un item muy positivo, se espera que la gente que diga sí a A también lo diga a z. Por lo que se espera que Naz sea casi igual que Na. Las respuestas son congruentes si cuando los índices de semejanza son muy altos cuando dos ítems tienen medianas muy parecidas, y cuando tienen medianas muy distintas tienen que tener índices de semejanza muy bajos. Si no pasa esto es porque los ítems no se expresan bien o porque las personas han mentido.

Ejemplo: ítems D y E. Los dos tienen una mediana que vale G. Si su IS es 0,40, habría que comprobar si funcionan bien los índices porque eso significa que sólo un 40% contestan igual a los dos.

Enfoque centrado en las personas y enfoque centrado en las respuestas. Ambos incluyen modelos matemáticos que son los test psicométricos. Un test es un instrumento que proporciona una medida objetiva y estandarizada de una muestra de conducta (Ann Anastasi). Un test es un instrumento estandarizado que significa que en la documentación anexa al test se especifican muy precisamente las reglas de uso del test, que hay que seguir con fidelidad, como por ejemplo el tiempo para contestar, las respuestas admisibles, como se codifican numéricamente las respuestas, procedimiento de puntuación (cómo se obtiene una puntuación) y cómo se interpreta. Si se hace esto se obtienen medidas objetivas es decir, libres de la influencia del calificador. Esta medida se obtiene a partir de una muestra de conducta. A la población posible de ítems (todos los ítems posibles) se le llama dominio o contenido.

creencia sentimiento conducta 1 2 3 4 5 Cada cuadrito en blanco es un test posble. De este dominio (que es el conjunto de todos) obtengo una muestra de estilos, y a sus respuestas les aplico un modelo de medida. Test ______ conducta__________ Modelo_________Medida Muestra (Rs) medida La medida trata de representar el nivel de la actitud de una persona en el continuo latente. Una medida tiene que tener fiabilidad (en cierto modo depende del tamaño de la muestra) y validez (la calidad de la representación de la puntuación). Ejemplo: si quiero medir la habilidad de cálculo de niños y sólo meto test de sumas, no es representativo, no es válido.

CRITERIOS DE CLASIFICACIÓN DE LOS TEST

  1. grado de estandarización: en función de éste grado se pueden clasificar los test en:
    • test psicométricos: muy estandarizados. Reglas de uno muy específicas. Puntuación muy libres del examinador. Ejemplo: cubo.Te presentan un cubo plegado con letras escritas, luego desplegado ¿qué letra falta?. Sólo hay una respuesta correcta.
    • Test proyectivos. Ejemplo: test de las manchas. No nos interesan ahora, depende mucho del examinador.
  2. Tarea:
    • Ejecución máxima: criterio inequívoco para clasificar la respuesta como correcta o incorrecta. Se llaman ejecución máxima porque hay que hacerlos de forma que la persona pueda obtener su máxima puntuación. Ejemplo: test de inteligencia, donde los test van creciendo de dificultad.
    • Ejecución típica: la respuesta no es correcta o incorrecta, sino que es una respuesta representativa del modo de pensar o sentir de la persona. Aquí entran los test de personal, de actitudes, de motivación, etc.

La primera línea de trabajo es la psicofísica clásico. Fue desarrollada por Fechner (1860) que concreto que el objetivo analizando la relación entre la magnitud de las sensaciones subjetivas (medidas dap) y la magnitud de estímulos físicos. FECHNER

Magnitud del estimulo

Magnitud de la sensación

Dap= diferencia apenas perceptible. Es el cambio mínimo subjetivo en la sensación y es constante UA= umbral absoluto. Aquel valor percibido al menos el 50% de las veces UD= umbral diferencial. Cambio necesario en la estimulación para que el sujeto perciba un cambio mínimo en la sensación. E= estimulo E1= UA+UD

Fechner supuso que era una escala de razón porque el 0 significa sensación 0. El problema es que el detector humano de estímulos no es estable. Si se presenta un estimulo repetidamente muy cercano a su UA unas veces dice que se percibe y otras no. Los UD no son iguales a lo largo del continuo de estimulación. La función matemática que las relaciona se denomina función psicofísica.

E2=E1+UD1 UD1 Umbral diferencial inferior: PIS-C

Escalamiento de longitud relativa de líneas Valor estándar: 40

F1: 35 36 37 38 39 41 42 43 44 45

F2: 3 7 14 23 35 67 77 85 92 96

F1= valores de los estímulos variables F2= Porcentaje de personas que consideraron el estimulo variable mayor que el estimulo estándar

Además de los estímulos variables, hay un estimulo constante o estándar. La magnitud es la misma. Ese estimulo constante suele tener la magnitud del punto a partir del cual queremos calcular los umbrales. La recogida de datos consiste en formar pares de estímulos en el cual un estimulo es el constante y el otro es uno de los variables. Se presentan aleatoriamente estos pares a un observador y se le pide que diga cual de los estímulos de cada par es mayor no se permiten juicios de igualdad. Aquel valor que corresponde a la mediana es lo que se denomina punto de igualdad subjetiva (PIS) Una vez recogidos los datos, el dato clave para calcular el umbral el umbral es el F2. El PIS es la mediana de la distribución y esta entre 39 y 41. por un método de interpolación lineal veremos donde esta el PIS.

39 x PIS 41

2 puntos

2 67-35 2x 50-35 x= 0´94 PIS= 39+0´94=39´ x 50-35 67-

Si no hay diferencia prácticamente entre el PIS y el estándar podemos decir que los datos son razonables.

UDs: diferencia entre el centil 75 de los datos y el PIS UDi: diferencia entre el PIS y el centil 25

C75: entre 41 (67%) y 42 (77%) se hace interpolación como la anterior C25: entre 38 (23%) y 39 (35%) se hace interpolación como la anterior C75= 41´ C25= 38´ UDs= 1´ UDi= 1´

En los métodos de escalamiento, las diferencias individuales no se consideran porque son promedios.

R1 1 E1 70

Tanto Fechner como Stevens construyeron su metodología de escalamiento para medir aspectos psicofísicos. Estimulo psicológico : cuando la intensidad percibida no esta asociada de manera sistemática con una variable física. Se han propuesto muchos métodos para evaluar estos estímulos. Uno de ellos fue propuesto por Thurstone y Chave que publico el método de intervalos aparentemente iguales. Este método fue propuesto para construir escalas de actitudes sociales. Actitud: valoración de un “objeto” aprendido socialmente que se manifiesta en creencias, sentimientos y conductas. “objeto”: estimulo psicológico que puede ser una institución, un fenómeno social, un país incluso una teoría. Se le ha dado mucha importancia al constructo por sus connotaciones aplicadas. Las actitudes pueden ser modificadas puesto que son aprendidas. Todo esto provoco que se construyeran métodos para evaluar las actitudes de las personas. Los clásicos para medir las actitudes fueron tres: Thurstone (enfoque centrado en los estímulos), Likert (enfoque centrado en los sujetos) y Guttman (enfoque centrado en las respuestas) Thurstone propuso un método muy bueno llamado método de comparaciones binarias, sin embargo no es bueno para muestras muy grandes. Si se quieren escalar tres estímulos, la metodología de Thurstone propone presentar pares con los tres estímulos: m=

M(m-1)

2

esta muy influido por Fechener. Si hay muchos estímulos por ejemplo 60:

uno de los métodos mas simples propuestos por Thurstone es el de intervalos aparentemente iguales. La actitud del sujeto se puede medir registrando que piensan las personas acerca de los objetos, que sentimientos experimentan y las conductas que manifiesta en relación con el objeto social. El método de Thurstone es un continuo bipolar que va de positivo a negativo. El centro seria la neutralidad. Si las personas difieren en la actitud había que buscar indicadores típicos de las personas con los distintos niveles en el atributo. Los indicadores son creencias, sentimientos y conductas. El constructor de la prueba trata de buscar items que describan creencias, sentimientos y conductas de los que tienen una actitud negativa. Lo mismo en los diferentes puntos del continuo. Esos indicadores se expresan verbalmente, esas frases se pueden considerar items. Items: proposiciones verbales, que describen opiniones que varían desde actitudes muy desfavorables hasta muy favorables, incluyendo actitudes neutrales (en torno a 100) El ítem debe ser calculado en el continuo, es decir, darle una puntuación. Hay que buscar una escala, entorno a 30 items que sean muy buenos. Uno de los consejos es que aproximadamente hagan el doble o triple de items de los que se van a tener al final para coger los mejores. Algunos autores proponen incluir intenciones de futuras conductas.

Hay que escalarlos, disponiéndolos en un cuestionario y pasarlos a una muestra de personas que técnicamente se les llama jueces por lo que se llama prueba de jueces llevando a cabo una clasificación en una escala de 11 categorías, desde muy desfavorable (1), neutral (6) hasta muy favorable (11) A partir de esos datos cuantificamos el nivel de esas frases en el continuo. (fotocopias) Para facilitar el trabajo de los jueces se suele utilizar un procedimiento estandarizado por lo que se pide que califiquen los items de 1 a 11. Cuando los jueves puntúan una frase solo están analizando el significado de la frase, no dan su opinión acerca del tema.

ITEMS

Jueces i1 i2 i

1 8 1 9 2 7 3 10

Para poder posicionar una frase en el continuo hay que promediar las puntuaciones dadas por los jueces, se denomina “valor escalar” y suele ser la mediana. Supongamos para el ítem uno que la mediana da como resultado 7,

Una escala ideal tendrá en torno a 33 items, un ítem en cada categoría relativos a sentimientos, creencias y conductas. Pero esto se da pocas veces. De los 100 items hay que seleccionar los mejores. Para ello se emplean una serie de criterios:

  • Criterios psicometricos: coger items con medianas a lo largo del continuo. Que exista poca variabilidad entre los jueces. Como medida de la variabilidad se suele usar la amplitud intercuartil que es la diferencia entre el cuartil 3º y el 1º (Q 1 – Q3). Se suele utilizar como criterio, seleccionar aquellos items cuya amplitud intercuartil es menor que
    1. Suele haber mayor variabilidad en el centro de la escala. En este caso se aceptarían items con una amplitud menor que 3.
  • Criterio teórico: una forma de proceder es ordenar los items en función de su mediana y observar la amplitud intercuartil. De los que me queden seleccionar uno que refleje sentimientos otro que refleje creencias y otro que refleje conductas.

Una vez construida la escala, se usa con fines diagnósticos, es decir, que se usa para diagnosticar las actitudes de personas o colectivo de personas. Se pasa la escala con los items aleatorizados apersonas a las que quiero evaluar la actitud. Se le da instrucciones muy simples. (Ej. Marca los items con los que estas de acuerdo)

Si tengo pocos items, habrá mucho error de estimación. La longitud del test incide en la calidad de la medida en lo que se refiere a la FIABILIDAD. La VALIDEZ esta influida sobre todo por la representatividad de la muestra de items. Los items se pueden clasificar en tres indicadores (sentimientos, creencias y conductas). Estos tampoco son iguales variando de extremadamente negativo a extremadamente positivo. El test tiene que ser una muestra representativa del dominio. Una muestra de items tiene que ser representativa del dominio y la puntuación debe ser valida y grande para que sea fiable. Clasificación:

  • estandarización: psicometricos (estandarización perfecta y puntuación objetiva) y proyectivos (estandarización peor y no objetivo)
  • Tarea: Según Cronbach pueden ser de ejecución máxima o típica y según Nunnaly es la misma clasificación pero denominados de juicios y de sentimientos. En los de ejecución máxima la respuesta a un ítem puede ser clasificada como correcta o incorrecta y hay un criterio inequívoco para esto. Se incluyen todos los test de rendimiento, inteligencia, aptitudes... influye la dificultad del ítem. En las típicas la respuesta no es acertada o errónea. Es una respuesta típica ya que se revelan las características peculiares de una persona. Se incluyen todos los test de personalidad, intereses, actitudes... Influye mucho la deseabilidad social.
  • Soporte: orales, impresos, manipulativos, informatizados
  • Tiempo: velocidad y potencia. Esta clasificación solo tiene sentido en los test de ejecución máxima. Los test de poca potencia se caracterizan porque se administran con un tiempo libre y los items varían en dificultad. Los test de velocidad tienen un tiempo limite de ejecución (tanto que nadie termina el test), todos los items son muy fáciles, prácticamente ítem contestado suele ser ítem acertado. La fuente es la rapidez de ejecución, importancia para la Psicología psicometría.

El modelo de medida ha sustentado su análisis: Modelo matemático (*) Dominio ítem respuesta medida

Modelo de la estadística clásica de los test: “modelo de puntuación verdadera”, se origina a principios del siglo XX, se puede clasificar en el enfoque centrado en las personas. Son modelos que se incluye en teoría en respuesta a los items y se clasifica como un enfoque centrado en las respuestas.

Enfoque centrado en las personas.

La finalidad de los métodos de medida es cuantificar el nivel de las personas en un atributo psicológico. Cuantificar diferencias entres sujetos, partiendo de un supuesto general. Los items son invariables y son replicas unos de otros. Para clasificar este aspecto se considera el enfoque principal “test psicometricos clásicos” que se inserta en la teoría clásica de los test, esta teoría es muy antigua (1904) y son indicios independientemente, por un lado Spearman pone las bases de control, establece fundamentes estadísticos. Por otro lado Thorndike comienza a utilizar los test para evaluar el rendimiento de los alumnos, usando procedimientos también estadísticos. Esta teoría se aplica de manera, ahora, rutinaria. En este enfoque los items son invariantes, como en los test clásicos. Las teorías suelen tener items:

  • Dicotómicos: con dos modalidades de respuesta. Se suelen puntuar con 1 los aciertos y 0 los errores. La puntuación de un sujeto es la suma de los valores de los items. Todos los aciertos valen 1 sea cual sea el ítem, por tanto se opera como si no hubiera diferencia entre los items.
  • Policotomicos: uno de los modelos fue propuesto por Likert, método que se clasifico en el enfoque centrado en las personas. Es un formulario que se usa mucho en test de ejecución. Las respuestas se organizan en categorías ordenadas en grado de acuerdo. La metodología tradicional de Likert, solía tener cinco categorías y una central, se piensa que funciona mal por eso se aconseja usar un numero par de categorías. Cuando hay items en las dos direcciones (+ y -) la codificación suele ser inversa. Mientras que si va solo en una dirección la codificación será en la misma dirección. La puntuación es la suma de los valores asignados.

Enfoque centrado en las respuestas

La finalidad es cuantificar el nivel de las personas y los times en la misma escala (aunque también se permite en una misma escala). El supuesto es que los estímulos y las personas varían en el constructo. Un método clásico para medir las actitudes es el “escalograma” de Guttman, pero el mas importante es la teoría de la respuesta a los items (Rash). Cada aspa representa dos sujetos, y se observa gran variabilidad. A la derecha están puntuados los items. El ítem 1 de mayor facilidad requiere menor competencia para resolverlo. varían en el continuo los items y las respuestas. “modelos de medición conjunto”

TEMA 2: TEORIA CLÁSICA DE LOS TEST

Leer Muñiz, J.(1998).TCT. Madrid,Pirámide. Pp 17-56; 217-232;265-271. Con pastas marrones,2ºedic.

Es la teoría que fundamenta la construcción y uso de los test. Incluye un modelo matemático que se llama modelo de la puntuación verdadera/modelo de los test paralelos/modelo de medidas paralelas…cuyo objetivo es cuantificar la fiabilidad de las puntuaciones de un test.(a veces a la fiabilidad se le llama confiabilidad) La fiabilidad es una cuestión de grado. En general todas las medidas tienen error. Las medidas son fiables cuando esa cantidad de error es pequeña.

N

Cuando no hay asociación Sve=0, pero si la relación entre las variables es perfecta no hay una puntuación estandarizada para definirlo. La correlación es lo mismo pero con medidas estandarizadas (puntuaciones típicas) F 0 E 5ve Rve= N Sv Se

Si no hay correlación Rve=0 para ello se necesita que ve=0 esto ocurre cuando V y E son independientes por lo que nos queda: S^2 x= S^2 v+S 2 e+2S^2 ve= S 2 v+S^2 e Es decir, S^2 x= S^2 v+S 2 e donde S^2 x es la variabilidad observada en un test. Si un test es perfectamente fiable S 2 x= S^2 v+0 pero esto no pasa nunca. Si tenemos dos test paralelos nos encontramos que un sujeto obtiene la misma puntuación en los dos, ambos son igual de fiables. Si son paralelos tenemos que: Vj = Vk y Svj = Svk y Mvj=Mvk La varianza en cualquier medida tiene dos partes: la varianza “v” y la varianza “e”: S^2 x= S 2 v+S^2 e Por lo tanto en dos test paralelos: S^2 xk= S^2 vk+S 2 ek S^2 xj= S 2 vj+S 2 ej Si dos test son paralelos tiene la misma media de puntuación observada y la misma varianza o desviación típica. Solo se puede medir la fiabilidad si estos test se ajustan a la definición de test paralelos. Sin embargo no puede ser completamente verificado ya que solo veo “X”, no veo ni “V” ni “E”. Dos test paralelos necesariamente tienen la misma media y desviación típica, si no la tienen no son paralelos. Pero que dos variables tengan la misma media y la misma desviación típica no implica que sean paralelos, por lo que la verificación empírica es indirecta. Éste modelo es poco fiable porque no se puede comprobar sujeto a sujeto. Si dos test no tienen la misma media de puntuaciones observadas no son paralelos. No puedo saber si 2 test son paralelos con seguridad, solo puedo saber si no lo son. Si cumplen todos los supuestos se supone que son paralelos, no se dice nada y se actua como si fueran paralelos. Para cuantificar la fiabilidad se usan dos estadísticos (estadísticos de fiabilidad):

El coeficiente de fiabilidad

El coeficiente de fiabilidad se define como una correlación de Pearson entre medidas paralelas o test paralelos. (recordatorio de estadística: correlación para putuaciones diferenciales rxy=_Exy______) X y X´ --- Rxx´=coeficiente de fiabilidad x= X-X x´= X´-X´ N Sx Sy

F 0 E 5 xx´^

F 0 E 5 xx^

F 0 E 5 xx´ Rxx´= Sxx´= Rxx´= = N Sx Sx´ N N Sx Sx´

F 0 E 5(V-V) = S^2 v Sxx´ Sxx´ N = Sx Sx´ S^2 x F 0E 5v^2 Sve´=0 Sev´=0 See´=

F 0 E 5 (v+e) (v´+e´)^

F 0 E 5 vv´^

F 0 E 5ve´^

F 0 E 5ev´^

F 0 E 5ee´ x= v+e Sxx´ = + + +

N N N N N

Como los errores son independientes los errores no tienen porque ser iguales en los test paralelos. La covarianza de puntuaciones verídicas es igual a la varianza de esas puntuaciones.(si no lo entiendo por aquí mirarlo del cuaderno rojo). Entonces:

S^2 v Rxx´= Proporción de la varianza de puntuaciones verdaderas S^2 x

Error típico de medida

Se define como la desviación típica de los errores (Se). La desviación típica de los errores es igual a:

Se= Sx 1-Rxx

Este estadístico y el coeficiente de fiabilidad se comportan de la siguiente manera:

Fiabilidad perfecta nula Rxx 0 1 Se Sx 0

Si es perfecto respecto al coeficiente de fiabilidad = S^2 x= S 2 v+S^2 e S^2 x= S 2 v+ Si la fiabilidad es nula= X=V+E X=V+0 / S^2 x= S 2 v+S^2 e S^2 x= 0+S^2 e En este caso el coeficiente de fiabilidad es 0 y en el caso del error típico de medida es Sx El rango del error típico de medida puede ir desde 0 hasta la desviación típica de las puntuaciones observadas. El rango del coeficiente de fiabilidad va desde de 0 a 1 siempre es positivo porque es un coeficiente entre varianzas. Thurstone defendió que no se debería usar test cuyo coeficiente de fiabilidad fuera menor de 0’80.

Calculo empírico de Rxx´

El coeficiente de fiabilidad se obtiene a partir de unos datos obtenidos de los diseños empíricos de fiabilidad cuyo objetivo es obtener datos que se puedan ajustar a la definición de test paralelos. Hay cuatro diseños empíricos. Están ordenados por costo (de mas a menos)

  • Formas paralelas (equivalencia): consiste en hacer dos test que sean totalmente equivalentes, muy similares y con las mismas características (items, dificultad, formato, mismas instrucciones...) se procede por equiparación para construir test equivalentes.

N=200 1/2N: Fa, Fb 1/2N: Fb, Fa Fa= forma a Fb= Forma b

Se hace un contraste de significación de diferencias. La correlación entre Fa y Fb es la estimación del coeficiente: Rxaxb r (^) xx La amenaza a la bondad del diseño es que las formas no sean equivalentes. Hay que buscar unos elementos y una forma de recogida de datos que no violen las condiciones.

F 0 6 1 y test de velocidad: cuando el test tiene muchos componentes de velocidad, muy exigentes en tiempo, miramos los datos. Normalmente no se contestan los últimos items. En los test impresos es muy difícil distinguir entre omisiones y no alcanzados ya que no se responde por orden. La gente suele optar por poner un 0 a los no alcanzados Por lo tanto se suele considerar que los items no alcanzados, al evaluarlos con un 0 suelen subir el coeficiente F 06 1.

Las estimaciones de fiabilidad varían entre métodos. Lo suyo es realizar dos estimaciones: una de consistencia interna y la otra un test-retest..

Para que la fiabilidad sea buena: Rxx F 0B B 0.

Factores que influyen en la magnitud de Rxx

  • Longitud del test: A mayor longitud, mayor coeficiente de fiabilidad Spearman-Brown: relaciona longitud del test y fiabilidad. Se le denomina ecuación de la profecía ya que permite predecir la fiabilidad de un test si cambiamos la longitud.

Rxx= n rx1x2/1+ (n-1) rx1x

r (^) x1x2= coeficiente de fiabilidad obtenido en el test Rxx= coeficiente de fiabilidad predicho si modificamos la longitud n= cociente entre longitud final y la longitud inicial. Ejemplos:

items= 40 40+20=60 r (^) x1x2= 0.65 n= 60/40=1.5 Rxx=??

Rxx= 1.5 * 0.65 / 1+(1.5-1) 0.65= 0.

Esa predicción se cumplirá empíricamente si los items que se añaden son replicas de los items que había. ¿Cuántos items hay que añadir a un test de 40 items para obtener una fiabilidad de 0.80?

n= Rxx (1-rx1x2)/ r (^) x1x2 (1- Rxx) n= 0.80 (1-0.65)/0.65 (1- 0.80)= 2. 2.15*40=86 por lo que hay que añadir 46 items.

  • Variabilidad de la muestra: a mayor variabilidad, mayor coeficiente de fiabilidad. (Ej.) N2=1200: de estos se seleccionan 100 n (^) 1= 100 XM= puntuación mayor Xm= puntuación menor N2= variabilidad de las personas muy grande- Rango= X (^) M
    • Xm por lo que el Rango es muy grande n (^) 1= variabilidad menor Por efecto de la selección se produce una restricción del rango. Si yo quiero medir la fiabilidad lo tengo que hacer mediante un test de estabilidad (test- retest) pro solo con la muestra de admitidos donde la variabilidad es muy pequeña. Por lo tanto la variabilidad influye en la fiabilidad. r 11 La variabilidad de los errores la tenemos cuantificada mediante la desviación de los errores (error típico de medida)= Se

Se= Sx 1- Rxx S^2 e = S 2 x 1- Rxx

El modelo de test paralelos dice que los errores se distribuyen aleatoriamente por lo que la variabilidad de los errores es la misma en puntuaciones altas y bayas ya que los errores no están asociados con la puntuación verdadera. De esta forma la desviación típica de los errores de las puntuaciones altas es la misma que la de las puntuaciones bajas: Se (^) A=Se (^) B Este supuesto se llama homocedasticidad del error. De esta forma el error típico del grupo de admitidos seria igual al del grupo de aspirantes: S^22 1-R 22 = S 21 1- R 11 R 22 = 1- ((S^2 1/S (^2) 2) (1- R 11 )) En la practica suele ocurrir que el error no es homocedastico, porque el error de medida es mayor en los extremos. Si un atributo se distribuyen normalmente, una medida en ese atributo también lo tiene que hacer. Cuando construya un test para medir ese atributo, la puntuaciones en el test también se tienen que distribuir normalmente. Para que en el test las puntuaciones se distribuyan así, la mayor parte de los items tienen que tener una dificultad media, pocos difíciles y pocos fáciles. Se sigue una regla de “selección de times” habrá pocos items para medir bien a las personas de alto y bajo nivel. habrá mayor fiabilidad en el medio que en los extremos. Para tratar de solventar este problema , la teoría clásica de los test ha propuesto soluciones parciales:

  • No calcular un error típico de media para toda la muestra, sino calcular varios. Normalmente uno en el medio, y uno para las puntuaciones altas y otro para las bajas. Una manera muy fácil de calcular el error típico es dividir el test en dos mitades. Se calcula la distribución de las puntuaciones. (Ej. P80-25 P20-6) Establezco una variable “grupo” clasificando los sujetos en cada grupo. Una vez hecho esto, divido el test en dos mitades y calculo la puntuación para cada persona en las dos mitades. Se puede demostrar matemáticamente que el error típico de medida es: Se=Sd (diferencias) d= Xp- Xi Xp= puntuaciones en los pares Xi= puntuaciones en los impares Calculamos entonces SdA Sd (^) M y SdB
  • Algunas aplicaciones de la teoría clásica de fiabilidad Toda puntuación observada tiene un cierto componente de puntuación verdadera y una cantidad de error. Con el modelo es casi imposible estimar la cantidad de error individual. Calculamos el error de grupo: S^2 x = S 2 v+S^2 e A través del coeficiente de fiabilidad: Rxx = S^2 v/S 2 x Si pudiese estimar la puntuación verdadera en cada puntuación observada tendría la posibilidad de tomar decisiones. Hay una serie de métodos para llevar a cabo esta estimación, los dos mas usuales son:
  • Distribución normal de errores : El error no es sistemático, se distribuye al azar de manera aleatoria y en consecuencia normal: E = X-V