Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


PRIMER BLOQUE psicometría, Apuntes de Psicometría

Dos temas de psicometría, la teoría de los test

Tipo: Apuntes

2022/2023

Subido el 29/03/2023

mucm_
mucm_ 🇪🇸

3 documentos

1 / 25

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
PSICOMETRÍA.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19

Vista previa parcial del texto

¡Descarga PRIMER BLOQUE psicometría y más Apuntes en PDF de Psicometría solo en Docsity!

PSICOMETRÍA.

TEMA 1: INTRODUCCIÓN A LA PSICOMETRÍA

1. INTRODUCCIÓN A LA PSICOMETRÍA.

La Psicometría : Disciplina metodológica cuya tarea fundamental es la medición de los atributos psicológicos (variable latente o dominio). Para poder medir atributos usa técnicas, métodos y teorías propias. Su principal producto (tecnología) son los tests. ¿Por qué estudiar Psicometría?

  • Los test forman parte de la actividad cotidiana de psicólogos y llegan hasta el público general.
  • Los resultados de los test suelen tener con frecuencia impacto en la vida de las personas.
  • Es necesario conocer los procedimientos en los que se basan las puntuaciones de los tests, la información que proporcionan y las limitaciones que entrañan, para hacer un buen uso de estos. La psicometría se desarrolla en tres campos:
  • Teoría de la Medición : se ocupa de cómo medir variables psicológicas. Establece las condiciones y propiedades necesarias para asignar números a objetos (medir).
  • Técnicas de escalamiento : trata sobre la construcción de escalas de medición de objetos (estímulos, sujetos o respuestas). Permite la cuantificación de las propiedades de los objetos medidos.
  • Teoría de los Tests : estudia la lógica y modelos matemáticos que subyacen a la construcción y uso de los tests.

2. LA MEDICIÓN EN PSICOLOGÍA.

¿Cómo se pueden medir atributos psicológicos? Se desarrolla una Teoría de la Medición.

  • Enfoque Clásico : Medida como “magnitud” (peso, velocidad, longitud, percepción). o Funciona bien cuando hay un substrato físico. ¿Qué pasa cuando no lo hay?: ¿se puede medir “la belleza”?
  • Enfoque Representacional : Medida como “representación” (enfoque actual). Definición de medición por el profe: o Trata de superar los problemas de medición del enfoque clásico con variables psicológicas. o Medir es asignar números a atributos, pero con unas reglas. LA MEDICIÓN
  • La medición CLÁSICA: Los objetos tienen distintas cantidades de la característica que se quiere medir = magnitudes. Los números representan esas magnitudes. Las escalas de medida reflejan propiedades empíricas e intrínsecas a los objetos. Longitud: Magnitud física que mide la distancia entre dos puntos. La longitud de los objetos varía: Convenimos un nombre para una cierta distancia. Unidad de medida = El palmo: Construimos un instrumento de medida (escala) = “el palmómetro”: Medimos objetos:
  • La medición “REPRESENTACIONALl”: Niega que la medición sea la búsqueda de la cantidad de magnitud presente en los objetos. Los números no representan magnitudes, sino relaciones (de igualdad, de orden, de igualdad de diferencias, de igualdad de cocientes) entre objetos.

Supera las limitaciones del resto de escalas: cuenta con el cero absoluto que indica la ausencia de cantidad. Permite sacar conclusiones sobre la “igualdad o desigualdad de diferencias ” en una característica, además de sobre la “igualdad o desigualdad de los cocientes” entre ellas (sobre si es la mitad, el doble, etc.). Ejemplos: todas las variables que se pueden medir con el enfoque de magnitudes (longitud, peso, etc.), edad, tiempo… Para distinguir las escalas de medida…. EL PROBLEMA DE LA MEDICIÓN: La naturaleza del atributo es medida por constructos o variables latentes (no observables directamente): Felicidad, depresión, inteligencia, personalidad, satisfacción… ¿Entonces cómo se miden constructos? ⮞ Enlazándolos con indicadores empíricos (materiales ) directamente observables (conductas). Esta forma se llama “medición por indicadores”. La medición por indicadores (ítems, reactivos): Los círculos son las variables latentes (no observables ) – constructo, factor o dimensión también significa lo mismo - , los cuadrados variables observables, respuestas o ítems. Existen dos flechas; Unidireccionales , efecto causal de una variable a otra. Bidireccionales , covarianza o correlación entre dos variables. En este caso el instrumento de medida, tiene 7 ítems. Lo de la derecha es un modelo de medida de un constructo (en abstracto), es una teoría sobre en que consiste ese constructo, que lo identifica y que otras variables lo relaciona. Tras la aplicación del test, obtenemos una puntuación por sujeto y asignamos un número a cada sujeto mediante un proceso de escalamiento. Suponemos que estas puntuaciones observadas reflejan la cantidad de atributo que tiene cada sujeto. Pero ¿estas puntuaciones reflejan bien la cantidad real de atributo o constructo (puntuación verdadera)? No podemos asumirlo a priori. Debemos realizar estimaciones de los valores reales de los sujetos en los constructos hipotéticos.

La escala (y el modelo de medida) deben proporcionar las bases para relacionar las conductas con el constructo. Pero siempre debemos asumir cierto efecto del azar (errores aleatorios), por lo que el proceso de medición es un proceso inferencial. El proceso de medida es inferencial debido a que no podemos preguntar por todas las conductas posibles. No podemos preguntar a una persona por todas las conductas, hay que hacer una selección de preguntas. La puntuación observada es la que tu recoges con las preguntas seleccionadas, mientras que la verdadera es la que no podríamos conocer.En la medida que la puntuación observada se parezca a la verdadera, esta prueba estaría midiendo con precisión. Cuanto más distinta sea, estaríamos cometiendo errores al medir. Red nomológica: red de conocimientos, define la relación de un constructo que estamos midiendo con otros constructos. La definición semántica/operativización : seleccionar la muestra de conductas que definen al constructo. Dominios/facetas de contenido: subconstructos que pueden ser relacionados con un constructo general. Una vez que tenemos todo establecido se crean las preguntas, como va a ser aplicado, protocolo de observación u entrevista. Una vez con el instrumento construido, tenemos que asignar una técnica de escalamiento. Posteriormente se evalúa su fiabilidad (si el test mide sin error) y validez (si mide lo que queremos medir). Se hace por métodos cuantitativos y cualitativos. Una vez que está todo realizado, podemos decir que el test mide el constructo que en un principio queríamos medir. Después se pueden hacer inferencias poblacionales con esta puntuación (tienes un 75% más de depresión que el resto de tus compañeros universitarios) La medición por indicadores tiene varias dificultades:

  • Se puede construir más de una escala para medir un mismo atributo, por: Diferentes teorías sobre el atributo. Muestras limitadas de conductas (indicadores).
  • Las escalas no tienen origen (menos la de razón) ni unidad de medida precisa (menos la de intervalos y razón). (No se pueden hacer ciertas operaciones matemáticas (). El 0 no indica ausencia.
  • Necesidad de definición de un constructo en relación con otros. En psicología no sabemos de lo que hablamos si no lo relacionamos con otras cosas ya que son cosas abstractas. X ej: depresión relacionada con rendimiento académico, bienestar subjetivo… OPERACIONES MATEMÁTICAS EN FUNCIÓN DE LA ESCALA DE MEDIDA ESTADISTICOS ADMISIBLES SEGÚN LA ESCALA DE MEDIDA. Ecuación fundamental de Psicometría

En la construcción de la escala, las personas actúan como instrumento de medida (jueces), escalando los estímulos. El escalamiento se produce por la variabilidad de los sujetos al percibir un estímulo (o de la de un sujeto cuando el estímulo se presenta varias veces). Biunívoca. Si cambiamos los números, los nuevos números signifiquen lo mismo que los antiguas. Monotónica. Transformación que no altere el orden de los números. SUPUESTOS:

  • Existe un continuo psicológico subjetivo a lo largo del cual varía el atributo.
  • Cada estímulo presentado al sujeto genera un proceso discriminante mediante el que se asignará un valor subjetivo al estímulo.
  • Cuando un estímulo es presentado varias veces a un sujeto no se genera el mismo proceso discriminante y el valor subjetivo puede variar.
  • Si el número de veces que se presenta el estímulo es grande, se puede hacer una distribución de valores subjetiva ( distribución discriminante – normal - ).
  • La media de esta distribución es el valor escalar del estímulo. La DT es la ambigüedad del valor. o Valor escalar = valor del estímulo en ese continuo.
  • Cada estímulo da lugar a una distribución discriminante diferente. LOS MÉTODOS:
  • Ley de Juicio comparativo: Comparaciones dos a dos entre estímulos. Ej.: ¿qué ítem muestra una actitud más favorable a la Iglesia?
  • Ley de Juicio Categórico: Ordenación del grado de atributo de un estímulo en categorías ordenadas. Las escalas de ambos métodos tienen: Ventajas; Escalas subjetivas, unidimensionales, nivel de medida de intervalos, permite la interpretación directa, sin comparar con un grupo normativo. También tienen problemas ; Costosas si hay muchos ítems (mejor con software). El valor escalar depende de los jueces (difícil comparar). LA TÉCNICA DE LIKERT Propuso una técnica sumativa: La puntuación total de un sujeto se obtiene sumando las puntuaciones de cada ítem del instrumento. Es ordinal. Supuesto:
  • La suma de las Curvas Características de los Ítems (CCI) es una función monotónica y lineal respecto del atributo.
  • Los ítems están monotónicamente relacionados con la variable latente. o A medida que aumenta el atributo en un sujeto, la puntuación en el ítem es mayor. o A medida que aumenta el atributo, aumenta la puntuación total del instrumento. Características:
  • Los sujetos se pueden ordenar en el atributo desde el punto más extremo a su contrario. La variación entre sujetos se debe a diferencias individuales.
  • La valoración de los sujetos en la variable no supone una distribución uniforme sobre el continuo de atributo, sino su posición a favor o en contra.
  • Son escalas de nivel de medida ordinal.
  • Son unidimensionales (todos los ítems miden un solo atributo). La técnica de Likert tiene muchas ventajas: es fácil de construir, son fiables y flexibles. Procedimiento:
  • Los sujetos tienen que expresar juicios de valor sobre el ítem (más o menos atributo).
  • Los sujetos se escalan a sí mismos, a través de las alternativas de respuesta , generalmente, de 3 a 7 (v.g., completamente de acuerdo, de acuerdo, indiferente, en desacuerdo, completamente en desacuerdo).
  • Se asigna un valor numérico a cada alternativa de respuesta. o El valor más alto representa la máxima cantidad de atributo. LA TÉCNICA DEL DIFERENCIAL SEMÁNTICO DE OSGOOD: Surge con el propósito de medir el significado subjetivo que determinados estímulos tienen para los sujetos. Supuestos:
  • La actitud de un sujeto hacia un objeto depende del significado subjetivo que tenga dicho objeto.
  • Los distintos significados de un objeto pueden ser reducibles a unas pocas dimensiones. Procedimiento:
  • Se buscan y escogen conceptos que representen el estímulo de interés.
  • Se presenta cada concepto seguido de unas escalas cuyos extremos son adjetivos opuestos (v.g., mucho/poco; fuerte/débil; eficiente/ineficiente). LA TÉCNICA DE GUTTMAN Escala tanto sujetos como estímulos ( respuestas ). Está más orientado a probar la unidimensionalidad de los ítems que a la construcción de un instrumento. Supuestos:
  • Si un sujeto responde favorablemente a un estímulo (ítem) de la escala, lo hará también a todos los que están por debajo de ese estímulo (y viceversa).
  • Tanto estímulos como sujetos pueden representarse en un continuo, formando una escala de entrelazamiento. Procedimiento:
  • Se eligen estímulos que representen un extremo del continuo (p.e., muy favorables objetos).
  • Se eligen otros estímulos intermedios.
  • Se eligen otros del otro extremo del continuo.
  • Se administran a los sujetos. Nivel de medida ordinal.

4. EL CONCEPTO DE TEST

6. Grado de aculturación o demandas específicas de una cultura o grupo : desde tests de carácter más general a tests que se aplican específicamente en ciertas culturas o subgrupos de población. 7. Interpretación de las puntuaciones: - Tests Referidos a Normas (TRN ): evalúan el estatus del sujeto con respecto a un dominio en relación con un grupo normativo (muestra representativa del grupo del sujeto, con similares características). - Tests Referidos a Criterio (TRC ): evalúan el estatus absoluto del sujeto con respecto a un dominio bien definido. - Basada en la TRI : estimación de parámetros, ajuste del modelo, error por nivel de rasgo. 8. Usos o finalidad del test : diagnóstico, selección, nivel de habilidad, screening, clasificación, etc. 9. Modelo estadístico: un test necesita sustentarse en algún modelo probabilístico (con término error) que permita dar significado a las puntuaciones y hacer inferencias a partir de la muestra de conductas planteadas. Los modelos más extendidos son: - Teoría Clásica de los Tests (TCT) y alguna de sus extensiones como la Teoría de la Generalizabilidad (TG) o los Tests Referidos a Criterio (TRC): se centran en la puntuación total del test obtenida a partir del conjunto de ítems. - Diferentes modelos agrupados de forma general bajo la denominación de Teoría de la Respuesta al Ítem (TRI). Se centran en los ítems considerados individualmente y en los patrones de respuesta.

TEORÍA DE LOS TESTS

Se ocupa de estudiar los modelos matemático-estadísticos que sirven de fundamento para interpretar las puntuaciones obtenidas en tests. ¿En qué grado la puntuación de un test refleja el nivel de dominio (o atributo) del sujeto? ¿Qué errores se cometen al medir? Son modelos que sirven para generalizar la puntuación obtenida en un muestra de conductas (ítems del test) a todas las conductas de un dominio (atributo). Se han desarrollado varios modelos:

  • Teoría Clásica de los Tests (TCT).
  • Teoría de la Generalizabilidad (TG).
  • Teoría de Respuesta al Ítem (TRI).
  • Los parámetros de los ítems (vg., dificultad) y de rasgo NO varian de la muestra utilizada para su estimación.

TG

Utiliza el ANOVA factorial para superar varios problemas de la TCT:

  • Concepción unitaria e indiferenciada del error de medida. El error de medida en TCT es un solo valor puntual, referido al test, en donde se combinan errores procedentes de diversas fuentes (diferentes calificadores, diferentes ítems-tests, mediciones en distintos momentos,…).
  • Rigidez del concepto de paralelismo. Concepto muy importante y polémico que se debe asumir en TCT para el cálculo de la fiabilidad.
  • Diferentes métodos para estimar la fiabilidad (polisemia del concepto de fiabilidad). En TCT se pueden obtener diferentes medidas de fiabilidad en función del procedimiento de estimación utilizado, a pesar de ser un concepto unitario. Ejemplo de Estudio G con 2 facetas: ítems (i) y calificadores (c).

30 sujetos (p) evaluados en 10 tareas de respuesta construida (i). Cada sujeto ha sido evaluado por 3 calificadores distintos (c). DISEÑO FACTORIAL : 30 (p) x 10 (i) x 3 (c) = 900 condiciones.

PRINCIPIOS DE LOS MODELOS PSICOMÉTRICOS:

Son cuatro los principios básicos que garantizan la calidad de las mediciones:

  • Fiabilidad: ¿Hasta qué punto las cantidades observadas reflejan con precisión las puntuaciones verdaderas de las personas evaluadas? Grado en que las puntuaciones observadas coinciden con las puntuaciones verdaderas. Está estrechamente relacionado con los errores cometidos en el proceso de medición. Tiene que ver con el proceso de repetición de la medida
  • Si aplicamos el mismo instrumento a los mismos sujetos en varias ocasiones, el resultado no será siempre el mismo (erroraleatorio).
  • Pero las mediciones realizadas en distintas aplicaciones tienden a mostrar consistencias (vg., un sujeto que obtenga la puntuación más alta en una aplicación obtendrá también una puntuación entre las más altas en una segunda aplicación, en una tercera…). Fiabilidad = Precisión del test. En TCT la fiabilidad de un test se define como la variación relativa de la puntuación verdadera con respecto a la puntuación observada. En TRI se estiman niveles de fiabilidad por cada nivel de rasgo a partir de la Función de Información del Test. No informa de si el instrumento es adecuado para la medida de un determinado atributo (objeto de la validez). Ejemplo: las medidas antropométricas (perímetro craneal) pueden ser muy precisas pero no son adecuadas para la medida de las aptitudes mentales (inteligencia).
  • Equidad: ¿ Hasta qué punto los ítems son iguales (invariantes) para distintos subgrupos de población? Se refiere a la ausencia de sesgo : si los resultados de la evaluación pueden estar relacionados con factores como diferencias sociodemográficas, historia personal de los sujetos, lenguaje, familiaridad con las representaciones o estímulos (contenido de los ítems), etc. Forma parte del principio de validez ( Funcionamiento Diferencial de los Ítems - DIF ) y se solapa con otros aspectos relacionados con los usos de la evaluación. Análisis mediante TRI y mediante AF (multigrupo e invarianza métrica).

NOTAS SOBRE LA HISTORIA DE LA PSICOMETRÍA

La Psicología nace como ciencia cuando se acepta que se puede medir lo psicológica. El origen de la Psicometría:

  • Formulación de las hipótesis en términos matemáticos.
  • El problema psicofísico: estudiar la relación entre los estímulos físicos y las sensaciones que suscitan en los sujetos (escalamiento de estímulos).
  • El interés en las diferencias individuales: estudiar las diferencias en personas con respecto a fenómenos psicológicos (escalamiento de sujetos).

TODO EN LA LECTURA???

Hay que atender a: contenido del test, formato de los ítems, longitud del test y características de los ítems. A: EL CONTENIDO DEL TEST. Se deciden las facetas o dominios de contenido que forman parte del atributo. La elección de las facetas lleva a la selección de la muestra de conductas (ítems) que formará el test. Las facetas se eligen en base a unos criterios, que son distintos para tests de rendimiento óptimo y típico.

  • Óptimo; se hace una tabla de especificaciones.
  • Típico; se hace un juicio de expertos. LA TABLA DE ESPECIFICACIONES: Matriz que contiene diferentes aspectos de contenido del test
  • Procesos cognitivos: Conocimient o: “Defina el concepto de dificultad de un ítem”. Comprensión: “Diga y explique cuál de cada uno de estos 3 valores (0.20, 0.16, 0.42) corresponde al índice de dificultad, al índice de homogeneidad y a la varianza de un ítem dicotómico”. Aplicación : “Aplicamos un test de Estabilidad Emocional de 30 ítems a una muestra de estudiantes universitarios. Si añadimos otros 30 ítems paralelos al test, explique las consecuencias que esto tendría en su fiabilidad y validez”. Análisis: “En el siguiente fichero de datos (SPSS) se recogen los resultados de un test de 30 ítems aplicado a una muestra de universitarios. Obtenga e interprete 2 indicadores de su fiabilidad” En psicometría, análisis es hacer problemas.
  • Dificultad de los ítems: fácil, media, difícil.
  • Facetas del dominio: aspectos representativos de lo que se quiere medir (subconstructos). JUICIO DE EXPERTOS: evidencias de validez de contenido

B : FORMATO DE LOS ÍTEMS: Dos tipos:

  • De elección: el sujeto elige la respuesta de entre una serie de alternativas cerradas.
  • De construcción : el sujeto elabora la respuesta abiertamente. ÍTEMS DE ELECCIÓN
  • DICOTÓMICOS: Consta de enunciado y dos alternativas de respuesta. Suele ser para tests de rendimiento óptimo. Ventajas: fácil y rápido de elaborar. Inconvenientes: no corrige los errores por azar.
  • ELECCIÓN MÚLTIPLE (típicas de tipo test): Consta de enunciado y varias alternativas de respuesta. Suele ser para tests de rendimiento óptimo: las incorrectas son distractores. Suele haber entre 3 y 7 alternativas de respuesta. Tipos: interrogativo, enunciativo, de frase incompleta. Ventajas: fácil de corregir e interpretar. Inconvenientes: difícil de construir.
  • EMPAREJAMIENTO: El sujeto empareja elementos de dos columnas. Está indicado para tests de rendimiento óptimo.
  • LLOZA (Completar frases): Consta de un párrafo o de una frase donde hay huecos para completar con un listado de palabras. Suele ser para tests de rendimiento óptimo.
  • ESCALAS DE CLASIFICACIÓN (rating scales o “tipo Likert”): Se presenta un enunciado y una lista ordenada de alternativas. El sujeto escoge la alternativa que mejor le representa. Se usa para test de rendimiento típico. No hay un número mínimo o máximo de alternativas (entre 3 y 7). Ventajas: mejor precisión. Inconvenientes: las alternativas de respuesta no significan lo mismo para todos los sujetos. Se dan tendencias de respuesta sesgadas. ÍTEMS DE CONSTRUCCIÓN Tipos: de respuesta corta y larga. Se utilizan para todo tipo de tests. Ventajas: fáciles de construir. Inconvenientes: respuestas difíciles de corregir e interpretar. C. LONGITUD DEL TEST. El número de ítems depende de:
  • Población a la que se dirige.
  • Limitaciones de tiempo: evitar fatiga, omisión de respuestas, redundancia de contenidos…
  • Objetivos del test (selección, diagnóstico, clasificación…).
  • El piloto debe tener más ítems que el test final. La longitud influye en:
  • Fiabilidad del test (TCT): más número de ítems, mayor fiabilidad.
  • Validez de criterio (convergente). D. CARACTERÍSTICAS PSICOMÉTRICAS DE LOS ÍTEMS. Hay que atender a: Dificultad del ítem. Homogeneidad del ítem. Discriminación del ítem.