Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Validez de los Tests: Coeficientes de Fiabilidad y Validez Predictiva - Prof. Mateo, Apuntes de Psicometría

La propiedad de validez de los tests y cómo se relaciona con la fiabilidad y la longitud del test, así como cómo se puede estimar la validez predictiva utilizando la regresión lineal múltiple. Además, se discuten conceptos relacionados como el coeficiente de determinación ajustado y la multicolinealidad.

Tipo: Apuntes

2015/2016

Subido el 14/12/2016

numancia2014
numancia2014 🇪🇸

3.8

(197)

43 documentos

1 / 12

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
BLOQUE 3.1 - VALIDEZ
· La validez es una propiedad de los datos, no del test: es una propiedad contextual.
· La validez es la capacidad de predecir una conducta vinculada a otra.
· La validez se cuantica usando el Coeciente de Validez: es un coeciente de
correlación entre “algo” y otro “algo” que quiero predecir. El Coeciente de Validez
es una versión del coeciente de correlación de Pearson.
· Se considera la relación entre un test y una conducta a predecir como una relación
lineal.
1. VALORAR LA VALIDEZ DE UN CRITERIO.
FACTORES QUE INFLUYEN sobre el COEFICIENTE DE VALIDEZ de un TEST.
En el proceso de medición al aplicar un test, hay cosas que inuyen sobre el coeciente de
validez
de los datos obtenidos. Son:
1. La FIABILIDAD de los datos / medidas.
La abilidad de los datos obtenidos establece un techo, un límite, para la validez. Este
se expresa en la Correlación entre un test y un criterio; éste siempre será menor o igual
que el producto de las raices de las correlaciones del test y del criterio.
Ese techo o límite puede generalizarse a casos en los que quiera valorar la validez
al modicar las abilidades:
es el coeciente de abilidad (correlación) entre un test y un criterio ANTES (1)
de modicar sus abilidades; es decir, con su abilidad original.
es el coeciente de abilidad de un test DESPUÉS (2) de modicar su abilidad;
es decir, con su abilidad modicada.
es el coeciente de abilidad entre un test y un criterio DESPUÉS (2) de
modicar sus abilidades.
·· Si al modicar la abilidad del test y/o del criterio esta abilidad modicada (2) es
mayor que la original (1) sabremos que la abilidad del test ha aumentado y con ella
habrá aumentado también su validez. Al contrario, si disminuye la abilidad del test y/o
del criterio, disminuirá también la validez del test.
·· Hay tres casos particulares dignos de mención:
·1· En los casos en los que esté midiendo el rendimiento de los sujetos en un
área determinada este rendimiento será el criterio. Y en este caso, no se permite modicar
la
abilidad del criterio. En estos casos, sólo podré modicar la abilidad del test, y
asumiré
que la abilidad inicial (1) del criterio y la nal (2) son las mismas:
·2· Otra cuestión interesante es plantearse que pasaría con la abilidad si
pudieramos eliminar todos los errores de medida en el test y en el criterio. En la práctica
nunca podría
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Validez de los Tests: Coeficientes de Fiabilidad y Validez Predictiva - Prof. Mateo y más Apuntes en PDF de Psicometría solo en Docsity!

BLOQUE 3.1 - VALIDEZ

· La validez es una propiedad de los datos, no del test: es una propiedad contextual. · La validez es la capacidad de predecir una conducta vinculada a otra. · La validez se cuantifica usando el Coeficiente de Validez: es un coeficiente de correlación entre “algo” y otro “algo” que quiero predecir. El Coeficiente de Validez es una versión del coeficiente de correlación de Pearson. · Se considera la relación entre un test y una conducta a predecir como una relación lineal.

1. VALORAR LA VALIDEZ DE UN CRITERIO.

FACTORES QUE INFLUYEN sobre el COEFICIENTE DE VALIDEZ de un TEST.

En el proceso de medición al aplicar un test, hay cosas que influyen sobre el coeficiente de validez de los datos obtenidos. Son:

1. La FIABILIDAD de los datos / medidas.

La fiabilidad de los datos obtenidos establece un techo, un límite, para la validez. Este se expresa en la Correlación entre un test y un criterio; éste siempre será menor o igual que el producto de las raices de las correlaciones del test y del criterio.

Ese techo o límite puede generalizarse a casos en los que quiera valorar la validez al modificar las fiabilidades:

• es el coeficiente de fiabilidad (correlación) entre un test y un criterio ANTES (1)

de modificar sus fiabilidades; es decir, con su fiabilidad original.

• es el coeficiente de fiabilidad de un test DESPUÉS (2) de modificar su fiabilidad;

es decir, con su fiabilidad modificada.

• es el coeficiente de fiabilidad entre un test y un criterio DESPUÉS (2) de

modificar sus fiabilidades.

·· Si al modificar la fiabilidad del test y/o del criterio esta fiabilidad modificada (2) es mayor que la original (1) sabremos que la fiabilidad del test ha aumentado y con ella habrá aumentado también su validez. Al contrario, si disminuye la fiabilidad del test y/o del criterio, disminuirá también la validez del test.

·· Hay tres casos particulares dignos de mención:

·1· En los casos en los que esté midiendo el rendimiento de los sujetos en un área determinada este rendimiento será el criterio. Y en este caso, no se permite modificar la fiabilidad del criterio. En estos casos, sólo podré modificar la fiabilidad del test, y asumiré que la fiabilidad inicial (1) del criterio y la final (2) son las mismas:

·2· Otra cuestión interesante es plantearse que pasaría con la fiabilidad si pudieramos eliminar todos los errores de medida en el test y en el criterio. En la práctica nunca podría

lograrse, pero teóricamente plantearnos esto sería pensar cuál es el valor máximo que puede tener el coeficiente de validez predictiva; es decir, cúál sería la máxima correlación posible de todas entre el test y el criterio.

  • (^) Esto pone de manifiesto que la fiabilidad limita la validez predictiva: cuando aumenta la fiabilidad aumentar la validez predictiva ( y viceversa)

·3· Si pudieramos eliminar los errores de medida en el test:

2. La LONGITUD del test y del criterio también tienen su impacto en la validez de las

medidas

· La relación entre longitud y validez es lineal; si aumento la longitud del test, del criterio o de ambos también aumentará la validez. Puedo querer aumentar la longitud de ambos o sólo la del test.

· Si quiero modificar la longitud del test y del criterio:

  • (^) “l” es la proporción en que modifico la longitud del criterio
  • “k” es la proporción en que modifico la longitud del test
  • tanto “l” como “k” son = nº final de items / nº inicial de items.

· Si sólo quiero modificar la longitud del test:

3. El último factor que afecta a la validez de los datos obtenidos mediante un test es la

VARIABILIDAD / varianza de sus datos. Es un impacto lineal: si aumento la variabilidad, aumentaré la validez predictiva. Sin embargo, este impacto no tiene una fórmula única, sino varias, dependientes del contexto. Por tanto, nosotros no valoraremos cuantitativamente este impacto.

2. VALORAR LA VALIDEZ DE UN CONJUNTO DE PREDICTORES.

REGRESIÓN LINEAL MÚLTIPLE.

En ocasiones quiero saber la validez que tienen varios predictores (por ejemplo, un conjunto de tests) para predecir un determinado comportamiento / criterio en sujetos de una población.

En esos casos, lo que hago es seleccionar los mejores tests predictores y combinarlos: así, reduzco por ejemplo 40 tests a 5 tests muy predictores y combino esos 5. Para ayudarme a decidir cuales son los tests mejores predictores uso la REGRESIÓN LINEAL MÚLTIPLE:

  • es la combinación de los predictores (hasta Bp Xp) incluyendo un término aleatorio: el error

Por tanto, excluyendo el término error:

y con el término error:

  • Sin embargo, si los test no son independientes no puedo usarlo (el Coeficiente de Determinación Múltiple adoptaría valores exagerados) y debería utilizar el Coeficiente de Determinación Ajustado:
  • “p” es el número total de predictores.
  • Supone una mejores estimación que el otro.
  • Después de calcular el Coeficiente de Determinación debo cuantificar:
  • el Error Cuadrático Medio ( )
  • y luego el Error Típico de Estimación ( )

(4º) Y, para finalizar, hago uso, aplico, el modelo que he diseñado con el fín de realizar predicciones individuales.

Sin embargo, en la práctica la valoración de la validez de un conjunto de tests / predictores no se hace a mano sino que la ejecutan algoritmos de ordenador:

ALGORITMOS DE ESTIMACIÓN POR PASOS

1. Procedimiento FORWARD – Hacia adelante.

  • Este procedimiento parte de un predictor y va agregando predictores.
  • Primero elige el mejor predictor de todos (el test con mayor coeficiente de validez)
  • luego construye la Ecuación de Regresión ( )con sólo ese predictor
  • después se busca el segundo mejor predictor para comparar si es mejor que el primero
  • se construye otra Ecuación de Regresión con el mejor predictor y el segundo mejor predictor, y se valora la capacidad predictiva
  • Se busca el tercer mejor predictor
  • se vuelve a calcular la Ecuación de Regresión con estos tres predictores
  • (^) El algoritmo finalizará cuando un predictor a añadir ya no aporte casi o nada a la capacidad predictiva total de los anteriores predictores (ya seleccionados e incorporados al modelo)

2. Procedimiento BACKWARD – Hacia atrás

  • este procedimiento parte de todos los predictores y va eliminando
  • primero valorar la capacidad predictiva de todos los predictores
  • y luego elimina predictores, uno a uno, hasta que la capacidad sea adecuada

3. Procedimiento STEPWISE – Paso a paso.

  • Es una combinación de los anteriores: en cada paso intenta añadir un predictor y eliminar otro.
  • Primero empieza buscando el mejor predictor y construye la ecuación de predicción para ese predictor (= que el Forward)
  • continúa buscando el segundo mejor predictor y lo incorpora a la ecuación de regresión.
  • Entonces intenta eliminar un predictor
  • Finaliza cuando no puede introducir ni eliminar un predictor de la ecuación; esto es, cuando la diferencia entre la ecuación actual y la anterior es significativa.
  • ·· Es el mejor y más exigente método

MULTICOLINEALIDAD.

  • Multicolinealidad ALTA – predictores dependientes – redundantes.
  • Multicolinealidad BAJA – predictores independientes – no redundantes.

A la hora de diseñar un modelo, hay que valorar antes la multicolinealidad que posea éste.

Hay dos métodos para detectar la multico: dependiendo de si queremos detectar la multicolinealidad de todos nuestros predictores (para lo que usaremos el Índice de Condicionamiento) o sólo de uno en concreto (para lo cual podemos usar el Coeficiente de Determinación, el índice de Tolerancia o el Factor de Inflación de la Varianza).

A – El Índice de Condicionamiento / Singularidad.

· Es un indicador GLOBAL: detecta la multico de un conjunto de predictores, pero no señala a cual en concreto afecta.

· A la hora de haber pasado un test, obtenemos un conjunto de dimensiones, que son el conjunto de predictores. Hay, por tanto, tantas dimensiones como predictores.

· Un autovalor es una dimensión de ese test, que expresa además el tamaño de los ejes de referencia. Un eje de referencia es el autovalor con mayor valor de todos.

· Si un autovalor es mayor que el resto inferimos que hay una dimensión dominante y otras dimensiones menores, que son irrelevantes. El Índice de Condicionamiento / de Singularidad de ese conjunto de predictores tendrá un valor alto. Un IC tiene valor alto si es mayor que 30.

· Si no hay ningún autovalor dominante (todos los autovalores son similares) el IC tendrá un valor bajo, con un valor menor a 10.

· En el primero caso, con un autovalor dominante y un IC consecuentemente alto, habrá alta multicolinealidad. Es decir: las correlaciones entre predictores serán altas, lo que significa que éstos no son independientes entre sí. En este caso, no debemos usar el modelo lineal de predicción.

· En el segundo caso, con ningún autovalor dominante / más alto que otro entre el conjunto de predictores y un IC consecuentemente bajo, habrá baja multicolinealidad. Es decir, las correlaciones entre predictores serán bajas, lo que significa que éstos son independientes entre sí y podemos usar el modelo lineal de predicción.

· Este último caso es una situación ideal, casi utópica: lo que predomina a la hora de detectar la presencia o ausencia de multicolinealidad entre varios predictores es encontranos con un IC de valor medio. Es decir, habrá algunos autovalores mayores, pero no demasiado, respecto a otros menores, encontrándonos una multicolinealidad

3. VALORAR LA GENERALIZACIÓN DE LA VALIDEZ.

Imaginemos que estamos usando un determinado test para una investigación y se nos ocurre: “Oye, ¿que validez general tiene este test? ¿Puede calcularse? Para hacerlo, podría calcular el Coeficiente de Validez de todo mi test?”

Pues sí, podría. Lo que tendría que hacer si quiero encontrar la validez general de un test; su validez universal o su “verdadero coeficiente de validez” sería encontrar todos los estudios en los que ese test fue usado y en los que además se hubiera calculado su coeficiente de validez y resumirlos todos en uno sólo.

En un momento dado de la historia psicométrica se propuso que esto se podía hacer, que la forma de hallar la existencia de un posible Coeficiente de Validez General o Universal era realizar estudios de meta-análisis y así poder llegar a saber “el verdadero coeficiente de validez” de cada test.

Sin embargo, se echaron campanas al vuelo. Lo que se halla al resumir todos esos coeficientes de validez en uno solo no es el “verdadero coeficiente” de cada test, sino sólo una estimación más de su validez. Lo único que se hace es resumir la media de los coeficientes de los estudios encontrados.

Lo que se hace, por tanto, a la hora de calcular este Coeficiente de Validez Generalizado ) es asumir que los coeficientes de validez encontrados se distribuyen normalmente / Gaussianamente y:

  • Calcular la correlación promedio de los coeficientes encontrados, re sumiéndolos en la media
    • El Coeficiente de Validez Generalizado es la media.
  • Después complementar el cálculo hallando la varianza del Coeficiente de Validez Generalizado:
  • Y en la práctica se añade después el cálculo del error muestral:
  • es la diferencia entre el Coeficiente de Validez Verdadero y el Generalizado.
  • (^) Se calcula de esa forma, siendo

Debemos pensar que, aunque hayamos calculado lo anterior, cada estudio donde aparezca calculado el Coeficiente de Validez de mi test es un mundo, con características diferentes que muchas veces desconocemos. Por tanto, se hace necesario realizar inferencias sobre el verdadero Coeficiente de Validez de mi test.

Estas inferencias son de dos tipos:

.1 En primer lugar puedo reflexionar sobre si el coeficiente de validez que he

encontrado es realmente la mejor estimación posible del Coeficiente de Validez Verdadero comparando el mayor y el menor coeficiente de validez encontrado.

  • Para ello, busco el más grande y el más pequeño de los coeficientes de validez encontrados en el meta-análisis y los comparo. Así podré inferir si todos los coeficientes de validez encontrados son estimaciones de un mismo parámetro
  • Por tanto, establezco dos hipótesis:

Y luego calculo un Estadístico de Contraste:

  • Primero: “k” es el número de Coeficientes a comparar.
  • Si el EC es mayor que Gí Cuadrado significa que la diferencia ES significativa y que no tiene sentido buscar ni interpretar un Coeficiente de Validez Generalizado: rechazo, por tanto, la Ho
  • En cambio, si el EC es menor que Gí Cuadrado significa que NO hay una diferencia significativa y que sí puedo interpretar un Coeficiente de Validez Generalizado: no rechazo, por tanto, la Ho.

.2 La otra inferencia que puedo realizar es valorar si el Coeficiente de Validez es

diferente a 0:

  • Después calculo un Estadístico de Contraste:
  • Realmente sirve de menos que el primer tipo de inferencia. En la práctica, calcularé esta segunda inferencia sólo si el Coeficiente de Validez Generalizado vale 0.

4. VALORAR LA VALIDEZ DE CONSTRUCTO.

Ahora dejamos el estudio de la Validez Predictiva para estudiar aspectos teóricos de la Validez.

Spearmen definió la validez como “la capacidad predictiva”: pero eso no significa que un test mida lo que deba medir; lo único que hace es contribuir a predecir un criterio, nada más.

Para subsanar esta laguna de conocimiento se creó una base teórica para la validez, formándose el concepto de Validez de Constructo. Así, si dicha validez fuera adecuada significaría que mi test está midiendo lo que se supone que debe (y dice) medir. Sin embargo, realmente sólo estamos renombrando el fenómeno, y es que un test con una adecuada validez de constructo tiene que estas referido a una variable relevante; que aporte algo a una determinada conducta: si un determinado constructo / variable es irrelevante, no hay validez ninguna.

La manera, por tanto, de deducir que un constructo es relevante es mediante la pura práctica: si compruebo en la práctica que un determinado constructo es útil en varios estudios diferentes. Esto supone, sin embargo, un proceso circular inacabado: nunca podré saber si un test tiene una adecuada validez de constructo recabando únicamente indicios. Necesito, por tanto, construir un proceso en el que la teoría y la práctica se retroalimenten.

Lo que nosotros haremos será abordar los ASPECTOS INSTRUMENTALES de la valoración de la Validez de Constructo, y lo haremos valorando cuatro elementos importantes: cuatro instrumentos de la validez de Constructo de un test:

1. La Validez de Contenido:

  • Correlación MONORASGO – MONOMÉTODO:

· Es la correlación de un determinado test consigo mismo: es decir, indica la fiabilidad de ese determinado test. Es decir, es el Coeficiente de Fiabilidad.

· Indica fiabilidad, nada de validez.

· Siempre será la correlación más alta de la matriz. En la práctica, debería ser mayor que 0.

  • Correlación MONORASGO – HETEROMÉTODO:

· Es una correlación que indica la Validez Convergente del test: es decir, la correlación que tiene un determinado test con otros que miden lo mismo.

· Deben ser las correlaciones más altas de todas, después del Coeficiente de Fiabilidad. Si lo son, sabremos que ese test posee una adecuada Validez Convergente.

  • Correlación HETERORASGO – MONOMÉTODO:

· Es la correlación entre mi test y otros tests similares pero que miden variables diferentes

· Indica, por tanto, la Validez Discriminante de mi test.

· Cuanto más bajo sea el valor de esta correlación, mayor Validez Discriminante tendrá mi test

  • Correlación HETERORASGO – HETEROMÉTODO:

· Es la correlación entre mi test y otros test diferentes que miden variables diferentes.

· Indica, también, la Validez Discriminante de mi test.

· Debería ser la correlación más baja de todas. Cuanto más baja sea, mayor Validez Discriminante tendrá mi test.

··· EJEMPLO de una Matriz de Correlaciones Multirasgo – Multimétodo ···

  • Vemos que hay tres variables: liderazgo (A), sociabilidad (B) y popularidad (C ) y

dos procedimientos para medirlas, es decir, dos tests: un autoinforme (método 1) y una evaluación por parte de los compañeros (método 2)

  • Esto es: el AI (mét 1) evalúa tres variables (A, B y C) y el CC (mét 2) evalúa esas mismas tres variables (A, B y C).
  • Por tanto, hay en total seis test para administrar (un AI para liderazgo, otro para B y otro para C, un CC para A, otro para B y otro para C): dos métodos y seis rasgos.
  • El objetivo principal es administrar el autoinforme sobre el liderazgo (método 1 sobre A); se acompaña otro test, la evaluación de compañeros (método 2) para medir esa misma variable de liderazgo (A).
  • Las correlaciones que se observan son las siguientes:
  • La correlación MR – MM.
  • (^) Es la puntuación 0.95: la correlación entre A1 y A1: la correlación entre la variable liderazgo medida por el autoinforme. Es decir, es la correlación del test de AI (1) consigo mismo.
  • Indica, como sabemos, fiabilidad, no validez. Es, como sabemos, el coeficiente de fiabilidad del test 1.
  • Siempre será la correlación más alta de la matriz. Tiene que ser mayor que
  • (^) Las correlaciones MR – HM.
  • Son las puntuaciones en negrita: 0.76, 0.65 y 0.60. Son las correlaciones que tiene el test 1 con el test 2 midiendo las tres misma variables (A1, B1, C1 – A2, B2, C2)
  • 0.76 es la correlación entre A1 y A2 (es decir, entre el test 1 y el test 2 midiendo ambos el liderazgo)
  • 0.65 es la correlación entre B1 y B
  • 0.60 es la correlación entre C y C
  • Indican, como sabemos, la validez convergente.
  • En teoría deben ser las correlaciones más altas después de la del coeficiente de fiabilidad. Comprobamos que lo son, con lo cual concluimos que el test 1 (el Autoinforme) tiene una aceptable validez convergente.
  • Las correlaciones HR – MM.
  • Son las correlaciones entre el autoinforme (test 1) midiendo variables / rasgos diferentes.
  • Son los valores que están dentro del triángulo: 0.58, 0.39 y 0.26 en el test 1:
  • 0.58 es la correlación entre A1 (la variable de liderazgo medida mediante autoinforme) y C1 (la variable de popularidad medida mediante autoinforme)
  • 0.28 es la correlación entre A1 y B
  • 0.39 es la correlación entre B1 y C
  • (^) Para el test 2, miramos rambién los valores dentro del triángulo: 0.39, 0. y 0.
  • (^) Como sabemos, indican la validez discriminante de un test. Así, Deberían ser correlaciones bajas para indicar una validez discriminante adecuada en el test. Sin embargo, hay dos correlaciones demasiado altas; 0.58: que es la correlación entre A1 y C1 y 0.55: correlación entre A2 y C2. Vemos que las variables liderazgo (A) y Popularidad están relacionadas en ambos tests, lo que puede deberse a que ambas tengan una correlación natural entre ellas: es decir, que sentirse uno líder (A1) y que nuestros compañeros de clase nos consideren un líder (A2) implica ser más popular; sentirse más popular (C1) y serlo para los demás (C2).