Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis Factorial de Datos de Pruebas Psychométricas: Validesa y Fiabilidad, Apuntes de Psicometría

El proceso de análisis factorial de datos de pruebas psicométricas, enfocándose en la validesa y la fiabilidad. Se detalla el uso de la matriz de correlaciones entre ítems, la extracción de la matriz factorial y la prueba de esfericidad de bartlett. Además, se discuten los coeficientes de validesa y la importancia de la longitud del test en la validesa.

Tipo: Apuntes

2018/2019

Subido el 24/11/2019

lileta-lila
lileta-lila 🇪🇸

4 documentos

1 / 19

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
16/10/2019 Validesa
Fiabilitat: que la mesura era correcta
Validesa: fa referència a un conjunt de proves i dades que es van recollint per garantir l’adequació de les inferències
que nosaltres fem en passar una prova.
Test vàlid: Les inferències o interpretacions que fem a partir del test s’adeqüen al propòsit del test.
- Si això fa referència al que volíem mesurar.
- Si l’evidència empírica que hem obtingut recolza la teoria, Ex.: mesuro l’ansietat, no la psicometria
Concepte molt ampli, no consisteix en una prova o evidència, s’intenta recollir moltes proves.
Objectiu: no és tant el test com a test, sinó la interpretació de les puntuacions en relació a per a que les fem servir.
- Ex.: si les usem per selecció de personal, és adequat per la selecció de personal?
El responsable de la validesa no és només qui construeix el test sinó qui l’usa, si no el uses correctament, fas servir
un test inadequat.
És un procés dinàmic, totes les fonts de validació són garanties pel que consisteix.
Dues columnes de com s’ha categoritzat el concepte de validesa:
- A nivell històric sempre s’ha parlat de la validesa de contingut, de criteri i de constructe, però
- Fa temps que es van desenvolupar els estàndards de la APA (1999-2014) que estableixen un conjunt de
tipus de validesa, el que fem és adaptar-los sense oblidar-nos dels històrics (libres medicina/farmàcia fan
servir històrics, estan molt vigents).
- Hi ha paral·lelisme, el que de perspectiva històrica era:
o Validesa de contingut equival a validesa de contingut de estand
o La de criteri equival a la de relacions amb altres variables
o La de constructe es correspon amb:
Estructura interna i
Relacions amb altres variables
- S’han afegit 2 tipus de validesa que no hi havia, maneres de crivar i buscar-ne validesa:
o Validesa com a procés de resposta
o Validesa conseqüencial
Veurem els nous estàndards de validesa però tenint en compte que tenim de base el contingut de validesa històric.
Facetes o fonts d’evidència de validesa:
- Validesa de contingut: domini conductual
- Procés de resposta: procés cognitiu al respondre
- Estructura interna: relació entre ítems i dimensions
- Relacions amb altres variables: relació amb variables externes
- Conseqüencial: conseqüències de l’ús del test
Validesa de contingut:
Pretén:
- Intenta garantir que el test, la prova, és una mostra rellevant i representativa d’allò que es vol mesurar.
- Garantir que el que volem mesurar, que el test és rellevant i representatiu
o Ex.: àmbits d’educació, els continguts del que es vol mesurar està molt clar, si es vol mesurar el
coneixement en geografia, l’àmbit està molt clar.
o En psicologia és una mica més complexa.
Sabem que els tests estan formats per un conjunt d’ítems, per tant, aquests ítems han de representar de forma
suficient els diferents nivells del constructe:
- Per a que un test sigui vàlid ha de captar o incloure la totalitat d’allò que vol mesurar, no deixar-se cap part
ni anar més enllà, per això, l’evidencia d’aquesta validesa es basa en el contingut, rellevància i
representativitat.
- Si els continguts assoleixen tot el domini del test
Rellevància d’un ítem:
- Si el seu contingut inclou o té informació directament relacionada amb el constructe que mesura.
- Si te informació directa
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Vista previa parcial del texto

¡Descarga Análisis Factorial de Datos de Pruebas Psychométricas: Validesa y Fiabilidad y más Apuntes en PDF de Psicometría solo en Docsity!

16/10/2019 Validesa

Fiabilitat: que la mesura era correcta

Validesa: fa referència a un conjunt de proves i dades que es van recollint per garantir l’adequació de les inferències

que nosaltres fem en passar una prova.

Test vàlid: Les inferències o interpretacions que fem a partir del test s’adeqüen al propòsit del test.

  • Si això fa referència al que volíem mesurar.
  • Si l’evidència empírica que hem obtingut recolza la teoria, Ex.: mesuro l’ansietat, no la psicometria

Concepte molt ampli, no consisteix en una prova o evidència, s’intenta recollir moltes proves.

Objectiu: no és tant el test com a test, sinó la interpretació de les puntuacions en relació a per a que les fem servir.

  • Ex.: si les usem per selecció de personal, és adequat per la selecció de personal?

El responsable de la validesa no és només qui construeix el test sinó qui l’usa, si no el uses correctament, fas servir

un test inadequat.

És un procés dinàmic, totes les fonts de validació són garanties pel que consisteix.

Dues columnes de com s’ha categoritzat el concepte de validesa:

  • A nivell històric sempre s’ha parlat de la validesa de contingut, de criteri i de constructe, però
  • Fa temps que es van desenvolupar els estàndards de la APA (1999-2014) que estableixen un conjunt de

tipus de validesa, el que fem és adaptar-los sense oblidar-nos dels històrics (libres medicina/farmàcia fan

servir històrics, estan molt vigents).

  • Hi ha paral·lelisme, el que de perspectiva històrica era:

o Validesa de contingut equival a validesa de contingut de estand

o La de criteri equival a la de relacions amb altres variables

o La de constructe es correspon amb:

 Estructura interna i

 Relacions amb altres variables

  • S’han afegit 2 tipus de validesa que no hi havia, maneres de crivar i buscar-ne validesa:

o Validesa com a procés de resposta

o Validesa conseqüencial

Veurem els nous estàndards de validesa però tenint en compte que tenim de base el contingut de validesa històric.

Facetes o fonts d’evidència de validesa:

  • Validesa de contingut: domini conductual
  • Procés de resposta: procés cognitiu al respondre
  • Estructura interna: relació entre ítems i dimensions
  • Relacions amb altres variables: relació amb variables externes
  • Conseqüencial: conseqüències de l’ús del test

Validesa de contingut:

Pretén:

  • Intenta garantir que el test, la prova, és una mostra rellevant i representativa d’allò que es vol mesurar.
  • Garantir que el que volem mesurar, que el test és rellevant i representatiu

o Ex.: àmbits d’educació, els continguts del que es vol mesurar està molt clar, si es vol mesurar el

coneixement en geografia, l’àmbit està molt clar.

o En psicologia és una mica més complexa.

Sabem que els tests estan formats per un conjunt d’ítems, per tant, aquests ítems han de representar de forma

suficient els diferents nivells del constructe:

  • Per a que un test sigui vàlid ha de captar o incloure la totalitat d’allò que vol mesurar, no deixar-se cap part

ni anar més enllà, per això, l’evidencia d’aquesta validesa es basa en el contingut, rellevància i

representativitat.

  • Si els continguts assoleixen tot el domini del test

Rellevància d’un ítem:

  • Si el seu contingut inclou o té informació directament relacionada amb el constructe que mesura.
  • Si te informació directa

Representatiu:

  • Aporta informació complementaria a la que aporten la resta dels ítems
  • Un complement i va intentant omplir tots els aspectes del constructe

La manca de validesa de contingut podria venir donada per excés o per defecte.

Tindrem manca per defecte de validesa de contingut si

  • El que mesura el test no inclou tots els aspectes (falta de representativitat)

o En blau el constructe, tenim la definició domini, en gris els ítems del test

o No tinc cap ítem per un aspecte  Manca de validesa per defecte, Manca de Representativitat

o Ex.: Si volem mesurar les capacitats cognitives en persones amb esquizofrènia hauríem d’incloure:

aprenentatge, memòria visual, verbal, si no tinc cap ítem que avaluï la memòria de treball, hi haurà

falta de representativitat, defecte.

  • Si tinc ítems que no aporten més informació o no estan relacionats amb el constructe (blau),

o Tinc ítems fora de la part blava  Manca de validesa per excés, ítems que no aporten informació

rellevant per mesurar aquest constructe, Manca de rellevància d’alguns dels ítems.

o Ex.: Mesura capacitats cognitives, si vaig repetint ítems i en poso alguns que mesuren altres coses,

tindré un excés i mesurarà altres coses que no són les capacitats cognitives.

Com es mesura?

  1. Definir i especificar el camp o domini del test, d’interès:

o Ex.: Anteriorment hem definit les capacitats cognitives, aquestes inclouen

aprenentatge, memòria verbal, capacitat de treball..., al definir tots els aspectes.

  1. Selecció de jutges experts  escollir persones expertes en el domini d’interè:

o Experts en el tema, però que no treballen en el disseny de la prova, la funció d’aquestes persones

serà opinar sobre quina és la rellevància i la representativitat dels ítems del que volem representar

o Han d’avaluar el grau de representació de la prova.

o En l’exemple, experts en neuropsicologia, en les capacitats cognitives.

  1. Procés d’aparellament d’ítems amb els temes d’interès de mesura del test

o El que faran serà un procés d’aparellament, cada ítem de la prova l’adjudicaran a un dels aspectes

a avaluar (ítem x per memòria visual, etc...).

  1. Valoració de la rellevància i representativitat

o Aquests jutges ens haurien de dir quin és el grau de rellevància per exemple amb una escala Likert,

això permetrà passar a l’últim pas.

  1. Selecció dels ítems adequats

o Si els jutges experts han dit que són rellevants per la prova, la prova quedarà constituïda per

aquests ítems valorats de forma satisfactòria.

És un tipus de validesa que per obtenir no es fa càlcul numèric, són judicis de persones expertes, no tenim cap tipus

de mesura numèrica per dir si te validesa o no.

  • Ex.: volem fer prova per avaluar els coneixements de psicometria
    1. Dir aspectes a avaluar si vull saber els coneixements de psicometria  Continguts a mostrejar:

Teoria dels test, Anàlisi d’ítems, Fiabilitat, Validesa, Baremació, Manual del test.

  1. Agafaríem Experts: professors de psicometria de la UAB.
  2. Faran Aparellament: correspondre cada ítem amb cada un dels continguts, ex.: ítem 1 – Baremació.
  3. Valoració: Puntuaran la rellevància i representativitat de l’ítem, ex.: puntuant-los de l’1-5.
  4. Seleccionar els ítems que els experts consideren adequats i de tots els aspectes a valorar, els més

ben valorats pels jutges experts tenint en compte la importància relativa de cada contingut, ex.: 1

ítem de TCT, 5 d’anàlisi d’ítems...

Validesa en el Procés de resposta:

En què es basa:

  • Es vol veure si les estratègies que utilitzen els subjectes per a respondre els ítems es corresponen amb la

teoria que hi ha al darrera, si el procés que segueixen les persones per respondre el test és el previst.

  • Veure les estratègies que usen subjectes (llegir, interpretar, pensar, ...) quan responen als ítems i si

aquestes responen a la teoria que hi ha sobre aquest constructe.

o Haver definit de forma acurada el constructe que es vol analitzar, a partir de les teories

psicològiques que tenim.

o Un cop ben definit, cal plantejar hipòtesi sobre la relació entre aquest constructe i els diferents

indicadors i les possibles relacions que hi pugui haver entre aquest constructe i altres constructes.

o Ex.: hi ha relació entre constructe depressió i el constructe ansietat?

  1. Un cop definit el constructe i hipòtesi caldrà recollir dades per comprovar les hipòtesis
  2. Consistència de les dades amb les hipòtesis formulades o altres alternatives:

o Tindrem una prova passada a “n” subjectes, i tenim també diferents ítems.

o Tindrem les puntuacions de cada subjecte per a cada ítem (matriu de dades)

o Amb la matriu de dades, l’anàlisi factorial el que fa és buscar la matriu de correlacions entre els

ítems (correlació de l’ítem 1 amb l’ítem 1, 1 amb 2, 1 amb 3... 2 amb 1, 2 amb 2...) a partir de les

puntuacions obtingudes  primera matriu de correlacions

o A partir de la matriu de correlacions, el programa el que fa és treure la matriu factorial  agrupar

els ítems en factors:

 Per cada ítem l’hi dóna una càrrega de cada un dels 5 factors (que he forçat) possibles

 Ex.: el ítem 1 té una càrrega “X” al factor 1, “Y” al factor 2..

 Amb la matriu factorial puc veure quin pes té cada ítem sobre els factors i podré veure que

l’ítem 1 pertany a el factor 1, el 2 al factor 3, no vol dir que no tingui càrrega en els altres

factors, però amb quin té més càrrega?

 N’hi direm càrregues o saturacions factorials, el pes que té l’ítem en cada un dels factors.

Tècnica de reducció de dades: passem de “n” variables a “r” factors,

on r < n, hi ha dues tècniques:

Anàlisi factorial:

  • Anàlisi Factorial Confirmatori (AFC): voldria dir que coneixem

prèviament l’estructura dimensional de la prova i el que volem

mirar és si realment les nostres dades, la matriu inicial, s’ajusta

a aquesta estructura que ja coneixem, volem confirmar que realment aquella estructura que hem establert

la podem acceptar, si hem pensat que hi havia 4 factors, que realment hi són:

o Ex.: si dic que hi ha 3 factors i que al factor 1 l’hi corresponen l’ítem 1 i 2, al factor 2 l’ítem 3, 4 i 5,

i al factor 3 els ítems 6 i 7  L’AFC donarà la càrrega del factor 1 pels ítems 1 i2, i així respectivament

per cada un. Vull confirmar que l’ítem 1 i 2 formen part del factor 1.

  • Anàlisi factorial Exploratori (AFE): pressuposem que nosaltres desconeixem la dimensionalitat del test i que

tampoc sabem com s’agrupen  el propi anàlisi em donarà aquesta informació. L’anàlisi explora totes les

possibles relacions i em dóna tots els possibles valors.

o Surten les càrregues de cada ítem per cada factor i nosaltres haurem de veure quins ítems realment

estan pesant en cada factor d’una forma més evident.

  • La taula de resultats és diferent si és AFC o AFE. L’estructura serà diferent segons si fem AFE o AFC.
  • Si tots els factors estan relacionats, perquè formen part del constructe, no hi haurà càrrega zero.
  • El valor de la càrrega a acceptar per posar a un factor o a un altre: cal dir al programa si els factors han de

ser independents o no, si els factors estan relacionats pot haver-hi un ítem molt relacionat amb 2 factors

alhora.

  • Ex.: 3 factors i 7 ítems:

o AFE: dóna carregues de cada ítem amb cada factor.

o AFC: només dóna carrega pels que jo he indicat.

  • Exemple de cas real AFE:

o Surten 4 factors, es marquen les saturacions que superen una càrrega

de 0.35 pels diferents factors,

o F1: ítems 2, 3, 5, 15, 16, 17, 22, 30 amb càrrega > 0.35 es podria dir el factor 1 de “Seguretat”

o F2: la resta d’ítems, amb càrrega de més de 0.35, en negatiu, estic treballant de forma adequada?

o Surten 2 factors molt clars, el f3 i f4 tenen saturacions molt baixes, no podríem considerar aquests

altres dos factors.

  • Exemple AFC:

o Ítems en referencia a Personal sanitari, Personal de recolzament, Condicions físiques, Accés al

servei.

o Veure si el que havíem pressuposat es compleix,

o No vol dir que els diferents factors no puguin tenir relació entre ells

  • Exemple 2 AFC:

o Test de personalitat, Extraversió, Neuroticisme, Paranoidisme, per cada factor dóna les càrregues

dels ítems que hagi dit que hi pertanyen.

  • Ex: escala insomni, veure si hi ha problemes per dormir, quan ja has conciliat el son o si també tens

problemes durant el dia.

o Fer proposta del que podria ser una hipotètica matriu factorial

que podria sortir d’un AFC i AFE.

o AFE:

 Factor 1: problemes del son durant la nit

 Factor 2: problemes del son durant el dia

 2 factors i 8 ítems, del 1 al 5 dóna càrregues per sobre

0.35, 6 a 8 càrregues més petites  els 5 factors

carreguen en el factor 1

 5 factors carregues menors a 0.35 i del 6 a 8 carrega per sobre de 0.35 amb el factor 2.

 solució final d’aquest estil  5 ítems que carreguen en un factor que es diu 1 i 3 sobre un

factor 2.

 llegir els ítems i dir, el factor 1, tots els ítems fan referència a la dificultat de conciliació de la

son durant la nit.

 Els altres 3 ítems són de problemes de son durant el dia.

 No hi ha càrregues amb valor 0, perquè els factors 1 i 2 estan relacionats

o AFC:

 Ja no dóna càrregues pels altres, ni pels 5 primers del

factor 2 perquè he dit que només són els altres 3.

Normalment fem AFE, per AFC he de tenir molt clar:

  • En què contribueix l’ítem en el constructe, l’ítem 1 contribueix amb

càrrega 0.425 al factor 1 i 0.704 al 2.

  • Si algun ítem té carrega nul·la per tots els factors, no té cap rellevància,

no fa cap contribució,

  • En la matriu factorial ja he de trobar aquestes càrregues suficients/importants per a que justifiquin que

l’ítem hi sigui.

  • Matrius que sortirien de l’SPSS

21/10/

Matriu de dades (MD)  Matriu de correlacions (MC)  Matriu factorial (MF)

  • MD: Fila individu, columna ítem.
  • MC: Relacions (correlacions) entre ítems, 10 ítems  “n”x”n”  10x
  • MF: fila ítem, columna factor, els valors són saturacions, carregues factorials, correlacions entre ítem i

factor, cada ítem dóna una saturació amb els diferents factors i el pes de cada ítem en cada factor, més alta

la correlació  l’ítem és més rellevant.

Passos per passar de matriu de dades a matriu factorial, decisions a prendre i què cal dir al programa en funció del

que creiem o teoria que tenim darrera. Abans cal plantejar algunes qüestions.

  1. Comprovar condicions d’aplicació, veure si les dades són adequades, adients per aplicar un AF, a partir 2

proves estadístiques:

  • KMO (Kaiser-Mayer-Olkin): Volem esbrinar si els ítems estan suficientment relacionats entre ells com

per a que els puguem agrupar en factors. Diran si hi ha algun tipus de connexió entre els ítems, si no

n’hi ha  perquè faig un AF?

o Fins a quin punt les associacions que farem d’ítems (variables) serà un grup més reduït d’ítems

del que tenim, si tinc 8 ítems i surten 8 factors  no cal fer l’AF.

AFE Factor 1 Factor 2

Ítem 1 0.6 -0.

Ítem 2 0.7 -0.

Ítem 3 0.5 -0.

Ítem 4 0.8 -0.

Ítem 5 0.45 -0.

Ítem 6 -0.1 0.

Ítem 7 -0.15 0.

Ítem 8 -0.18 0.

AFC Factor 1 Factor 2

Ítem 1 0.6 0

Ítem 2 0.7 0

Ítem 3 0.5 0

Ítem 4 0.8 0

Ítem 5 0.45 0

Ítem 6 0 0.

Ítem 7 0 0.

Ítem 8 0 0.

  1. Apliquem extracció de factors per eixos principals, i

  2. Decidim que la rotació hauria de ser obliqua perquè els possibles factors que surtin creiem que poden estar

relacionats  oblimin

  1. Un cop aplicat apareix:
  • La taula de comunalitats, on diu per cada ítem quina és la quantitat d’informació que cadascun dels

ítems comparteix amb el factor comú (en l’exemple: insomni). Quina quantitat d’informació l’ítem 1

comparteix amb el factor comú (o l’ítem 2 o ítem 3).

o Podrem veure si tots els ítems comparteixen o contenen alguna cosa en comú amb el

constructe global.

o Interessarà que en aquesta primera taula les comunalitats haurien de ser elevades i lo més

similars possibles  per tal que tots els ítems aportin el mateix.

  • Una taula on treu el nombre de factors segons el criteri de Kaiser, valor propi més gran que 1  els

factors que expliquen suficient variància del constructe.

o Dóna 2 factors, dels 8 ítems no treu 8 factors, amb un sol factor tindria explicada el 43,49% de

la variància de les dades, amb el segon factor explico un 60% de la variància. Ja m’està bé.

o Un 60% de la informació que contenien tots els ítems de forma individual s’explica en 2 factors

o Determinació de factors: a partir de l’autovalor o valor propi (eigenvalue). l’AF extreu els factors

més significatius.

o L’autovalor és la mesura de la quantitat d’informació del factor, més alt  més informació

aporta.

o Es fixa en l’autovalor i criteri que sigui > 1

o Un factor amb autovalor > 1 és suficientment rellevant per tenir-lo en compte, explica suficient

informació.

  • Un gràfic de sedimentació, determina el número de factors, diu quants factors hem extret amb l’AFE,

treu el número de components (número de factors que podria haver-hi) i els autovalors:

o Abscisses: número de components o factors.

o Ordenades: autovalors.

o Permet veure, visualment, en quin moment la corba s’estabilitza i passa a ja no tenir pendent

 moment en que el nombre de factors ja no aporten res.

o És complementari a la taula anterior. Tècnica subjectiva.

o Confirma el que veiem abans, ajuda a decidir els factors que ens quedarem per la prova.

o Interessa: explicar el màxim de la variància amb el mínim número de factors possible.

o Màxim de variància: punt de tall al 50%, determina el màxim de factors raonable.

o Cal trobar l’equilibri entre la quantitat d’informació explicada i número de factors a retenir.

o Vull explicar el màxim d’informació amb el número mínim de factors.

AFE: Rotació: ortogonal vs obliqua. El que fa és moure en l’espai els eixos (desplaçar-los) de forma que cada ítem

estigui més relacionat amb un factor, els ítems estan al mateix lloc, desplaço els eixos.

  • Ortogonal, considerem que els factors no estan relacionats (són independents)  no deixen que els 2 factors

es modifiquin i s’ajuntin.

o Els eixos dels dos factors són perpendiculars.

  • Obliqua, considerem els factors relacionats  els eixos es poden modificar, no cal que segueixin

perpendiculars  ítems que podrien estar a cavall entre un i altre i ara van a un altre.

o Els eixos es mouen obliquament, no de forma perpendicular.

o Busca la línia que millor explica un grup d’ítems, no obligo a que siguin perpendiculars.

  • La rotació no varia la comunalitat global, ni la variància que aporta el factor, el que farà es que es distribueixi

lleugerament diferent a un factor o altre i així pugui veure més clar a quin dels 2 o 3 factors podria estar.

  • Els dos busquen alinear al màxim un grup d’ítems.
  • Interpretem després de la rotació.

Si les condicions d’aplicació es compleixen  comunalitats (comparteixen informació)

Primera matriu de saturacions (matriu inicial) de cada ítem amb cada component:

  • L’ítem 1, factor 1  0.57, factor 2  0.483  pes semblant a els 2 factors.
  • L’ítem 2, factor 1  0.317, factor 2  0.711  pesa més amb el factor 2 que amb el factor 1.
  • Podria quedar algun dubte  com en el cas de l’ítem 1  fem rotació obliqua de la matriu de saturacions

inicial, perquè pensem que els factors sí que estan relacionats  redistribueix les càrregues malgrat que la

saturació inicial es manté igual. En fer la rotació tenim la matriu rotada:

o L’ítem 1 amb el factor 1 passa de 0.57 a 0.425, i amb el factor 2 de 0.483 a 0.704  L’ítem 1

l’assignaríem al factor 2, té més pes amb el factor 2.

o L’ítem 3 carrega al factor 2 i el 4 al factor 1

o L’ítem 5 té càrregues creuades i els ítems 6, 7 i 8 al factor 1.

  • Té lògica la matriu obtinguda, pot ser que el test sigui bidimensional o unidimensional?

o Unidimensional: una puntuació

o Bidimensional 2 puntuacions

  • La matriu de correlacions entre components, perquè he fet rotació

obliqua (si fes rotació ortogonal, seria zero)

o Diu que el f1 (ítems 1, 4, 5, 6 7, 8) correlació amb f2 amb 0,43,

correlació força alta entre factors

o Pot fer pensar que és un test que funciona de forma

unidimensional

o Tenim carregues creuades  S’haurien d’haver ajuntat ítems

a uns factors i uns a altre

Càlcul de la comunalitat de l’ítem (és de l’ítem):

  • És la quantitat d’informació de l’ítem que comparteix amb la resta d’ítems, amb els factors comuns.
  • N’hi ha tantes com número d’ítems.
  • h

2

2

2

= 0.558  dóna comunalitat de tot l’ítem sencer a partir de les càrregues factorials de l’ítem

en qüestió, elevar-les al quadrat i sumar-les.

 No canvia les càrregues, les distribueix.

Càlcul de l’autovalor: per un factor se suma cada una de les càrregues dels ítems al quadrat sumada. També dóna

un autovalor d’un factor similar, els valors obtinguts un cop feta la rotació, la suma de cada valor elevat al quadrat.

  • Quantitat d’informació que aporta el factor, percentatge de la variància explicada, total de variància que el

factor explica del conjunt d’ítems (suma al quadrat de les saturacions).

  • Hi ha tants autovalors com factors m’hagin sortit
  • Es calcula igual que la comunalitat, però enlloc de l’ítem, ho fem pel factor.
  • En l’exemple tindrem 2 autovalors, un per cada factor:

o Saturacions o càrregues factorials dels ítems pel factor 1: 0.

2

2

2

  • Si l’autovalor el divideixo pel número d’ítems i multiplico el resultat per 100  tenim el % de la variància

explicada pel factor: 𝑉𝑎𝑟𝑖à𝑛𝑐𝑖𝑎 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑝𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 =

஺௨௧௢௩௔௟௢௥ ௗ௘௟ ௙௔௖௧௢௥

௡ú௠௘௥௢ ௗᇱí௧௘௠௦

o 𝑉𝑎𝑟𝑖à𝑛𝑐𝑖𝑎 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑝𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 =

ଷ.ସ଼ଵ

o El factor explica el 43% de la variància dels ítems.

o Els factors amb autovalors més grans, expliquen més variància.

o Per això l’SPSS selecciona el número de factors per l’autovalor.

o El component 3, té un autovalor inferior a 1  L’SPSS ja no l’agafa

  • L’autovalor és del factor

Resum, a tenir en compte de l’AF

  • Condicions d’aplicació KMO-Esfericitat  Mirar que es compleixin les condicions d’aplicació
  • Seleccionar el mètode d’extracció (eixos principals, altres)
  • Pensar la rotació que faig: decidir quina farem

o Ortogonal (varimax)

o Obliqua(oblimin)

  • Determinar el nº de factors, normalment amb:

o Criteri de Kàiser, dir la variància, i

o Gràfic de sedimentació.

  • Interpretar els resultats: comunalitats, variància explicada, com està composta la MF, si hem fet obliqua.

Decidir abans d’interpretar l’AF

Validesa de criteri: grau d’eficàcia amb què podrem diagnostica o predir la variable criteri a partir de les

puntuacions del test.

Veure si podem predir amb la prova, el criteri que pretenem diagnosticar/avaluar.

Es busca depenent tant de les puntuacions del test com del criteri, tipus:

  • Coeficient de validesa (r xy

): Si les puntuacions són de tipus quantitatiu i les del criteri també  es busquen

correlacions entre les puntuacions del test (X) i el criteri (Y).

  • Validesa de decisió: Normalment el que es fa és comparar les puntuacions del test amb puntuacions de

criteri categoritzades (normalment dicotòmiques)  hem d’usar la validesa de decisió, per veure si el test

discrimina bé la decisió que es pren (malaltia si/no).

o La puntuació és quantitativa, el criteri és dicotòmic.

Cal tenir clares algunes coses, segons què volem tenir i amb quins indicadors ho farem, cal saber què agafaré com

indicador per veure si el test selecciona o no bé, escollir adequadament els indicadors, quin és el criteri i els

indicadors del criteri. Alguns exemples:

  • Si volem validar un test d’intel·ligència:

o Criteri que volem predir: el rendiment acadèmic

o Possible indicador del criteri: Notes escolars de l’alumne en totes les assignatures

  • Sistema de selecció de personal en una empresa de ventes:

o Criteri que volem predir: el rendiment comercial

o Possible indicador del criteri: quin serà un bon indicador del rendiment comercial? El nombre de

vendes setmanal del producte.

  • Prova d’accés a la universitat:

o Criteri que volem predir: mirarem la validesa, comparant amb el rendiment acadèmic

o Possible indicador del criteri: nota mitjana de la carrera

o Veure si les PAAU tenen relació amb la nota de la carrera

 les PAAU com a mesura adient del rendiment acadèmica que posteriorment farà l’estudiant.

  • Relacions paterno-filials  sanes/estructura patològica?

o Problema: quins indicadors serveixen per determinar les relacions paterno-filials?

o Possible indicador del criteri: Com respon el pare/mare a certes actituds.

  • Test d’aptitud mecànica:

o Criteri que volem predir: mesurar la destresa mecànica

o Possible indicador del criteri: temps (en hores) que triga en arreglar un cotxe amb la mateixa averia

 com menys temps, més destresa, correlació negativa.

  • Plaça de professor a la universitat per cobrir, professor de psicometria, usar prova per escollir una persona

o professor que la imparteixi amb èxit:

o Criteri que volem predir: impartir assignatura amb èxit

o Indicador:

Trobem dificultat de selecció dels indicadors del criteri.

Requisits segons Thorndike i Hagen (1989): van donar estratègies, criteris, per pensar que els indicadors són bons:

  • Rellevants:

o Un indicador és rellevant en la mesura en què es correspon amb el criteri. Cal utilitzar el judici dels

jutges experts.

o Recordar que per determinar si un ítem era rellevant, calien jutges experts  tenir clar que si usem

un indicador que és irrellevant, fins i tot pot influir en l’ús o predicció que n’acabem fent.

 Ex.: depressió post part, parlar amb experts en depressió per saber quins indicadors són

rellevants per saber si la persona està fent o és possible que faci una depressió.

  • Lliures de biaix:

o Les mesures del criteri han de representar la verdadera competència dels subjectes i no estar

determinades per factors que actuïn diferencialment entre grups. Ex.: secretàries-físic.

 Per avaluar la competència d’una persona a un lloc de treball, per assegurar-nos que ho fa

hem d’assegurar-nos de les competències a nivell laboral i que no hi ha altres factors que

puguin influir en la selecció, que no tenen res a veure amb la competència professional,

evitar el biaix.

  • Fiables: entès com a estabilitat en el temps

o Les mesures del criteri que escollim haurien de ser estables en el temps.

o No puc establir un indicador per accedir a un lloc de treball i que avui

sigui adequat i passada una setmana deixi de ser-ho  una persona

considerada competent en un moment i 15 dies després ja no, no seria

un indicador fiable.

  • Accessibles:

o A igualtat de condicions d’adequació, escollirem aquell criteri que és més fàcil i pràctic aconseguir.

Tindrem en compte aspectes econòmics, temporals, etc.

o Si escollíssim o tinguéssim diferents opcions d’indicadors sempre s’escull el que és més fàcil i pràctic

d’aconseguir (en tipus econòmic com de facilitat).

Fases de la validesa de criteri, ex.: predicció del rendiment acadèmic a partir del test d’intel·ligència

  1. Definir el criteri que es pretén mesurar.

o Si tenim un test d’intel·ligència i el criteri és el rendiment acadèmic  Definir bé què entenem per

rendiment acadèmic (no suspendre, aprovar amb nota mitjana X, etc.).

  1. Identificar l’indicador o indicadors que s’utilitzaran per mesurar el criteri.

o Com mesurarem el rendiment acadèmic? A partir de les notes escolars, per part del professor?

Notes d’exàmens, avaluació qualitativa?

  1. Selecció d’una mostra representativa de subjectes.

o Mostra de nens i nenes en edat escolar, cada test és per unes edats concretes.

  1. Administració del test i obtenció d’una puntuació per a cada persona, passar la prova.

o Per cada nen i nena obtenir la puntuació en el test.

  1. Mesura de cada persona en el criteri: abans del test (retrospectiva), mateix temps que el test (concurrent)

o després del test (predictiva). En passar la prova tindrem la mesura en el criteri (rendiment acadèmic),

aquest criteri es pot realitzar en 3 moments temporals, per tant, tenim 3 tipus de validesa:

o Retrospectiva: aplicació de test i criteri separades en el temps, primer s’aplicaria el criteri i al cap

d’un temps, el test:

 Poc utilitzat, treballs en alumnat, per veure si l’alumnat amb millor rendiment tenien

predisposició per alguna cosa.

o Concurrent:

 Si apliquem el test i rendiment acadèmica alhora.

 Es fa en diagnòstic clínic normalment, no en test d’intel·ligència

 Clínic: s’avalua el pacient i es passa el test que es vol validar, si hi ha correlació entre

l’avaluació del test i la de l’especialista (criteri)  direm que tenim validesa suficient de la

prova (test) per a diagnosticar els pacients, sense necessitat de l’entrevista de 2 hores.

 Es fa en clínica perquè com que estem avaluant un possible trastorn, necessito que el

diagnòstic sigui el més ràpid possible, pot ser que si hi ha temps pel mig hi hagi variació en

el diagnòstic i evolució.

o Predictiva: aplicació del criteri i test separades en el temps, podrien arribar a passar anys entre una

aplicació i una altra:

 Primer s’aplica el test que vol avaluar quelcom i al cap d’un temps es treuen els valors del

criteri amb els indicadors adequats.

 Ex.: proves PAAU, determina l’ingrés o no d’una persona a la universitat, volem veure si era

una prova vàlid  caldria al cap de 4 anys veure si hi ha correspondència entre els resultats

de la prova (test) i el criteri (nota mitjana treta en aquesta 4 anys al llarg de la carrera).

 Veure si la predicció de la prova és vàlida o no.

o En els tres casos tenim 2 blocs de dades, dades del test i del criteri escollit.

  1. Càlcul del coeficient de validesa: determinar el grau de relació entre les puntuacions en el test i en la mesura

del criteri.

o Forma més habitual, si són quantitatius  Correlació entre les dues mesures, similar al que vam

fer amb la fiabilitat

o Si tenim 2 tests diferents o un és test i l’altre criteri

𝑆

: Desviació típica del criteri

𝑟

௫௬

: Coeficient de validesa del test

23/10/

Amb l’interval de confiança obtenim la puntuació en el criteri quan tenim la puntuació en el test.

Factors que afecten al coeficient de validesa: valors diferents d’una prova poden venir donats per aquests factors,

a tenir en compte si ens donen la validesa o l’hem de buscar nosaltres, factors que poden explicar en estudis que

buscant validesa d’una mateixa prova doni valors lleugerament diferents, per algun d’aquests factors:

  • Validesa dels ítems: afecta a la validesa del test, baixa validesa a un ítem repercutirà en la validesa del test,

de la prova.

  • Variabilitat: el coeficient de validesa és la correlació, la correlaciona entre puntuacions obtingudes pels

subjectes en el test i en el criteri, els coeficients de correlació tendeixen a augmentar quanta més

variabilitat hi ha a les dades  quanta més variabilitat tinguem, tant en puntuacions del test com del criteri,

ajudarà a augmentar la valides.¿?

  • Fiabilitat: si la fiabilitat del test i criteri fos perfecta (fos 1)  pensaríem que la correlació entre ells hauria

de ser també perfecte (1). La validesa, correlació entre test i criteri equival a l’ arrel quadrada de la fiabilitat

 el valor màxim del coeficient de validesa és igual o menor a l’arrel quadrada del coeficient de fiabilitat.

Més alta la fiabilitat  més alta serà la validesa de la prova r xy

≤ arrel de r xx

  • Longitud del test: la fiabilitat la podíem augmentar afegint ítems i augmentant-los, augmentàvem la

fiabilitat, per tant, si la fiabilitat repercuteix en la validesa  si augmentem la longitud del test repercutirà

en la fiabilitat i també repercutirà en la validesa.

Fins ara, validesa criteri test, basant-nos en la correlació entre test i criteri, però també podria passar que tinguéssim

puntuacions dicotòmiques o dicotomitzades (enlloc de contínues)  només sé si té o no depressió, sa vs. malalt 

També puc buscar validesa de criteri però parlarem de validesa de decisió, veure fins a quin punt si el test és útil

per prendre la decisió que cal prendre, sa vs. malalt, aprovat vs. suspès... Veure la validesa de decisió.

Validesa de decisió:

Es construeix una matriu de confusió, 2x2, tenim:

  • A les files: Resultat del test  Si el test és continu, he de buscar un punt de tall, ex: aprovat/suspès >5 o <
  • A les columnes: Diagnòstic criteri  Mesura que considerem bona, Ex.: diagnòstic d’un especialista

verdader/fals – té o no té.

o Positiu, amb trastorn, malalt, apte, tractament, rehabilitació, teràpia...

o Negatiu, sense trastorn, sa, no apte, no tractament, no rehabilitació, no teràpia...

  • Matriu 2x2 amb 4 caselles, amb tota la informació de les dades:

Diagnòstic criteri

Total

Positiu Negatiu

Resultat del

test

Positiu

Verdader positiu

(f 11

)

Fals positiu

(f 12

)

f

Negatiu

Fals negatiu

(f 21

)

Verdader negatiu

(f 22

)

f

Total f .

f .

N

o f11  casella 1: és positiu al test i al criteri  Verdaders positius  subjectes que tan l’especialista

com el test diuen que sí que té trastorn.

o f22  casella 4: negatiu test i criteri  Verdaders negatius subjecres que tan l’especialista com

el test diuen que no té el trastorn.

Caselles d’error:

o f12  casella 2: és positiu al test i negatiu al criteri  Fals positiu  Subjectes sense trastorn, però

el test diu que sí.

o f21  casella 3: és negatiu al test i positiu al criteri  Fals negatiu  Subjectes que sí que tenen

trastorn però que el test diu que no.

  • Marginals:

o fila1.  Total de subjectes que segons el test són positius

o fila2.  Total de subjectes que segons el test tots són negatius

o fila.1  Total de subjectes que tenen trastorn segons el criteri

o fila .2  Total de subjectes que no tenen el trastorn segons el criteri

  • N  total de subjectes als que s’ha aplicat el test i el criteri.

Importància de reduir el nombre d’errors tenint en compte si són falsos negatius o positius.

  • Error tipus 1: fals positiu (home panxa, embarassat)
  • Error tipus 2: fals negatiu (dona embarassada, se l’hi diu que no)
  • Cal mirar quin error és més greu, s’ha de reduir l’error que sigui pitjor. Ex.: fer teràpia a un pacient, més

greu no fer teràpia i que ho necessitis a fer teràpia i que no ho necessitis.

Representació gràfica, què passaria segons el punt de tall que posem:

  • Part superior, com es distribuirien els subjectes que tenen el trastorn, verdaders

positius

  • A la part inferior, els subjectes que no la tenen, verdaders negatius
  • Puc dir a partir d’un punt de tall, que els subjectes que tinguin una puntuació

per sobre diré que tenen la malaltia, i els que quedin per sota, diré que no.

  • Segons el punt de tall,

o En verd els que sí que tenen el trastorn, verdaders positius, estan ben

classificats per la prova,

 Dels verdaders positius, els que queden per sota del punt de tall seran els falsos negatius.

o El mateix passa amb el punt de tall cap a sota, són verdaders negatius els que queden a l’esquerra

 Dels verdaders negatius, els que queden per sobre del punt de tall seran els falsos positius

  • Què passa amb els que estan per sota del punt de tall però en canvi si que tenen el trastorn?

o Com que el punt de tall el tinc allà, no els puc incloure, el mateix amb els que no la tenen i estan

per sobre.

  • Si trasllado el punt de tall, què passa? augmento els falsos negatius o augmento els falsos positius.
  • El punt de tall decideix quina casella d’errors augmenta o disminueix.

Índex de validesa de decisió: proporció de classificacions correctes, sensibilitat i especificitat

L’índex de validesa de decisió s’obté a partir de la proporció de classificacions correctes (P c

ଵଵ

ଶଶ

  • Fins a quin punt la prova classifica correctament, ja sigui perquè detecta el trastorn o perquè diu que no.

Sensibilitat: al numerador tenim els verdaders positius, subjectes que tant el criteri especialista com el test diuen

que sí que tenen el trastorn, partit pel marginal dels que sí que el tenen segons el criteri  fins a quin punt el test

classifica bé els casos positius, verdaders positius i els que sí tenen trastorn.

ଵଵ

.ଵ

  • Capacitat d’un test per a diagnosticar els casos positius. Indica la proporció de persones que tenen el

trastorn que han estat classificades correctament. És màxima quan no hi ha falsos negatius.

Especificitat: te en compte els verdaders negatius, els que no tenen trastorns, i els divideix pel total de subjectes

que no tenen trastorn segons el criteri, mira si el test classifica correctament a les persones sanes, a les persones

que no tenen el trastorn.

ଶଶ

.ଶ

  • Capacitat d’un test per a diagnosticar els casos negatius. Indica la proporció de persones que NO tenen el

trastorn que han estat classificades correctament. És màxima quan no hi ha falsos positius.

Índex de validesa de decisió: Coeficient Kappa:

  • A banda d’aquests 3 índex (P c

, S, E), hi ha un altre índex, el coeficient Kappa, és el més utilitzat,

  • Té en compte que la probabilitat de classificació es pot realitzar per atzar, probabilitat d’encert per atzar,

fórmula més complexa  corregeix per atzar.

  • Té en compte el factor atzar, es recomana que s’utilitzi aquest índex,
  • És molt més estricte que els altres. Si trobem validesa de 0.60 amb Kappa, és molt més estricte.

Kappa = freqüència d’acords menys els acords que es poden trobar per atzar, partit per N menys l’acord per atzar.

ி

ି ி

ேିி

, on:

o 𝑆

௘(௄)

ி

ே·(ேିி

)

ଶ଼଴

ହ଴଴(ହ଴଴ିଶ଼଴ )

= 0.05  Considerem una Kappa bona, acceptable.

Punt de tall per la validesa de decisió:

  • Hem d’escollir el punt de tall del test, dicotomitzem les puntuacions
  • Sempre prenem una decisió de a partir de quin moment els subjectes són sans, estan malalts o han aprovat

o suspès.

  • El punt de tall escollit minimitzarà o augmentarà els falsos positius o negatius.

Exemple: Tenim 12 persones, se’ls ha aplicat un test per saber si necessiten o no passar per teràpia.

  • L’escala té puntuació de 1 a 10,
  • També tenim la valoració de l’expert, psicòleg, que ha avaluat les 12 persones, i diu si necessiten o no

tractament.

  • Depenent d’on posem el punt de tall tindrem més o menys falsos positius/negatius.
  • Si el punt de tall fos 1, (el test va de 1 a 10, les 10 puntuacions es poden marcar com a punt de tall), estarem

dient que tots els que tenen una puntuació a l’escala d’1 o superior necessita tractament. Si ho fem així:

o El subjecte A seria un fals positiu, el mateix passarà per la resta dels subjectes pels que tenen

diagnòstic “no tractament” però pel punt de tall, diem que sí, tots seran falsos positius  Tindrem

6 falsos positius si marco el punt de tall en la puntuació de 1

o En canvi no tindria cap fals negatiu.

  • Si el punt de tall fos 2, passa el mateix (6 falsos positius i cap negatiu) el mateix amb el punt de tall 3
  • Si el punt de tall fos 4, segons diagnòstic és NT, seria fals positiu

o ara enlloc de 6 falsos positius en tenim 5

  • Si fem el punt de tall 5

o El subjecte que té puntuació de 5 i NT diem que sí, segueix sent fals positiu

o Els subjectes amb puntuació 4 i 3 no són falsos positius

o Tindríem 4 falsos positius

  • Punt de tall 6, reduïm a 3 falsos positius, cap negatiu
  • Punt de tall 7:

o Tinc un subjecte que té puntuació de 6 però que segons diagnòstic necessita tractament i diem que

no el necessita  estem cometent un fals negatiu

o Seguim tenint 2 falsos positiu

o Segueixen havent-hi erros, però distribuïts diferent

  • Punt de tall 8:

o ara tinc 3 falsos negatius i un fals positiu

  • Punt de tall 9:

o cap fals positiu, tots 4 seran falsos negatius, persones que segons test

no necessiten tractament però l’expert diu que sí.

  • Punt de tall 10:

o 5 falsos negatius

Punt de tall més adient?

  • Per cada possible punt de tall, calcular ell número de Falsos Positius, Falsos

Negatius i el número total d’errors

  • A partir d’aquí, escollir el punt de tall que minimitzi el número d’errors (a nivell global).
  • En cas d’empat, valorar la implicació de cometre un fals positiu o un fals negatiu.
  • En l’exemple, fem una taula pels 10 punts de tall possibles, els errors que es cometien i FP i FN,

o Primer mirar quants erros cometo amb els punts de tall

o Veig que tant amb el 6 com el 7 cometo 3 errors, per quin m’he de decidir?

 Punt de tall 6: faré 3 falsos positius i cap fals negatiu

 Punt de tall 7: faré 2 falsos positius i un fals negatiu

o Hem de veure què estem avaluant: aplicar tractament o no  és més greu un fals negatiu, persona

que necessita tractament però no l’hi estem donant.

o Per tant, entre els dos punts de tall, escolliré aquell que redueix el número de falsos negatius,

malgrat que hi hagi 3 persones que no necessiten tractament però a qui se’ls hi donarà.

25/10/

El punt de tall que escollim és el que fa que cometi menys

errors, en l’exercici, amb els punts de tall 4 i 5 cometo 3

erros, amb el punt de tall 6 en cometo 2, encara que tingui

un fals negatiu és millor perquè té menys errors. Entre els

punts de tall 4 i 5, seria menys perjudicial el 4 que el 5

perquè no hi ha falsos negatius. Per tant no hi ha cap persona que necessiti rehabilitació i no se l’hi doni.

Fer la matriu amb els diferents punts de tall, verdaders negatius, verdaders positius, fals positius i falsos negatius i

total d’errors.

Fins aquí la validesa de criteri, amb validesa de decisió i criteri.

Validesa convergent i discriminant:

Serveix per veure el grau amb què el test es relaciona, en la direcció i la magnitud esperades, amb variables externes

que mesuren el mateix constructe (o similar) o un constructe diferent, s’estudia a partir de:

  • Coeficient de correlació:

o Amb el mateix constructe o constructes relacionats (Validesa convergent)

 Mirem com es relaciona el nostre test amb una altra variable que mesura el mateix

constructe.

 Si mesuren el mateix constructe o van en la mateixa direcció  les correlacions entre les

puntuacions de la meva prova i la prova que avalua el mateix constructe han de

correlacionar, han d’anar en la mateixa direcció, m’estaria validant el test perquè veig que

les puntuacions estan correlacionades.

 S’usa molt sovint, és fàcil d’aplicar, validesa més econòmica que la de criteri o decisió, una

de les aproximacions que s’usen més.

o Amb constructes diferents o poc relacionats (Validesa discriminant)

 S’avalua el grau en que el meu test es relaciona amb variables externes que mesuren

constructes diferents.

 Lògica: si no estan relacionats, lògicament no puc trobar correlacions altes

 Si trobo correlacions altes  Tinc un problema,

 Constructes que avaluen coses diferents, no poden estar relacionats.

  • Matriu multitret-multimètode (Campbell i Fiske, 1959): es una altra manera d’avaluar la validesa.

o El que es fa és que si tenim varis trets que es poden avaluar amb diferents estratègies, es busquen

les correlacions dels trets amb totes les estratègies diferents.

o Calcula les correlacions de tot amb tot.

o Estratègia multitret-multimètode, correlacions entre mètodes i estratègies (trets), trobem:

 Mateix tret – diferent mètode (Validesa convergent)

 Diferent tret – mateix mètode (Validesa discriminant)

Criteris de valoració de la validesa convergent de Prieto y Muñiz (2000): Si el

que busquem és la validesa convergent, entre el test i una variable externa

(criteri) que avalua el mateix  criteris de Prieto i Muñiz.

< 0.25 Inadequada

0.25 ≤ |𝑟| < 0.40 Adequada però amb algunes mancances

0.40 ≤ |𝑟| < 0.50 Adequada

0.50 ≤ |𝑟| < 0.60 Bona

|𝑟| ≥ 0.60 Excel·lent

Exemple: Tenim dues proves, dues puntuacions per una banda el NEO-PI-R amb 5 dimensions i els adjectius de

Goldberg. (OCEAN: obertura, responsabilitat, extraversió, amabilitat, neuroticisme, inicials en castellà/català

OREAN) i després 5 trets de Goldberg (intel·lecte, Amabilitat, Responsabilitat, Estabilitat, Extraversió).

  • En l’exemple es busca correlació de tot amb tot.
  • Dóna una matriu complexa on hem d’anar mirant els valors que surten:

o L’intel·lecte correlaciona en 0.45 amb obertura,

o Responsabilitat amb responsabilitat en 0.70,

Punt de tall Vn Vp Fp Fn Errors

≥ 4 4 4 3 0 3

≥ 5 5 3 2 1 3

≥ 6 6 3 1 1 2

≥ 8 7 2 0 2 2

Validesa basada en la comparació de grups:

Última evidència quan parlàvem de validesa en relació a altres variable, es pot fer comparació entre grups.

La teoria ens diria que les puntuacions del test van demostrar diferències en grups diferents (ex.: homes vs. dones,

pacients ingressats vs. ambulatoris, pacients amb tractaments i no).

Grau amb què al comparar les puntuacions del test entre grups definits els resultats estan en consonància amb el

model teòric sobre el qual s’ha construït el test

  • Si el model teòric planteja que els grups difereixen en el constructe (que hi ha diferències):

o Les puntuacions del test hauran de reflectir aquestes diferències,

 Comparació de grups amb resultats estadísticament significatius.

o Si vull avaluar l’evidència, hauré de recollir dades de l’aplicació d’aquesta prova per cada un dels

dos grups i calcular-ne les correlacions. A partir d’aquí, a partir del test estadístic corresponent,

veure si es confirma la hipòtesi que planteja la teoria (si hi ha diferències entre els 2 grups).

  • Si el model teòric planteja que els grups no difereixen en el constructe:

o Les puntuacions del test hauran de ser similars,

 Comparació de grups amb resultats no estadísticament significatius.

  • Exemple: Validesa basada en comparació de dos grups, WHODAS, comparació de les puntuacions

obtingudes entre els pacients que, en el moment de l’estudi, estaven treballant i els que no.

o Avalua la discapacitat (OMS), segons diferents aspectes, veure si hi ha diferències entre grups

(freqüent entre diverses proves).

Validesa conseqüencial:

Es pretén

  • Avaluar si les conseqüències de l’ús del test són les conseqüències previstes, rellevants i que justifiquen la seva

aplicació. Les conseqüències positives i negatives d’aplicar el test coincideixen amb les previstes.

o Demostrar que realment les conseqüències de l’avaluació coincideixen amb les conseqüències que es

pretenia assolir. Que permet assolir allò que es volia assolir i no altres coses.

o Explorar l’existència de possibles conseqüències no previstes. Si hi ha conseqüències no previstes, veure

si poden ser perjudicials pels subjectes. Establir si la seva aplicació pot tenir conseqüències pel subjecte.

  • Especialment important quan l’aplicació d’una prova serveix per a prendre decisions crítiques per les persones,

inclús decisions que poden ser considerades d’alt risc o que poden perjudicar a un col·lectiu.

  • Ex.: entrar o no a la universitat, podria ser conseqüència greu si la prova no fos amb prou garanties de validesa