











Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
El proceso de análisis factorial de datos de pruebas psicométricas, enfocándose en la validesa y la fiabilidad. Se detalla el uso de la matriz de correlaciones entre ítems, la extracción de la matriz factorial y la prueba de esfericidad de bartlett. Además, se discuten los coeficientes de validesa y la importancia de la longitud del test en la validesa.
Tipo: Apuntes
1 / 19
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!












16/10/2019 Validesa
Fiabilitat: que la mesura era correcta
Validesa: fa referència a un conjunt de proves i dades que es van recollint per garantir l’adequació de les inferències
que nosaltres fem en passar una prova.
Test vàlid: Les inferències o interpretacions que fem a partir del test s’adeqüen al propòsit del test.
Concepte molt ampli, no consisteix en una prova o evidència, s’intenta recollir moltes proves.
Objectiu: no és tant el test com a test, sinó la interpretació de les puntuacions en relació a per a que les fem servir.
El responsable de la validesa no és només qui construeix el test sinó qui l’usa, si no el uses correctament, fas servir
un test inadequat.
És un procés dinàmic, totes les fonts de validació són garanties pel que consisteix.
Dues columnes de com s’ha categoritzat el concepte de validesa:
tipus de validesa, el que fem és adaptar-los sense oblidar-nos dels històrics (libres medicina/farmàcia fan
servir històrics, estan molt vigents).
o Validesa de contingut equival a validesa de contingut de estand
o La de criteri equival a la de relacions amb altres variables
o La de constructe es correspon amb:
Estructura interna i
Relacions amb altres variables
o Validesa com a procés de resposta
o Validesa conseqüencial
Veurem els nous estàndards de validesa però tenint en compte que tenim de base el contingut de validesa històric.
Facetes o fonts d’evidència de validesa:
Validesa de contingut:
Pretén:
o Ex.: àmbits d’educació, els continguts del que es vol mesurar està molt clar, si es vol mesurar el
coneixement en geografia, l’àmbit està molt clar.
o En psicologia és una mica més complexa.
Sabem que els tests estan formats per un conjunt d’ítems, per tant, aquests ítems han de representar de forma
suficient els diferents nivells del constructe:
ni anar més enllà, per això, l’evidencia d’aquesta validesa es basa en el contingut, rellevància i
representativitat.
Rellevància d’un ítem:
Representatiu:
La manca de validesa de contingut podria venir donada per excés o per defecte.
Tindrem manca per defecte de validesa de contingut si
o En blau el constructe, tenim la definició domini, en gris els ítems del test
o No tinc cap ítem per un aspecte Manca de validesa per defecte, Manca de Representativitat
o Ex.: Si volem mesurar les capacitats cognitives en persones amb esquizofrènia hauríem d’incloure:
aprenentatge, memòria visual, verbal, si no tinc cap ítem que avaluï la memòria de treball, hi haurà
falta de representativitat, defecte.
o Tinc ítems fora de la part blava Manca de validesa per excés, ítems que no aporten informació
rellevant per mesurar aquest constructe, Manca de rellevància d’alguns dels ítems.
o Ex.: Mesura capacitats cognitives, si vaig repetint ítems i en poso alguns que mesuren altres coses,
tindré un excés i mesurarà altres coses que no són les capacitats cognitives.
Com es mesura?
o Ex.: Anteriorment hem definit les capacitats cognitives, aquestes inclouen
aprenentatge, memòria verbal, capacitat de treball..., al definir tots els aspectes.
o Experts en el tema, però que no treballen en el disseny de la prova, la funció d’aquestes persones
serà opinar sobre quina és la rellevància i la representativitat dels ítems del que volem representar
o Han d’avaluar el grau de representació de la prova.
o En l’exemple, experts en neuropsicologia, en les capacitats cognitives.
o El que faran serà un procés d’aparellament, cada ítem de la prova l’adjudicaran a un dels aspectes
a avaluar (ítem x per memòria visual, etc...).
o Aquests jutges ens haurien de dir quin és el grau de rellevància per exemple amb una escala Likert,
això permetrà passar a l’últim pas.
o Si els jutges experts han dit que són rellevants per la prova, la prova quedarà constituïda per
aquests ítems valorats de forma satisfactòria.
És un tipus de validesa que per obtenir no es fa càlcul numèric, són judicis de persones expertes, no tenim cap tipus
de mesura numèrica per dir si te validesa o no.
Teoria dels test, Anàlisi d’ítems, Fiabilitat, Validesa, Baremació, Manual del test.
ben valorats pels jutges experts tenint en compte la importància relativa de cada contingut, ex.: 1
ítem de TCT, 5 d’anàlisi d’ítems...
Validesa en el Procés de resposta:
En què es basa:
teoria que hi ha al darrera, si el procés que segueixen les persones per respondre el test és el previst.
aquestes responen a la teoria que hi ha sobre aquest constructe.
o Haver definit de forma acurada el constructe que es vol analitzar, a partir de les teories
psicològiques que tenim.
o Un cop ben definit, cal plantejar hipòtesi sobre la relació entre aquest constructe i els diferents
indicadors i les possibles relacions que hi pugui haver entre aquest constructe i altres constructes.
o Ex.: hi ha relació entre constructe depressió i el constructe ansietat?
o Tindrem una prova passada a “n” subjectes, i tenim també diferents ítems.
o Tindrem les puntuacions de cada subjecte per a cada ítem (matriu de dades)
o Amb la matriu de dades, l’anàlisi factorial el que fa és buscar la matriu de correlacions entre els
ítems (correlació de l’ítem 1 amb l’ítem 1, 1 amb 2, 1 amb 3... 2 amb 1, 2 amb 2...) a partir de les
puntuacions obtingudes primera matriu de correlacions
o A partir de la matriu de correlacions, el programa el que fa és treure la matriu factorial agrupar
els ítems en factors:
Per cada ítem l’hi dóna una càrrega de cada un dels 5 factors (que he forçat) possibles
Ex.: el ítem 1 té una càrrega “X” al factor 1, “Y” al factor 2..
Amb la matriu factorial puc veure quin pes té cada ítem sobre els factors i podré veure que
l’ítem 1 pertany a el factor 1, el 2 al factor 3, no vol dir que no tingui càrrega en els altres
factors, però amb quin té més càrrega?
N’hi direm càrregues o saturacions factorials, el pes que té l’ítem en cada un dels factors.
Tècnica de reducció de dades: passem de “n” variables a “r” factors,
on r < n, hi ha dues tècniques:
Anàlisi factorial:
prèviament l’estructura dimensional de la prova i el que volem
mirar és si realment les nostres dades, la matriu inicial, s’ajusta
a aquesta estructura que ja coneixem, volem confirmar que realment aquella estructura que hem establert
la podem acceptar, si hem pensat que hi havia 4 factors, que realment hi són:
o Ex.: si dic que hi ha 3 factors i que al factor 1 l’hi corresponen l’ítem 1 i 2, al factor 2 l’ítem 3, 4 i 5,
i al factor 3 els ítems 6 i 7 L’AFC donarà la càrrega del factor 1 pels ítems 1 i2, i així respectivament
per cada un. Vull confirmar que l’ítem 1 i 2 formen part del factor 1.
tampoc sabem com s’agrupen el propi anàlisi em donarà aquesta informació. L’anàlisi explora totes les
possibles relacions i em dóna tots els possibles valors.
o Surten les càrregues de cada ítem per cada factor i nosaltres haurem de veure quins ítems realment
estan pesant en cada factor d’una forma més evident.
ser independents o no, si els factors estan relacionats pot haver-hi un ítem molt relacionat amb 2 factors
alhora.
o AFE: dóna carregues de cada ítem amb cada factor.
o AFC: només dóna carrega pels que jo he indicat.
o Surten 4 factors, es marquen les saturacions que superen una càrrega
de 0.35 pels diferents factors,
o F1: ítems 2, 3, 5, 15, 16, 17, 22, 30 amb càrrega > 0.35 es podria dir el factor 1 de “Seguretat”
o F2: la resta d’ítems, amb càrrega de més de 0.35, en negatiu, estic treballant de forma adequada?
o Surten 2 factors molt clars, el f3 i f4 tenen saturacions molt baixes, no podríem considerar aquests
altres dos factors.
o Ítems en referencia a Personal sanitari, Personal de recolzament, Condicions físiques, Accés al
servei.
o Veure si el que havíem pressuposat es compleix,
o No vol dir que els diferents factors no puguin tenir relació entre ells
o Test de personalitat, Extraversió, Neuroticisme, Paranoidisme, per cada factor dóna les càrregues
dels ítems que hagi dit que hi pertanyen.
problemes durant el dia.
o Fer proposta del que podria ser una hipotètica matriu factorial
que podria sortir d’un AFC i AFE.
o AFE:
Factor 1: problemes del son durant la nit
Factor 2: problemes del son durant el dia
2 factors i 8 ítems, del 1 al 5 dóna càrregues per sobre
0.35, 6 a 8 càrregues més petites els 5 factors
carreguen en el factor 1
5 factors carregues menors a 0.35 i del 6 a 8 carrega per sobre de 0.35 amb el factor 2.
solució final d’aquest estil 5 ítems que carreguen en un factor que es diu 1 i 3 sobre un
factor 2.
llegir els ítems i dir, el factor 1, tots els ítems fan referència a la dificultat de conciliació de la
son durant la nit.
Els altres 3 ítems són de problemes de son durant el dia.
No hi ha càrregues amb valor 0, perquè els factors 1 i 2 estan relacionats
o AFC:
Ja no dóna càrregues pels altres, ni pels 5 primers del
factor 2 perquè he dit que només són els altres 3.
Normalment fem AFE, per AFC he de tenir molt clar:
càrrega 0.425 al factor 1 i 0.704 al 2.
no fa cap contribució,
l’ítem hi sigui.
21/10/
Matriu de dades (MD) Matriu de correlacions (MC) Matriu factorial (MF)
factor, cada ítem dóna una saturació amb els diferents factors i el pes de cada ítem en cada factor, més alta
la correlació l’ítem és més rellevant.
Passos per passar de matriu de dades a matriu factorial, decisions a prendre i què cal dir al programa en funció del
que creiem o teoria que tenim darrera. Abans cal plantejar algunes qüestions.
proves estadístiques:
per a que els puguem agrupar en factors. Diran si hi ha algun tipus de connexió entre els ítems, si no
n’hi ha perquè faig un AF?
o Fins a quin punt les associacions que farem d’ítems (variables) serà un grup més reduït d’ítems
del que tenim, si tinc 8 ítems i surten 8 factors no cal fer l’AF.
AFE Factor 1 Factor 2
Ítem 1 0.6 -0.
Ítem 2 0.7 -0.
Ítem 3 0.5 -0.
Ítem 4 0.8 -0.
Ítem 5 0.45 -0.
Ítem 6 -0.1 0.
Ítem 7 -0.15 0.
Ítem 8 -0.18 0.
AFC Factor 1 Factor 2
Ítem 1 0.6 0
Ítem 2 0.7 0
Ítem 3 0.5 0
Ítem 4 0.8 0
Ítem 5 0.45 0
Ítem 6 0 0.
Ítem 7 0 0.
Ítem 8 0 0.
Apliquem extracció de factors per eixos principals, i
Decidim que la rotació hauria de ser obliqua perquè els possibles factors que surtin creiem que poden estar
relacionats oblimin
ítems comparteix amb el factor comú (en l’exemple: insomni). Quina quantitat d’informació l’ítem 1
comparteix amb el factor comú (o l’ítem 2 o ítem 3).
o Podrem veure si tots els ítems comparteixen o contenen alguna cosa en comú amb el
constructe global.
o Interessarà que en aquesta primera taula les comunalitats haurien de ser elevades i lo més
similars possibles per tal que tots els ítems aportin el mateix.
factors que expliquen suficient variància del constructe.
o Dóna 2 factors, dels 8 ítems no treu 8 factors, amb un sol factor tindria explicada el 43,49% de
la variància de les dades, amb el segon factor explico un 60% de la variància. Ja m’està bé.
o Un 60% de la informació que contenien tots els ítems de forma individual s’explica en 2 factors
o Determinació de factors: a partir de l’autovalor o valor propi (eigenvalue). l’AF extreu els factors
més significatius.
o L’autovalor és la mesura de la quantitat d’informació del factor, més alt més informació
aporta.
o Es fixa en l’autovalor i criteri que sigui > 1
o Un factor amb autovalor > 1 és suficientment rellevant per tenir-lo en compte, explica suficient
informació.
treu el número de components (número de factors que podria haver-hi) i els autovalors:
o Abscisses: número de components o factors.
o Ordenades: autovalors.
o Permet veure, visualment, en quin moment la corba s’estabilitza i passa a ja no tenir pendent
moment en que el nombre de factors ja no aporten res.
o És complementari a la taula anterior. Tècnica subjectiva.
o Confirma el que veiem abans, ajuda a decidir els factors que ens quedarem per la prova.
o Interessa: explicar el màxim de la variància amb el mínim número de factors possible.
o Màxim de variància: punt de tall al 50%, determina el màxim de factors raonable.
o Cal trobar l’equilibri entre la quantitat d’informació explicada i número de factors a retenir.
o Vull explicar el màxim d’informació amb el número mínim de factors.
AFE: Rotació: ortogonal vs obliqua. El que fa és moure en l’espai els eixos (desplaçar-los) de forma que cada ítem
estigui més relacionat amb un factor, els ítems estan al mateix lloc, desplaço els eixos.
es modifiquin i s’ajuntin.
o Els eixos dels dos factors són perpendiculars.
perpendiculars ítems que podrien estar a cavall entre un i altre i ara van a un altre.
o Els eixos es mouen obliquament, no de forma perpendicular.
o Busca la línia que millor explica un grup d’ítems, no obligo a que siguin perpendiculars.
lleugerament diferent a un factor o altre i així pugui veure més clar a quin dels 2 o 3 factors podria estar.
Si les condicions d’aplicació es compleixen comunalitats (comparteixen informació)
Primera matriu de saturacions (matriu inicial) de cada ítem amb cada component:
inicial, perquè pensem que els factors sí que estan relacionats redistribueix les càrregues malgrat que la
saturació inicial es manté igual. En fer la rotació tenim la matriu rotada:
o L’ítem 1 amb el factor 1 passa de 0.57 a 0.425, i amb el factor 2 de 0.483 a 0.704 L’ítem 1
l’assignaríem al factor 2, té més pes amb el factor 2.
o L’ítem 3 carrega al factor 2 i el 4 al factor 1
o L’ítem 5 té càrregues creuades i els ítems 6, 7 i 8 al factor 1.
o Unidimensional: una puntuació
o Bidimensional 2 puntuacions
obliqua (si fes rotació ortogonal, seria zero)
o Diu que el f1 (ítems 1, 4, 5, 6 7, 8) correlació amb f2 amb 0,43,
correlació força alta entre factors
o Pot fer pensar que és un test que funciona de forma
unidimensional
o Tenim carregues creuades S’haurien d’haver ajuntat ítems
a uns factors i uns a altre
Càlcul de la comunalitat de l’ítem (és de l’ítem):
2
2
2
= 0.558 dóna comunalitat de tot l’ítem sencer a partir de les càrregues factorials de l’ítem
en qüestió, elevar-les al quadrat i sumar-les.
No canvia les càrregues, les distribueix.
Càlcul de l’autovalor: per un factor se suma cada una de les càrregues dels ítems al quadrat sumada. També dóna
un autovalor d’un factor similar, els valors obtinguts un cop feta la rotació, la suma de cada valor elevat al quadrat.
factor explica del conjunt d’ítems (suma al quadrat de les saturacions).
o Saturacions o càrregues factorials dels ítems pel factor 1: 0.
2
2
2
explicada pel factor: 𝑉𝑎𝑟𝑖à𝑛𝑐𝑖𝑎 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑝𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 =
௨௧௩ ௗ ௧
ú ௗᇱí௧௦
o 𝑉𝑎𝑟𝑖à𝑛𝑐𝑖𝑎 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑝𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 =
ଷ.ସ଼ଵ
଼
o El factor explica el 43% de la variància dels ítems.
o Els factors amb autovalors més grans, expliquen més variància.
o Per això l’SPSS selecciona el número de factors per l’autovalor.
o El component 3, té un autovalor inferior a 1 L’SPSS ja no l’agafa
Resum, a tenir en compte de l’AF
o Ortogonal (varimax)
o Obliqua(oblimin)
o Criteri de Kàiser, dir la variància, i
o Gràfic de sedimentació.
Decidir abans d’interpretar l’AF
Validesa de criteri: grau d’eficàcia amb què podrem diagnostica o predir la variable criteri a partir de les
puntuacions del test.
Veure si podem predir amb la prova, el criteri que pretenem diagnosticar/avaluar.
Es busca depenent tant de les puntuacions del test com del criteri, tipus:
): Si les puntuacions són de tipus quantitatiu i les del criteri també es busquen
correlacions entre les puntuacions del test (X) i el criteri (Y).
criteri categoritzades (normalment dicotòmiques) hem d’usar la validesa de decisió, per veure si el test
discrimina bé la decisió que es pren (malaltia si/no).
o La puntuació és quantitativa, el criteri és dicotòmic.
Cal tenir clares algunes coses, segons què volem tenir i amb quins indicadors ho farem, cal saber què agafaré com
indicador per veure si el test selecciona o no bé, escollir adequadament els indicadors, quin és el criteri i els
indicadors del criteri. Alguns exemples:
o Criteri que volem predir: el rendiment acadèmic
o Possible indicador del criteri: Notes escolars de l’alumne en totes les assignatures
o Criteri que volem predir: el rendiment comercial
o Possible indicador del criteri: quin serà un bon indicador del rendiment comercial? El nombre de
vendes setmanal del producte.
o Criteri que volem predir: mirarem la validesa, comparant amb el rendiment acadèmic
o Possible indicador del criteri: nota mitjana de la carrera
o Veure si les PAAU tenen relació amb la nota de la carrera
les PAAU com a mesura adient del rendiment acadèmica que posteriorment farà l’estudiant.
o Problema: quins indicadors serveixen per determinar les relacions paterno-filials?
o Possible indicador del criteri: Com respon el pare/mare a certes actituds.
o Criteri que volem predir: mesurar la destresa mecànica
o Possible indicador del criteri: temps (en hores) que triga en arreglar un cotxe amb la mateixa averia
com menys temps, més destresa, correlació negativa.
o professor que la imparteixi amb èxit:
o Criteri que volem predir: impartir assignatura amb èxit
o Indicador:
Trobem dificultat de selecció dels indicadors del criteri.
Requisits segons Thorndike i Hagen (1989): van donar estratègies, criteris, per pensar que els indicadors són bons:
o Un indicador és rellevant en la mesura en què es correspon amb el criteri. Cal utilitzar el judici dels
jutges experts.
o Recordar que per determinar si un ítem era rellevant, calien jutges experts tenir clar que si usem
un indicador que és irrellevant, fins i tot pot influir en l’ús o predicció que n’acabem fent.
Ex.: depressió post part, parlar amb experts en depressió per saber quins indicadors són
rellevants per saber si la persona està fent o és possible que faci una depressió.
o Les mesures del criteri han de representar la verdadera competència dels subjectes i no estar
determinades per factors que actuïn diferencialment entre grups. Ex.: secretàries-físic.
Per avaluar la competència d’una persona a un lloc de treball, per assegurar-nos que ho fa
hem d’assegurar-nos de les competències a nivell laboral i que no hi ha altres factors que
puguin influir en la selecció, que no tenen res a veure amb la competència professional,
evitar el biaix.
o Les mesures del criteri que escollim haurien de ser estables en el temps.
o No puc establir un indicador per accedir a un lloc de treball i que avui
sigui adequat i passada una setmana deixi de ser-ho una persona
considerada competent en un moment i 15 dies després ja no, no seria
un indicador fiable.
o A igualtat de condicions d’adequació, escollirem aquell criteri que és més fàcil i pràctic aconseguir.
Tindrem en compte aspectes econòmics, temporals, etc.
o Si escollíssim o tinguéssim diferents opcions d’indicadors sempre s’escull el que és més fàcil i pràctic
d’aconseguir (en tipus econòmic com de facilitat).
Fases de la validesa de criteri, ex.: predicció del rendiment acadèmic a partir del test d’intel·ligència
o Si tenim un test d’intel·ligència i el criteri és el rendiment acadèmic Definir bé què entenem per
rendiment acadèmic (no suspendre, aprovar amb nota mitjana X, etc.).
o Com mesurarem el rendiment acadèmic? A partir de les notes escolars, per part del professor?
Notes d’exàmens, avaluació qualitativa?
o Mostra de nens i nenes en edat escolar, cada test és per unes edats concretes.
o Per cada nen i nena obtenir la puntuació en el test.
o després del test (predictiva). En passar la prova tindrem la mesura en el criteri (rendiment acadèmic),
aquest criteri es pot realitzar en 3 moments temporals, per tant, tenim 3 tipus de validesa:
o Retrospectiva: aplicació de test i criteri separades en el temps, primer s’aplicaria el criteri i al cap
d’un temps, el test:
Poc utilitzat, treballs en alumnat, per veure si l’alumnat amb millor rendiment tenien
predisposició per alguna cosa.
o Concurrent:
Si apliquem el test i rendiment acadèmica alhora.
Es fa en diagnòstic clínic normalment, no en test d’intel·ligència
Clínic: s’avalua el pacient i es passa el test que es vol validar, si hi ha correlació entre
l’avaluació del test i la de l’especialista (criteri) direm que tenim validesa suficient de la
prova (test) per a diagnosticar els pacients, sense necessitat de l’entrevista de 2 hores.
Es fa en clínica perquè com que estem avaluant un possible trastorn, necessito que el
diagnòstic sigui el més ràpid possible, pot ser que si hi ha temps pel mig hi hagi variació en
el diagnòstic i evolució.
o Predictiva: aplicació del criteri i test separades en el temps, podrien arribar a passar anys entre una
aplicació i una altra:
Primer s’aplica el test que vol avaluar quelcom i al cap d’un temps es treuen els valors del
criteri amb els indicadors adequats.
Ex.: proves PAAU, determina l’ingrés o no d’una persona a la universitat, volem veure si era
una prova vàlid caldria al cap de 4 anys veure si hi ha correspondència entre els resultats
de la prova (test) i el criteri (nota mitjana treta en aquesta 4 anys al llarg de la carrera).
Veure si la predicció de la prova és vàlida o no.
o En els tres casos tenim 2 blocs de dades, dades del test i del criteri escollit.
del criteri.
o Forma més habitual, si són quantitatius Correlació entre les dues mesures, similar al que vam
fer amb la fiabilitat
o Si tenim 2 tests diferents o un és test i l’altre criteri
𝑆
௬
: Desviació típica del criteri
𝑟
௫௬
: Coeficient de validesa del test
23/10/
Amb l’interval de confiança obtenim la puntuació en el criteri quan tenim la puntuació en el test.
Factors que afecten al coeficient de validesa: valors diferents d’una prova poden venir donats per aquests factors,
a tenir en compte si ens donen la validesa o l’hem de buscar nosaltres, factors que poden explicar en estudis que
buscant validesa d’una mateixa prova doni valors lleugerament diferents, per algun d’aquests factors:
de la prova.
subjectes en el test i en el criteri, els coeficients de correlació tendeixen a augmentar quanta més
variabilitat hi ha a les dades quanta més variabilitat tinguem, tant en puntuacions del test com del criteri,
ajudarà a augmentar la valides.¿?
de ser també perfecte (1). La validesa, correlació entre test i criteri equival a l’ arrel quadrada de la fiabilitat
el valor màxim del coeficient de validesa és igual o menor a l’arrel quadrada del coeficient de fiabilitat.
Més alta la fiabilitat més alta serà la validesa de la prova r xy
≤ arrel de r xx
fiabilitat, per tant, si la fiabilitat repercuteix en la validesa si augmentem la longitud del test repercutirà
en la fiabilitat i també repercutirà en la validesa.
Fins ara, validesa criteri test, basant-nos en la correlació entre test i criteri, però també podria passar que tinguéssim
puntuacions dicotòmiques o dicotomitzades (enlloc de contínues) només sé si té o no depressió, sa vs. malalt
També puc buscar validesa de criteri però parlarem de validesa de decisió, veure fins a quin punt si el test és útil
per prendre la decisió que cal prendre, sa vs. malalt, aprovat vs. suspès... Veure la validesa de decisió.
Validesa de decisió:
Es construeix una matriu de confusió, 2x2, tenim:
verdader/fals – té o no té.
o Positiu, amb trastorn, malalt, apte, tractament, rehabilitació, teràpia...
o Negatiu, sense trastorn, sa, no apte, no tractament, no rehabilitació, no teràpia...
Diagnòstic criteri
Total
Positiu Negatiu
Resultat del
test
Positiu
Verdader positiu
(f 11
)
Fals positiu
(f 12
)
f
Negatiu
Fals negatiu
(f 21
)
Verdader negatiu
(f 22
)
f
Total f .
f .
N
o f11 casella 1: és positiu al test i al criteri Verdaders positius subjectes que tan l’especialista
com el test diuen que sí que té trastorn.
o f22 casella 4: negatiu test i criteri Verdaders negatius subjecres que tan l’especialista com
el test diuen que no té el trastorn.
Caselles d’error:
o f12 casella 2: és positiu al test i negatiu al criteri Fals positiu Subjectes sense trastorn, però
el test diu que sí.
o f21 casella 3: és negatiu al test i positiu al criteri Fals negatiu Subjectes que sí que tenen
trastorn però que el test diu que no.
o fila1. Total de subjectes que segons el test són positius
o fila2. Total de subjectes que segons el test tots són negatius
o fila.1 Total de subjectes que tenen trastorn segons el criteri
o fila .2 Total de subjectes que no tenen el trastorn segons el criteri
Importància de reduir el nombre d’errors tenint en compte si són falsos negatius o positius.
greu no fer teràpia i que ho necessitis a fer teràpia i que no ho necessitis.
Representació gràfica, què passaria segons el punt de tall que posem:
positius
per sobre diré que tenen la malaltia, i els que quedin per sota, diré que no.
o En verd els que sí que tenen el trastorn, verdaders positius, estan ben
classificats per la prova,
Dels verdaders positius, els que queden per sota del punt de tall seran els falsos negatius.
o El mateix passa amb el punt de tall cap a sota, són verdaders negatius els que queden a l’esquerra
Dels verdaders negatius, els que queden per sobre del punt de tall seran els falsos positius
o Com que el punt de tall el tinc allà, no els puc incloure, el mateix amb els que no la tenen i estan
per sobre.
Índex de validesa de decisió: proporció de classificacions correctes, sensibilitat i especificitat
L’índex de validesa de decisió s’obté a partir de la proporció de classificacions correctes (P c
ଵଵ
ଶଶ
Sensibilitat: al numerador tenim els verdaders positius, subjectes que tant el criteri especialista com el test diuen
que sí que tenen el trastorn, partit pel marginal dels que sí que el tenen segons el criteri fins a quin punt el test
classifica bé els casos positius, verdaders positius i els que sí tenen trastorn.
ଵଵ
.ଵ
trastorn que han estat classificades correctament. És màxima quan no hi ha falsos negatius.
Especificitat: te en compte els verdaders negatius, els que no tenen trastorns, i els divideix pel total de subjectes
que no tenen trastorn segons el criteri, mira si el test classifica correctament a les persones sanes, a les persones
que no tenen el trastorn.
ଶଶ
.ଶ
trastorn que han estat classificades correctament. És màxima quan no hi ha falsos positius.
Índex de validesa de decisió: Coeficient Kappa:
, S, E), hi ha un altre índex, el coeficient Kappa, és el més utilitzat,
fórmula més complexa corregeix per atzar.
Kappa = freqüència d’acords menys els acords que es poden trobar per atzar, partit per N menys l’acord per atzar.
ி
ି ி
ೌ
ேିி
ೌ
, on:
o 𝑆
()
ி
ೌ
ே·(ேିி
ೌ
)
ଶ଼
ହ(ହିଶ଼ )
= 0.05 Considerem una Kappa bona, acceptable.
Punt de tall per la validesa de decisió:
o suspès.
Exemple: Tenim 12 persones, se’ls ha aplicat un test per saber si necessiten o no passar per teràpia.
tractament.
dient que tots els que tenen una puntuació a l’escala d’1 o superior necessita tractament. Si ho fem així:
o El subjecte A seria un fals positiu, el mateix passarà per la resta dels subjectes pels que tenen
diagnòstic “no tractament” però pel punt de tall, diem que sí, tots seran falsos positius Tindrem
6 falsos positius si marco el punt de tall en la puntuació de 1
o En canvi no tindria cap fals negatiu.
o ara enlloc de 6 falsos positius en tenim 5
o El subjecte que té puntuació de 5 i NT diem que sí, segueix sent fals positiu
o Els subjectes amb puntuació 4 i 3 no són falsos positius
o Tindríem 4 falsos positius
o Tinc un subjecte que té puntuació de 6 però que segons diagnòstic necessita tractament i diem que
no el necessita estem cometent un fals negatiu
o Seguim tenint 2 falsos positiu
o Segueixen havent-hi erros, però distribuïts diferent
o ara tinc 3 falsos negatius i un fals positiu
o cap fals positiu, tots 4 seran falsos negatius, persones que segons test
no necessiten tractament però l’expert diu que sí.
o 5 falsos negatius
Punt de tall més adient?
Negatius i el número total d’errors
o Primer mirar quants erros cometo amb els punts de tall
o Veig que tant amb el 6 com el 7 cometo 3 errors, per quin m’he de decidir?
Punt de tall 6: faré 3 falsos positius i cap fals negatiu
Punt de tall 7: faré 2 falsos positius i un fals negatiu
o Hem de veure què estem avaluant: aplicar tractament o no és més greu un fals negatiu, persona
que necessita tractament però no l’hi estem donant.
o Per tant, entre els dos punts de tall, escolliré aquell que redueix el número de falsos negatius,
malgrat que hi hagi 3 persones que no necessiten tractament però a qui se’ls hi donarà.
25/10/
El punt de tall que escollim és el que fa que cometi menys
errors, en l’exercici, amb els punts de tall 4 i 5 cometo 3
erros, amb el punt de tall 6 en cometo 2, encara que tingui
un fals negatiu és millor perquè té menys errors. Entre els
punts de tall 4 i 5, seria menys perjudicial el 4 que el 5
perquè no hi ha falsos negatius. Per tant no hi ha cap persona que necessiti rehabilitació i no se l’hi doni.
Fer la matriu amb els diferents punts de tall, verdaders negatius, verdaders positius, fals positius i falsos negatius i
total d’errors.
Fins aquí la validesa de criteri, amb validesa de decisió i criteri.
Validesa convergent i discriminant:
Serveix per veure el grau amb què el test es relaciona, en la direcció i la magnitud esperades, amb variables externes
que mesuren el mateix constructe (o similar) o un constructe diferent, s’estudia a partir de:
o Amb el mateix constructe o constructes relacionats (Validesa convergent)
Mirem com es relaciona el nostre test amb una altra variable que mesura el mateix
constructe.
Si mesuren el mateix constructe o van en la mateixa direcció les correlacions entre les
puntuacions de la meva prova i la prova que avalua el mateix constructe han de
correlacionar, han d’anar en la mateixa direcció, m’estaria validant el test perquè veig que
les puntuacions estan correlacionades.
S’usa molt sovint, és fàcil d’aplicar, validesa més econòmica que la de criteri o decisió, una
de les aproximacions que s’usen més.
o Amb constructes diferents o poc relacionats (Validesa discriminant)
S’avalua el grau en que el meu test es relaciona amb variables externes que mesuren
constructes diferents.
Lògica: si no estan relacionats, lògicament no puc trobar correlacions altes
Si trobo correlacions altes Tinc un problema,
Constructes que avaluen coses diferents, no poden estar relacionats.
o El que es fa és que si tenim varis trets que es poden avaluar amb diferents estratègies, es busquen
les correlacions dels trets amb totes les estratègies diferents.
o Calcula les correlacions de tot amb tot.
o Estratègia multitret-multimètode, correlacions entre mètodes i estratègies (trets), trobem:
Mateix tret – diferent mètode (Validesa convergent)
Diferent tret – mateix mètode (Validesa discriminant)
Criteris de valoració de la validesa convergent de Prieto y Muñiz (2000): Si el
que busquem és la validesa convergent, entre el test i una variable externa
(criteri) que avalua el mateix criteris de Prieto i Muñiz.
< 0.25 Inadequada
0.25 ≤ |𝑟| < 0.40 Adequada però amb algunes mancances
0.40 ≤ |𝑟| < 0.50 Adequada
0.50 ≤ |𝑟| < 0.60 Bona
|𝑟| ≥ 0.60 Excel·lent
Exemple: Tenim dues proves, dues puntuacions per una banda el NEO-PI-R amb 5 dimensions i els adjectius de
Goldberg. (OCEAN: obertura, responsabilitat, extraversió, amabilitat, neuroticisme, inicials en castellà/català
OREAN) i després 5 trets de Goldberg (intel·lecte, Amabilitat, Responsabilitat, Estabilitat, Extraversió).
o L’intel·lecte correlaciona en 0.45 amb obertura,
o Responsabilitat amb responsabilitat en 0.70,
Punt de tall Vn Vp Fp Fn Errors
≥ 4 4 4 3 0 3
≥ 5 5 3 2 1 3
≥ 6 6 3 1 1 2
≥ 8 7 2 0 2 2
Validesa basada en la comparació de grups:
Última evidència quan parlàvem de validesa en relació a altres variable, es pot fer comparació entre grups.
La teoria ens diria que les puntuacions del test van demostrar diferències en grups diferents (ex.: homes vs. dones,
pacients ingressats vs. ambulatoris, pacients amb tractaments i no).
Grau amb què al comparar les puntuacions del test entre grups definits els resultats estan en consonància amb el
model teòric sobre el qual s’ha construït el test
o Les puntuacions del test hauran de reflectir aquestes diferències,
Comparació de grups amb resultats estadísticament significatius.
o Si vull avaluar l’evidència, hauré de recollir dades de l’aplicació d’aquesta prova per cada un dels
dos grups i calcular-ne les correlacions. A partir d’aquí, a partir del test estadístic corresponent,
veure si es confirma la hipòtesi que planteja la teoria (si hi ha diferències entre els 2 grups).
o Les puntuacions del test hauran de ser similars,
Comparació de grups amb resultats no estadísticament significatius.
obtingudes entre els pacients que, en el moment de l’estudi, estaven treballant i els que no.
o Avalua la discapacitat (OMS), segons diferents aspectes, veure si hi ha diferències entre grups
(freqüent entre diverses proves).
Validesa conseqüencial:
Es pretén
aplicació. Les conseqüències positives i negatives d’aplicar el test coincideixen amb les previstes.
o Demostrar que realment les conseqüències de l’avaluació coincideixen amb les conseqüències que es
pretenia assolir. Que permet assolir allò que es volia assolir i no altres coses.
o Explorar l’existència de possibles conseqüències no previstes. Si hi ha conseqüències no previstes, veure
si poden ser perjudicials pels subjectes. Establir si la seva aplicació pot tenir conseqüències pel subjecte.
inclús decisions que poden ser considerades d’alt risc o que poden perjudicar a un col·lectiu.