Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Teorie e Tecniche dei test, Sintesi del corso di Psicometria

riassunto del corso fatto nel primo anno della magistrale in psicologia clinica e dinamica presso università telematica e-campus.

Tipologia: Sintesi del corso

2025/2026

Caricato il 22/05/2026

ludovicaromani
ludovicaromani 🇮🇹

4 documenti

1 / 63

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
TEORIE E TECNICHE DEI TEST
La psicometria scientifica cerca di rendere espliciti:!
-L’oggetto che vogliamo valutare (costrutto)
-L’unità di analisi (comportamento osservabile)
-I criteri di classificazione
-Gli strumenti per quantificare le osservazioni.
Un comportamento osservabile è qualcosa che possiamo vedere: è
l’espressione concreta di un costrutto teorico Per esempio, l’ansia è un
costrutto. Ma noi non possiamo vedere direttamente “l’ansia”. Possiamo però
osservare comportamenti che la rappresentano: il tremore delle mani,
l’agitazione, il tono di voce incerto, l’evitamento del contatto visivo, il respiro
accelerato. Ed è proprio su questi comportamenti osservabili che costruiamo
i test psicologici. Possiamo valutare il comportamento osservabile tramite
quattro dimensioni:!
1. Presenza \ assenza
2. Grado di presenza : quanto è presente un comportamento?!
3. Intensità : forza e potenza del comportamento!
4. Frequenza !
Il passaggio fondamentale è: dall’esperienza soggettiva al
comportamento osservabile alla codifica in dati numerici o simbolici.
Il primo passo per costruire un test è definire ciò che vogliamo misurare.
Lavoriamo con costrutti: concetti come ansia, autostima, motivazione, che
non si vedono e non si toccano, ma che ci servono per comprendere e
organizzare l’esperienza psicologica. Sono costrutti, appunto. E per renderli
misurabili, dobbiamo trasformarli in qualcosa che possa essere osservato,
registrato, quantificato. Ma anche quando ho definito bene il costrutto e ho
cominciato a raccogliere dati, non è detto che quei dati siano adabili. In
psicologia, i dati spesso non arrivano da sensori o da osservazioni oggettive,
ma da racconti, ricordi, percezioni. Esiste l’eetto alone (una singola
impressione influenza tutto il giudizio) , l’euristica della rappresentatività
(giudichiamo una persona in base a quanto corrisponde a un’immagine
mentale che abbiamo già), l’euristica della disponibilità (valutiamo quanto
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f

Anteprima parziale del testo

Scarica Teorie e Tecniche dei test e più Sintesi del corso in PDF di Psicometria solo su Docsity!

TEORIE E TECNICHE DEI TEST

La psicometria scientifica cerca di rendere espliciti:

- (^) L’oggetto che vogliamo valutare (costrutto) - (^) L’unità di analisi (comportamento osservabile) - (^) I criteri di classificazione - (^) Gli strumenti per quantificare le osservazioni. Un comportamento osservabile è qualcosa che possiamo vedere: è l’espressione concreta di un costrutto teorico Per esempio, l’ansia è un costrutto. Ma noi non possiamo vedere direttamente “l’ansia”. Possiamo però osservare comportamenti che la rappresentano: il tremore delle mani, l’agitazione, il tono di voce incerto, l’evitamento del contatto visivo, il respiro accelerato. Ed è proprio su questi comportamenti osservabili che costruiamo i test psicologici. Possiamo valutare il comportamento osservabile tramite quattro dimensioni: 1. Presenza \ assenza

  1. Grado di presenza : quanto è presente un comportamento?
  2. Intensità : forza e potenza del comportamento
  3. Frequenza Il passaggio fondamentale è: dall’esperienza soggettiva al comportamento osservabile alla codifica in dati numerici o simbolici. Il primo passo per costruire un test è definire ciò che vogliamo misurare. Lavoriamo con costrutti: concetti come ansia, autostima, motivazione, che non si vedono e non si toccano, ma che ci servono per comprendere e organizzare l’esperienza psicologica. Sono costrutti, appunto. E per renderli misurabili, dobbiamo trasformarli in qualcosa che possa essere osservato, registrato, quantificato. Ma anche quando ho definito bene il costrutto e ho cominciato a raccogliere dati, non è detto che quei dati siano affidabili. In psicologia, i dati spesso non arrivano da sensori o da osservazioni oggettive, ma da racconti, ricordi, percezioni. Esiste l ’effetto alone (una singola impressione influenza tutto il giudizio) , l’ euristica della rappresentatività (giudichiamo una persona in base a quanto corrisponde a un’immagine mentale che abbiamo già), l’ euristica della disponibilità (valutiamo quanto

un evento sia frequente o importante solo in base a quanto ci viene facile ricordarlo.). Tutte queste distorsioni, questi errori di percezione o di memoria, mettono a rischio la validità dei dati psicologici. Un test ben costruito è, prima di tutto, uno strumento che protegge il dato. Protegge la misurazione da chi osserva troppo, da chi interpreta, da chi giudica sulla base delle emozioni. Serve a fissare dei criteri, a rendere ripetibile l’osservazione. Serve, soprattutto, a evitare che ogni valutazione sia una storia a sé, e a trasformarla invece in una misura confrontabile.

ASSESSMENT PSICOLOGICO

Un test psicologico è uno strumento, l’assessment psicologico è un processo. Il test è come un singolo fotogramma: scatta un’istantanea su una caratteristica. L’assessment, invece, è un film intero. È un’indagine, una ricostruzione, un percorso articolato per comprendere il funzionamento psicologico di una persona nel suo insieme. Non si limita a registrare un dato, ma cerca di comprendere. Fare assessment significa porsi delle domande – vere domande cliniche o educative – e utilizzare diverse fonti e metodi per raccogliere dati pertinenti. A volte potremo usare test, certo, ma solo dopo aver ascoltato, osservato, compreso il contesto. Un assessment può includere un colloquio anamnestico, un’osservazione in situazione naturale, la revisione di documenti scolastici o clinici, o il confronto con altri professionisti. Non è la somma meccanica di queste attività, ma l’integrazione coerente dei dati raccolti.

  1. Definizione della domanda valutativa : Questa domanda è fondamentale: non si parte mai dal test, ma da un interrogativo clinico formulato sulla base del colloquio iniziale.
  2. Raccolta preliminare di informazioni (fase esplorativa) :

- Colloquio clinico iniziale : viene effettuato un colloqui clinico anamnestico

orientato alla raccolta di informazioni sul funzionamento generale.

- Osservazione clinica indiretta : linguaggio non verbale

- Fonti complementari: persone che stanno intorno al pz.

  1. Formulazione di ipotesi valutative preliminari : ipotesi di diagnosi
  2. Scelta degli strumenti e metodologia multimodale : Lo psicologo seleziona strumenti standardizzati integrabili con i dati osservativi e anamnestici,

I comportamenti visibili sono, però, solo delle manifestazioni del costrutto, non il costrutto in sè. Un errore molto comune, infatti, è quello di raccogliere comportamenti che sembrano legati a un costrutto, ma che in realtà non lo rappresentano in modo coerente. Le sfide aumentano quando ci confrontiamo con contesti culturali differenti. Senza criteri chiari, il rischio è quello di attribuire significati arbitrari, facendo errori di valutazione. Quando si costruisce un test psicologico bisogna definire il dominio di contenuto (definire con precisione cosa osservare), e dobbiamo selezionare una porzione rappresentativa di questi comportamenti: un insieme ristretto ma significativo che ci permetta di descrivere e valutare il costrutto in modo valido. Questa selezione

prende il nome di campionamento del dominio. Si tratta di una scelta

mirata, non casuale, basata su ciò che meglio rappresenta il costrutto in determinati contesti. Una buona definizione del dominio di contenuto nasce da un’analisi approfondita e pluralistica, che può includere lo studio della letteratura scientifica, interviste a esperti del settore, analisi di risposte aperte fornite da soggetti (come diari o questionari) e osservazioni sul campo. Molti costrutti, però, non sono semplici e unitari, ma complessi e articolati. Ne è un esempio l’intelligenza. In questi casi, la psicometria propone una struttura gerarchica, in cui il costrutto principale viene suddiviso in sottodimensioni chiamate

facets , e talvolta anche in ulteriori sottosuddivisioni chiamate subfacets

Nella costruzione e nell’uso dei test psicologici, uno degli aspetti più delicati da tenere sotto controllo è la presenza di distorsioni sistematiche che possono compromettere la validità delle misurazioni.

Una di queste distorsioni è il bias dell’osservatore : si manifesta quando le

aspettative, le convinzioni o le ipotesi di chi osserva o valuta i dati influenzano in modo più o meno consapevole la rilevazione, la codifica o l’interpretazione delle informazioni raccolte. In altre parole, si verifica quando chi misura non è neutrale, ma filtra ciò che vede alla luce di ciò che si aspetta o desidera trovare. Effetto dell’osservatore-aspettativa: quando le aspettative del ricercatore influenzano direttamente il comportamento del partecipante, anche solo tramite il linguaggio del corpo o il tono di voce. Bias attore-osservatore: tendiamo ad attribuire i nostri insuccessi a cause esterne ma quelli altrui a tratti interni.

L’effetto Hawthorne: tendenza dei partecipanti a modificare il proprio comportamento quando sanno di essere osservati. Le conseguenze di questa distorsione sono significative. Il bias dell’osservatore può compromettere l’affidabilità delle misurazioni, poiché introduce un errore sistematico che si ripete ogni volta che l’osservatore interpreta i dati. Inoltre, mina la validità interna dello studio, perché ciò che viene registrato non corrisponde fedelmente al comportamento o alla risposta del soggetto, ma ne rappresenta una versione distorta. Di conseguenza, anche la validità esterna può risultare compromessa, rendendo difficile generalizzare i risultati a contesti diversi o ad altri gruppi. È quindi fondamentale adottare strategie di prevenzione per contenere questo rischio. Una delle più efficaci è la cecità, cioè il fatto che il valutatore non conosca a quale gruppo appartiene il partecipante o quale sia l’ipotesi dello studio. Un altro strumento utile è l’assegnazione casuale dei soggetti ai gruppi, che riduce la probabilità che le caratteristiche individuali influenzino sistematicamente l’osservazione. Anche l’utilizzo di più metodi per osservare la stessa variabile può essere una strategia efficace: se diverse fonti convergono su uno stesso risultato, è più probabile che quel risultato sia attendibile.

CREAZIONE DEI TEST

Quando costruiamo un test psicologico una delle parti più cruciali è la creazione degli item. Ogni costrutto psicologico può essere associato a comportamenti o aggettivi descrittivi che ne esprimono le manifestazioni visibili. Alcuni di questi aggettivi sono considerati prototipici , cioè centrali e altamente rappresentativi della dimensione psicologica a cui si riferiscono. Tuttavia, nella pratica, uno degli errori più comuni è la sovrabbondanza: nella paura di tralasciare qualcosa, si finisce per includere troppi item, cercando di coprire ogni possibile sfumatura del costrutto. Per evitare questo problema, è necessario adottare una strategia precisa di

campionamento degli item. Esistono varie modalità per farlo:

  • il campionamento teorico si basa sulle definizioni presenti nella letteratura scientifica, sulla base di ciò che sappiamo del costrutto.
  • Il campionamento empirico , invece, si fonda su dati oggettivi, ad esempio scegliendo quegli item che si dimostrano più discriminanti tra gruppi o più correlati alla dimensione principale.
  1. Test orientati al criterio: per identificare soglie, livelli minimi o massimi, utili a prendere decisioni operative.
  2. Test orientati alla teoria: per comprendere meglio la struttura del costrutto, esplorarne le componenti, verificarne la validità e l’utilità teorica. Inoltre bisogna considerare il tipo di pubblico a cui il test è indirizzato. Uno strumento pensato per la popolazione generale non potrà contenere lo stesso tipo di item di un test rivolto a un campione clinico o a studenti universitari. La chiarezza, la pertinenza, la difficoltà degli item devono essere calibrate in funzione di chi risponderà. Anche la modalità di somministrazione – orale, scritta, assistita – e la forma delle risposte richieste dipendono da queste scelte. I. Scelta del costrutto e revisione letteratura. II. Operalizzazione: identificazione degli indicatori. III. Definizione della scala di risposta. IV. Revisione linguistica e valutazione di esperti: scriviamo una prima versione e la somministriamo ad esperti del settore indagato, chiedendo feedback sulla chiarezza e leggibilità degli item, rilevanza teorica e adeguatezza degli item. Eventualmente si modificano gli item ambigui. V. Somministrazione pilota. VI. Analisi dei dati: validità ed affidabilità: iniziano le analisi psicometrie con strumenti come l’analisi fattoriale esplorativa, analisi della consistenza interna. VII. Validazione esterna: confrontiamo il test con strumenti noti. VIII. Versiona finale e pubblicazione.

MODELLI GRAFICI

I modelli grafici sono vere e proprie ipotesi teoriche visive , che ci aiutano a capire se consideriamo un costrutto come causa o effetto, se pensiamo che le sue componenti siano autonome o interconnesse, se la relazione tra le variabili è simmetrica, direzionale o dinamica. Saper costruire e interpretare un modello grafico non è solo una questione di visualizzazione: significa

avere una visione chiara del costrutto, delle sue componenti e delle sue relazioni. Modello latente: il focus è sulla coerenza tra item che indicano lo stesso costrutto latente. Per esempio l’ansia è la variabile latente (un costrutto psicologico non osservabile direttamente ma inferito sulla base di sintomi visibili.). l’ansia è la causa comune di un insieme di indicatori — insonnia, tachicardia, paura, preoccupazione, ecc. — che sono effetti passivi. Non è detto che tra i sintomi ci siano connessioni dirette: ognuno riflette in modo indipendente il livello di ansia della persona. Utilizzato per scale cliniche e di personalità. Modello a Rete -Network Analysis personalizzable : non c’è più una causa centrale, le variabili osservate sono tutte collegate tra loro in modo diretto. Il colore e lo spessore degli archi indicano l’intensità della relazione (verde per associazioni positive, rosso per quelle negative). Il modello suggerisce che le variabili si attivano reciprocamente, in un sistema dinamico e interdipendente. Molto usato per comprendere la comorbidità tra sintomi dei disturbi mentali e per le relazioni tra tratti cognitivi ed emotivi. Grafo Aciclico Diretto (DAG) : questa è un’organizzazione gerarchica. Le variabili sono disposte su più livelli. Questo modello è utile per formalizzare ipotesi causali, cioè rappresentare quali variabili influenzano altre in modo unidirezionale e strutturato. È molto usato nei modelli di motivazione scolastica, ma anche per descrivere la progressione di stati emotivi o processi cognitivi complessi. Modello dinamico Multilivello : si cerca di rappresentare la dinamica temporale dei sintomi. Vogliamo capire come le variabili cambiano insieme nel tempo. Utile per progettare interventi personalizzati in tempo reale.

  • (^) Ogni variabile può influenzare se stessa (autogestione)
  • (^) Può influenzare le altre nel giorno successivo (effetti cross-lagged)
  • (^) Il modello tiene conto sia delle dinamiche intra-personali che delle differenze tra soggetti.

complessa a persone con difficoltà linguistiche, finiremo per misurare la competenza linguistica più che la capacità logica, distorcendo i risultati. Tutto ciò si collega strettamente alla validità del test, in particolare alla validità di contenuto, che si fonda proprio sulla corrispondenza tra gli item e il dominio teorico del costrutto. Se gli item si allontanano dal centro del costrutto o se introducono elementi estranei, l’intera misurazione perde precisione. A questo si aggiunge la validità di facciata, che riguarda la percezione soggettiva del rispondente: un item, per funzionare, deve anche apparire pertinente e sensato agli occhi di chi lo legge.

TEST DI PRESTAZIONE TIPICA

Quando progettiamo degli item nei test di prestazione tipica - valuta atteggiamenti, tratti, interessi, stili cognitivi o emozioni e non abilità massime- ci troviamo a dover scrivere item che siano insieme validi, comprensibili e capaci di cogliere in modo preciso il costrutto da indagare. Per fare ciò esistono diversi criteri:

  • La competenza linguistica della popolazione target : un item efficace parla la lingua del suo pubblico, evitando termini troppo tecnici, gergali o ambigui.
  • La persona deve essere in grado di rispondere.
  • Riferimento a situazioni concrete e non generiche : gli item più validi sono spesso quelli che fanno riferimento a comportamenti specifici osservabili, piuttosto che a tratti astratti. È importante anche evitare riferimenti troppo generici alla frequenza, la risposta può variare molto in base a come la persona intende “qualche volta” o “molto spesso”. Ma se specifichiamo un intervallo temporale come “negli ultimi sette giorni” rendiamo il compito più eseguibile. Anche il tipo di ancoraggio della scala di risposta (mai, raramente, a volte…) deve essere scelto con cura. Un altro errore frequente è quello di usare negazioni, soprattutto se doppie. È sempre preferibile usare affermazioni in forma positiva, formulando item straight o reverse, ma comunque chiari e diretti. Bisogna evitare domande suggestive, insinuazioni o presupposti impliciti. Quando si scrive un item per un test psicologico, la scelta del formato di risposta è molto importante : influenza profondamente il modo in cui la persona percepisce la domanda, formula la sua risposta e, in ultima analisi, il tipo di informazione che raccogliamo. Tra le modalità principali troviamo il formato dicotomico (vero\falso o si\no), struttura che ha il vantaggio della chiarezza e della rapidità ma

costringe chi risponde a rientrare in uno dei due poli estremi. Dunque si è iniziato a inserire una terza risposta come “dipende”. Un’altra opzione è quella degli item formulati secondo un formato preferenziale , del tipo “Mi piace\Non mi piace”. Ha il pregio di essere immediato, ma il suo limite principale sta nel fatto che misura gusti, non necessariamente tratti psicologici stabili. Inoltre, può essere vulnerabile a fattori transitori come l’umore o il contesto del momento, riducendo così l’affidabilità della misurazione. La risposta a scelta multipla forzata (item ipsativi) è più complessa. Qui non si tratta di esprimere un grado di accordo, ma di scegliere tra due o più opzioni quella che rappresenta meglio se stessi. Per esempio, “Preferisco lavorare da solo” oppure “Preferisco lavorare in gruppo”. È una modalità utile nei contesti di orientamento o di valutazione delle preferenze personali, ma meno adatta se l’obiettivo è il confronto normativo tra gruppi. La scala Likert è quella più utilizzata al giorno d’oggi. In queste scale, chi risponde esprime il proprio grado di accordo o disaccordo con un’affermazione su una scala ordinata, che può avere 3, 5, 7 o più punti. La forza di questo formato sta nella sua flessibilità e nella capacità di rilevare variazioni individuali su un continuum. Tuttavia, perché una scala Likert sia veramente utile, occorre che ogni punto della scala sia accompagnato da un ancoraggio semantico, cioè da una definizione chiara che aiuti la persona a capire cosa significa scegliere “3” invece di “4”. Gli ancoraggi possono indicare accordo (“Per niente d’accordo” – “Completamente d’accordo”), frequenza (“Mai” – “Sempre”) o intensità (“Per niente” – “Molto”), e sono cruciali per garantire che le risposte siano interpretabili in modo coerente.

Possono, però, presentarsi degli effetti distorcenti:

  1. Il range effect e il frequency effect : il range effect è la tendenza a valutare un comportamento in base al contesto di riferimento, cioè rispetto ad altri comportamenti presenti nella propria vita. Se un comportamento è tra i meno frequenti che metto in atto, tenderò a valutarlo come “raro”, anche se accade comunque con una certa regolarità. A questo si lega il frequency effect, ovvero il fatto che la scala di frequenza proposta influenzi la percezione soggettiva della risposta. Se le opzioni vanno da

un certo schema, a prescindere dalla richiesta specifica. Uno dei response set più studiati è L’acquiescenza che si manifesta come tendenza a dare risposte affermative a qualunque item. Questa tendenza non è affatto rara. È stata associata a diversi fattori: alcuni cognitivi, come la difficoltà a comprendere bene gli item o a gestire contraddizioni; altri motivazionali, come il desiderio di dare una buona impressione o di concludere il test rapidamente. Altre volte, questa risposta riflette una vera e propria strategia di evitamento: rispondere sempre allo stesso modo per non esporsi. La disacquiescenza che rappresenta una persona che tende a non essere d’accordo con qualunque affermazione. Non-acquiescenza , cioè una combinazione variabile delle due tendenze precedenti, talvolta alternando risposte affermative e negative , senza una logica coerente rispetto al contenuto. Risposte estreme in cui gli individui utilizzano solo i valori più alti o più bassi della scala, ignorando tutte le opzioni intermedie. Questa preferenza può derivare da uno stile cognitivo rigido, da una semplificazione intenzionale del compito, oppure dalla volontà di far risaltare il proprio punto di vista, anche quando l’intensità effettiva della caratteristica non è così elevata. Alcuni si rifugiano sistematicamente nel punto centrale della scala , forse per indecisione, forse per il desiderio di non sbilanciarsi, forse per mancanza di opinioni strutturate. Risposta incoerente dove il soggetto risponde senza alcun criterio, in modo casuale. Potrebbe trattarsi di una persona disattenta, poco motivata, confusa, o che semplicemente non ha compreso le istruzioni. Tutti questi stili di risposta producono problemi psicometrici rispetto alla variabilità dei punteggi. Si introduce una quota di varianza spuria - stylistic variance - cioè una variabilità dovuta non al costrutto che il test intende misurare, ma allo stile individuale di risposta. Questa variabilità si sovrappone a quella substantive , che è la componente legate alle reali differenze tra persone sul costrutto oggetto del test. L’errore più comune in questi casi è trattare i punteggi come se riflettessero direttamente il costrutto, senza tener conto della distorsione introdotta dallo

stile di risposta. Per questo, nella progettazione degli strumenti è fondamentale prevedere strategie di controllo.

  • (^) Bilanciamento degli item : inserimento di affermazioni formulate in modo opposto, per verificare la coerenza interna delle risposte.
  • (^) Uso del differenziale semantico : il soggetto è chiamato a posizionarsi su una linea tra due estremi opposti /ordinato-disordinato). Aiuta a evidenziare le incoerenze stilistiche. Per contrastare l’acquiescenza i test psicologico spesso utilizzano item

formulati in senso positivo (straight) e in senso negativo (reverse) , Per

esempio, in una scala sull’estroversione potremmo avere da un lato l’affermazione “Mi sento a mio agio nelle feste”, e dall’altro “Mi sento a disagio nelle feste”. Se una persona concorda con entrambe, c’è qualcosa che non torna. Ma non è così semplice come sembra. Esistono infatti diversi tipi di reverse item, che non sempre sono equivalenti. Alcuni sono semplici negazioni (negated regular) , come “non mi sento a mio agio”; altri sono formulazioni con polarità opposta (polar opposites), come “mi sento a disagio”; altri ancora sono costruiti in modo ambiguo o con inversioni grammaticali poco naturali (negated polar opposites), come “non mi sento non a mio agio”. Quest’ultima categoria è particolarmente problematica, perché introduce ambiguità linguistiche che possono confondere il rispondente, soprattutto se ha difficoltà cognitive, basso livello di istruzione o se è un bambino o un anziano. Alcuni autori hanno osservato che l’utilizzo di item reverse può addirittura peggiorare la coerenza interna. Ecco perché alcuni studiosi propongono alternative :

  • Speed bump items: item trappola costruiti per costringere il rispondente a prestare maggiore attenzione. L’obbiettivo non è misurare un contenuto specifico, ma rallentare l’automatismo delle risposte. Il proximity effect è quando item formulati in modo opposto sono troppo vicini tra loro nel questionario, le persone colgono la contraddizione e questo influenza le risposte. La cosa migliore è sparpagliare questi item.

La desiderabilità sociale : è un meccanismo di risposta per cui le

persone tendono a fornire risposte che ritengono socialmente desiderabili, piuttosto che autentiche. Questo problema introduce una distorsione sistematica del dato, con due conseguenze:

Segue l’analisi dei dati osservati , partendo dagli indici di tendenza centrale , ovvero un riassunto dei punteggi registrati per ciascun item. In presenza di scale ordinali, e in particolare con le risposte Likert, si tende a usare la media aritmetica per praticità, anche se la mediana risulta più robusta rispetto ad eventuali distorsioni. Tuttavia, se la scala è ben bilanciata e le risposte non presentano anomalie, l a media è in grado di fornire indicazioni utili sul valore centrale: un valore medio prossimo al centro della scala suggerisce una buona distribuzione delle risposte ; medie troppo alte o troppo basse, al contrario, possono essere indice di bias, polarizzazione o effetto di desiderabilità. Si analizzano gli indici di dispersione , che quantificano la variabilità delle risposte rispetto al valore medio. La deviazione standard è l’indicatore più utilizzato, poiché consente di capire se le risposte sono concentrate attorno alla media o se si distribuiscono in modo più ampio. Valori molto bassi indicano che l’item non riesce a discriminare tra i partecipanti, mentre una deviazione molto elevata può segnalare difficoltà interpretative dell’item o la presenza di sottogruppi con risposte fortemente divergenti. Segue gli indici di forma della distribuzione , che informano su quanto la distribuzione dei punteggi si discosti da una distribuzione simmetrica o normale. L’asimmetria (skewness) indica la direzione e il grado di spostamento delle risposte verso i valori bassi o alti della scala: un item con skewness positiva vede un accumulo di risposte nelle categorie inferiori, mentre una skewness negativa indica il contrario. La curtosi , invece, esprime quanto le risposte si concentrano attorno alla media: valori molto alti suggeriscono una forte centralizzazione delle risposte, mentre valori bassi indicano una distribuzione piatta, con ampia dispersione. Infine si considerano i valori minimo e massim o osservati per ciascun item.

I valori mancanti possono essere un problema nei test di tipica

performance. è possibile distinguere almeno tre modalità attraverso cui un dato può risultare mancante:

  • (^) Missing per definizione della sottopopolazione : si verifica quando un item, per sua natura, non è applicabile a tutti i soggetti, ma solo a una parte del campione. la mancanza non è né casuale né sistematica: è strutturale. Gli item di questo tipo dovrebbero essere evitati, oppure accompagnati da una

logica condizionale che ne impedisca l’attivazione per chi non appartiene alla sottopopolazione di riferimento.

  • (^) Missing completely at random : la probabilità che un dato sia mancante non dipende né dal contenuto dell’item né da alcuna caratteristica della persona che ha risposto. Si tratta di assenze che si distribuiscono in modo totalmente casuale e simmetrico all’interno del dataset, e che potrebbero derivare da un errore di trascrizione, da una svista durante la compilazione oppure da un’interruzione tecnica temporanea nel caricamento della risposta. In teoria, questi missing non introducono distorsioni nei risultati, perché sono distribuiti in modo neutro. Tuttavia, è raro che siano completamente casuali, e per verificarlo si può usare il Little’s MCAR test, che consente di valutare se il pattern di dati mancanti è statisticamente compatibile con una distribuzione completamente casuale. (Test sensibile alla numerosità del campione)
  • (^) Missing at random : la più comune, la probabilità che un dato sia mancante non dipende direttamente dall’item, ma da altre variabili osservabili nel dataset. Per esempio, potrebbe verificarsi che i soggetti con livelli più alti di disagio psicologico tendano a non rispondere a determinati item che toccano temi sensibili, come la percezione sociale o la qualità delle relazioni familiari. Qui la mancanza non è casuale, ma nemmeno del tutto sistematica: è legata a variabili che si possono controllare statisticamente.
  • (^) Missing not at random : la probabilità che un dato manchi è collegata proprio alla variabile che si sta cercando di misurare. Il soggetto non risponde agli item che indagano il costrutto, in quanto il costrutto stesso è un tasto dolente. Per orientarsi nella gestione dei dati mancanti, è utile costruire una rappresentazione grafica o tabellare della presenza e assenza dei dati nel dataset. Le griglie che rappresentano questa matrice mettono in riga i casi (cioè i partecipanti) e in colonna gli item, indicando per ciascuna cella se il dato è presente oppure assente. Attraverso questa visualizzazione è possibile cogliere a colpo d’occhio se i missing si distribuiscono in modo omogeneo oppure se si concentrano in alcuni item, in alcuni soggetti o, in entrambi. Un pattern casuale apparirà come una dispersione sparsa di valori mancanti nella griglia, mentre un pattern sistematico mostrerà accumuli lineari o aree completamente vuote.

Ogni rievocazione impegna processi cognitivi diversi. (Confirmation bias cioè la tendenza a cercare conferme alla propria ipotesi iniziale) Le domande chiuse si basano su un processo di riconoscimento di risposta tra più alternative. Questo riduce l’impegno mnestico, ma consente di valutare con maggiore oggettività. La scelta tra formato aperto e chiuso dipende molto dall’obiettivo del test, ma anche dal costrutto che si intende misurare: A. Intelligenza fluida : riguarda la capacità di risolvere problemi nuovi, di cogliere relazioni astratte, di adattarsi a situazioni non familiari. È indipendente dalle conoscenze pregresse, e si manifesta nella capacità di ragionare logicamente. B. Intelligenza cristallizzata: è il prodotto dell’apprendimento e dell’esperienza, include il vocabolario, la conoscenza enciclopedica, la padronanza di fatti e concetti, insomma tutto ciò che la persona ha acquisito nel tempo grazie all’istruzione, alla cultura, ai contesti sociali in cui è cresciuta. Nella costruzione di item questa distinzione si traduce in modalità differenti. Se vogliamo misurare la prima utilizzeremo item il cui contenuto sia privo di riferimenti culturali specifici e che richieda processi puri di ragionamento. Al contrario, per valutare la seconda utilizzeremo un item di informazione generale.

  • (^) Gli item ad analogia possono essere sia visivi che verbali. Un’analogia visiva potrebbe consistere nel mostrare due figure con una certa trasformazione (ad esempio, un quadrato che diventa un rombo ruotando di 45 gradi) e chiedere quale delle figure proposte mantiene la stessa relazione con un altro stimolo. Un’analogia verbale invece potrebbe essere: “Spada è a Guerriero come Scalpello è a…?”, dove la risposta attesa è “Scultore”. Questo tipo di item può essere facilmente adattato sia per testare abilità cristallizzate sia per valutare la capacità di individuare relazioni astratte.
  • (^) Gli item ad esclusione chiedono di individuare l’intruso in un insieme coerente.
  • Item a sequenza che chiede di completare una serie (Come Lunedì, martedì, mercoledì …)
  • Item di informazione generale richiedono alla persona di riconoscere la risposta corretta a domande che fanno appello a conoscenze che dovrebbero far parte del patrimonio culturale comune. Ma a seconda del contesto scolastico, della fascia d’età, del background familiare e persino della regione geografica, alcune di queste conoscenze possono risultare ovvie oppure del tutto estranee. Il rischio,

dunque, è che questi item finiscano per valutare più l’appartenenza culturale che l’intelligenza vera e propria.

  • (^) Item di ragionamento verbale e non verbale ci permettono di esplorare non solo ciò che una persona conosce, ma come struttura e collega le informazioni, anche quando non ha la risposta immediata. Gli item di ragionamento verbale sono particolarmente interessanti perché non misurano la memoria o la cultura generale, bensì la capacità di stabilire relazioni logiche tra concetti, idee o proposizioni linguistiche. Gli item di ragionamento non verbale hanno un contenuto più astratto, testano la capacità di riconoscere strutture, pattern, regolarità visive.
  • (^) Gli item non verbali in cui si richiede alla persona di completare una serie o un insieme attraverso regole visive, di completare figure simmetriche, di ricostruire la sequenza corretta di una trasformazione.
  • Item sulla comprensione del testo.
  • (^) Gli item dei test di profitto servono a valutare ciò che è stato appreso in un percorso formativo. gli item devono essere costruiti in stretta coerenza con gli obiettivi didattici. Non basta che siano difficili o raffinati: devono coprire in modo rappresentativo il contenuto del programma. (vero\falso o a scelta multipla) Quando si progettano item a scelta multipla il problema non è formulare la domanda corretta, ma costruire buone alternative sbagliate. È proprio la qualità dei distrattori a determinare il potere discriminativo dell’item: un distrattore troppo ovvio o assurdo viene eliminato subito da qualsiasi candidato mediamente attento, mentre un distrattore ben costruito mette alla prova la conoscenza reale. Un errore comune è l’inserimento di alternative evidentemente errate o linguisticamente incoerenti, che permettono allo studente di eliminarle con una semplice strategia di esclusione formale. Altra trappola frequente è il cosiddetto effetto della formulazione insolita, dove la struttura stessa della domanda o delle risposte induce in errore. Infine, bisogna evitare che sia la struttura delle risposte a suggerire la soluzione.
  • Gli item di abbinamento che richiedono al soggetto di collegare due liste di elementi in base a un criterio comune. È fondamentale che il test venga introdotto in maniera trasparente. Dopo il consenso è essenziale che vengano fornite le istruzione per la compilazione. Il layout del test dovrebbe essere sobrio. Per analizzare gli item è fondamentale la proporzione di risposte corrette all’item indicata con P che è un indice che ci dice quanto l’item è stato facile o difficile per il campione , si calcola: