Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Preparati con lezioni e prove svolte basate sui programmi universitari!

Rispondi a reali domande d’esame e scopri la tua preparazione

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

Per ogni documento caricato

Rispondi alle domande

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Articoli Scientifici, Schemi e mappe concettuali di Psicometria

Università degli Studi Magna Græcia di Catanzaro (UNICZ)Psicometria

svariati articoli scientifici su strumenti psicometrici tradotti e riassuntati

Tipologia: Schemi e mappe concettuali

2025/2026

Caricato il 15/05/2026

harleyph 🇮🇹

1 documento

1 / 45

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1

1. Cronbach’s alpha in mathematics education

research

L’articolo analizza criticamente l’uso del coefficiente Cronbach’s alpha nella

ricerca educativa, in particolare nell’ambito dell’educazione matematica,

sostenendo che questo indice venga spesso utilizzato in modo improprio come

prova automatica di affidabilità degli strumenti di ricerca. L’autore evidenzia

una forte distanza tra teoria psicometrica e pratica empirica: sebbene in

letteratura esistano numerose critiche ai limiti di Cronbach’s alpha, esso

continua a essere usato come standard quasi universale per valutare

l’affidabilità delle scale.

L’autore chiarisce la differenza tra validità e affidabilità di uno strumento. La

validità riguarda la capacità dello strumento di misurare effettivamente il

costrutto che intende misurare, mentre l’affidabilità riguarda la precisione e la

coerenza della misurazione. Uno strumento può quindi produrre dati

apparentemente sofisticati ma metodologicamente deboli se manca di validità

o affidabilità. Per spiegare il concetto di affidabilità, l’articolo si basa sulla

Classical Test Theory. Secondo questa teoria, ogni punteggio osservato (x) è

composto da: un punteggio vero (t), un errore di misura (e). La relazione

fondamentale è:

x = t + e

L’affidabilità indica quindi quanto il punteggio osservato rifletta il punteggio

vero e quanto sia invece influenzato dall’errore casuale. L’autore ricostruisce

poi l’evoluzione storica delle tecniche di stima dell’affidabilità. I primi approcci,

come: test–retest, forme parallele, coefficienti di stabilità; presentavano

numerosi problemi pratici: difficoltà nel creare item realmente equivalenti,

effetti del tempo tra le somministrazioni e impossibilità di controllare tutti gli

errori di misura.

Per superare questi limiti si è diffuso il metodo della internal consistency,

cioè la valutazione della coerenza interna degli item attraverso una singola

somministrazione della scala. Cronbach’s alpha appartiene a questa categoria.

Il punto centrale dell’articolo è che Cronbach’s alpha viene frequentemente

interpretato in modo scorretto. L’autore sottolinea che alpha: misura

principalmente il grado di correlazione tra gli item; non dimostra

automaticamente che la scala sia affidabile; non dimostra che la scala misuri

un unico costrutto psicologico. In altre parole, un valore elevato di alpha non

garantisce di per sé la qualità dello strumento.

Zakariya spiega che alpha può essere interpretato come stima affidabile della

reliability soltanto sotto condizioni statistiche molto restrittive. La prima

condizione è la unidimensionalità: tutti gli item devono misurare un unico

fattore latente. Se una scala misura più costrutti contemporaneamente, alpha

può risultare alto anche se gli item non appartengono realmente alla stessa

pf3

pf4

pf5

pf8

pf9

pfa

pfd

pfe

pff

pf12

pf13

pf14

pf15

pf16

pf17

pf18

pf19

pf1a

pf1b

pf1c

pf1d

pf1e

pf1f

pf20

pf21

pf22

pf23

pf24

pf25

pf26

pf27

pf28

pf29

pf2a

pf2b

pf2c

pf2d

Scopri Schemi e mappe concettuali di Psicometria Università degli Studi Magna Græcia di Catanzaro (UNICZ)

Documenti correlati

Elaborato revisione articoli scientifici su sicurezza informatica

Articoli scientifici

RIASSUNTI ARTICOLI SCIENTIFICI LANGHER

Revisione articoli scientifici

riassunto articoli scientifici

(1)

articoli scientifici rebt

(1)

Articoli scientifici sull'allenamento pliometrico e salti

(1)

come ricercare articoli scientifici su PubMed

Riassunti dei tre articoli scientifici sulla prosodia e sui gesti

(1)

Articoli scientifici su peste

riassunti di articoli scientifici

(1)

riassunti di articoli scientifici per la tesi

Anteprima parziale del testo

Scarica Articoli Scientifici e più Schemi e mappe concettuali in PDF di Psicometria solo su Docsity!

1. Cronbach’s alpha in mathematics education

research

L’articolo analizza criticamente l’uso del coefficiente Cronbach’s alpha nella ricerca educativa, in particolare nell’ambito dell’educazione matematica, sostenendo che questo indice venga spesso utilizzato in modo improprio come prova automatica di affidabilità degli strumenti di ricerca. L’autore evidenzia una forte distanza tra teoria psicometrica e pratica empirica: sebbene in letteratura esistano numerose critiche ai limiti di Cronbach’s alpha, esso continua a essere usato come standard quasi universale per valutare l’affidabilità delle scale. L’autore chiarisce la differenza tra validità e affidabilità di uno strumento. La validità riguarda la capacità dello strumento di misurare effettivamente il costrutto che intende misurare, mentre l’affidabilità riguarda la precisione e la coerenza della misurazione. Uno strumento può quindi produrre dati apparentemente sofisticati ma metodologicamente deboli se manca di validità o affidabilità. Per spiegare il concetto di affidabilità, l’articolo si basa sulla Classical Test Theory. Secondo questa teoria, ogni punteggio osservato (x) è composto da: un punteggio vero (t), un errore di misura (e). La relazione fondamentale è: x = t + e L’affidabilità indica quindi quanto il punteggio osservato rifletta il punteggio vero e quanto sia invece influenzato dall’errore casuale. L’autore ricostruisce poi l’evoluzione storica delle tecniche di stima dell’affidabilità. I primi approcci, come : test–retest, forme parallele, coefficienti di stabilità ; presentavano numerosi problemi pratici: difficoltà nel creare item realmente equivalenti, effetti del tempo tra le somministrazioni e impossibilità di controllare tutti gli errori di misura. Per superare questi limiti si è diffuso il metodo della internal consistency , cioè la valutazione della coerenza interna degli item attraverso una singola somministrazione della scala. Cronbach’s alpha appartiene a questa categoria. Il punto centrale dell’articolo è che Cronbach’s alpha viene frequentemente interpretato in modo scorretto. L’autore sottolinea che alpha: misura principalmente il grado di correlazione tra gli item; non dimostra automaticamente che la scala sia affidabile; non dimostra che la scala misuri un unico costrutto psicologico. In altre parole, un valore elevato di alpha non garantisce di per sé la qualità dello strumento. Zakariya spiega che alpha può essere interpretato come stima affidabile della reliability soltanto sotto condizioni statistiche molto restrittive. La prima condizione è la unidimensionalità : tutti gli item devono misurare un unico fattore latente. Se una scala misura più costrutti contemporaneamente, alpha può risultare alto anche se gli item non appartengono realmente alla stessa

dimensione teorica. La seconda condizione è la essential tau-equivalence , cioè l’uguaglianza sostanziale dei factor loadings degli item. In pratica, tutti gli item devono contribuire al costrutto con forza simile. Se alcuni item pesano molto più di altri, Cronbach’s alpha tende a sottostimare l’affidabilità reale della scala. La terza condizione è l’assenza di errori correlati tra gli item. Se gli errori di misura sono correlati: alpha può sovrastimare considerevolmente l’affidabilità; i ricercatori possono essere indotti a considerare valida una scala in realtà problematica. L’articolo riporta esempi concreti: violazioni della tau-equivalence possono produrre sottostime fino all’11%; errori correlati possono produrre sovrastime fino al 20%. Un esempio discusso dall’autore mostra che una scala con alpha = 0.75 potrebbe avere in realtà un’affidabilità effettiva vicina a 0.60. Zakariya insiste sul fatto che queste assunzioni possono e devono essere controllate empiricamente attraverso: Exploratory Factor Analysis (EFA) , Confirmatory Factor Analysis (CFA). La CFA, in particolare, consente di: verificare la presenza di un solo fattore; controllare l’uguaglianza dei factor loadings; identificare errori correlati tramite modification indices. L’autore critica poi la letteratura recente in educazione matematica mostrando che moltissimi studi riportano semplicemente frasi come: “La scala era affidabile (Cronbach’s alpha = .83)” senza verificare nessuna delle condizioni teoriche richieste. Secondo Zakariya, questo rappresenta un uso metodologicamente scorretto dell’indice. Una seconda critica riguarda la confusione tra: internal consistency , unidimensionalità. Molti ricercatori assumono erroneamente che: un alpha elevato significhi automaticamente che la scala misura un unico costrutto. L’autore chiarisce invece che: la internal consistency riguarda solo l’interrelazione statistica tra item; la unidimensionalità riguarda la struttura teorica del costrutto misurato. Una scala può quindi avere item molto correlati ma essere multidimensionale. Nella seconda parte dell’articolo vengono presentate alternative a Cronbach’s alpha. La prima alternativa è il coefficiente Omega (ω). Secondo l’autore: Omega è generalmente più accurato; non richiede una tau-equivalence perfetta; utilizza direttamente factor loadings, errori e covarianze ottenuti dall’analisi fattoriale. Omega è inoltre facilmente calcolabile nei principali software statistici: SPSS, R, STATA, Mplus. Diversi studi citati mostrano che Omega stima l’affidabilità meglio di alpha e coincide con alpha solo nelle rare situazioni ideali in cui le assunzioni di Cronbach sono pienamente soddisfatte. L’autore menziona anche il Greatest Lower Bound (GLB) , teoricamente superiore ad alpha ma poco utilizzato perché complesso da calcolare e scarsamente disponibile nei software open-source.

coinvolte nella regolazione post-trascrizionale dei geni. Il loro ruolo consiste nel: bloccare la traduzione degli mRNA, favorire la degradazione dell’mRNA, modulare l’espressione proteica cellulare. Sono già stati implicati in: depressione, ansia, disturbi neurodegenerativi, disturbi del sonno.

3. Obiettivo dello studio Lo studio si proponeva di: identificare i miRNA esosomiali alterati nei pazienti con insonnia cronica, verificare se alcuni miRNA possano fungere da biomarcatori diagnostici, comprendere i meccanismi molecolari coinvolti nell’insonnia. Gli autori sottolineano che questo è il primo studio genome-wide sui miRNA esosomiali nel sangue di pazienti insonni. 4. Disegno dello studio Sono stati arruolati: 20 pazienti con insonnia cronica, 20 controlli sani appaiati per età e sesso. I pazienti dovevano: avere diagnosi di insonnia cronica, avere età compresa tra 18 e 65 anni, non assumere farmaci che influenzassero il sonno, avere dati clinici completi, fornire consenso informato. Venivano esclusi: schizofrenia, dipendenze, demenza, trauma cranico, infezioni recenti. 5. Valutazione clinica I partecipanti completarono vari questionari: PSQI: Valuta la qualità del sonno. I pazienti insonni avevano: PSQI medio = 17.65. Controlli = 2.6 HAMD: Scala della depressione di Hamilton. Valori significativamente più elevati negli insonni. HAMA: Scala dell’ansia di Hamilton. Anche questa significativamente aumentata. CGI: Valutazione globale clinica. Più elevata nel gruppo insonnia. 6. Isolamento e identificazione degli esosomi Dal siero sanguigno furono isolati gli esosomi tramite: cromatografia ad esclusione dimensionale. La loro identificazione fu confermata con: microscopia elettronica, nanoparticle tracking analysis, Western blot per proteine esosomiali (Alix e TSG-101). 7. Sequenziamento dei miRNA Gli autori eseguirono: sequenziamento genome-wide dei miRNA esosomiali usando Illumina HiSeq 2500. Dopo filtraggio statistico: furono identificati 51 miRNA significativamente alterati. Di questi: 21 erano aumentati, 30 erano ridotti nei pazienti insonni. 9. Analisi ROC: valore diagnostico Che cos’è una ROC? La ROC (Receiver Operating Characteristic) misura quanto bene un biomarcatore distingue: pazienti malati, soggetti sani. L’indice principale è: AUC (Area Under Curve). Interpretazione: 0.5 = inutile, 0.7–0.8 = discreto, 0.8– 0.9 = molto buono, 0.9 = eccellente.

10. Ipotesi infiammatoria Gli autori propongono che: l’infiammazione cronica sia un meccanismo centrale dell’insonnia. Particolare attenzione viene data a IL-6. L’IL-6: è una citochina proinfiammatoria, aumenta nell’insonnia, altera asse ipotalamo-ipofisi-surrene, aumenta stress cronico. 11. Autofagia e mitofagia Le analisi GO e KEGG mostrarono arricchimento di pathway legati a: autofagia, mitofagia, funzione lisosomiale, metabolismo cellulare, risposta allo stress. Autofagia: È il processo con cui la cellula: elimina componenti danneggiati, mantiene l’omeostasi. La sua alterazione: danneggia i neuroni, aumenta lo stress cellulare, altera metabolismo energetico. Mitofagia: Rimozione selettiva dei mitocondri danneggiati. Secondo gli autori: il danno mitocondriale potrebbe contribuire all’insonnia cronica. 12. Interpretazione complessiva dello studio Gli autori propongono un modello integrato: Insonnia cronica = disturbo neuroimmunometabolico. Coinvolge: infiammazione, stress ossidativo, disfunzione neuronale, alterazione dell’autofagia, disfunzione mitocondriale, alterata regolazione genica da parte dei miRNA. 13. Conclusioni finali Lo studio conclude che: 1. I miRNA esosomiali nel sangue sono alterati nell’insonnia cronica. 2. miR-451a e miR-182-5p sono biomarcatori promettenti. 3. L’insonnia potrebbe essere fortemente legata a: neuroinfiammazione, stress cellulare, alterazioni metaboliche, disfunzione dell’autofagia. 4. In futuro potrebbero svilupparsi: test diagnostici ematici, nuove terapie mirate ai miRNA, approcci di medicina personalizzata per l’insonnia.

3. Measuring insomnia severity using items from the

Insomnia Severity Index

L’articolo descrive lo sviluppo e la validazione di una versione estremamente breve dell’Insomnia Severity Index (ISI), composta da soli 2 item , chiamata ISI-2 , per misurare rapidamente la gravità dell’insonnia. Gli autori volevano creare uno strumento che: fosse molto rapido da compilare ; mantenesse buone proprietà psicometriche; fosse utile sia: per screening diagnostico ; sia per monitorare il cambiamento durante il trattamento ; riducesse il carico sui pazienti, soprattutto in contesti clinici dove si somministrano molti questionari contemporaneamente. L’insonnia è molto comune: prevalenza nella popolazione generale: 10–22% ; forte associazione con: depressione, ansia, altri disturbi psichiatrici. Esistono

Lo studio aveva due obiettivi principali: verificare la validità del questionario PHQ-9 nei pazienti con disturbo depressivo maggiore (MDD) ; verificare la affidabilità del PHQ-9 in un contesto di ospedale psichiatrico cinese. Gli autori volevano capire se il PHQ-9, già molto usato nella medicina generale e nella popolazione generale, fosse adatto anche a pazienti psichiatrici con depressione più grave e sintomi complessi. Il disturbo depressivo maggiore (MDD): L’articolo sottolinea che il MDD è: una malattia mentale: comune, cronica, recidivante. Secondo il Global Burden of Disease Study 2015 : il MDD rappresenta circa il 35% dei DALYs (anni di vita persi per disabilità) tra i disturbi psichiatrici; è uno dei disturbi mentali con il maggiore impatto globale. Gli autori insistono sul concetto di: “measurement-based care” cioè una cura basata su misurazioni sistematiche dei sintomi. Questo approccio serve a: identificare precocemente la depressione; monitorare l’andamento clinico; valutare la risposta terapeutica; guidare le decisioni cliniche. Le linee guida dell’American Psychological Association sottolineano infatti che: la valutazione accurata della gravità della depressione è fondamentale durante tutto il trattamento. Il Patient Health Questionnaire-9 (PHQ-9) è: un questionario autosomministrato; rapido; basato direttamente sui criteri DSM-IV della depressione maggiore. Il PHQ-9 contiene: 9 item che valutano i sintomi depressivi nelle ultime 2 settimane. Ogni item è valutato da: 0 = mai, 1 = alcuni giorni, 2 = più della metà dei giorni, 3 = quasi ogni giorno. Il punteggio totale varia: da 0 a 27. Gli autori spiegano che il PHQ-9: è già stato validato: nella popolazione generale; nelle cure primarie; in pazienti con malattie fisiche; in molti paesi e lingue. La maggior parte degli studi precedenti era stata fatta: in medicina generale; nella popolazione generale; in contesti non psichiatrici. Pochi studi avevano analizzato: pazienti ricoverati o trattati in ospedali psichiatrici dove: la depressione è spesso più grave; i sintomi sono più complessi; esistono più comorbidità. Sono stati inclusi 109 pazienti con diagnosi di MDD. Tutti i pazienti: soddisfacevano i criteri DSM-IV; erano stati valutati con: SCID (Structured Clinical Interview for DSM). Questo è importante perché: garantisce alta accuratezza diagnostica. I pazienti dovevano: avere 16–55 anni; avere almeno 9 anni di istruzione; non aver fatto elettroshock recentemente; dare consenso informato. Venivano esclusi: malattie neurologiche importanti; depressione secondaria a malattie fisiche o farmaci; gravi effetti collaterali farmacologici; tentativi suicidari gravi; gravidanza. Tutti i 109 pazienti completarono: PHQ-9 e HAMD-17. Poi: 54 pazienti furono rivalutati dopo 2 settimane con PHQ-9 per verificare la stabilità temporale (test-retest reliability).

Lo studio conclude che il PHQ-9: ha buona validità, buona affidabilità; è rapido, semplice, efficace; è adatto per: screening, valutazione della gravità, monitoraggio clinico nei pazienti con MDD in ospedale psichiatrico.

5. Differential Item Functioning: Beyond

validity evidence based on internal structure

L’articolo affronta il tema del Differential Item Functioning (DIF) , cioè il funzionamento differenziale degli item nei test psicologici ed educativi, proponendo una revisione concettuale molto importante: gli autori sostengono che il DIF non debba essere considerato soltanto una prova di validità legata alla struttura interna del test, ma un elemento centrale dell’intero processo di validazione delle interpretazioni dei punteggi. L’articolo richiama la definizione degli Standards for Educational and Psychological Testing (2014) , secondo cui la validità riguarda il grado in cui prove empiriche e teoria supportano le interpretazioni dei punteggi per usi specifici del test. In questo quadro: un item presenta DIF quando persone appartenenti a gruppi differenti ma con lo stesso livello della caratteristica misurata (abilità, tratto, competenza) hanno probabilità differenti di rispondere correttamente; tale differenza può compromettere la validità delle interpretazioni del punteggio. Gli autori collegano il DIF al concetto di construct representation di Embretson (1983), secondo cui una minaccia fondamentale alla validità è la presenza di: construct-irrelevant variance → varianza dovuta a fattori estranei al costrutto; construct underrepresentation → rappresentazione incompleta del costrutto. Il DIF viene quindi interpretato come possibile indicatore della presenza di fattori irrilevanti rispetto al costrutto misurato. Gli autori criticano il fatto che gli Standards collochino il DIF esclusivamente tra le prove di validità basate sulla struttura interna del test. Secondo loro questa visione è troppo limitata perché: il DIF non riguarda solo dimensionalità e struttura fattoriale; implica anche processi cognitivi, contenuti culturali, relazioni con altre variabili, conseguenze sociali dell’uso del test. L’articolo sottolinea che un item con DIF può: misurare contenuti diversi per gruppi diversi; attivare processi cognitivi differenti; produrre effetti discriminatori nelle decisioni. Per questo il DIF deve essere collegato a tutte le fonti di evidenza di validità. Il DIF può verificare: se il contenuto del test rappresenta il costrutto allo stesso modo per gruppi differenti; se alcuni item sono culturalmente o linguisticamente meno accessibili. Il DIF può mostrare che gruppi diversi usano processi cognitivi differenti per rispondere allo stesso item. Gli autori suggeriscono l’uso di: think-aloud protocols, interviste cognitive, metodi

Esempio 1: abuso fisico (studio di Kemp et al., 1998). Lo studio analizzava: pattern di lividi (“bruise patterns”) in bambini abusati e non abusati. Un bambino presenta: due lividi sul torace. Nel centro specialistico: prevalenza di abuso fisico = 37%. Dati dello studio: sensibilità = 0.11; falso positivo = 0.02. Applicando Bayes: probabilità finale = 76%. Quindi: dopo aver osservato i lividi, la probabilità che il bambino fosse stato abusato saliva dal 37% al 76%. Lo stesso segno clinico applicato in un ambulatorio pediatrico generale: dove il base rate è 1%; produceva una probabilità finale di solo 5%. Questo è uno dei messaggi più importanti dell’articolo: lo stesso segno può avere significati completamente diversi a seconda del contesto clinico. L’autore suggerisce: usare modelli di regressione logistica; per selezionare indicatori indipendenti. In questo modo: ogni segno contribuisce solo con la sua quota unica di informazione. L’autore conclude che: il Teorema di Bayes può essere molto utile nelle decisioni cliniche sull’abuso infantile, ma solo se usato con grande cautela metodologica.

7. Prior approval: The growth of Bayesian

methods in psychology

L’articolo è un editoriale teorico che: ripercorre la storia della statistica bayesiana; descrive la crescita dei metodi bayesiani in psicologia; confronta approccio bayesiano e frequentista; discute implicazioni metodologiche e filosofiche per la ricerca psicologica. Gli autori vogliono spiegare: perché i metodi bayesiani siano diventati sempre più importanti nella psicologia moderna. L’articolo sostiene che: la crescita del Bayes non è una moda passeggera; rappresenta un cambiamento profondo nel modo di fare inferenza statistica in psicologia. L’idea centrale è che: i metodi bayesiani non siano semplicemente “un’altra tecnica statistica”, ma un possibile nuovo paradigma scientifico per la psicologia quantitativa. Gli autori però evitano posizioni estreme: non sostengono che Bayes debba sostituire completamente il frequentismo; propongono invece un approccio pragmatico e pluralista. I metodi bayesiani : risolvono problemi complessi; funzionano bene con modelli sofisticati; gestiscono meglio dati difficili. L’articolo dedica molta attenzione alla distinzione tra: approccio frequentista; approccio bayesiano. Secondo il frequentismo: la probabilità riguarda eventi casuali ripetibili. Quindi: i parametri statistici sono fissi; solo i dati sono casuali. Nel Bayes soggettivista: la probabilità rappresenta il grado di credenza personale. Le convinzioni iniziali vengono aggiornate con nuovi dati usando il Teorema di Bayes. I modelli bayesiani: erano teoricamente potenti; ma spesso

impossibili da calcolare a mano. Con l’aumento della potenza di calcolo: diventano praticabili metodi complessi; soprattutto dagli anni ’80 e ’90. Una delle idee più importanti dell’articolo è che: il Bayes moderno non è necessariamente soggettivista. Gli autori criticano la visione tradizionale: “i prior rappresentano credenze personali”. Nella pratica: molti prior vengono scelti per convenienza; stabilità matematica; utilità pratica. Critica al dogmatismo L’articolo rifiuta: sia il dogmatismo anti-bayesiano; sia il dogmatismo pro- bayesiano. Gli autori osservano che: gli anti-bayesiani stanno diventando rari; ma anche i bayesiani radicali stanno diminuendo. 1. Uso esplicito dell’informazione precedente. Il Bayes permette di: incorporare teoria; dati precedenti; conoscenza accumulata. 2. Gestione dei piccoli campioni. Molte ricerche psicologiche: hanno pochi soggetti; molti modelli plausibili. Il Bayes può: stabilizzare le inferenze; ridurre problemi di stima. 3. Flessibilità modellistica. Il Bayes facilita: modelli gerarchici; variabili latenti; dati incompleti; strutture complesse. Uno dei messaggi filosofici finali più importanti: nessun modello statistico rappresenta completamente la realtà psicologica. Per questo: bisogna mantenere umiltà epistemologica; verificare sempre le assunzioni del modello. L’articolo conclude che: la statistica bayesiana non deve essere vista come sostituto totale del frequentismo, ma come un’estensione potente degli strumenti disponibili per la ricerca psicologica. La vera priorità per la psicologia non è: scegliere ideologicamente tra Bayes e frequentismo; ma: usare metodi statistici utili per rispondere a domande scientifiche importanti.

8. The PHQ-9: Validity of a Brief Depression

Severity Measure

Il documento analizza il PHQ-9 (Patient Health Questionnaire-9) , uno dei questionari più utilizzati al mondo per identificare e misurare la gravità della depressione. Lo studio dimostra che il PHQ-9 è uno strumento affidabile, valido, rapido e clinicamente utile sia per la diagnosi sia per il monitoraggio della severità dei sintomi depressivi. Gli autori volevano verificare tre aspetti fondamentali del PHQ-9: Affidabilità → se il test produce risultati coerenti. Validità diagnostica → se identifica correttamente i pazienti con depressione maggiore. Validità clinica/funzionale → se i punteggi del test riflettono davvero il livello di compromissione nella vita quotidiana. Il PHQ-9 è un questionario composto da 9 domande , ciascuna corrispondente ai criteri diagnostici del DSM-IV per il disturbo depressivo maggiore. Ogni domanda valuta la frequenza dei sintomi nelle ultime due settimane: 0 = per niente; 1 = alcuni giorni; 2 = più della metà dei giorni; 3 = quasi ogni giorno. Il punteggio totale varia da 0 a 27. I sintomi valutati includono: umore depresso,

e gravità dei sintomi in un contesto neurologico non psichiatrico. Gli autori spiegano che la depressione è uno dei disturbi mentali più diffusi al mondo e rappresenta una delle principali cause di disabilità globale. Nei pazienti neurologici la depressione è particolarmente frequente perché molte malattie neurologiche sono associate a: dolore cronico, riduzione dell’autonomia, deficit cognitivi, isolamento sociale, peggioramento della qualità della vita. Lo studio cita esempi come: epilessia, Parkinson, ictus, neuropatie, disturbi cerebrovascolari. Gli autori sottolineano che nei reparti di neurologia la depressione spesso rimane non diagnosticata perché: i neurologi non sono specialisti della salute mentale; le valutazioni psichiatriche complete richiedono tempo; molti strumenti diagnostici sono troppo complessi o lunghi. Per questo motivo il PHQ-9 potrebbe rappresentare una soluzione pratica. Gli autori volevano verificare: l’affidabilità interna del PHQ-9; la validità diagnostica; la validità strutturale; il miglior cut-off per identificare la depressione; i fattori di rischio associati alla depressione nei pazienti neurologici. Lo studio era di tipo: cross-sectional (trasversale) ed è stato svolto presso un ospedale affiliato alla Peking University in Cina. Sono stati reclutati pazienti ricoverati nel reparto di neurologia. Criteri di inclusione : età ≥18 anni; presenza di disturbo neurologico; capacità cognitiva sufficiente; consenso informato firmato. Criteri di esclusione : gravi deficit cognitivi; problemi di linguaggio o udito; impossibilità di compilare il questionario. Numero di partecipanti : 300 questionari distribuiti; 290 restituiti; 277 pazienti completarono tutte le valutazioni. Il tasso di risposta fu molto alto: 96,7%. PHQ-9: Questionario autocompilato di 9 item basato sui criteri DSM-IV della depressione. Ogni item va da: 0 = mai, 1 = alcuni giorni, 2 = più della metà dei giorni, 3 = quasi ogni giorno. Punteggio totale: 0–27. Per validare il PHQ-9 vennero utilizzati: MINI, Mini-International Neuropsychiatric Interview: intervista psichiatrica strutturata; usata come “gold standard” diagnostico. HAMD, Hamilton Depression Rating Scale: scala clinica per misurare severità della depressione. Lo studio mostra un’elevata affidabilità interna. Cronbach’s alpha α = 0,839. Questo valore indica buona coerenza tra gli item del questionario. Lo studio eseguì una principal component analysis. Vennero identificati: 3 fattori principali che spiegavano il: 63,114% della varianza cumulativa. I tre fattori principali erano collegati a: umore depresso; mancanza di motivazione; sintomi somatici. Il PHQ-9 mostrò una forte correlazione con la HAMD. Questo significa che: il PHQ-9 riflette accuratamente la severità clinica della depressione; può essere utilizzato anche per monitorare andamento e gravità. Lo studio trovò una prevalenza della depressione pari a: 24,5% nei pazienti neurologici ricoverati. Questo valore è: più alto rispetto alla popolazione generale; simile ad altri contesti clinici specialistici.

10. Factor structure, measurement invariance, and

concurrent validity of the Patient Health

Questionnaire-9 and the Generalized Anxiety

Disorder scale-7 in a Norwegian psychiatric

outpatient sample

Lo studio analizza due dei questionari psicologici più utilizzati nella pratica clinica: PHQ-9 (Patient Health Questionnaire-9) → misura i sintomi depressivi. GAD-7 (Generalized Anxiety Disorder-7) → misura i sintomi ansiosi. Gli autori volevano verificare tre aspetti principali: Struttura fattoriale dei due strumenti (cioè capire se misurano un solo fattore generale oppure più dimensioni psicologiche). Measurement invariance (invarianza di misura) ovvero verificare se i test funzionano allo stesso modo: negli uomini e nelle donne, nei diversi gruppi diagnostici, nei pazienti con o senza comorbidità. Validità concorrente cioè quanto depressione e ansia siano associate al livello di compromissione del funzionamento quotidiano, misurato con il WSAS. Gli autori spiegano che PHQ-9 e GAD-7 sono strumenti estremamente diffusi nella salute mentale, ma esistono ancora dubbi riguardo: alla loro reale struttura interna, alla possibilità di confrontare gruppi diversi, al loro uso in popolazioni cliniche eterogenee. Molti studi precedenti avevano trovato risultati contrastanti: alcuni sostenevano una struttura unidimensionale ; altri proponevano una struttura a due fattori : componente cognitiva , componente somatica/fisica. Lo studio è stato svolto in un centro psichiatrico ambulatoriale di Trondheim (Norvegia). Campione finale: 831 pazienti , età media: 30 anni , 61% donne. Diagnosi principali: disturbi dell’umore: 37%, disturbi d’ansia/stress: 34%, ADHD/disturbi ipercinetici: 16%, disturbi di personalità: 10%, comorbidità: 23%. PHQ-9: Questionario di 9 item sulla depressione: scala Likert da 0 a 3, valuta gravità depressiva, può essere usato anche come screening diagnostico. Il modello a fattore unico mostrava un adattamento mediocre. Il modello migliore risultava invece una struttura a due fattori : Fattore cognitivo include: tristezza, perdita di interesse, senso di colpa, pensieri suicidari. Fattore somatico include: insonnia, stanchezza, appetito, rallentamento psicomotorio. GAD-7: Questionario di 7 item sull’ansia generalizzata: stessa scala del PHQ-9, misura ansia e sintomi correlati. WSAS: Scala di funzionamento sociale e lavorativo: 5 item, misura quanto i sintomi compromettono: lavoro, attività domestiche, relazioni, vita sociale. Anche qui il modello a fattore unico funzionava peggio. La soluzione migliore era un fattore cognitivo : preoccupazione, paura, pensieri ansiosi; un fattore somatico : irrequietezza,

standard” diagnostico. Importante: gli psichiatri erano ciechi rispetto ai risultati dei questionari. Gli autori sottolineano che: PHQ-9 e GAD-7 funzionano bene anche in contesti africani Nonostante siano strumenti occidentali: mantengono buona accuratezza diagnostica, anche in una popolazione con: alta prevalenza HIV, povertà, differenze culturali significative. Lo studio evidenzia però che: gli strumenti locali come SSQ-14 rimangono molto importanti; l’adattamento culturale è fondamentale nella salute mentale globale. Gli autori ricordano che: i sintomi psicologici possono essere espressi diversamente nelle varie culture; alcuni concetti occidentali della psichiatria non sono universalmente identici. Lo studio suggerisce che: PHQ-9 e GAD- possono essere usati nei servizi sanitari africani; sono adatti per: screening rapido, identificazione precoce, monitoraggio clinico. Questo è particolarmente importante: in contesti con scarsità di psichiatri, dove servono strumenti brevi e facili da somministrare. Lo studio conclude che: PHQ-9, GAD-7, SSQ-14, sono strumenti validi e affidabili per lo screening di depressione e ansia nello Zimbabwe. Gli autori sostengono che: la validazione locale degli strumenti psicologici è essenziale; migliorare lo screening mentale nei paesi a basse risorse può aumentare l’accesso alle cure e ridurre il carico globale dei disturbi mentali.

12. Looking for a broader mindset in

psychometrics: the case for more participatory

measurement practices

L’articolo affronta una critica fondamentale alla psicometria , cioè alla disciplina che sviluppa strumenti quantitativi per misurare fenomeni psicologici (questionari, scale, test, ecc.). Gli autori sostengono che la psicometria moderna, pur essendo estremamente influente nella ricerca psicologica, presenti problemi teorici e metodologici profondi che non possono essere risolti soltanto migliorando le tecniche statistiche o le procedure di analisi dei dati. Gli autori evidenziano un forte paradosso: da un lato, la psicometria è uno dei sottocampi più importanti e utilizzati della psicologia moderna; dall’altro, è anche uno dei più criticati. Infatti: quasi ogni ricerca psicologica empirica utilizza strumenti psicometrici; le riviste scientifiche richiedono standard psicometrici elevati per pubblicare studi; la psicometria è insegnata praticamente in tutti i corsi universitari di psicologia. Tuttavia, molte critiche sostengono che: la psicometria non misuri davvero i fenomeni psicologici nel senso rigoroso della metrologia; gli strumenti quantitativi in psicologia potrebbero non avere il valore scientifico che si presume; la disciplina necessiterebbe addirittura di una rifondazione completa. Gli autori distinguono due grandi categorie di critiche. Critiche metodologiche interne : Queste riguardano problemi come: crisi della

replicabilità; p-hacking; manipolazione statistica; mancata preregistrazione degli studi; pratiche di ricerca poco trasparenti. Le soluzioni proposte dalla comunità scientifica includono: open science; protocolli rigorosi; preregistrazione; trasparenza dei dati; replicazioni. Secondo gli autori, però, queste strategie migliorano solo la correttezza procedurale, senza affrontare il problema più profondo: capire se gli strumenti psicometrici misurino davvero ciò che dichiarano di misurare. Critiche fondamentali o “rifondative” : Altri studiosi sostengono invece che: la psicometria abbia problemi concettuali strutturali; la misurazione psicologica non soddisfi i criteri della vera misurazione scientifica; i costrutti psicologici siano troppo complessi e ambigui per essere tradotti in numeri in modo affidabile. Gli autori propongono un cambiamento di prospettiva: non eliminare la psicometria; non limitarsi a perfezionare le statistiche; ma allargare il modo di concepire la misurazione psicologica. Secondo loro, la psicometria ha concentrato troppo l’attenzione: sugli aspetti tecnici; sui modelli matematici; sulla precisione statistica. Ha invece trascurato: il rapporto tra strumenti e fenomeni reali; il significato attribuito dagli individui agli item; il ruolo attivo delle persone nella produzione dei dati. Gli autori spiegano che nella psicologia quantitativa il dato non viene prodotto da uno strumento neutro, ma da persone che: leggono; interpretano; comprendono; attribuiscono significato alle domande del questionario. Questo crea un problema enorme: ogni risposta dipende inevitabilmente dall’interpretazione soggettiva del partecipante. Gli autori introducono il concetto di numerical traceability (tracciabilità numerica). Nelle scienze fisiche: una misura deve avere un collegamento stabile e standardizzato con il fenomeno misurato. In psicologia questo è molto difficile, perché il dato dipende dall’interpretazione umana. Per questo motivo: i risultati psicometrici non sono completamente indipendenti da chi usa lo strumento; manca uno standard universale di significato.

13. Item Response Theory: A Review and Related

Statistical Models

Gli autori dichiarano tre obiettivi principali: riassumere i fondamenti statistici dell’IRT; spiegare alcuni dei principali problemi della psicometria a un pubblico statistico più generale; proporre direzioni future per affrontare le nuove sfide della misurazione nell’era dei big data. La IRT è un insieme di modelli statistici utilizzati per: analizzare test; stimare abilità latenti; valutare item di questionari e prove; misurare tratti psicologici o cognitivi. L’idea fondamentale è che: le risposte osservabili ai test derivino da caratteristiche psicologiche latenti non direttamente osservabili. Queste caratteristiche vengono chiamate: latent traits (tratti latenti); oppure variabili latenti. L’IRT si basa su due assunzioni centrali. La prima assunzione è la indipendenza locale. Significa che: date le abilità latenti della persona; le

L’articolo presenta la Item Response Theory (IRT) , una metodologia statistica e psicometrica utilizzata per valutare la validità delle scale di misura, soprattutto quelle che misurano costrutti psicologici latenti come depressione, ansia o abilità cognitive. Gli autori sottolineano che, nonostante l’IRT sia molto diffusa nel campo educativo, essa è ancora poco utilizzata in psichiatria e nelle scienze della salute mentale. L’IRT descrive la relazione tra: il tratto latente della persona (ad esempio il livello di depressione); le proprietà dei singoli item (domande) di una scala; le risposte fornite dai soggetti agli item. L’obiettivo principale dell’IRT è capire quanto bene ogni domanda riesca a misurare il tratto psicologico che si vuole studiare. Gli autori confrontano l’IRT con la Classical Test Theory (CTT). Nella CTT: il punteggio totale è semplicemente la somma delle risposte; il risultato dipende sia dalla persona sia dalla difficoltà del test; le proprietà del test cambiano a seconda del campione utilizzato. Per esempio, una persona può apparire “più capace” se il test è facile e “meno capace” se il test è difficile. L’IRT cerca invece di separare: le caratteristiche dell’individuo; le caratteristiche degli item. Questo consente di ottenere misure più stabili e indipendenti dal campione utilizzato. L’IRT quindi è considerata più sofisticata e più precisa nella costruzione e valutazione delle scale psicometriche. Il tratto latente rappresenta la caratteristica psicologica non osservabile direttamente, indicata con la lettera greca θ (theta). Nel caso dell’articolo: θ basso = poca depressione; θ alto = forte depressione. La scala di theta ha: media = 0; deviazione standard = 1; valori generalmente compresi tra -6 e +6. L’IRT assume che all’aumentare del tratto latente aumenti anche la probabilità di dare risposte che indicano maggiore gravità del disturbo. Questa relazione è rappresentata tramite una curva a forma di “S” chiamata: Le proprietà degli item dovrebbero rimanere stabili indipendentemente dal gruppo di soggetti analizzato. Per esempio: una domanda sulla depressione dovrebbe funzionare allo stesso modo per giovani e anziani. Questa è una differenza importante rispetto alla CTT. Le risposte agli item devono essere indipendenti tra loro una volta controllato il tratto latente. Problemi possibili: item troppo simili; formulazioni confuse; item invertiti che introducono un secondo fattore (ad esempio attenzione o comprensione linguistica). La scala deve misurare un solo tratto latente. Nel caso del CES-D: la scala dovrebbe misurare solo la depressione. Parametro a: discriminazione. Indica quanto bene un item distingue soggetti con livelli diversi del tratto latente. Valore alto → item molto discriminante; valore basso → item poco utile. Parametro b: difficoltà o localizzazione. Indica il livello di theta necessario per avere il 50% di probabilità di rispondere in modo patologico all’item. Nel contesto clinico: item con b elevato misurano sintomi più gravi. Parametro c: guessing. Usato soprattutto nei test educativi per stimare la probabilità di risposta corretta casuale.

L’articolo conclude che l’IRT: permette una valutazione molto più precisa delle scale psicometriche; aiuta a identificare gli item migliori; migliora validità e affidabilità delle misure cliniche; consente di costruire strumenti più efficienti e accurati. L’IRT è uno strumento fondamentale per: valutare la qualità degli item; comprendere meglio il funzionamento delle scale; migliorare la misurazione dei disturbi mentali e dei costrutti psicologici.

15. An Item Response Theory Analysis of the

Wisconsin Card Sorting Test in Normal Aging,

Alzheimer’s Disease and Parkinson’s Disease

L’articolo analizza il Wisconsin Card Sorting Test (WCST) utilizzando la Item Response Theory (IRT) , con lo scopo di studiarne le proprietà psicometriche in tre gruppi: soggetti sani anziani; pazienti con Malattia di Parkinson (PD); pazienti con Malattia di Alzheimer (AD). Gli autori vogliono verificare se il WCST sia capace di distinguere diversi livelli di abilità cognitive e flessibilità mentale tra questi gruppi clinici. Le funzioni esecutive sono processi cognitivi superiori associati principalmente alla corteccia prefrontale. Comprendono: pianificazione; definizione di obiettivi; flessibilità cognitiva; controllo degli impulsi; autoregolazione del comportamento; memoria di lavoro; capacità di adattamento a nuove situazioni. Queste funzioni sono fondamentali per mantenere autonomia personale e vita indipendente. L’articolo descrive come l’invecchiamento influenzi soprattutto: velocità di elaborazione delle informazioni; attenzione; memoria; funzioni esecutive. Tuttavia: non tutte le funzioni cognitive decadono allo stesso modo; alcune rimangono relativamente stabili; altre possono persino migliorare con l’età. Nella Malattia di Parkinson si osservano: difficoltà visuospaziali; deficit visuopercettivi; alterazioni della memoria; importanti deficit esecutivi. Nel WCST i pazienti Parkinson: completano meno categorie corrette; commettono più errori perseverativi; mostrano rigidità cognitiva; hanno difficoltà nel cambiare strategia mentale. Anche nella Malattia di Alzheimer le funzioni esecutive risultano alterate precocemente: incapacità di pianificare; ridotta flessibilità cognitiva; difficoltà nel comportamento orientato a uno scopo; deficit di astrazione; disinibizione comportamentale negli stadi avanzati. Questi deficit compromettono fortemente l’autonomia del paziente. Il Wisconsin Card Sorting Test (WCST) è uno dei principali strumenti neuropsicologici per valutare: funzioni esecutive; flessibilità mentale; capacità di cambiare strategia cognitiva. Il test utilizza: 4 carte stimolo; 128 carte risposta. Le carte differiscono per: colore; forma; numero di simboli. Il soggetto deve capire il criterio corretto di classificazione attraverso il feedback dell’esaminatore. Il test produce numerosi indici cognitivi: Numero di categorie completate, m isura la capacità di mantenere una strategia