Pobierz Psychometria, skrót do nauki i więcej Notatki w PDF z Psychologia tylko na Docsity! 1 Kryteria dobroci testów psychologicznych: • Obiektywność – wyniki testowania niezależne od tego kto, kiedy, gdzie. • Standaryzacja (jeden z warunków obiektywności) – jednolitość reguł i warunków badania. • Rzetelność – dokładność pomiaru, powtarzalność otrzymywanych wyników. • Trafność – kryterium niezależne od rzetelności; określenie obszaru zastosowania testu, test mierzy to, co ma mierzyć, adekwatność operacjonalizacji wielkości psychologicznej. Obiektywność + standaryzacja + rzetelność + trafność = wszystkie testy psychologiczne, zarówno do diagnozy indywidualnej, jak i badań naukowych. • Normalizacja (niezbędna tylko do diagnozy indywidualnej) – nadawanie znaczenia wynikom testowym; kryterium teoretyczne, kulturowe, statystyczne (=zachowanie średnie, przeciętne, większości, typowe). • Adaptacja kulturowa (niezbędna do diagnozy indywidualnej) – proces przystosowania wersji pierwotnej do specyfiki kultury lokalnej (+testowanie rzetelności i trafności). SEM potrzebny jedynie w diagnozie indywidualnej. Brak klucza do oceny odpowiedzi (procedura obliczania wyników) wyklucza nam testy projekcyjne w kontekście przeprowadzenia prawidłowej standaryzacji testu. Odstępstwo od standaryzacji ma wpływ na rzetelność, trafność, obiektywność. Wynik obserwowany (może ale nie musi odzwierciedlać rzeczywisty poziom mierzonej cechy) a wynik prawdziwy (rzeczywisty poziom mierzonej cechy; model platoński i model statystyczny – średnia z nieskończonej liczby pomiarów). Cecha psychologiczna – trafność – wynik prawdziwy – rzetelność – wynik otrzymany – pomiar – test. Im bardziej test jest rzetelny, tym bardziej wynik otrzymany jest zbliżony do wyniku prawdziwego, a im mniejsza jest ta rozbieżność, tym mniejszy jest błąd pomiaru. Rzetelność = 1 minus błąd pomiaru. Rodzaje błędów pomiary: (1) błąd systematyczny, nielosowy (2) błąd losowy. Źródła błędu losowego: (1) konstrukcja testu/dobór treści (2) sytuacja testowania (minimalizowanie przez standaryzację na tyle, na ile możemy) (3) sposób oceny wyników (minimalizowanie przez standaryzację). Teoria odpowiadania na pozycje testowe (Item Response Theory – IRT) – nie wszystkie pozycje testowe jednakowo dobre dla wszystkich osób badanych. Klasyczna teoria testów (X = T + E): • Błąd pomiaru ma rozkład normalny, symetryczny. • Założenie o nieobciążoności narzędzia = średnia błędu musi wynosić 0 (ME = 0). • Założenie o niezależności wyniku prawdziwego (T) oraz błędu pomiaru (E) = korelacja między T a E = 0 (rTE=0). • Założenie o nieskorelowaniu błędu pomiaru w kolejnych pomiarach dla tej samej osoby badanej (rE1E2=0). Definicja rzetelności testu • W metodologii o tym, jak silnie X wyjaśnia Y mówi nam współczynnik determinacji (R2). • Rzetelność testu = jak bardzo wynik otrzymany w teście powiązany jest z wynikiem prawdziwym. • Rzetelność testu to kwadrat korelacji między wynikami otrzymanymi a wynikami prawdziwymi, czyli jest to stosunek wariancji wyników prawdziwych do wariancji wyników otrzymanych/testowych (=w jakim stopniu wariancja wyników prawdziwych określa wariancję wyników otrzymanych). • Wskaźnikiem rzetelności jest wielkość współczynnika korelacji między wynikiem obserwowanym (X) a wynikiem prawdziwym (T) = ρxt. • Rzetelność mówi nam o tym, jak duży błąd pomiaru popełniamy. Maksymalna wartość współczynnika korelacji = 1. Nie może mieć wartości ujemnych. Im bliżej 1 = test rzetelniejszy. 2 Minimalną wartością alfy Cronbacha, która jest wskaźnikiem rzetelności jest 0,7. Jak zmierzyć wariancję wyniku prawdziwe? Np. za pomocą testów równoległych: • Testy A i B są równoległe jeśli mierzą to samo i tak samo, ale mają różne pozycje testowe. • Średni wynik w teście A = średni wynik w teście B (XA = XB). • Odchylenie standardowe w teście A = odchylenie standardowe w teście B (𝝈A = 𝝈B). • Korelacja pomiędzy analogicznymi pozycjami w teście A = w teście B (spójność wewn. jest taka sama = interkorelacje pozycji) (riAjA = riBjB). • Korelacja między wynikiem w teście A a zewnętrznym kryterium = korelacja między wynikiem w teście B a tym samym zewnętrznym kryterium (rAZ = rBZ). • Korelacja pomiędzy wynikiem w teście A a wynikiem w teście B = wartość współczynnika rzetelności. Metody badania rzetelności (źródła wariancji błędu oznaczone czerwoną czcionką): Jednokrotne badanie tym samym testem (estymacja spójności wewnętrznej testu): a) Metoda połówkowa (współczynnik równoważności międzypołówkowej) b) Kudera Richardsona (współczynnik zgodności wewnętrznej) c) Alfa Cronbacha (współczynnik zgodności wewnętrznej) Czynniki losowe, dobór treści, liczba pozycji testowych. Dwukrotne badanie tym samym testem: a) Jedno po drugim – powtarzanie testu (test-retest) (współczynnik wiarygodności testu) Czynniki losowe ale: zapamiętywanie. b) Z odstępem czasu (ok. 2-3 tyg.) – powtarzanie testu (test-retest) (współczynnik stabilności bezwzględnej testu) Czynniki losowe, zmienność w czasie. Badanie formami alternatywnymi tego samego testu: a) Jedno po drugim – wersje alternatywne (równoległe) (współczynnik równoważności międzytestowej) Czynniki losowe, dobór treści. b) Z odstępem czasu – wersje alternatywne (równoległe) (współczynnik stabilności względnej testu) Czynniki losowe, dobór treści i zmienność w czasie. Jedna osoba badana – wielu oceniających – zgodność ocen sędziów kompetentnych (im wyższa zgodność = test jest bardziej rzetelny). Czynniki losowe, różnice w ocenach między sędziami. • Metoda połówkowa: a. Podział: losowy, parzyste/nieparzyste, z uwzgl. treści i trudności pozycji b. Obliczanie współczynnika równoważności międzypołówkowej rpp c. Szacownie rzetelności całego testu (rtt) na podstawie rzetelności połówki wzorem Spearmana-Browna. • Analiza zgodności wewnętrznej (wzór Kudera-Richardsona): a. Stosowany tylko do testów z dychotomicznymi, dwukategorialnymi odp. b. Średni współczynnik rzetelności testu, uwzględniający wszystkie możliwe jego przepołowienia (KR20). c. Obliczanie współczynnika zgodności wewnętrznej (im wyższa wartość, tym bardziej jednorodne pozycje testowe). • Analiza zgodności wewnętrznej (wzór alfa Cronbacha): a. Rozszerzenie, uogólnienie KR20 na pozycje wielokategorialne. b. Dużo podobnych, jednorodnych pozycji = alfa automatyczne wysoka. c. Mało pozycji, krótkie testy, mocno zróżnicowane = alfa niska, ALE nie oznacza to, że rzetelność takiego testu będzie również niska. Najlepszym/najwiarygodniejszym współczynnikiem rzetelności jest test-retest. 5 Rodzaje norm w testach psychologicznych: • Ze względu ma sposób definiowania grupy odniesienia: − Normy ogólnokrajowe (cała populacja) − Normy lokalne (podgrupy wyróżnione w populacji) • Ze względu na sposób ich konstrukcji: − Normy typu standardowego (oparte o rozkład normalny) − Normy typu rangowego (oparte o częstość i rozkład jednostajny) − Normy typu równoważnikowego (równoważniki wieku i klasy) − Normy wymagań (wewnętrzne, empirycznie zweryfik. kryterium stanowiące punkt odcięcia) Normy standardowe: • Powstają przez przekształcenie wyników surowych w teście na wyniki standardowe Z. • Z = 𝑋𝑖−𝑋 𝑆𝐷 , czyli wynik surowy osoby badanej odjąć średnia w gr. odniesienia przez odchylenie standardowe w gr. odniesienia. Z ~ N(0,1) = Z jest zmienną losową w standardowym rozkładzie normalnym. • Interpretowanie wyników na skali Z może być uciążliwe (jednostka = SD, brak początku skali). • Transformacja liniowa = przekształcenie wyników Z na inne skale: jednostka nowej skali = SD * Z + M. • Skala T: M=50, SD=10, od -5 do +5, 101 jednostek (0-100) [w MMPI]. • Skala stenowa (standard ten): M=5,5, SD=2, od -2,25 do +2,25, 10 jednostek (1-10) [w NEO-FFI]. • Skala staninowa (standard nine): M=5, SD=2, od -2 do +2, 9 jednostek (1-9) [FCZ-KT]. • Skala IQ: M=100, SD=15, teoretycznie nieograniczony przedział [WAIS]. • Skala tetronowa: M=10, SD=4, od -2,5 do +2,5, 21 jednostek (0-20) [testy pedagogiczne]. Etapy procedury wyznaczania norm: • Etap 1 – przebadać testem grupę normalizacyjną. • Etap 2 – sporządzić rozkład wyników surowych. • Etap 3 – sprawdzić, czy rozkład wyników surowych jest rozkładem normalnym: 6 − TAK – dokonać transformację liniową wyników surowych na wyniki Z, a następnie transformacja liniowa wyników Z na wyniki wybranej skali standardowej. − NIE – dokonać normalizację rozkładu za pomocą transformacji nieliniowej, odczytać wyniki Z odpowiadające odpowiednim wartościom pola pod krzywą normalną, a następnie dokonać liniowej transformacji wyników Z na wyniki wybranej skali standardowej. Normy rangowe: • Odzwierciedlają uporządkowanie osób badanych (jaki ktoś jest w porównaniu do innych osób w grupie normalizacyjnej), ale nie odzwierciedlają wielkości różnic między wynikami osób badanych. • Niejako poprawnie odzwierciedla rzeczywiste różnice siatka centylowa. • Centyl to punkt na skali poniżej którego leży określony odsetek rozkładu (np. jestem na 94 centylu = 94% osób otrzymało gorsze wyniki niż ja). • Centyl = 50 to mediana rozkładu, typowa osoba badana. • Rozkład prostokątny (równoprawdopodobny) – wszystkie wartości zmiennej pojawiają się z tym samym prawdopodobieństwem (101 jednostek, 0 = początek skali. Centyl 0 i 100 = 0,5%, reszta = 1%). • Centyl = 𝑐𝑓𝑖−1+0,5∗𝑓𝑖 𝑁 , czyli liczebność skumulowana poniżej danego wyniku (miejsce w kolejności minus 1) dodać 0,5 razy liczebność prosta dla danego wyniku surowego (ile osób ma taki wynik) przez łączną liczbę badanych. • Do zastosowań klinicznych się nie nadają, ew. dla rodziców w kontekście śledzenia prawidłowego rozwoju ich dzieci na tle gr. odniesienia. Normy równoważnikowe (normy rozwojowe): • Stosowane dość rzadko, głównie w testach pedagogicznych. • Równoważniki wieku – typowy 3-latek… (lata+miesiące, np. 10-4). • Równoważniki klasy – typowy uczeń 3 klasy… (rok+miesiąc nauczania, np. 3,5). • Zalety: zrozumiałe (rok szkolny/rok życia jako naturalne jednostki miary), można dostosować do każdego miesiąca nauki, pokazują opóźnienia/przyśpieszenia w uczeniu się. • Wady: przyjmuje się w nich zał. o równomiernym rozwoju, podstawa uogólnień, pracochłonne i kosztowne, zależą od przedmiotu nauczania/polityki szkoły, mylnie uważane za rejestry wymagań programowych. Analiza zadań – zasady włączania pozycji testowych do ostatecznej wersji testu: • Analiza treściowa – ustalenie, czy pozycja jest poprawna rzeczowo tj. czy da się ją wyprowadzić z teorii mierzonej cechy (najczęściej metodą sędziów kompetentnych). • Analiza językowa – sprawdzenie, czy pozycja testowa jest poprawnie, jednoznacznie, zrozumiale sformułowana. • Analiza statystyczna – na podstawie wyników badań pilotażowych (5-10 osób/pozycję testową, minimum 100 osób; jeśli test jest długi = podział na części): − Współczynnik trudności pozycji testowych (tylko do testów poznawczych) − Współczynnik mocy dyskryminacyjnej (do wszystkich rodzajów testów). Współczynnik trudności (łatwości) pozycji testowych (T): • Proporcja osób (pi), które prawidłowo odpowiedziały na daną pozycję testową (ni) podzielona przez ogólną liczbę osób badanych (n). • Współczynnik przyjmuje wartości od 0 do 1. • Im wyższa wartość współczynnika, tym łatwiejsze pozycje testowe. 7 • Za pomocą tego współczynnika możemy wyprowadzić wzór na wariancję pozycji testowej: współczynnik trudności, czyli proporcja osób, które odpowiedziały dobrze razy (1 – współczynnik trudności = czyli proporcja osób, które odpowiedziały źle). • Poziom trudności będzie spadał = wariancja się zmniejszy. Poziom trudności będzie się zwiększał = wariancja się powiększy. Skoro nasze testy mają mierzyć różnice indywidualne = zróżnicowanie pomiędzy osobami = chcemy mieć testy, gdzie wariancja będzie jak największa. • Optymalne pozycje testowe, jeśli test ma dobrze różnicować osoby na całym kontinuum = poziom trudności oscyluje w okolicach 50% (pozycje testowe nie mogą być ze sobą powiązane = to, jak ktoś odpowiada na jedną pozycję testową nie jest powiązane z tym, jak odpowiada na inną pozycję). • Test do celów selekcyjnych – trudność powinna być dostosowana do pożądanego współczynnika selekcji (jeśli chcemy wybrać najlepszych studentów = współczynnik trudności powinien być na niskim poziomie). Trudność testów a zgadywanie: • Zgadywanie wpływa na wartość wskaźnika trudności (przyjmują wartości wyższe, niż naprawdę powinny przyjmować). • Model losowego zgadywania: T0 (poprawiony współ. trudności) = p0 + q0 * 1/m, czyli proporcja osób, które odpowiedziały poprawnie na daną pozycję dodać proporcja osób, które odpowiedziały niepoprawnie razy 1 podzielone przez liczbę kategorii odpowiedzi. • Dobieranie pozycji o odpowiedniej (poprawionej) wartości wskaźników T zwiększa rzetelność testu. • Optymalna wartość wskaźnika trudności biorąc pod uwagę zgadywanie: − 2 kat. = 75% (L: 85%) − 3 kat. = 67% (L: 77%) − 4 kat. = 63% (L: 74%) − 5 kat. = 60% (L: 70%) Poprawka na zgadywanie przy interpretacji wyniku indywidualnego: • Im więcej kategorii tym mniej zgadywania. Im więcej prawidłowych odpowiedzi tym mniej zgadywania. • C = R - 𝑊 𝑚−1 , czyli skorygowany wynik danej osoby = liczba poprawnych odpowiedzi danej osoby odjąć liczba niepoprawnych odpowiedzi danej osoby przez liczba kategorii minus 1. • Stosowanie poprawki wydaje się jednak nieco niesprawiedliwe – silne sankcje niezależnie od skłonności osób do zgadywania (zakłada, że albo ktoś ma wiedzę albo jej nie ma). Współczynnik mocy dyskryminacyjnej: • Stopień, w jakim dana pozycja różnicuje populację w zakresie zachowania, jakie test ma mierzyć. • Różni ludzie mają odpowiadać różnie (=rozkład normalny cechy w populacji). • Pozycja testowa o dodatniej mocy dyskryminacyjnej – częściej rozwiązywana przez badanych o wysokich wynikach, różnicuje w zgodzie z innymi pozycjami testu, zwiększa wariancję wyników testowania. • Pozycja testowa o ujemnej mocy dyskryminacyjnej – częściej rozwiązywana przez badanych o niskich wynikach; pozycje o ujemnej mocy są bez sensu i nie włączamy ich do testów właściwości poznawczych – w afektywnych mają sens, należy je zrekodować, odwrócić przed włączeniem do testu. Rodzaje współczynników mocy dyskryminacyjnej: • Proste wskaźniki dyskryminacji: − Pozycje dwukategorialne. − 2 grupy: o najwyższych wynikach (dolna grupa) i o najwyższych (górna grupa) – najlepiej po 27% na każdym kontinuum (choć brak jednoznacznych rekomendacji). − D = pu – pl (wskaźnik dyskryminacji = proporcja osób o najwyższych wynikach – minus proporcja osób o najniższych wynikach). − Wskaźniki dyskryminacji: 10 • Świadome lub nieświadome udzielanie odpowiedzi, bezpodstawnie przedstawiających osobę badaną w negatywnym, niekorzystnym świetle (zaburzenia zachowania, niepożądane cechy osobowości + korzyści z negatywnej oceny). • Kontrola: specjalne skale kontrolne. Strategia konstrukcji testów: • Strategia teoretyczna (dedukcyjna, racjonalna) – analiza definicji konstruktu i definicji cech (=określają one zakresy i specyfikę zachowań) a potem wymyślanie pytań. • Strategia empiryczna (instrumentalna) – analiza definicji danego kryterium i wyodrębnienie na poziomie empirycznym podstawowych wskaźników związanych z tym kryterium: − Sformułowanie puli pozycji testowych (nie muszą wywodzić się z jednej, spójnej teorii) − Dobranie dwóch grup osób (grupy kryterialnej – osób posiadających cechę + grupy kontrolnej – osób nie posiadających cechy). − Określenie, jakie pozycje testowe różnicują te dwie grupy. − Tak powstało MMPI (=które ma niską trafność fasadową przez to). Adaptacja testów: • Opracowanie testu w taki sposób, aby mógł być stosowany w kraju adaptacji (=nadal był trafny i rzetelny). • Dopasowanie wersji oryginalnej do innej specyfiki kulturowej. • Test „wolny kulturowo” (Cattell) – test ogólnej inteligencji, z którego wyeliminowano, na tyle na ile było to możliwe, wszystkie zadania zależne od doświadczeń występujących częściej w jednej kulturze niż w innej. Przedmiot pomiaru psychologicznego: • Podejście nomotetyczne do kultur, konstrukty UNIWERSALISTYCZNE = ETIC APPROACH. • Podejście idiograficzne do kultur, konstrukty SPECYFICZNE = EMIC APPROACH. Założenia adaptacji kulturowej: • Czy przedmiot pomiaru ma charakter etikalny czy emikalny (=adaptacja nie ma sensu)? • Jeśli etikalny – czy przejawia się on w drugiej kulturze tak samo lub podobnie i w związku z tym mamy: − Równoważność konstruktu (czy zjawisko z kultury oryginalnej występuje w docelowej?) − Równoważność funkcjonalna zachowań (czy to samo zachowanie wiąże się z daną cechą w taki sam sposób w kulturze oryginalnej i docelowej tj. zachowania są funkcjonalnie równoważne, gdy członkowie kultur zachowują się podobnie w podobnych sytuacjach by zrealizować równoważne cele) − Równoważność wskaźników konstruktu teoretycznego (czy zachowanie/zjawisko manifestuje się w tym samym kontekście = równoważność definicji operacyjnych). 11 Strategia adaptacji: • Transkrypcja – maksymalnie wierne 1:1 tłumaczenie oryginalnych pozycji (jedynie drobne zmiany gramatyczne). Konstrukty i zachowania uniwersalne kulturowo. [BACK TRANSLATION]. • Translacja – wierne tłumaczenie, ale z możliwością niezbędnych z punktu widzenia języka zmian. Konstrukty i zachowania uniwersalne kulturowo ale nie są uniwersalne pojęcia używane do opisu zachowania. [BACK TRANSLATION]. • Trawestacja – swobodne tłumaczenie oryginału z wprowadzaniem wielu modyfikacji i zmian. Konstrukty są uniwersalne kulturowo, ale nie są uniwersalne pojęcia do opisu zachowania i nie zawsze uniwersalne są same zachowania (niektóre mają ch. emikalny). • Parafraza – konieczność opracowania nowego narzędzia od fazy analizy teorii i generowania pozycji aż po analizę psychometryczną danych. Test oryginalny jest jedynie inspiracją adaptacji. Cel – maksymalnie wierne oddanie intencji autora odnośnie treści konstruktu. Konstrukty są uniwersalne kulturowo, ale nie są uniwersalne zachowania. • Rekonstrukcja – konieczność opracowania całkowicie nowego narzędzia, dla którego inspiracją jest oryginalny model teoretyczny i strategia konstrukcji. Nic nie tłumaczymy, pozycje są generowane w danym języku, zgodnie z regułami z wersji oryginalnej. Cel – maksymalnie wierne oddanie intencji autora odnośnie treści konstruktu i procedury tworzenia testu. Zachowania jak i konstrukty mogą nie być uniwersalne kulturowo. Wybór odpowiedniej strategii zależy przede wszystkim od celu adaptacji: • Bezpośrednie ilościowe porównania międzykulturowe – transkrypcja, translacja, trawestacja. [INWARIANCJA POMIARU = wykazanie, że test mierzy to samo w oryginalnej wersji i w docelowej wersji]. • Bezpośrednie ilościowe porównania wewnątrzkulturowe – parafraza i rekonstrukcja. Stronniczość testów psychologicznych: • To błąd systematyczny (nie u wszystkich badanych, ale u pewnej podgrupy). • Stronniczość wpływa na wyniki testowania zawsze w stały sposób. • Pozycje testowe dla mniej lub bardziej trudne dla osób z różnych podgrup w ramach danej populacji. 12 • Stronniczość występuje, gdy dana grupa osiąga niższe wyniki w teście, a nie osiąga wcale niższych wyników w kryterium (=nietrafna różnica grupowa, różnice nieobiektywne, nieistniejące). • Możemy wykorzystać normalizację, aby niwelować stronniczość testu (patrz: ostatnia kropka). • Stronniczość (cecha formalna testu) to nie jest uczciwość (strona etyczna, system wartości). • Czynniki ze względu na które test może być stronniczy: wiek (odrębne wersje wiekowe, normy wiekowe), płeć (faworyzowanie mężczyzn, procedury decentracji – podtesty neutralnie, równe proporcje skal faworyzujących i dyskryminujących, odrębne normy), rasa, status socjoekonomiczny (klasa społeczna) i nie tylko.