Docsity
Docsity

Przygotuj się do egzaminów
Przygotuj się do egzaminów

Studiuj dzięki licznym zasobom udostępnionym na Docsity


Otrzymaj punkty, aby pobrać
Otrzymaj punkty, aby pobrać

Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium


Informacje i wskazówki
Informacje i wskazówki

Psychometria, skrót do nauki, Notatki z Psychologia

Psychometria, skrót do nauki Psychometria, skrót do nauki

Typologia: Notatki

2021/2022

Załadowany 08.11.2024

justyna-frydlewicz
justyna-frydlewicz 🇵🇱

1 dokument


Podgląd częściowego tekstu

Pobierz Psychometria, skrót do nauki i więcej Notatki w PDF z Psychologia tylko na Docsity! 1 Kryteria dobroci testów psychologicznych: • Obiektywność – wyniki testowania niezależne od tego kto, kiedy, gdzie. • Standaryzacja (jeden z warunków obiektywności) – jednolitość reguł i warunków badania. • Rzetelność – dokładność pomiaru, powtarzalność otrzymywanych wyników. • Trafność – kryterium niezależne od rzetelności; określenie obszaru zastosowania testu, test mierzy to, co ma mierzyć, adekwatność operacjonalizacji wielkości psychologicznej. Obiektywność + standaryzacja + rzetelność + trafność = wszystkie testy psychologiczne, zarówno do diagnozy indywidualnej, jak i badań naukowych. • Normalizacja (niezbędna tylko do diagnozy indywidualnej) – nadawanie znaczenia wynikom testowym; kryterium teoretyczne, kulturowe, statystyczne (=zachowanie średnie, przeciętne, większości, typowe). • Adaptacja kulturowa (niezbędna do diagnozy indywidualnej) – proces przystosowania wersji pierwotnej do specyfiki kultury lokalnej (+testowanie rzetelności i trafności). SEM potrzebny jedynie w diagnozie indywidualnej. Brak klucza do oceny odpowiedzi (procedura obliczania wyników) wyklucza nam testy projekcyjne w kontekście przeprowadzenia prawidłowej standaryzacji testu. Odstępstwo od standaryzacji ma wpływ na rzetelność, trafność, obiektywność. Wynik obserwowany (może ale nie musi odzwierciedlać rzeczywisty poziom mierzonej cechy) a wynik prawdziwy (rzeczywisty poziom mierzonej cechy; model platoński i model statystyczny – średnia z nieskończonej liczby pomiarów). Cecha psychologiczna – trafność – wynik prawdziwy – rzetelność – wynik otrzymany – pomiar – test. Im bardziej test jest rzetelny, tym bardziej wynik otrzymany jest zbliżony do wyniku prawdziwego, a im mniejsza jest ta rozbieżność, tym mniejszy jest błąd pomiaru. Rzetelność = 1 minus błąd pomiaru. Rodzaje błędów pomiary: (1) błąd systematyczny, nielosowy (2) błąd losowy. Źródła błędu losowego: (1) konstrukcja testu/dobór treści (2) sytuacja testowania (minimalizowanie przez standaryzację na tyle, na ile możemy) (3) sposób oceny wyników (minimalizowanie przez standaryzację). Teoria odpowiadania na pozycje testowe (Item Response Theory – IRT) – nie wszystkie pozycje testowe jednakowo dobre dla wszystkich osób badanych. Klasyczna teoria testów (X = T + E): • Błąd pomiaru ma rozkład normalny, symetryczny. • Założenie o nieobciążoności narzędzia = średnia błędu musi wynosić 0 (ME = 0). • Założenie o niezależności wyniku prawdziwego (T) oraz błędu pomiaru (E) = korelacja między T a E = 0 (rTE=0). • Założenie o nieskorelowaniu błędu pomiaru w kolejnych pomiarach dla tej samej osoby badanej (rE1E2=0). Definicja rzetelności testu • W metodologii o tym, jak silnie X wyjaśnia Y mówi nam współczynnik determinacji (R2). • Rzetelność testu = jak bardzo wynik otrzymany w teście powiązany jest z wynikiem prawdziwym. • Rzetelność testu to kwadrat korelacji między wynikami otrzymanymi a wynikami prawdziwymi, czyli jest to stosunek wariancji wyników prawdziwych do wariancji wyników otrzymanych/testowych (=w jakim stopniu wariancja wyników prawdziwych określa wariancję wyników otrzymanych). • Wskaźnikiem rzetelności jest wielkość współczynnika korelacji między wynikiem obserwowanym (X) a wynikiem prawdziwym (T) = ρxt. • Rzetelność mówi nam o tym, jak duży błąd pomiaru popełniamy. Maksymalna wartość współczynnika korelacji = 1. Nie może mieć wartości ujemnych. Im bliżej 1 = test rzetelniejszy. 2 Minimalną wartością alfy Cronbacha, która jest wskaźnikiem rzetelności jest 0,7. Jak zmierzyć wariancję wyniku prawdziwe? Np. za pomocą testów równoległych: • Testy A i B są równoległe jeśli mierzą to samo i tak samo, ale mają różne pozycje testowe. • Średni wynik w teście A = średni wynik w teście B (XA = XB). • Odchylenie standardowe w teście A = odchylenie standardowe w teście B (𝝈A = 𝝈B). • Korelacja pomiędzy analogicznymi pozycjami w teście A = w teście B (spójność wewn. jest taka sama = interkorelacje pozycji) (riAjA = riBjB). • Korelacja między wynikiem w teście A a zewnętrznym kryterium = korelacja między wynikiem w teście B a tym samym zewnętrznym kryterium (rAZ = rBZ). • Korelacja pomiędzy wynikiem w teście A a wynikiem w teście B = wartość współczynnika rzetelności. Metody badania rzetelności (źródła wariancji błędu oznaczone czerwoną czcionką): Jednokrotne badanie tym samym testem (estymacja spójności wewnętrznej testu): a) Metoda połówkowa (współczynnik równoważności międzypołówkowej) b) Kudera Richardsona (współczynnik zgodności wewnętrznej) c) Alfa Cronbacha (współczynnik zgodności wewnętrznej) Czynniki losowe, dobór treści, liczba pozycji testowych. Dwukrotne badanie tym samym testem: a) Jedno po drugim – powtarzanie testu (test-retest) (współczynnik wiarygodności testu) Czynniki losowe ale: zapamiętywanie. b) Z odstępem czasu (ok. 2-3 tyg.) – powtarzanie testu (test-retest) (współczynnik stabilności bezwzględnej testu) Czynniki losowe, zmienność w czasie. Badanie formami alternatywnymi tego samego testu: a) Jedno po drugim – wersje alternatywne (równoległe) (współczynnik równoważności międzytestowej) Czynniki losowe, dobór treści. b) Z odstępem czasu – wersje alternatywne (równoległe) (współczynnik stabilności względnej testu) Czynniki losowe, dobór treści i zmienność w czasie. Jedna osoba badana – wielu oceniających – zgodność ocen sędziów kompetentnych (im wyższa zgodność = test jest bardziej rzetelny). Czynniki losowe, różnice w ocenach między sędziami. • Metoda połówkowa: a. Podział: losowy, parzyste/nieparzyste, z uwzgl. treści i trudności pozycji b. Obliczanie współczynnika równoważności międzypołówkowej rpp c. Szacownie rzetelności całego testu (rtt) na podstawie rzetelności połówki wzorem Spearmana-Browna. • Analiza zgodności wewnętrznej (wzór Kudera-Richardsona): a. Stosowany tylko do testów z dychotomicznymi, dwukategorialnymi odp. b. Średni współczynnik rzetelności testu, uwzględniający wszystkie możliwe jego przepołowienia (KR20). c. Obliczanie współczynnika zgodności wewnętrznej (im wyższa wartość, tym bardziej jednorodne pozycje testowe). • Analiza zgodności wewnętrznej (wzór alfa Cronbacha): a. Rozszerzenie, uogólnienie KR20 na pozycje wielokategorialne. b. Dużo podobnych, jednorodnych pozycji = alfa automatyczne wysoka. c. Mało pozycji, krótkie testy, mocno zróżnicowane = alfa niska, ALE nie oznacza to, że rzetelność takiego testu będzie również niska. Najlepszym/najwiarygodniejszym współczynnikiem rzetelności jest test-retest. 5 Rodzaje norm w testach psychologicznych: • Ze względu ma sposób definiowania grupy odniesienia: − Normy ogólnokrajowe (cała populacja) − Normy lokalne (podgrupy wyróżnione w populacji) • Ze względu na sposób ich konstrukcji: − Normy typu standardowego (oparte o rozkład normalny) − Normy typu rangowego (oparte o częstość i rozkład jednostajny) − Normy typu równoważnikowego (równoważniki wieku i klasy) − Normy wymagań (wewnętrzne, empirycznie zweryfik. kryterium stanowiące punkt odcięcia) Normy standardowe: • Powstają przez przekształcenie wyników surowych w teście na wyniki standardowe Z. • Z = 𝑋𝑖−𝑋 𝑆𝐷 , czyli wynik surowy osoby badanej odjąć średnia w gr. odniesienia przez odchylenie standardowe w gr. odniesienia. Z ~ N(0,1) = Z jest zmienną losową w standardowym rozkładzie normalnym. • Interpretowanie wyników na skali Z może być uciążliwe (jednostka = SD, brak początku skali). • Transformacja liniowa = przekształcenie wyników Z na inne skale: jednostka nowej skali = SD * Z + M. • Skala T: M=50, SD=10, od -5 do +5, 101 jednostek (0-100) [w MMPI]. • Skala stenowa (standard ten): M=5,5, SD=2, od -2,25 do +2,25, 10 jednostek (1-10) [w NEO-FFI]. • Skala staninowa (standard nine): M=5, SD=2, od -2 do +2, 9 jednostek (1-9) [FCZ-KT]. • Skala IQ: M=100, SD=15, teoretycznie nieograniczony przedział [WAIS]. • Skala tetronowa: M=10, SD=4, od -2,5 do +2,5, 21 jednostek (0-20) [testy pedagogiczne]. Etapy procedury wyznaczania norm: • Etap 1 – przebadać testem grupę normalizacyjną. • Etap 2 – sporządzić rozkład wyników surowych. • Etap 3 – sprawdzić, czy rozkład wyników surowych jest rozkładem normalnym: 6 − TAK – dokonać transformację liniową wyników surowych na wyniki Z, a następnie transformacja liniowa wyników Z na wyniki wybranej skali standardowej. − NIE – dokonać normalizację rozkładu za pomocą transformacji nieliniowej, odczytać wyniki Z odpowiadające odpowiednim wartościom pola pod krzywą normalną, a następnie dokonać liniowej transformacji wyników Z na wyniki wybranej skali standardowej. Normy rangowe: • Odzwierciedlają uporządkowanie osób badanych (jaki ktoś jest w porównaniu do innych osób w grupie normalizacyjnej), ale nie odzwierciedlają wielkości różnic między wynikami osób badanych. • Niejako poprawnie odzwierciedla rzeczywiste różnice siatka centylowa. • Centyl to punkt na skali poniżej którego leży określony odsetek rozkładu (np. jestem na 94 centylu = 94% osób otrzymało gorsze wyniki niż ja). • Centyl = 50 to mediana rozkładu, typowa osoba badana. • Rozkład prostokątny (równoprawdopodobny) – wszystkie wartości zmiennej pojawiają się z tym samym prawdopodobieństwem (101 jednostek, 0 = początek skali. Centyl 0 i 100 = 0,5%, reszta = 1%). • Centyl = 𝑐𝑓𝑖−1+0,5∗𝑓𝑖 𝑁 , czyli liczebność skumulowana poniżej danego wyniku (miejsce w kolejności minus 1) dodać 0,5 razy liczebność prosta dla danego wyniku surowego (ile osób ma taki wynik) przez łączną liczbę badanych. • Do zastosowań klinicznych się nie nadają, ew. dla rodziców w kontekście śledzenia prawidłowego rozwoju ich dzieci na tle gr. odniesienia. Normy równoważnikowe (normy rozwojowe): • Stosowane dość rzadko, głównie w testach pedagogicznych. • Równoważniki wieku – typowy 3-latek… (lata+miesiące, np. 10-4). • Równoważniki klasy – typowy uczeń 3 klasy… (rok+miesiąc nauczania, np. 3,5). • Zalety: zrozumiałe (rok szkolny/rok życia jako naturalne jednostki miary), można dostosować do każdego miesiąca nauki, pokazują opóźnienia/przyśpieszenia w uczeniu się. • Wady: przyjmuje się w nich zał. o równomiernym rozwoju, podstawa uogólnień, pracochłonne i kosztowne, zależą od przedmiotu nauczania/polityki szkoły, mylnie uważane za rejestry wymagań programowych. Analiza zadań – zasady włączania pozycji testowych do ostatecznej wersji testu: • Analiza treściowa – ustalenie, czy pozycja jest poprawna rzeczowo tj. czy da się ją wyprowadzić z teorii mierzonej cechy (najczęściej metodą sędziów kompetentnych). • Analiza językowa – sprawdzenie, czy pozycja testowa jest poprawnie, jednoznacznie, zrozumiale sformułowana. • Analiza statystyczna – na podstawie wyników badań pilotażowych (5-10 osób/pozycję testową, minimum 100 osób; jeśli test jest długi = podział na części): − Współczynnik trudności pozycji testowych (tylko do testów poznawczych) − Współczynnik mocy dyskryminacyjnej (do wszystkich rodzajów testów). Współczynnik trudności (łatwości) pozycji testowych (T): • Proporcja osób (pi), które prawidłowo odpowiedziały na daną pozycję testową (ni) podzielona przez ogólną liczbę osób badanych (n). • Współczynnik przyjmuje wartości od 0 do 1. • Im wyższa wartość współczynnika, tym łatwiejsze pozycje testowe. 7 • Za pomocą tego współczynnika możemy wyprowadzić wzór na wariancję pozycji testowej: współczynnik trudności, czyli proporcja osób, które odpowiedziały dobrze razy (1 – współczynnik trudności = czyli proporcja osób, które odpowiedziały źle). • Poziom trudności będzie spadał = wariancja się zmniejszy. Poziom trudności będzie się zwiększał = wariancja się powiększy. Skoro nasze testy mają mierzyć różnice indywidualne = zróżnicowanie pomiędzy osobami = chcemy mieć testy, gdzie wariancja będzie jak największa. • Optymalne pozycje testowe, jeśli test ma dobrze różnicować osoby na całym kontinuum = poziom trudności oscyluje w okolicach 50% (pozycje testowe nie mogą być ze sobą powiązane = to, jak ktoś odpowiada na jedną pozycję testową nie jest powiązane z tym, jak odpowiada na inną pozycję). • Test do celów selekcyjnych – trudność powinna być dostosowana do pożądanego współczynnika selekcji (jeśli chcemy wybrać najlepszych studentów = współczynnik trudności powinien być na niskim poziomie). Trudność testów a zgadywanie: • Zgadywanie wpływa na wartość wskaźnika trudności (przyjmują wartości wyższe, niż naprawdę powinny przyjmować). • Model losowego zgadywania: T0 (poprawiony współ. trudności) = p0 + q0 * 1/m, czyli proporcja osób, które odpowiedziały poprawnie na daną pozycję dodać proporcja osób, które odpowiedziały niepoprawnie razy 1 podzielone przez liczbę kategorii odpowiedzi. • Dobieranie pozycji o odpowiedniej (poprawionej) wartości wskaźników T zwiększa rzetelność testu. • Optymalna wartość wskaźnika trudności biorąc pod uwagę zgadywanie: − 2 kat. = 75% (L: 85%) − 3 kat. = 67% (L: 77%) − 4 kat. = 63% (L: 74%) − 5 kat. = 60% (L: 70%) Poprawka na zgadywanie przy interpretacji wyniku indywidualnego: • Im więcej kategorii tym mniej zgadywania. Im więcej prawidłowych odpowiedzi tym mniej zgadywania. • C = R - 𝑊 𝑚−1 , czyli skorygowany wynik danej osoby = liczba poprawnych odpowiedzi danej osoby odjąć liczba niepoprawnych odpowiedzi danej osoby przez liczba kategorii minus 1. • Stosowanie poprawki wydaje się jednak nieco niesprawiedliwe – silne sankcje niezależnie od skłonności osób do zgadywania (zakłada, że albo ktoś ma wiedzę albo jej nie ma). Współczynnik mocy dyskryminacyjnej: • Stopień, w jakim dana pozycja różnicuje populację w zakresie zachowania, jakie test ma mierzyć. • Różni ludzie mają odpowiadać różnie (=rozkład normalny cechy w populacji). • Pozycja testowa o dodatniej mocy dyskryminacyjnej – częściej rozwiązywana przez badanych o wysokich wynikach, różnicuje w zgodzie z innymi pozycjami testu, zwiększa wariancję wyników testowania. • Pozycja testowa o ujemnej mocy dyskryminacyjnej – częściej rozwiązywana przez badanych o niskich wynikach; pozycje o ujemnej mocy są bez sensu i nie włączamy ich do testów właściwości poznawczych – w afektywnych mają sens, należy je zrekodować, odwrócić przed włączeniem do testu. Rodzaje współczynników mocy dyskryminacyjnej: • Proste wskaźniki dyskryminacji: − Pozycje dwukategorialne. − 2 grupy: o najwyższych wynikach (dolna grupa) i o najwyższych (górna grupa) – najlepiej po 27% na każdym kontinuum (choć brak jednoznacznych rekomendacji). − D = pu – pl (wskaźnik dyskryminacji = proporcja osób o najwyższych wynikach – minus proporcja osób o najniższych wynikach). − Wskaźniki dyskryminacji: 10 • Świadome lub nieświadome udzielanie odpowiedzi, bezpodstawnie przedstawiających osobę badaną w negatywnym, niekorzystnym świetle (zaburzenia zachowania, niepożądane cechy osobowości + korzyści z negatywnej oceny). • Kontrola: specjalne skale kontrolne. Strategia konstrukcji testów: • Strategia teoretyczna (dedukcyjna, racjonalna) – analiza definicji konstruktu i definicji cech (=określają one zakresy i specyfikę zachowań) a potem wymyślanie pytań. • Strategia empiryczna (instrumentalna) – analiza definicji danego kryterium i wyodrębnienie na poziomie empirycznym podstawowych wskaźników związanych z tym kryterium: − Sformułowanie puli pozycji testowych (nie muszą wywodzić się z jednej, spójnej teorii) − Dobranie dwóch grup osób (grupy kryterialnej – osób posiadających cechę + grupy kontrolnej – osób nie posiadających cechy). − Określenie, jakie pozycje testowe różnicują te dwie grupy. − Tak powstało MMPI (=które ma niską trafność fasadową przez to). Adaptacja testów: • Opracowanie testu w taki sposób, aby mógł być stosowany w kraju adaptacji (=nadal był trafny i rzetelny). • Dopasowanie wersji oryginalnej do innej specyfiki kulturowej. • Test „wolny kulturowo” (Cattell) – test ogólnej inteligencji, z którego wyeliminowano, na tyle na ile było to możliwe, wszystkie zadania zależne od doświadczeń występujących częściej w jednej kulturze niż w innej. Przedmiot pomiaru psychologicznego: • Podejście nomotetyczne do kultur, konstrukty UNIWERSALISTYCZNE = ETIC APPROACH. • Podejście idiograficzne do kultur, konstrukty SPECYFICZNE = EMIC APPROACH. Założenia adaptacji kulturowej: • Czy przedmiot pomiaru ma charakter etikalny czy emikalny (=adaptacja nie ma sensu)? • Jeśli etikalny – czy przejawia się on w drugiej kulturze tak samo lub podobnie i w związku z tym mamy: − Równoważność konstruktu (czy zjawisko z kultury oryginalnej występuje w docelowej?) − Równoważność funkcjonalna zachowań (czy to samo zachowanie wiąże się z daną cechą w taki sam sposób w kulturze oryginalnej i docelowej tj. zachowania są funkcjonalnie równoważne, gdy członkowie kultur zachowują się podobnie w podobnych sytuacjach by zrealizować równoważne cele) − Równoważność wskaźników konstruktu teoretycznego (czy zachowanie/zjawisko manifestuje się w tym samym kontekście = równoważność definicji operacyjnych). 11 Strategia adaptacji: • Transkrypcja – maksymalnie wierne 1:1 tłumaczenie oryginalnych pozycji (jedynie drobne zmiany gramatyczne). Konstrukty i zachowania uniwersalne kulturowo. [BACK TRANSLATION]. • Translacja – wierne tłumaczenie, ale z możliwością niezbędnych z punktu widzenia języka zmian. Konstrukty i zachowania uniwersalne kulturowo ale nie są uniwersalne pojęcia używane do opisu zachowania. [BACK TRANSLATION]. • Trawestacja – swobodne tłumaczenie oryginału z wprowadzaniem wielu modyfikacji i zmian. Konstrukty są uniwersalne kulturowo, ale nie są uniwersalne pojęcia do opisu zachowania i nie zawsze uniwersalne są same zachowania (niektóre mają ch. emikalny). • Parafraza – konieczność opracowania nowego narzędzia od fazy analizy teorii i generowania pozycji aż po analizę psychometryczną danych. Test oryginalny jest jedynie inspiracją adaptacji. Cel – maksymalnie wierne oddanie intencji autora odnośnie treści konstruktu. Konstrukty są uniwersalne kulturowo, ale nie są uniwersalne zachowania. • Rekonstrukcja – konieczność opracowania całkowicie nowego narzędzia, dla którego inspiracją jest oryginalny model teoretyczny i strategia konstrukcji. Nic nie tłumaczymy, pozycje są generowane w danym języku, zgodnie z regułami z wersji oryginalnej. Cel – maksymalnie wierne oddanie intencji autora odnośnie treści konstruktu i procedury tworzenia testu. Zachowania jak i konstrukty mogą nie być uniwersalne kulturowo. Wybór odpowiedniej strategii zależy przede wszystkim od celu adaptacji: • Bezpośrednie ilościowe porównania międzykulturowe – transkrypcja, translacja, trawestacja. [INWARIANCJA POMIARU = wykazanie, że test mierzy to samo w oryginalnej wersji i w docelowej wersji]. • Bezpośrednie ilościowe porównania wewnątrzkulturowe – parafraza i rekonstrukcja. Stronniczość testów psychologicznych: • To błąd systematyczny (nie u wszystkich badanych, ale u pewnej podgrupy). • Stronniczość wpływa na wyniki testowania zawsze w stały sposób. • Pozycje testowe dla mniej lub bardziej trudne dla osób z różnych podgrup w ramach danej populacji. 12 • Stronniczość występuje, gdy dana grupa osiąga niższe wyniki w teście, a nie osiąga wcale niższych wyników w kryterium (=nietrafna różnica grupowa, różnice nieobiektywne, nieistniejące). • Możemy wykorzystać normalizację, aby niwelować stronniczość testu (patrz: ostatnia kropka). • Stronniczość (cecha formalna testu) to nie jest uczciwość (strona etyczna, system wartości). • Czynniki ze względu na które test może być stronniczy: wiek (odrębne wersje wiekowe, normy wiekowe), płeć (faworyzowanie mężczyzn, procedury decentracji – podtesty neutralnie, równe proporcje skal faworyzujących i dyskryminujących, odrębne normy), rasa, status socjoekonomiczny (klasa społeczna) i nie tylko.