






Studiuj dzięki licznym zasobom udostępnionym na Docsity
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Przygotuj się do egzaminów
Studiuj dzięki licznym zasobom udostępnionym na Docsity
Otrzymaj punkty, aby pobrać
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Społeczność
Odkryj najlepsze uniwersytety w twoim kraju, według użytkowników Docsity
Bezpłatne poradniki
Pobierz bezpłatnie nasze przewodniki na temat technik studiowania, metod panowania nad stresem, wskazówki do przygotowania do prac magisterskich opracowane przez wykładowców Docsity
używanie dla współczynnika korelacji Spearmana nazwy „współczynnik kore- ... Pozorna. Taka operacja jest niemożliwa. Rangi nie są bo- wiem addytywne.
Typologia: Prezentacje
1 / 11
Ta strona nie jest widoczna w podglądzie
Nie przegap ważnych części!
Uniwersytet Mikołaja Kopernika
W praktyce badań statystycznych relatywnie często pojawia się potrzeba
analizy wyników pomiaru rangowego. Jednym z podstawowych narzędzi anali-
zy tego typu rezultatów staje się współczynnik korelacji Spearmana, zwany nie-
kiedy współczynnikiem korelacji kolejnościowej lub współczynnikiem korelacji
rang. O ile można zgodzić się z określeniem „kolejnościowej”, o tyle błędem jest
używanie dla współczynnika korelacji Spearmana nazwy „współczynnik kore-
lacji rang”. W wyniku odpowiedniego przekształcenia współczynnika korelacji
Pearsona dla przypadku pary szeregów szczegółowych, o obserwacjach w postaci
ciągów liczb naturalnych, uzyskuje się współczynnik korelacji Spearmana.
Wykorzystywany powszechnie w takich sytuacjach tzw. współczynnik kore-
lacji rang Spearmana został przekształcony ze współczynnika korelacji Pearsona
dla przypadku ciągów pary liczb naturalnych o n obserwacjach. Współczynnik
korelacji Pearsona, zapisany ogólnie:
var(x)var(x )
cov(x,x)
i j
i j ρ = (1)
dla dowolnej pary zmiennych Xi oraz Xj przyjmuje postać:
=
=
n
t 1
2 j
_
jt
2 i
_
it
n
t 1
j
_
i jt
_
it
ij
(x x) (x x)
(x x)(x x)
r.^ (2)
W przypadku, gdy obserwacje na zmiennych Xi oraz Xj są liczbami natural-
nymi
1 , tj. x it
= 1, ... , n, x jt
= 1, ... , n (t = 1, ... , n), wówczas współczynnik korelacji
(2) przekształca się we współczynnik Spearmana:
2
1
2
=
n n
d
r
n
t
t
s
co można łatwo udowodnić. W powyższym wzorze d t
oznacza różnice pomię-
dzy obserwacjami równoczesnych wartości pary zmiennych losowych w postaci
liczb naturalnych ( t = 1, ... , n). Współczynnik (3) można więc wykorzystywać
wówczas, gdy obserwacje na każdej z pary zmiennych są liczbami naturalnymi,
należącymi do wyników pomiaru stosunkowego.
Załóżmy, że obserwacje na zmiennych X oraz Y tworzą ciągi liczb naturalnych
o n obserwacjach, czyli x i
= 1, 2, ... , n oraz y i
= 1, 2, ... , n, wówczas sumy obserwa-
cji na obu tych zmiennych są następujące [Steczkowski, Zeliaś, 1981, s. 18]:
n(n 1 ). 2
x y
n
i 1
i
n
i 1
∑ (^) i =∑ = + = =
Tym samym średnie arytmetyczne z obserwacji na obu zmiennych są równe i
wynoszą:
(n 1 ). 2
x y
_ _
= = + (5)
Ponadto
n(n 1 )( 2 n 1 ) 6
x y
n
i 1
2 i
n
i 1
2 ∑ (^) i =∑ = + + = =
oraz
n(n 1 ). 12
(x x) (y y)
2 2
n _
i 1
i
2
n _
i 1
∑ (^) i − =∑ − = − = =
Wykorzystując wzory (4)-(7) łatwo można wykazać równość:
n(n 1 )
6 d
(x x) (x x)
(x x)(x x)
r 2
n
t 1
2 t
n
t 1
2 j
_
jt
2 i
_
it
n
t 1
j
_
i jt
_
it
ij −
=
=
1 Obserwacje w postaci liczb naturalnych nie są tu rangami, lecz liczbami należącymi do skali
ilorazowej. Takie sytuacje zdarzają się jednak w badaniach statystycznych i ekonometrycznych rzadko.
Dylematy stosowania współczynnika... 175
puszczalnymi relacjami między liczbami w tej skali są jedynie: a) równość ele-
mentów w ramach wyróżnionych kategorii, np. a = b, albo b) różność rozłącznych
kategorii, np. b ≠ c. Jedyną dopuszczalną procedurą arytmetyczną jest zliczanie,
którego rezultatem jest zasadniczo liczba naturalna. Z technik statystycznych są
dozwolone tylko te, które opierają się na liczeniu.
W ramach skali nominalnej zwraca uwagę jej szczególny przypadek – ska-
la dychotomiczna. Znajduje ona częste zastosowania w badaniach statystycznych
oraz służy do wyodrębniania pary rozłącznych kategorii. Równoczesne zdefinio-
wanie wariantu A rozpatrywanego zjawiska umożliwia klasyfikowanie zdarzeń
w postaci wariantowej: A lub Ā (nie A). Przyporządkowanie każdej obserwacji
A liczby 1, natomiast obserwacji Ā liczby 0, tworzy tzw. zmienną zerojedynkową.
W skali porządkowej liczby są rangami oznaczającymi kolejność elementów
albo właściwości zjawiska. Rangi odwzorowują uporządkowanie elementów pod
względem rozpatrywanej własności. Kategorie rozpatrywanego zjawiska są tu
rozłączne. Liczby w tej skali są porównywalne ze względu na moduł. Mają jednak
jedynie względne (a nie absolutne) znaczenie. Nie są bowiem znane odległości
pomiędzy rangami. Ponadto odległości między sąsiednimi rangami są niejedna-
kowe. Możliwe jest tym samym porównywanie rang poprzez stwierdzanie zarów-
no relacji równości, jak też większości, a co za tym idzie – także mniejszości, np.
a > b > c >... > z. Nie ma możliwości ustalania odległości między rangami, czyli
określenia, o ile różnią się między sobą.
Warto zwrócić uwagę na możliwość pomiaru obiektywnego i subiektyw-
nego. Istnienie wzorca, do którego porównuje się obiekt lub cechę mierzoną po-
zwala na uzyskanie rezultatu pomiaru obiektywnego. Z takimi przypadkami moż-
na spotkać się przy pomiarach pozwalających na uzyskanie wyniku wyrażonego
w jednostkach fizycznych, np. ciężaru, długości, objętości, wartości w jednost-
kach pieniężnych. Brak precyzyjnie zdefiniowanego wzorca skutkuje rezultatem
pomiaru o charakterze subiektywnym. Wszelkie pomiary cech polegające na py-
taniu respondentów o ich uporządkowanie ze względu np. na ważność, dające
wyniki w postaci rang, należą do kategorii subiektywnych.
Wszelkie operacje arytmetyczne (dodawanie, odejmowanie, mnożenie, dzie-
lenie) są dopuszczalne na szeregach liczb, które mają następujące charakterysty-
ki:
a) znane jest zero naturalne dla danej cechy,
b) znane są odległości pomiędzy liczbami,
Dylematy stosowania współczynnika... 177
c) odległości pomiędzy sąsiednimi liczbami są jednostkowe i identyczne dla każ-
dej sąsiadującej pary.
Wszystkie te właściwości posiadają jedynie liczby należące do wyników po-
miaru stosunkowego (ilorazowego). Zwłaszcza wykonywanie operacji dzielenia
wymaga posiadania przez szereg każdej z wymienionych powyżej właściwości.
Nieznajomość zera naturalnego w szeregu uniemożliwia ustalenia proporcji pary
liczb. Przykładowo wyniki pomiaru temperatury w skali Celsjusza nie pozwalają
na porównanie dwóch temperatur w postaci ilorazu. Jeśli danego dnia (w okre-
ślonym miejscu) o godz. 10.00 temperatura wyniosła 6
o C, a poprzedniego dnia
o tejże godzinie tylko 3
o C, to nie można powiedzieć, że w tymże dniu temperatura
była dwukrotnie wyższa niż dnia poprzedniego. Można tylko stwierdzić, że tem-
peratura tego dnia była wyższa o 3
o C w porównaniu z dniem poprzednim. Wynik
pomiaru należy bowiem do skali interwałowej (przedziałowej)
4 , w której nie jest
znane zero naturalne.
Operacje dodawania i odejmowania wymagają spełnienia warunków b i c,
czyli równych i jednostkowych odległości pomiędzy sąsiadującymi liczbami.
Wyobraźmy sobie złożenie cyfr w liczbę: 566114602, przy czym w pierwszym
przypadku oznacza ona przychody ze sprzedaży netto spółki akcyjnej (w zł),
w drugim przypadku jest to numer dorosłego obywatela Chin wynikający z upo-
rządkowania według wzrostu, a w trzeciej sytuacji numer telefonu w Katedrze
Ekonometrii i Statystyki UMK. Ten sam zestaw cyfr, a jakże różne znaczenia
każdej z powyższych liczb oraz rozmaitość możliwości analitycznych. Przychód
należy do skali stosunkowej, co umożliwia stosowanie wszelkich operacji aryt-
metycznych na zbiorze takich liczb. Numer w uporządkowaniu według wzrostu
należy do rezultatów pomiaru rangowego i oznacza tylko, że 566114602 obywa-
teli Chin jest wyższych od wskazanego (lub nie niższych). Żadne operacje aryt-
metyczne na tego typu liczbach nie są dozwolone. Numer telefonu jest z kolei
jedynie identyfikatorem, pozwalającym na kontakt z osobą, której jest przypo-
rządkowany; liczba ta należy do wyników pomiaru nominalnego.
Zatrzymajmy się na wynikach pomiaru rangowego. Klasycznym przypad-
kiem obiektywnego istnienia rang są tzw. służby mundurowe (wojsko, policja,
straż pożarna itp.). Spróbujmy przeanalizować sensowność operacji sumowania
rang wojskowych. Pułkownik musi z zasady długo czekać na awans generalski,
a tylko niektórzy oficerowie tej rangi zostają generałami. Załóżmy, że operacja
dodawania rang jest dopuszczalna. W takiej sytuacji ojciec w stopniu pułkownika
mógłby wysłać syna do szkoły podoficerskiej, by ten uzyskał stopień kaprala.
4 W statystyce i ekonometrii przeprowadza się niekiedy operacje: normowania lub standaryzacji
zmiennej losowej. Rezultatem takiego zabiegu jest pojawienie się „nowego” zera w szeregu
statystycznym, niebędącego zerem naturalnym. Tym samym zmienna unormowana oraz standa-
ryzowana należy do wyników pomiaru przedziałowego, z wszelkimi konsekwencjami tego stanu rzeczy.
178 Jerzy Witold Wiśniewski
180 Jerzy Witold Wiśniewski
1 2 3 4 5
5 945 26 26 26
6 950 25 29 24
7 952 24 24 29
8 955 23 39 15
9 960 22 30 23
10 966 21 33 20
11 967 20 34 19
12 968 19 31 22
13 970 18 32 21
14 985 17 36 18
15 990 16 40 14
16 992 15 43 12
17 998 14 45 10
18 1000 13 46 9
19 1020 12 56 1
20 1025 11 54 2
21 1030 10 49 6
22 1060 9 37 17
23 1100 8 38 16
24 1160 7 44 11
25 1204 6 50 5
26 1260 5 41 13
27 1304 4 51 4
28 1406 3 52 3
29 1511 2 47 8
30 1620 1 48 7
Σ 32013 465 1155 465
Rozważmy przypadek pomiaru korelacji pomiędzy wydajnością pracy han-
dlowca (y i
) a jego wiekiem (x i
). Wartość współczynnika korelacji Pearsona dla
tej pary zmiennych wynosi r yx
= 0,5938. Zmienne oryginalne zostały przekształ-
cone na rangi, przy czym handlowców uporządkowano według wydajności (y li
od najwyższej do najniższej. Uporządkowanie handlowców według wieku (xli)
nastąpiło natomiast począwszy od najstarszego (ranga 1) do najmłodszego (ranga
30). Obliczona wartość współczynnika korelacji Spearmana dla tej pary zmien-
nych wynosi (^) r 0 , 8509.
(S) y 1 x 1
= Równocześnie obliczono wartość współczynnika
korelacji Pearsona dla tej pary zmiennych rangowych
(S) y 1 x 1
(P) y 1 x 1
r = 0 , 8509 =r.
cd. tabeli 1
Dylematy stosowania współczynnika... 181
Okazuje się, że wystarczy wykorzystać współczynnik Pearsona, by mieć równo-
cześnie wynik dla współczynnika korelacji Spearmana. Zauważmy, że po pozby-
ciu się części informacji o oryginalnych zmiennych (y i
, x i
) przez użycie zmien-
nych w postaci rangowej (y li
, x li
) zwiększyła się miara skorelowania wydajności
z wiekiem z poziomu 0,5938 do wielkości 0,8509. Uzyskany wynik transformacji
oryginalnych zmiennych na rangi prowadzi do wyraźnie odmiennego poziomu
ich skorelowania
5
. W związku z tym z dużą ostrożnością należy podchodzić do
przekształceń zmiennych ze skali mocnej na rangową.
W wielu pracach naukowych można spotkać dodawanie i odejmowanie rang,
ustalanie średniej arytmetycznej, wariancji itd., podczas gdy do rang są dozwolone
tylko rozmaite narzędzia statystyki, oparte na miarach pozycyjnych. Dozwolone
są zatem instrumenty związane z frakcjonowaniem, włącznie z odpowiednimi te-
stami statystycznymi. Pomiar rangowy nie daje natomiast możliwości stosowania
wprost narzędzi analizy korelacji i regresji wskutek niedopuszczalności operacji
arytmetycznych na liczbach tej klasy.
Powstaje zatem pytanie, czy w przypadku pomiaru rangowego badacz jest
bezradny wobec stawianych pytań o współzależność czy też korelację cech? Efek-
tywnym rozwiązaniem może być przekształcenie rang w zmienne zerojedynkowe.
Pozwoli to na analizę asocjacji cech (skojarzenia, przeciwskojarzenia). Załóżmy,
że są prowadzone badania zachowań konsumentów, od których oczekuje się upo-
rządkowania znaczenia dla nich określonych cech wyrobu. Uzyskane wyniki dla
określonej cechy (np. trwałości wyrobu) można skojarzyć np. z wykształceniem
respondentów
6
. Przekształcenie rang w zmienną zerojedynkową w taki sposób,
że liczbę 1 przyporządkowuje się tym obserwacjom na zmiennej Xj, dla których
respondent wskazał
7 rangę 1, 2 lub 3, tj.:
1 , 2 lub 3 ,
przypadkach,
wynosi
pozostalych
ranga
w
gdy
x (^) tj
5 Może zdarzyć się, że następuje zmiana znaku współczynnika korelacji w wyniku zastąpienia
oryginalnych zmiennych przez rangi, co oznacza radykalną zmianę, prowadzącą do błędu po- znawczego. 6 Warto zauważyć, że uzyskane wyniki pomiaru na obu zmiennych mają charakter subiektywny. Brak wzorca i subiektywne odczucie decyduje o wadze trwałości wyrobu dla konsumenta. Roz-
maitość dyplomów licencjata i wyższych powoduje wyraźną niejednorodność wyników obser-
wacji na zmiennej charakteryzującej wykształcenie respondenta. 7 Zmienna Xj wyraża w tym przypadku znaczenie trwałości wyrobu dla respondenta.
Dylematy stosowania współczynnika... 183
Przekształcenie rezultatów pomiaru rangowego w zmienne zerojedynkowe
8
zwiększa możliwości stosowania narzędzi statystyki i ekonometrii w porównaniu
z potencjałem skali rangowej. Posiadanie wyników pomiaru w postaci zmiennych
zerojedynkowych pozwala również na stosowanie modeli regresji, zwłaszcza dla
danych zagregowanych [Wiśniewski, 1986, podrozdz. 4.2, rozdz. 6, podrozdz. 6.6].
W związku z tym warto porównać korzyści ze zwiększenia możliwości analitycz-
nych w skali nominalnej, przy pomiarze zerojedynkowym, na tle utraty części
informacji zawartych w rangach.
Od dawna wiadomo, że współczynnik korelacji Spearmana jest szczególnym
przypadkiem współczynnika korelacji Pearsona. Przypadek Spearmana dotyczy pary
ciągów liczb naturalnych, należących z natury rzeczy do wyników pomiaru w skali
stosunkowej. Fizyczne podobieństwo ciągu n liczb naturalnych do ciągu n rang po-
woduje błędne traktowanie rang, jako wyniku pomiaru w skali mocnej. Dlatego też w
literaturze powszechnie wadliwie stosuje się współczynnik korelacji Spearmana jako
współczynnik korelacji rang. Nie zauważa się przy tym równoważności współczyn-
nika korelacji Spearmana i Pearsona. Traktowanie współczynnika korelacji Spermana
jako współczynnika korelacji rang powoduje, że do pomiaru rangowego stosuje się
bezpośrednio współczynnik korelacji Pearsona, czego wielu badaczy nie zauważa.
Churgin J., 1985: Jak policzyć niepoliczalne. Wiedza Powszechna, Warszawa.
Encyklopedia Gazety Wyborczej , 2004: T. 10. Wydawnictwo Naukowe PWN, Kraków.
Steczkowski J., Zeliaś A., 1981, Statystyczne metody analizy cech jakościowych. PWE,
Warszawa.
Stevens S.S., 1946: On the Theory of Scales Measurement. „Science”, t. 103, No. 2684.
Wiśniewski J.W., 1986: Ekonometryczne badanie zjawisk jakościowych. Studium metodo-
logiczne. Wydawnictwo Naukowe Uniwersytetu Mikołaja Kopernika, Toruń.
Wiśniewski J.W., 2009: Mikroekonometria. Wydawnictwo Naukowe Uniwersytetu Miko-
łaja Kopernika, Toruń.
Wiśniewski J.W., 2012, Dilemmas of Economic Measurements in Weak Scales. Wydaw-
nictwo Uniwersytetu Szczecińskiego, Szczecin.
8 Przejście na pomiar w skali nominalnej powoduje utratę części informacji, które zwiększa jednak możliwości analityczne.
184 Jerzy Witold Wiśniewski
In practice of statistical research and in teaching of statistics, the Spearman’s cor-
relation coefficient is used relatively often. It is sometimes called the Spearman’s Order
Correlation, which can be considered as correct definition. It often happens that the term
Spearman’s Rank-Order Correlation is used, which raises elementary objections. Spear-
man’s correlation coefficient is a special case of the Pearson’s correlation coefficient, used
for the case of a pair of random variables, with observations in the form of sequence of n
natural numbers. Natural numbers, which belong in this case to the measurement of ratio
(absolute) scale results, are not equivalent to ranks, which are the result of the measure-
ment in the weak (ordinal) scale. That is, the Spearman’s correlation coefficient cannot be
used to analyze the ranks, and only the natural numbers.