Docsity
Docsity

Przygotuj się do egzaminów
Przygotuj się do egzaminów

Studiuj dzięki licznym zasobom udostępnionym na Docsity


Otrzymaj punkty, aby pobrać
Otrzymaj punkty, aby pobrać

Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium


Informacje i wskazówki
Informacje i wskazówki

DYLEMATY STOSOWANIA WSPÓŁCZYNNIKA KORELACJI ..., Prezentacje z Logika

używanie dla współczynnika korelacji Spearmana nazwy „współczynnik kore- ... Pozorna. Taka operacja jest niemożliwa. Rangi nie są bo- wiem addytywne.

Typologia: Prezentacje

2022/2023

Załadowany 24.02.2023

Swarovski
Swarovski 🇵🇱

5

(2)

112 dokumenty

1 / 11

Toggle sidebar

Ta strona nie jest widoczna w podglądzie

Nie przegap ważnych części!

bg1
Jerzy Witold Wiśniewski
Uniwersytet Mikołaja Kopernika
DYLEMATY STOSOWANIA WSPÓŁCZYNNIKA
KORELACJI SPEARMANA
Wprowadzenie
W praktyce badań statystycznych relatywnie często pojawia się potrzeba
analizy wyników pomiaru rangowego. Jednym z podstawowych narzędzi anali-
zy tego typu rezultatów staje się współczynnik korelacji Spearmana, zwany nie-
kiedy współczynnikiem korelacji kolejnościowej lub współczynnikiem korelacji
rang. O ile można zgodzić się z określeniem „kolejnościowej”, o tyle błędem jest
używanie dla współczynnika korelacji Spearmana nazwy „współczynnik kore-
lacji rang”. W wyniku odpowiedniego przekształcenia współczynnika korelacji
Pearsona dla przypadku pary szeregów szczegółowych, o obserwacjach w postaci
ciągów liczb naturalnych, uzyskuje się współczynnik korelacji Spearmana.
1. Specyfika współczynnika korelacji Spearmana
Wykorzystywany powszechnie w takich sytuacjach tzw. współczynnik kore-
lacji rang Spearmana został przekształcony ze współczynnika korelacji Pearsona
dla przypadku ciągów pary liczb naturalnych o n obserwacjach. Współczynnik
korelacji Pearsona, zapisany ogólnie:
)xvar()xvar(
)x,xcov(
ji
ji
=ρ
(1)
dla dowolnej pary zmiennych Xi oraz Xj przyjmuje postać:
=
=
=
n
1t
2
j
_
jt
2
i
_
it
n
1t
j
_
jt
i
_
it
ij
)xx()xx(
)xx)(xx(
r
. (2)
pf3
pf4
pf5
pf8
pf9
pfa

Podgląd częściowego tekstu

Pobierz DYLEMATY STOSOWANIA WSPÓŁCZYNNIKA KORELACJI ... i więcej Prezentacje w PDF z Logika tylko na Docsity!

Jerzy Witold Wiśniewski

Uniwersytet Mikołaja Kopernika

DYLEMATY STOSOWANIA WSPÓŁCZYNNIKA

KORELACJI SPEARMANA

Wprowadzenie

W praktyce badań statystycznych relatywnie często pojawia się potrzeba

analizy wyników pomiaru rangowego. Jednym z podstawowych narzędzi anali-

zy tego typu rezultatów staje się współczynnik korelacji Spearmana, zwany nie-

kiedy współczynnikiem korelacji kolejnościowej lub współczynnikiem korelacji

rang. O ile można zgodzić się z określeniem „kolejnościowej”, o tyle błędem jest

używanie dla współczynnika korelacji Spearmana nazwy „współczynnik kore-

lacji rang”. W wyniku odpowiedniego przekształcenia współczynnika korelacji

Pearsona dla przypadku pary szeregów szczegółowych, o obserwacjach w postaci

ciągów liczb naturalnych, uzyskuje się współczynnik korelacji Spearmana.

1. Specyfika współczynnika korelacji Spearmana

Wykorzystywany powszechnie w takich sytuacjach tzw. współczynnik kore-

lacji rang Spearmana został przekształcony ze współczynnika korelacji Pearsona

dla przypadku ciągów pary liczb naturalnych o n obserwacjach. Współczynnik

korelacji Pearsona, zapisany ogólnie:

var(x)var(x )

cov(x,x)

i j

i j ρ = (1)

dla dowolnej pary zmiennych Xi oraz Xj przyjmuje postać:

=

=

n

t 1

2 j

_

jt

2 i

_

it

n

t 1

j

_

i jt

_

it

ij

(x x) (x x)

(x x)(x x)

r.^ (2)

W przypadku, gdy obserwacje na zmiennych Xi oraz Xj są liczbami natural-

nymi

1 , tj. x it

= 1, ... , n, x jt

= 1, ... , n (t = 1, ... , n), wówczas współczynnik korelacji

(2) przekształca się we współczynnik Spearmana:

2

1

2

=

n n

d

r

n

t

t

s

co można łatwo udowodnić. W powyższym wzorze d t

oznacza różnice pomię-

dzy obserwacjami równoczesnych wartości pary zmiennych losowych w postaci

liczb naturalnych ( t = 1, ... , n). Współczynnik (3) można więc wykorzystywać

wówczas, gdy obserwacje na każdej z pary zmiennych są liczbami naturalnymi,

należącymi do wyników pomiaru stosunkowego.

Załóżmy, że obserwacje na zmiennych X oraz Y tworzą ciągi liczb naturalnych

o n obserwacjach, czyli x i

= 1, 2, ... , n oraz y i

= 1, 2, ... , n, wówczas sumy obserwa-

cji na obu tych zmiennych są następujące [Steczkowski, Zeliaś, 1981, s. 18]:

n(n 1 ). 2

x y

n

i 1

i

n

i 1

∑ (^) i =∑ = + = =

Tym samym średnie arytmetyczne z obserwacji na obu zmiennych są równe i

wynoszą:

(n 1 ). 2

x y

_ _

= = + (5)

Ponadto

n(n 1 )( 2 n 1 ) 6

x y

n

i 1

2 i

n

i 1

2 ∑ (^) i =∑ = + + = =

oraz

n(n 1 ). 12

(x x) (y y)

2 2

n _

i 1

i

2

n _

i 1

∑ (^) i − =∑ − = − = =

Wykorzystując wzory (4)-(7) łatwo można wykazać równość:

n(n 1 )

6 d

(x x) (x x)

(x x)(x x)

r 2

n

t 1

2 t

n

t 1

2 j

_

jt

2 i

_

it

n

t 1

j

_

i jt

_

it

ij −

=

=

1 Obserwacje w postaci liczb naturalnych nie są tu rangami, lecz liczbami należącymi do skali

ilorazowej. Takie sytuacje zdarzają się jednak w badaniach statystycznych i ekonometrycznych rzadko.

Dylematy stosowania współczynnika... 175

puszczalnymi relacjami między liczbami w tej skali są jedynie: a) równość ele-

mentów w ramach wyróżnionych kategorii, np. a = b, albo b) różność rozłącznych

kategorii, np. b ≠ c. Jedyną dopuszczalną procedurą arytmetyczną jest zliczanie,

którego rezultatem jest zasadniczo liczba naturalna. Z technik statystycznych są

dozwolone tylko te, które opierają się na liczeniu.

W ramach skali nominalnej zwraca uwagę jej szczególny przypadek – ska-

la dychotomiczna. Znajduje ona częste zastosowania w badaniach statystycznych

oraz służy do wyodrębniania pary rozłącznych kategorii. Równoczesne zdefinio-

wanie wariantu A rozpatrywanego zjawiska umożliwia klasyfikowanie zdarzeń

w postaci wariantowej: A lub Ā (nie A). Przyporządkowanie każdej obserwacji

A liczby 1, natomiast obserwacji Ā liczby 0, tworzy tzw. zmienną zerojedynkową.

W skali porządkowej liczby są rangami oznaczającymi kolejność elementów

albo właściwości zjawiska. Rangi odwzorowują uporządkowanie elementów pod

względem rozpatrywanej własności. Kategorie rozpatrywanego zjawiska są tu

rozłączne. Liczby w tej skali są porównywalne ze względu na moduł. Mają jednak

jedynie względne (a nie absolutne) znaczenie. Nie są bowiem znane odległości

pomiędzy rangami. Ponadto odległości między sąsiednimi rangami są niejedna-

kowe. Możliwe jest tym samym porównywanie rang poprzez stwierdzanie zarów-

no relacji równości, jak też większości, a co za tym idzie – także mniejszości, np.

a > b > c >... > z. Nie ma możliwości ustalania odległości między rangami, czyli

określenia, o ile różnią się między sobą.

Warto zwrócić uwagę na możliwość pomiaru obiektywnego i subiektyw-

nego. Istnienie wzorca, do którego porównuje się obiekt lub cechę mierzoną po-

zwala na uzyskanie rezultatu pomiaru obiektywnego. Z takimi przypadkami moż-

na spotkać się przy pomiarach pozwalających na uzyskanie wyniku wyrażonego

w jednostkach fizycznych, np. ciężaru, długości, objętości, wartości w jednost-

kach pieniężnych. Brak precyzyjnie zdefiniowanego wzorca skutkuje rezultatem

pomiaru o charakterze subiektywnym. Wszelkie pomiary cech polegające na py-

taniu respondentów o ich uporządkowanie ze względu np. na ważność, dające

wyniki w postaci rang, należą do kategorii subiektywnych.

4. Operacje arytmetyczne na liczbach w rozmaitych skalach

Wszelkie operacje arytmetyczne (dodawanie, odejmowanie, mnożenie, dzie-

lenie) są dopuszczalne na szeregach liczb, które mają następujące charakterysty-

ki:

a) znane jest zero naturalne dla danej cechy,

b) znane są odległości pomiędzy liczbami,

Dylematy stosowania współczynnika... 177

c) odległości pomiędzy sąsiednimi liczbami są jednostkowe i identyczne dla każ-

dej sąsiadującej pary.

Wszystkie te właściwości posiadają jedynie liczby należące do wyników po-

miaru stosunkowego (ilorazowego). Zwłaszcza wykonywanie operacji dzielenia

wymaga posiadania przez szereg każdej z wymienionych powyżej właściwości.

Nieznajomość zera naturalnego w szeregu uniemożliwia ustalenia proporcji pary

liczb. Przykładowo wyniki pomiaru temperatury w skali Celsjusza nie pozwalają

na porównanie dwóch temperatur w postaci ilorazu. Jeśli danego dnia (w okre-

ślonym miejscu) o godz. 10.00 temperatura wyniosła 6

o C, a poprzedniego dnia

o tejże godzinie tylko 3

o C, to nie można powiedzieć, że w tymże dniu temperatura

była dwukrotnie wyższa niż dnia poprzedniego. Można tylko stwierdzić, że tem-

peratura tego dnia była wyższa o 3

o C w porównaniu z dniem poprzednim. Wynik

pomiaru należy bowiem do skali interwałowej (przedziałowej)

4 , w której nie jest

znane zero naturalne.

Operacje dodawania i odejmowania wymagają spełnienia warunków b i c,

czyli równych i jednostkowych odległości pomiędzy sąsiadującymi liczbami.

Wyobraźmy sobie złożenie cyfr w liczbę: 566114602, przy czym w pierwszym

przypadku oznacza ona przychody ze sprzedaży netto spółki akcyjnej (w zł),

w drugim przypadku jest to numer dorosłego obywatela Chin wynikający z upo-

rządkowania według wzrostu, a w trzeciej sytuacji numer telefonu w Katedrze

Ekonometrii i Statystyki UMK. Ten sam zestaw cyfr, a jakże różne znaczenia

każdej z powyższych liczb oraz rozmaitość możliwości analitycznych. Przychód

należy do skali stosunkowej, co umożliwia stosowanie wszelkich operacji aryt-

metycznych na zbiorze takich liczb. Numer w uporządkowaniu według wzrostu

należy do rezultatów pomiaru rangowego i oznacza tylko, że 566114602 obywa-

teli Chin jest wyższych od wskazanego (lub nie niższych). Żadne operacje aryt-

metyczne na tego typu liczbach nie są dozwolone. Numer telefonu jest z kolei

jedynie identyfikatorem, pozwalającym na kontakt z osobą, której jest przypo-

rządkowany; liczba ta należy do wyników pomiaru nominalnego.

Zatrzymajmy się na wynikach pomiaru rangowego. Klasycznym przypad-

kiem obiektywnego istnienia rang są tzw. służby mundurowe (wojsko, policja,

straż pożarna itp.). Spróbujmy przeanalizować sensowność operacji sumowania

rang wojskowych. Pułkownik musi z zasady długo czekać na awans generalski,

a tylko niektórzy oficerowie tej rangi zostają generałami. Załóżmy, że operacja

dodawania rang jest dopuszczalna. W takiej sytuacji ojciec w stopniu pułkownika

mógłby wysłać syna do szkoły podoficerskiej, by ten uzyskał stopień kaprala.

4 W statystyce i ekonometrii przeprowadza się niekiedy operacje: normowania lub standaryzacji

zmiennej losowej. Rezultatem takiego zabiegu jest pojawienie się „nowego” zera w szeregu

statystycznym, niebędącego zerem naturalnym. Tym samym zmienna unormowana oraz standa-

ryzowana należy do wyników pomiaru przedziałowego, z wszelkimi konsekwencjami tego stanu rzeczy.

178 Jerzy Witold Wiśniewski

180 Jerzy Witold Wiśniewski

1 2 3 4 5

5 945 26 26 26

6 950 25 29 24

7 952 24 24 29

8 955 23 39 15

9 960 22 30 23

10 966 21 33 20

11 967 20 34 19

12 968 19 31 22

13 970 18 32 21

14 985 17 36 18

15 990 16 40 14

16 992 15 43 12

17 998 14 45 10

18 1000 13 46 9

19 1020 12 56 1

20 1025 11 54 2

21 1030 10 49 6

22 1060 9 37 17

23 1100 8 38 16

24 1160 7 44 11

25 1204 6 50 5

26 1260 5 41 13

27 1304 4 51 4

28 1406 3 52 3

29 1511 2 47 8

30 1620 1 48 7

Σ 32013 465 1155 465

Rozważmy przypadek pomiaru korelacji pomiędzy wydajnością pracy han-

dlowca (y i

) a jego wiekiem (x i

). Wartość współczynnika korelacji Pearsona dla

tej pary zmiennych wynosi r yx

= 0,5938. Zmienne oryginalne zostały przekształ-

cone na rangi, przy czym handlowców uporządkowano według wydajności (y li

od najwyższej do najniższej. Uporządkowanie handlowców według wieku (xli)

nastąpiło natomiast począwszy od najstarszego (ranga 1) do najmłodszego (ranga

30). Obliczona wartość współczynnika korelacji Spearmana dla tej pary zmien-

nych wynosi (^) r 0 , 8509.

(S) y 1 x 1

= Równocześnie obliczono wartość współczynnika

korelacji Pearsona dla tej pary zmiennych rangowych

(S) y 1 x 1

(P) y 1 x 1

r = 0 , 8509 =r.

cd. tabeli 1

Dylematy stosowania współczynnika... 181

Okazuje się, że wystarczy wykorzystać współczynnik Pearsona, by mieć równo-

cześnie wynik dla współczynnika korelacji Spearmana. Zauważmy, że po pozby-

ciu się części informacji o oryginalnych zmiennych (y i

, x i

) przez użycie zmien-

nych w postaci rangowej (y li

, x li

) zwiększyła się miara skorelowania wydajności

z wiekiem z poziomu 0,5938 do wielkości 0,8509. Uzyskany wynik transformacji

oryginalnych zmiennych na rangi prowadzi do wyraźnie odmiennego poziomu

ich skorelowania

5

. W związku z tym z dużą ostrożnością należy podchodzić do

przekształceń zmiennych ze skali mocnej na rangową.

6. Narzędzia statystyczne dopuszczalne w skalach słabych

W wielu pracach naukowych można spotkać dodawanie i odejmowanie rang,

ustalanie średniej arytmetycznej, wariancji itd., podczas gdy do rang są dozwolone

tylko rozmaite narzędzia statystyki, oparte na miarach pozycyjnych. Dozwolone

są zatem instrumenty związane z frakcjonowaniem, włącznie z odpowiednimi te-

stami statystycznymi. Pomiar rangowy nie daje natomiast możliwości stosowania

wprost narzędzi analizy korelacji i regresji wskutek niedopuszczalności operacji

arytmetycznych na liczbach tej klasy.

Powstaje zatem pytanie, czy w przypadku pomiaru rangowego badacz jest

bezradny wobec stawianych pytań o współzależność czy też korelację cech? Efek-

tywnym rozwiązaniem może być przekształcenie rang w zmienne zerojedynkowe.

Pozwoli to na analizę asocjacji cech (skojarzenia, przeciwskojarzenia). Załóżmy,

że są prowadzone badania zachowań konsumentów, od których oczekuje się upo-

rządkowania znaczenia dla nich określonych cech wyrobu. Uzyskane wyniki dla

określonej cechy (np. trwałości wyrobu) można skojarzyć np. z wykształceniem

respondentów

6

. Przekształcenie rang w zmienną zerojedynkową w taki sposób,

że liczbę 1 przyporządkowuje się tym obserwacjom na zmiennej Xj, dla których

respondent wskazał

7 rangę 1, 2 lub 3, tj.:

1 , 2 lub 3 ,

przypadkach,

wynosi

pozostalych

ranga

w

gdy

x (^) tj

5 Może zdarzyć się, że następuje zmiana znaku współczynnika korelacji w wyniku zastąpienia

oryginalnych zmiennych przez rangi, co oznacza radykalną zmianę, prowadzącą do błędu po- znawczego. 6 Warto zauważyć, że uzyskane wyniki pomiaru na obu zmiennych mają charakter subiektywny. Brak wzorca i subiektywne odczucie decyduje o wadze trwałości wyrobu dla konsumenta. Roz-

maitość dyplomów licencjata i wyższych powoduje wyraźną niejednorodność wyników obser-

wacji na zmiennej charakteryzującej wykształcenie respondenta. 7 Zmienna Xj wyraża w tym przypadku znaczenie trwałości wyrobu dla respondenta.

Dylematy stosowania współczynnika... 183

Przekształcenie rezultatów pomiaru rangowego w zmienne zerojedynkowe

8

zwiększa możliwości stosowania narzędzi statystyki i ekonometrii w porównaniu

z potencjałem skali rangowej. Posiadanie wyników pomiaru w postaci zmiennych

zerojedynkowych pozwala również na stosowanie modeli regresji, zwłaszcza dla

danych zagregowanych [Wiśniewski, 1986, podrozdz. 4.2, rozdz. 6, podrozdz. 6.6].

W związku z tym warto porównać korzyści ze zwiększenia możliwości analitycz-

nych w skali nominalnej, przy pomiarze zerojedynkowym, na tle utraty części

informacji zawartych w rangach.

Podsumowanie

Od dawna wiadomo, że współczynnik korelacji Spearmana jest szczególnym

przypadkiem współczynnika korelacji Pearsona. Przypadek Spearmana dotyczy pary

ciągów liczb naturalnych, należących z natury rzeczy do wyników pomiaru w skali

stosunkowej. Fizyczne podobieństwo ciągu n liczb naturalnych do ciągu n rang po-

woduje błędne traktowanie rang, jako wyniku pomiaru w skali mocnej. Dlatego też w

literaturze powszechnie wadliwie stosuje się współczynnik korelacji Spearmana jako

współczynnik korelacji rang. Nie zauważa się przy tym równoważności współczyn-

nika korelacji Spearmana i Pearsona. Traktowanie współczynnika korelacji Spermana

jako współczynnika korelacji rang powoduje, że do pomiaru rangowego stosuje się

bezpośrednio współczynnik korelacji Pearsona, czego wielu badaczy nie zauważa.

Literatura

Churgin J., 1985: Jak policzyć niepoliczalne. Wiedza Powszechna, Warszawa.

Encyklopedia Gazety Wyborczej , 2004: T. 10. Wydawnictwo Naukowe PWN, Kraków.

Steczkowski J., Zeliaś A., 1981, Statystyczne metody analizy cech jakościowych. PWE,

Warszawa.

Stevens S.S., 1946: On the Theory of Scales Measurement. „Science”, t. 103, No. 2684.

Wiśniewski J.W., 1986: Ekonometryczne badanie zjawisk jakościowych. Studium metodo-

logiczne. Wydawnictwo Naukowe Uniwersytetu Mikołaja Kopernika, Toruń.

Wiśniewski J.W., 2009: Mikroekonometria. Wydawnictwo Naukowe Uniwersytetu Miko-

łaja Kopernika, Toruń.

Wiśniewski J.W., 2012, Dilemmas of Economic Measurements in Weak Scales. Wydaw-

nictwo Uniwersytetu Szczecińskiego, Szczecin.

8 Przejście na pomiar w skali nominalnej powoduje utratę części informacji, które zwiększa jednak możliwości analityczne.

184 Jerzy Witold Wiśniewski

DILEMMAS IN APPLICATION OF THE SPEARMAN’S CORRELATION

COEFFICIENT

Summary

In practice of statistical research and in teaching of statistics, the Spearman’s cor-

relation coefficient is used relatively often. It is sometimes called the Spearman’s Order

Correlation, which can be considered as correct definition. It often happens that the term

Spearman’s Rank-Order Correlation is used, which raises elementary objections. Spear-

man’s correlation coefficient is a special case of the Pearson’s correlation coefficient, used

for the case of a pair of random variables, with observations in the form of sequence of n

natural numbers. Natural numbers, which belong in this case to the measurement of ratio

(absolute) scale results, are not equivalent to ranks, which are the result of the measure-

ment in the weak (ordinal) scale. That is, the Spearman’s correlation coefficient cannot be

used to analyze the ranks, and only the natural numbers.