






Studiuj dzięki licznym zasobom udostępnionym na Docsity
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Przygotuj się do egzaminów
Studiuj dzięki licznym zasobom udostępnionym na Docsity
Otrzymaj punkty, aby pobrać
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Społeczność
Odkryj najlepsze uniwersytety w twoim kraju, według użytkowników Docsity
Bezpłatne poradniki
Pobierz bezpłatnie nasze przewodniki na temat technik studiowania, metod panowania nad stresem, wskazówki do przygotowania do prac magisterskich opracowane przez wykładowców Docsity
Definicja 11.5 — Współczynnik V Cramera. Współczynnik V Cramera jest miar ˛a zale˙znosci mi˛edzy dwiema nominalnymi zmiennymi i jest wyra˙zony wzorem: V =.
Typologia: Egzaminy
1 / 12
Ta strona nie jest widoczna w podglądzie
Nie przegap ważnych części!
Du˙zo czasu sp˛edzili´smy nad tworzeniem testów i metod, które działaj ˛a przy zało˙zeniu pewnego rozkładu np. rozkładu normalnego. Jak ju˙z wiesz mo˙zemy sprawdzi´c ten warunek na histogramie lub, nawet lepiej, na wykresie kwantylowym. Jednak˙ze interpretacja takich wykresów jest rzecz ˛a dyskusyjn ˛a, w szczególno´sci w przypadkach granicznych jeden analityk mo˙ze uzna´c ˙ze zało˙zenie jest spełnione, a drugi ˙ze nie. Było to odrobin˛e subiektywne i nie byli´smy w stanie tego sprawdzi´c w sposób formalny. Na tych laboratoriach poznajemy testy do analizowania danych jako´sciowych, za- cznijmy wi˛ec od testu, który pozwala nam na sprawdzenie czy otrzymane dane maj ˛a okre´slony (oczywi´scie dyskretny) rozkład.
11.1.1 Test χ^2 (zgodno´s ´c z rozkładem)
Porównywanie rozkładów, oprócz sprawdzenia jaki´s warunków testów czy potwierdzania skuteczno´sci działania jakiej´s metody, mo˙ze by´c tak˙ze celem samym w sobie. Na przykładu wiele lat temu w Ameryce, kiedy dochodziło do ró˙znych przejawów rasizmu, stwierdzono, ze w wi˛˙ ezieniach osadza si˛e du˙zo ludzi o czarnym kolorze skóry, bo wyroki s ˛a niesłusznie wydawane na korzy´s´c białych obywateli. Krytykowano wymiar sprawiedliwo´sci, poniewa˙z uwa˙zano ˙ze w´sród osób uprawnionych do zasiadania w ławie przysi˛egłych, a wi˛ec i wydawania wyroków, była wi˛ekszo´s´c białych! Ławy przysi˛egłych nie reprezentowały wi˛ec całego społecze´nstwa, ale cz˛esto interesy białych. W takiej sytuacji chcieliby´smy porówna´c czy osoby uprawnione do zasiadania w ławie przysi˛egłych s ˛a prób ˛a losow ˛a pochodz ˛ac ˛a z dyskretnego rozkładu prawdopodobie´nstwa zdefiniowanego na kolorze skóry wszystkich mieszka´nców USA. Patrz ˛ac na populacj˛e USA (mamy o niej informacj˛e z tzw. spisów powszechnych) wiemy ile procent mieszka´nców nale˙zy do rasy białych, czarnych, latynoskiej itd. Wiemy wi˛ec jaki jest rozkład kolorów skóry w tej populacji i chcemy sprawdzi´c czy kolor skóry w´sród przysi˛egłych jest taki
2 Laboratorium 11. Analiza danych jako´sciowych
sam.
Przykład 11.1 Pobrano prób˛e losow ˛a prost ˛a z ludzi zasiadaj ˛acych w ławie przysi˛egłych, a nast˛epnie zliczono ich pod wzgl˛edem koloru skóry^1. Charakterystyk˛e próbki opisuje poni˙zsza tabela:
Biały Czarny Latynos Inny Suma Próba losowa (obserwowane) 205 26 25 19 275
Ze spisu powszechnego w populacji USA wiemy, ˙ze rozkład tej zmiennej wygl ˛ada nast˛e- puj ˛aco: Biały Czarny Latynos Inny Suma Rozkład prawdopodobie´nstwa 0.72 0.07 0.12 0.09 1. Je˙zeli próba miałaby rzeczywi´scie taki rozkład jak w tabelce wy˙zej to ilu przysi˛egłych z ka˙zdej rasy by´smy si˛e spodziewali w próbie o liczno´sci n = 275? Oczywi´scie b˛edzie to liczba obserwacji pomno˙zona przez prawdopodobie´nstwo^2. Dla przykładu spodziewaliby- ´smy si˛e, ˙ze w próbie o rozmiarze n = 275 b˛edzie 275 · 0. 72 = 198 białych.
Biały Czarny Latynos Inny Suma Rozkład prawdopodobie´nstwa 0.72 0.07 0.12 0.09 1. Warto´sci oczekiwane dla n = 275 198 19.25 33 24.75 275
! Zwró´c uwag˛e, ˙ze w tabelce mamy liczby niecałkowite i jest to w tym przypadku zupełnie poprawne! Zawsze natomiast sprawd´z czy suma wszystkich pół równa si˛e tyle samo w warto´sciach oczekiwanych i w warto´sciach uzyskanych z próby.
Zestawmy teraz otrzymane przez nas warto´sci oczekiwane z tym co rzeczywi´scie mamy w próbie.
Biały Czarny Latynos Inny Suma Próba losowa (obserwowane) 205 26 25 19 275 Warto´sci oczekiwane dla n = 275 198 19.25 33 24.75 275
Czy tego typu odchylenia mogły wzi ˛a´c si˛e z przypadku? Tj. wynikaj ˛a tylko z tego, ˙ze próba jest losowa? Sformułujmy hipotezy:
H 0 : rozkłady s ˛a takie same (nic si˛e nie dzieje)
H 1 : rozkłady s ˛a ró˙zne
oraz przyjmijmy próg istotno´sci α = 0 .05.
(^1) Zadanie pochodzi z [1] (^2) Pami˛etasz wzór na warto´s´c oczekiwan ˛a w rozkładzie binomialnym? E X = np. Sukces definiujemy tutaj jako wylosowanie konkretnej rasy, a jako pora˙zk˛e wylosowanie dowolnej innej. W rzeczywisto´sci korzystamy z rozkładu multinomialnego, który jest poza zakresem kursu.
4 Laboratorium 11. Analiza danych jako´sciowych
Rysunek 11.1: Przy testach χ^2 interesuje nas prawdopodobie´nstwo w prawym ogonie rozkładu
albo dlatego, ˙ze test miał zbyt mał ˛a moc (np. zbyt mała próba)! Prawdopodobnie przedział ufno´sci na ró˙znic˛e pomi˛edzy [p 1 , p 2 , ...] a [p^01 , p^02 , ...] miałby tu wi˛ekszy sens [3].
! Na kolokwium nie bawimy si˛e (niestety?) w takie filozofowanie ;)
11.1.2 Dlaczego χ^2?
Podobnie jak w przypadku testu na korelacj˛e, nie b˛edziemy wyprowadza´c całego testu od pocz ˛atku, a wyprowadzimy go sobie tak troch˛e od ko´nca, w celu zdobycia intuicji sk ˛ad on si˛e bierze. Gdyby´smy porównywali rozkład zmiennej binarnej tj. zmiennej o dwóch mo˙zliwych warto´sciach to, oczywi´scie mogliby´smy wykona´c test χ^2 , ale mogliby´smy te˙z zauwa˙zy´c, ˙ze zeby porówna´˙ c cały rozkład wystarczy porówna´c jedn ˛a proporcj˛e (prawdopodobie´nstwo). Dlaczego? No bo drugie prawdopodobie´nstwo to po prostu 1 − p, je´sli wi˛ec wiemy ˙ze p s ˛a równe to 1 − p te˙z s ˛a równe! Jednak˙ze dla zaprezentowanej sytuacji znamy ju˙z od dawna test na proporcj˛e: test Z. Poka˙zemy, ˙ze test ten jest szczególnym przykładem testu χ^2 dla binarnej zmiennej dyskretnej. Przypomnijmy sobie, ˙ze statystyka testowa w te´scie Z dla proporcji wygl ˛adała nast˛epu- j ˛aco: Z =
n+ − np √ np( 1 − p)
gdzie p to było prawdopodobie´nstwo wynikaj ˛ace z hipotezy zerowej, n+ to liczba sukcesów. Oczywi´scie, n to liczba obserwacji i n = n+ + n− czyli liczba pora˙zek plus liczba sukcesów. Jak pewnie pami˛etasz warunkiem stosowalno´sci tego testu było u˙zycie Centralnego Twierdzenia Granicznego, aby zastosowa´c rozkład normalny dla sumy zmiennej losowych. U˙zywali´smy wtedy heurystycznej zasady: oczekiwana liczba sukcesów i oczekiwana liczba pora˙zek musi by´c wi˛eksza ni˙z 5. Zauwa˙z, ˙ze jest to dokładnie to samo zało˙zenie jak zało˙zenie testu χ^2! Przypadek? Nie s ˛adz˛e.... Rozpiszmy wi˛ec wzór statystyki χ^2 dla naszego konkretnego przypadku (statystyka
11.1 Porównywanie rozkładów dyskretnych 5
b˛edzie miała 1 stopie´n swobody).
χ^2 = (^) ∑ i
(Oi − Ei)^2 Ei
(n+ − np+)^2 np+
(n− − np−)^2 np−
W przypadku u˙zywania rozkładu dwupunktowego zwykle oznaczali´smy prawdopodobie´n- stwo sukcesu jako p, a prawdopodobie´nstwo pora˙zki jako ( 1 − p) - powró´cmy do tych oznacze´n.
χ^2 =
(n+ − np)^2 np
(n− − n( 1 − p))^2 n( 1 − p)
[n = n+ + n− czyli n− = n − n+ ]
(n+ − np)^2 np
(n − n+ − n( 1 − p))^2 n( 1 − p)
[przemnó˙z nawias]
(n+ − np)^2 np
(n − n+ − n + np)^2 n( 1 − p)
[skró´c n]
(n+ − np)^2 np
(−n+ + np)^2 n( 1 − p)
(n+ − np)^2 np
(n+ − np)^2 n( 1 − p)
[ł ˛aczymy ułamek]
(n+ − np)^2 ( 1 − p) + (n+ − np)^2 p np( 1 − p)
(n+ − np)^2 ( 1 − p + p) np( 1 − p)
(n+ − np)^2 np( 1 − p)
Jak widzisz po prostych przekształceniach dostali´smy wzór na statystyk˛e χ^2 , który jest taki sam jak wzór na Z^2 w te´scie w rozkładzie dwupunktowym.
Cwiczenie 11.1^ ´ Wykonaj ´cwiczenie 1, 2 i 3 z karty pracy.
11.1.3 Zastosowanie: wykrywanie j ˛ezyka
Warto w tym miejscu wspomnie´c, ˙ze porównywanie ze sob ˛a dwóch rozkładów ma du˙ze znaczenie praktyczne. W szczególno´sci warto wspomnie´c o problemie wykrywania j˛e- zyka (ang. language identification, language guessing). W praktyce taki system widzimy np. w systemie Google Translate gdzie istnieje opcja „Wykryj j˛ezyk”. Po wpisaniu (zawsze prawdziwego) zdania „Kocham statystyk˛e!” system automatycznie ustala j˛ezyk na j˛ezyk polski i tłumaczy go na wybrany inny j˛ezyk. Problem polega wi˛ec na automatycznym wykryciu j˛ezyka danego dokumentu np. strony internetowej czy ksi ˛a˙zki. Okazuje si˛e, ˙ze mo˙zna to bardzo prosto zrobi´c wykorzystuj ˛ac test χ^2 oraz rozkład liter! Ka˙zdy j˛ezyk ma swoj ˛a specyfik˛e i tak np. w j˛ezyku angielskim ok. 9% znaków w tek´scie to litera „t” (zgadnij dlaczego: pomy´sl sobie o takim słówku jak „the” i jak cz˛esto ono wyst˛epuje) podczas gdy w j˛ezyku polskim to zaledwie 2%. Oczywi´scie, porównywanie cz˛estotliwo´sci wyst˛epowania jednej litery to zdecydowanie za mało (litera „t” wyst˛epuje równie˙z w j˛ezyku tureckim z prawdopodobie´nstwem 2%), ale gdy porównamy cały rozkład liter^4 to mo˙zemy całkiem nie´zle okre´sli´c j˛ezyk dokumentu. Budowa rozkładu liter w tek´scie polega na zliczaniu ich wyst˛epowaniu w danym dokumencie (zakładam, ˙ze wiesz jak to zrobi´c ;), nast˛epnie z Internetu mo˙zna pobra´c
(^4) W praktyce budujemy rozkłady 3-literowych zlepek liter – patrz implementacja w Apache Tika
11.2 Testowanie niezale˙zno´sci zmiennych 7
Mo˙zemy te˙z to obliczy´c innym sposobem: estymujemy z danych, ˙ze
P(dziecko pali) =
P(obydwoje rodzice pal ˛a) =
Jakie jest wi˛ec prawdopodobie´nstwo, ˙ze dziecko pali i miało obydwu pal ˛acych rodzi- ców P(dziecko pali, obydwoje rodzice pal ˛a), korzystaj ˛ac z hipotezy zerowej mówi ˛acej o niezale˙zno´sci? Skoro zmienne s ˛a niezale˙zne to wiemy, ˙ze rozkład ł ˛aczny jest po prostu przemno˙zeniem prawdopodobie´nstw pojedynczej zmiennej^7!
P(dziecko pali, obydwoje rodzice pal ˛a) =
Skoro tak to korzystamy ze wzoru np na warto´s´c oczekiwan ˛a i otrzymujemy
1780 · 1004 53752
Zauwa˙z, ˙ze całe te obliczenia sprowadziły si˛e do prostego wyliczenia: suma w wierszu razy suma w kolumnie przez liczb˛e obserwacji. W ten sposób mo˙zemy wypełni´c cał ˛a tabel˛e warto´sci oczekiwanych
dziecko/ rodzice oboje pal ˛a jedno pali nie pal ˛a suma pali 332,49 418,22 253,29 1004 nie pai 1447,51 1820,78 1102,71 4371 suma 1780 2239 1356 5375
! Zawsze sprawdzaj swoj ˛a tablic˛e warto´sci oczekiwanych poprzez sprawdzenie czy sumy w wierszach i kolumnach si˛e nie zmieniły!
Dalej wystarczy obliczy´c warto´s´c statystyki testowej
χ^2 =
k ∑ i= 1
w ∑ j= 1
(Oi j − Ei j)^2 Ei j
Statystyka ta jednak nie b˛edzie miała ju˙z, jak poprzednio, k − 1 stopni swobody, bo musimy jeszcze jako´s wzi ˛a´c pod uwag˛e liczb˛e wierszy. Skoro w kolumnach mamy k − 1 stopni swobody, a w wierszach w − 1 to razem b˛edziemy mieli (k − 1 )(w − 1 ) stopni swobody. Zauwa˙z, ˙ze mamy k · w składników w statystyce χ^2 (ka˙zdy składnik d ˛a˙zy przy du˙zym rozmiarze próby do Z^2 ), ale np. znaj ˛ac liczb˛e obserwacji w wierszu to po zobaczeniu w − 1 zawarto´sci komórek tabeli dokładnie wiemy ile b˛edzie wynosiła ta ostatnia (tracimy niezale˙zno´s´c). Z tego powodu tracimy jeden stopie´n swobody – analogiczne rozumowanie mo˙zna zaaplikowa´c do kolumn. Po sprawdzeniu w lub w tabelach statystycznych okazuje si˛e, ˙ze p-warto´s´c jest mniejsza ni˙z 0 , 001 , a wi˛ec odrzucamy hipotez˛e zerow ˛a i akceptujemy alternatyw˛e. Palenie dzieci jest zale˙zne od tego czy rodzice pal ˛a (nie okre´slili´smy jednak relacji przyczynowo- skutkowej).
(^7) Dla zmiennych niezale˙znych P(A, B) = P(A)P(B).
8 Laboratorium 11. Analiza danych jako´sciowych
Cwiczenie 11.2^ ´ Wska˙z tablice kontyngencji, które pokazuj ˛a zmienne zale˙zne i nieza- le˙zne w ´cwiczeniu 4 na karcie pracy. Oblicz dla nich warto´s´c statystyki χ^2.
Definicja 11.2 — Test na niezale˙zno´s ´c χ^2. Hipoteza zerowa: zmienne s ˛a niezale˙zne Hipoteza alternatywna: zmienne s ˛a zale˙zne Zało˙zenia: próba losowa prosta (niezale˙zne obserwacje, w szczególno´sci brak wielokrotnego wyboru: 1 obserwacja zwi˛eksza licznik tylko w jednej komórce tabeli kontyngencji) i ∀i, jEi j > 5. Statystyka testowa: χ^2 = (^) ∑ki= 1 ∑wj= 1 (Oi j−Ei j)^2 Ei j o rozkładzie^ χ
(^2) z (k − 1 ) · (w − 1 )
stopniami swobody, gdzie Ei j = (suma w i-tym wierszu)suma·(suma w j-tej kolumnie) , a k to liczba kolumn i w to liczba wierszy.
Cwiczenie 11.3^ ´ Wykonaj ´cwiczenie 5 na karcie pracy.
Cwiczenie 11.4^ ´ Wykonaj ´cwiczenie 6 na karcie pracy.
11.2.2 Zastosowanie: wyszukiwarka kolokacji
Jednym z zastosowa´n testu χ^2 na niezale˙zno´s´c zmiennych jest automatyczne wykrywa- nie kolokacji pomi˛edzy słowami. Chcieliby´smy wykry´c cz˛este kolokacje przymiotnika „kosmiczny” np. „prom kosmiczny”, „statek kosmiczny” czy „teleskop kosmiczny” albo przymiotnika „bezczelny” („bezczelny smarkacz”, ”wyj ˛atkowo bezczelny”). Jednak do dyspozycji mamy jedynie bardzo du˙z ˛a kolekcj˛e tekstów w j˛ezyku polskim. Oczywi´scie to czego potrzebujemy to miara zwi ˛azku zale˙zno´sci mi˛edzy wyst˛epowa- niem poszczególnych słów. Je´sli słowa s ˛a mocno (pozytywnie) zale˙zne, a ich współwy- st˛epowania nie mo˙zna wyja´sni´c losowo´sci ˛a w zbiorze danych to jest to silna przesłanka ze słowa ł ˛˙ acznie wyst˛epuj ˛a znacznie cz˛e´sciej ni˙z ka˙zdy z osobna. Czyli wykryli´smy kolokacj˛e. Jak skonstruowa´c macierz dla takiego testu? Przede wszystkim zdefiniujmy najpierw zmienne których u˙zyjemy w te´scie na niezale˙zno´s´c. U˙zyjemy tutaj przykładu „bezczelny smarkacz”. Rozwa˙zamy wszystkie pary wyst˛epuj ˛acych obok siebie słów (X,Y ) (profe- sjonalnie tak ˛a par˛e nazywamy bigramem), gdzie X = 1 je˙zeli losowe słowo jest słowem „bezczelny” i X = 0 w przeciwnym przypadku. Analogicznie, Y = 1 je˙zeli drugim losowym słowem w parze jest „smarkacz”. Interesuje nas czy podana para zmiennych jest od siebie zale˙zna to znaczy czy np. wiedz ˛ac, ˙ze pierwszym słowem w parze jest „bezczelny” (X = 1 ) mo˙zemy powie- dzie´c ˙ze prawdopodobie´nstwo Y = 1 jest wi˛eksze/mniejsze ni˙z zwykle (konkretnie czy P(Y |X = 1 ) = P(Y )). Teraz konstrukcja macierzy jest ju˙z raczej oczywista:
X/Y 1 0 0 Ile jest par (¬ bezczelny, ¬smarkacz) Ile jest par (¬ bezczelny, smarkacz) 1 Ile jest par ( bezczelny, ¬smarkacz) Ile jest par (bezczelny, smarkacz)
Przykład 11.3 Rozwa˙z bardzo mały zbiór tekstów: „Bezczelny smarkacz! Jak ´smiał?”,
10 Laboratorium 11. Analiza danych jako´sciowych
otrzymaniem 0 przez drug ˛a zmienn ˛aa. aWzór nie jest taki skomplikowany jak si˛e wydaje: w liczniku masz mno˙zenie po przek ˛atnych, a mianownik to mno˙zenie sumy w pierwszym wierszu razy suma w drugim wierszu razy suma w pierwszej kolumnie razy suma w drugiej. Obydwa wzory daj ˛a t˛e sam ˛a warto´s´c bezwzgl˛edn ˛a, jednak druga definicja pozwala tak˙ze na warto´sci ujemne. Z tego powodu w literaturze mo˙zna znale´z´c informacj˛e, ˙ze współczynnik ten przyjmuje warto´sci od -1 do 1 (analogiczny zakres warto´sci z korelacj ˛a Pearson’a), a czasami ˙ze od 0 do 1. Współczynnik Yule’a w tej drugiej definicji jest o tyle ciekawy, ˙ze ma on bezpo´sredni ˛a zale˙zno´s´c pomi˛edzy omawianymi tutaj współczynnikami miar zale˙zno´sci mi˛edzy zmien- nymi nominalnymi a współczynnikiem korelacji. Dlaczego? Poniewa˙z współczynnik ten jest to˙zsamy z współczynnikiem korelacji Pearson’a policzonym dla dwóch zmiennych binarnych. Wynikaj ˛a z tego analogiczne zasady interpretacji: 0 oznacza niezale˙zno´s´c, warto´s´c 1 oznacza idealn ˛a bezpo´sredni ˛a relacj˛e, a warto´s´c − 1 idealn ˛a relacj˛e przeciwn ˛a. Za- uwa˙z, ˙ze zmiana zakodowania warto´sci binarnej (inne okre´slenie sukcesu) zmieni znak współczynnik Yule’a. Przykład 11.4 — * Równowa˙zno´s ´c φ Yule’a i korelacji Pearson’a dla zmiennych binarnych. Mamy dwie zmienne binarne X i Y zaobserwowali´smy:
X 1,1,0,0,1, Y 0,0,1,1,1,
Utworzona z tych obserwacji tabela kontyngencji wygl ˛ada nast˛epuj ˛aco:
X/ Y 0 1 0 1 2 1 2 1
! U˙zywamy tutaj^ χ
(^2) jako miar˛e zale˙zno´sci, nie jako test statystyczny nie musimy wi˛ec sprawdza´c warunków testu.
Sumy w wierszach i kolumnach s ˛a takie same i wynosz ˛a 3, w w zwi ˛azku z tym warto´sci oczekiwane w ka˙zdej z komórek wynosz ˛a 36 ·^3 = 1 , 5. W zwi ˛azku z tym χ^2 =
2 (^1 −^1 ,^5 )
2 1 , 5 +^2
( 2 − 1 , 5 )^2 1 , 5 =^
1 1 , 5 =^
2 3 , a współczynnik Yule’a^ φ^ =
3 6 =
1 9 =^
1
Przejd´zmy do obliczenia korelacji Pearson’a: x¯ = 0. 5 , y¯ = 0. 5 , s^2 X = 0. 3 , s^2 Y = 0. 3 czyli
r =
n − 1
∑(x^ −^ x¯)(y^ −^ y¯) √ s^2 x · s Y^2
11.3 Miary siły zale˙zno´sci zmiennych nominalnych 11
Mam nadziej˛e, ˙ze nie umkn ˛ał Twojej uwadze fakt, ˙ze współczynnik Yule’a mo˙zna obliczy´c jedynie dla zmiennych binarnych. Nawet przy korzystaniu ze wzoru ze statystyk ˛a χ^2 , dla zmiennych niebinarnych współczynnik ten mo˙ze osi ˛aga´c warto´sci wi˛eksze ni˙z 1, co znacznie utrudnia jego interpretacj˛e. Innym pomysłem mierzenia zale˙zno´sci jest współczynnik kontyngencji C Pearson’a. Definicja 11.4 — Współczynnik kontyngencji C Pearson’a. Współczynnik kontyn- gencji C Pearson’a jest wyra˙zony wzorem
χ^2 χ^2 + n
Miara ta przyjmuje warto´sci od 0 (niezale˙zno´s´c dwóch zmiennych) do prawie 1 (bardzo silna zale˙zno´s´c). Współczynnik ten jest odporny na zmian˛e skali, to jest je˙zeli rozmiar próbki si˛e zwi˛ekszy, warto´s´c współczynnika kontyngencji Pearson’a nie zmieni si˛e dopóki warto´sci w tabeli b˛ed ˛a proporcjonalnie takie same.
Problemem tego współczynnika jednak jest jego zakres warto´sci jest on od 0 do prawie 1 - dokładnie
min(k− 1 ,w− 1 ) 1 +min(k− 1 ,w− 1 ). Czyli np. dla zmiennej binarnej i zmiennej o 3 warto´sciach warto´s´c maksymalna tego współczynnika to
min( 2 − 1 , 3 − 1 ) 1 +min( 2 − 1 , 3 − 1 ) =
1 2 =^0.^7071. Konieczno´s´c obliczania warto´sci maksymalnej i brak mo˙zliwo´sci porównywania wyników współczynnika C dla par zmiennych o ro˙znej liczbie warto´sci uznawane s ˛a za wady tej miary. Definicja 11.5 — Współczynnik V Cramera. Współczynnik V Cramera jest miar ˛a zale˙zno´sci mi˛edzy dwiema nominalnymi zmiennymi i jest wyra˙zony wzorem:
χ^2 n · min(k − 1 , r − 1 )
Współczynnik V Cramera (podobnie jak współczynnik C) jest miar ˛a symetryczn ˛a: nie wa˙zne która zmienna jest w wierszach czy w kolumnach, równie˙z kolejno´s´c kolumn/wier- szy nie ma znaczenia, a wi˛ec miara ta nadaje si˛e do danych nominalnych (nie jest konieczne uporz ˛adkowanie). Przyjmuje ona warto´sci od 0 (brak zale˙zno´sci) do 1 (całkowita zale˙zno´s´c, znaj ˛ac warto´s´c pierwszej zmiennej znamy warto´s´c drugiej). Co wynika bezpo´srednio ze wzoru, dla tabel kontyngencji 2x2 jest on równowa˙zny współczynnikowi φ Yule’a.
Jednak˙ze, w miar˛e jak ro´snie liczba komórek w tabelce zwykle ro´snie te˙z warto´s´c statystyki χ^2 (jest wi˛ecej składników w sumie). Im wi˛eksza jest wi˛ec ró˙znica pomi˛edzy liczb ˛a kolumn i liczb ˛a wierszy tym szybciej warto´s´c współczynnika V b˛edzie rosła do 1, pomimo braku silnych przesłanek za znacz ˛ac ˛a korelacj ˛a. Miara te nie jest wi˛ec idealna i definiuje si˛e bardziej zaawansowane miary, cz˛esto nie oparte o statystyk˛e χ^2 np. λ Goodmana i Kruskala.
Cwiczenie 11.5^ ´ Wykonaj ´cwiczenie 7 na karcie pracy.