













Studiuj dzięki licznym zasobom udostępnionym na Docsity
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Przygotuj się do egzaminów
Studiuj dzięki licznym zasobom udostępnionym na Docsity
Otrzymaj punkty, aby pobrać
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Społeczność
Odkryj najlepsze uniwersytety w twoim kraju, według użytkowników Docsity
Bezpłatne poradniki
Pobierz bezpłatnie nasze przewodniki na temat technik studiowania, metod panowania nad stresem, wskazówki do przygotowania do prac magisterskich opracowane przez wykładowców Docsity
korelacyjny wykres rozrzutu (korelogram). • rodzaje zaleŜności (brak, nieliniowa, liniowa). • pomiar siły zaleŜności liniowej (współczynnik korelacji.
Typologia: Streszczenia
1 / 21
Ta strona nie jest widoczna w podglądzie
Nie przegap ważnych części!
Badamy jednostki statystyczne pod kątem dwóch róŜnych
cech - cechy X oraz cechy Y.
Pytanie jakie sobie stawiamy to:
czy istnieje zaleŜność pomiędzy cechą X i cechą Y?
JeŜeli taka zaleŜność istnieje, to poszukujemy odpowiedzi na
kolejne pytania:
Informacja statystyczna niezbędna do zbadania zaleŜności
pomiędzy cechami X i Y przyjmuje najczęściej 2 formy:
Korelacyjny wykres rozrzutu
KORELOGRAM
JeŜeli obie cechy X i Y są mierzalne, to analizę zaleŜności
rozpoczynamy od sporządzenia korelogrmamu.
(Excel nazywa taki wykres: „wykresem XY”).
( ) ( ) ( ) n n x , y , x , y , , x , y 1 1 2 2 L
PRZYKŁADY korelogramów (kaŜdy punkt oznaczono x)
(a) (b)
(c) (d)
( )
x y
xy s s
C X Y r
( ) (^) ∑( )( )
= − −
xi x yi y n
C X Y
1 ,
− 1 ≤ rxy ≤ 1
rxy = r yx
PRZYKŁAD 1 W grupie 7 studentów badano zaleŜność pomiędzy oceną z egzaminu ze statystyki (Y), a liczbą dni poświęconych na naukę (X).
146 7
2 1022 sx = = 1 , 07
sx = 146 = 12 , 08 sy =^1 ,^07 =^1 ,^03
( ) 12 , 36
Współczynnik korelacji (Pearsona) wynosi dla danych z przykładu 1:
( ) 0 , 993 12 , 08 1 , 03
, 12 , 36 = + ×
= =
x y
xy s s
C X Y r
INTERPRETACJA
W badanej grupie studentów wystąpiła bardzo silna dodatnia
(znak plus) zaleŜność liniowa pomiędzy czasem nauki
(cecha X), a uzyskaną oceną z egzaminu (cecha Y). Oznacza to, Ŝe wraz ze wzrostem czasu poświęconego na naukę rosła w tej grupie uzyskiwana ocena.
(Spearmana)
2
1
2
=
n
i
i
S
Schemat tablicy korelacyjnej
Warianty cechy Y (yj)
Warianty cechy X (xi) (^) y 1 y 1 ………… ys
(razem) ni••••
x 1 n 11 n 12 ………… n1s n 1 • ••• x 2 n 21 n 22 ………… n2s n 2 • ••• ∂ (^) ………… ………… ………… ………… ………… xr nr1 nr2 ………… nrs nr • ••• (razem) n••••j
Oznaczenia:
nij - liczba jednostek, która charakteryzuje się wartością xi cechy X oraz
wartością yj cechy Y
ni•••• - liczba jednostek, która charakteryzuje się wartością xi cechy X
s
j
1
n••••j - liczba jednostek, która charakteryzuje się wartością yj cechy Y
r
i
1
n - liczebność populacji
= =
s
j
j
r
i
i
r
i
s
j
1 1 1 1
PRZYKŁAD 3 Podobnie jak w przykładzie 1 zbadamy zaleŜność pomiędzy czasem nauki (X), a uzyskaną oceną (Y). W tablicy korelacyjnej zestawiono informację o 400 studentach (n=400). Ocena Czas nauki (X) w dniach (Y) 0 - 7 7 - 14 14 - 21 21 - 28
ni••••
(^2 80 ) (^3 10 80 ) 3,5 (^60 10 ) (^4 20 30 ) 4,5 (^50 10 ) (^5 50 )
n••••j 90 160 90 60 400
Obliczamy osobno dla kaŜdej z cech: średnie, wariancje i
odchylenia standardowe.
Ocena^ Czas nauki (X) (Y) 0 - 7 7 - 14 14 - 21 21 - 28
(a) ni•••• i^ i•
y n
(b) yi − y
(c) (b)*(b)
(d) (c)*(a)
n••••j 90 160 90 60 400 1395 x x 387,
x&^ j 3,5 10,5 17,5 24,5 x x x x x
x & (^) j n• j 315 1680 1575 1470 5040 x x x x
x&^ j − x -9,1 -2,1 4,9 11,9 x x x x x
( x&^ j − x)^2 82,81 4,41 24,01 141,61 x x x x x
( x^ &^ j − x) 2 n•j 7452,9 705,6 2160,9 8496,6 18816 x x x x
i policzymy wszystkie iloczyny ( (^) x& (^) j −x)( (^) yi −y)n (^) ij
yi − y -9,1 -2,1 4,9 11,
razem
razem (^) 1137,5 63 318,5 1011,5 (^) 2530,
Zatem kowariancja wynosi:
( ) 6 , 33
Współczynnik korelacji (Pearsona) wynosi dla danych
z przykładu 3:
( ) 0 , 942 6 , 86 0 , 98
, 6 , 33 = + ×
= =
x y
xy s s
C X Y r
INTERPRETACJA
W badanej grupie 400 studentów wystąpiła bardzo silna
dodatnia (znak plus) zaleŜność liniowa pomiędzy czasem
nauki (cecha X), a uzyskaną oceną z egzaminu (cecha Y).
wyliczalne na podstawie tablicy korelacyjnej
Obok współczynnika korelacji Persona stosowane są inne miary zaleŜności pomiędzy cechą Y i cechą X. Są to:
2 )
Stosunek korelacji
0 < eyx < 1
ryx ≤ e yx
Miary oparte na chi-kwadrat
ZauwaŜmy, Ŝe liniowa funkcja trendu (omówiona w wykładzie 6)
yˆt =at+ b
moŜe być równieŜ traktowana jako liniowa funkcja regresji prostej. Zmienna zaleŜna Y opisuje tam poziom badanego zjawiska Y. Zmienną niezaleŜną X jest tam czas (zmienna czasowa t).
yˆi =axi + b
W nowym układzie funkcja trendu moŜe być traktowana jako funkcja regresji Y względem czasu t.
( )
2
,
s x
C X Y a =
b = y −a x
PRZYKŁAD 4 Dla danych z przykładu 1 szacowanie parametrów funkcji regresji przebiega następująco:
x = 18 y^ =^3146
s (^) x = C( X, Y) = 12 , 36
( )
2
b = y −ax = 3 − 0 , 085 × 18 = 1 , 47
Funkcja regresji w przykładzie 1 ma więc postać:
ˆ (^) = 0 , 085 ⋅ + 1 , 47
y x
współczynnik regresji (a=0,085 > 0) - jeŜeli liczba dni nauki wzrośnie o jednostkę (o 1 dzień), to ocena z egzaminu wzrośnie o 0,085 (inaczej: kaŜdy dzień nauki podnosi średnio ocenę o 0,085) wyraz wolny (b=1,47) - stały, niezaleŜny od liczby dni nauki (x=0) poziom uzyskanej oceny z egzaminu to 1,47 (poniŜej niedostatecznej)
Otrzymaną funkcję regresji, wykreśloną na korelogramie pokazano na rysunku:
Wykorzystanie funkcji regresji do prognozowania
Słuchacz o numerze 8 (przypomnijmy, Ŝe badanie przeprowadzono dla n= studentów) poświęcił na naukę 20 dni (x 8 =20). Jakiej oceny moŜe spodziewać się (średnio) przy takim nakładzie czasu na naukę?
yˆ 8 = 0 , 085 ⋅x 8 + 1 , 47 = 0 , 085 × 20 + 1 , 47 = 3 , 17
Poświęcając 20 dni na naukę słuchacz moŜe spodziewać się (średnio !!!) oceny 3,17 czyli „dst+”.
y = 0,085x + 1, R^2 = 0,
0,
1,
2,
3,
4,
5,
6,
0 5 10 15 20 25 30 35 40 45 dni nauki (X )
ocena (
Y^
)
( )
n k
y y
S S
n
i
i i
e e −
−
= =
∑ = 1
2
2
ˆ
gdzie:
k – liczba szacowanych parametrów funkcji regresji
(tutaj k=2; szacujemy dwa parametry: a i b )
2 ).
Nazwa bierze się od reszty (ei), którą definiuje się jako:
róŜnicę pomiędzy wartością empiryczną, a wartością teoretyczną
cechy zaleŜnej Y:
ei yi y i = − ˆ
PRZYKŁAD 5
Ocena dopasowania funkcji regresji dla danych z przykładu 1.
yˆ^ i = 0 , 085 ⋅xi + 1 , 47 y = 3
(1) (2) (3) (4) (5) (6) (7) (8) i yi xi yˆi^ (^ yi −^ y) (^ yi^ −^ yˆi) ( )
2 yi − y ( )
2 yi − y^ ˆi 1 2,0 5 1,90 -1,0 0,10 1,00 0, 2 2,5 13 2,58 -0,5 -0,08 0,25 0, 3 2,5 16 2,83 -0,5 -0,33 0,25 0, 4 4,0 28 3,85 1,0 0,15 1,00 0, 5 5,0 42 5,04 2,0 -0,04 4,00 0, 6 3,0 16 2,83 0,0 0,17 0,00 0, 7 2,0 6 1,98 -1,0 0,02 1,00 0, razem x x x x x 7,50 0,
Współczynnik zbieŜności
( )
( )
0 , 024 7 , 5
0 , 1787
ˆ
1
2
1
2
2 = =
−
−
=
∑
∑
=
= n
i
i
n
i
i i
y y
y y
ϕ
Współczynnik determinacji
1 1 0 , 024 0 , 976
2 2 R = − ϕ = − =
lub wg innego wzoru
( 0 , 993 ) 0 , 986
2 2 2 R = rxy = =
Uwaga! RóŜnice w wartości współczynnika determinacji wynikają z błędów zaokrągleń na etapie liczenia współczynników: zbieŜności i korelacji
Średni błąd szacunku
( )
0 , 189 7 2
0 , 1787
ˆ 1
2
= −
= −
−
=
n k
y y
S
n
i
i i
e
W celu wyrobienia sobie poglądu nt. wielkości tego błędu odniesiemy go
100 % 6 , 3 % 3
0 , 189 × 100 % = × = y
Se
Uwaga! Nie moŜna uŜyć znanego współczynnika zmienności (Vx) poniewaŜ średnia wartość reszt jest teoretycznie równa 0. Wystąpiłoby zatem dzielenie przez zero.
PODSUMOWANIE (przykład 5) Wszystkie policzone miary dopasowania potwierdzają bardzo dobre dopasowanie funkcji regresji do danych empirycznych.