Docsity
Docsity

Przygotuj się do egzaminów
Przygotuj się do egzaminów

Studiuj dzięki licznym zasobom udostępnionym na Docsity


Otrzymaj punkty, aby pobrać
Otrzymaj punkty, aby pobrać

Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium


Informacje i wskazówki
Informacje i wskazówki

Analiza ZALEśNOŚCI pomiędzy CECHAMI, Streszczenia z Analiza regresji

korelacyjny wykres rozrzutu (korelogram). • rodzaje zaleŜności (brak, nieliniowa, liniowa). • pomiar siły zaleŜności liniowej (współczynnik korelacji.

Typologia: Streszczenia

2022/2023

Załadowany 24.02.2023

Kowal_86
Kowal_86 🇵🇱

3.7

(3)

109 dokumenty

1 / 21

Toggle sidebar

Ta strona nie jest widoczna w podglądzie

Nie przegap ważnych części!

bg1
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10
[1]
Analiza ZALEśNOŚCI pomiędzy CECHAMI
(Analiza KORELACJI i REGRESJI)
korelacyjny wykres rozrzutu (korelogram)
rodzaje zaleŜności (brak, nieliniowa, liniowa)
pomiar siły zaleŜności liniowej (współczynnik korelacji
Pearsona, współczynnik korelacji rang Spearmana)
liniowa funkcja regresji
Badamy jednostki statystyczne pod kątem dwóch róŜnych
cech - cechy X oraz cechy Y.
Pytanie jakie sobie stawiamy to:
czy istnieje zaleŜność pomiędzy cechą X i cechą Y ?
JeŜeli taka zaleŜność istnieje, to poszukujemy odpowiedzi na
kolejne pytania:
jaki jest charakter tej zaleŜności oraz
jaka jest jej siła ?
ZaleŜność korelacyjna pomiędzy cechami X i Y
charakteryzuje się tym, Ŝe wartościom jednej cechy
są przyporządkowane ściśle określone wartości
średnie drugiej cechy.
Informacja statystyczna niezbędna do zbadania zaleŜności
pomiędzy cechami X i Y przyjmuje najczęściej 2 formy:
szereg(i) szczegółowy
par informacji o cechach X
oraz Y; ma on postać ciągu par
{ (x
i
, y
i
) }
,
szereg rozdzielczy w postaci tzw.
tablicy
korelacyjnej
.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15

Podgląd częściowego tekstu

Pobierz Analiza ZALEśNOŚCI pomiędzy CECHAMI i więcej Streszczenia w PDF z Analiza regresji tylko na Docsity!

Analiza ZALEśNOŚCI pomiędzy CECHAMI

(Analiza KORELACJI i REGRESJI)

  • korelacyjny wykres rozrzutu (korelogram)
  • rodzaje zaleŜności (brak, nieliniowa, liniowa)
  • pomiar siły zaleŜności liniowej (współczynnik korelacji

Pearsona, współczynnik korelacji rang Spearmana)

  • liniowa funkcja regresji

Badamy jednostki statystyczne pod kątem dwóch róŜnych

cech - cechy X oraz cechy Y.

Pytanie jakie sobie stawiamy to:

czy istnieje zaleŜność pomiędzy cechą X i cechą Y?

JeŜeli taka zaleŜność istnieje, to poszukujemy odpowiedzi na

kolejne pytania:

  • jaki jest charakter tej zaleŜności oraz
  • jaka jest jej siła?

ZaleŜność korelacyjna pomiędzy cechami X i Y

charakteryzuje się tym, Ŝe wartościom jednej cechy

są przyporządkowane ściśle określone wartości

średnie drugiej cechy.

Informacja statystyczna niezbędna do zbadania zaleŜności

pomiędzy cechami X i Y przyjmuje najczęściej 2 formy:

  • szereg(i) szczegółowy par informacji o cechach X

oraz Y; ma on postać ciągu par { (xi , yi) } ,

  • szereg rozdzielczy w postaci tzw. tablicy

korelacyjnej.

Korelacyjny wykres rozrzutu

KORELOGRAM

JeŜeli obie cechy X i Y są mierzalne, to analizę zaleŜności

rozpoczynamy od sporządzenia korelogrmamu.

Korelogram jest to wykres punktowy par { (xi , yi) }.

(Excel nazywa taki wykres: „wykresem XY”).

W kartezjańskim układzie współrzędnych x0y pary te odpowiadają

punktom o współrzędnych

( ) ( ) ( ) n n x , y , x , y , , x , y 1 1 2 2 L

PRZYKŁADY korelogramów (kaŜdy punkt oznaczono x)

(a) (b)

(c) (d)

Pomiar KIERUNKU i SIŁY zaleŜności liniowej

Szeregi szczegółowe

WSPÓŁCZYNNIK KORELACJI (Pearsona)

Współczynnik korelacji (Pearsona) rxy obliczamy dla cech

ilościowych wg następującego wzoru:

( )

x y

xy s s

C X Y r

,

gdzie:

C(X,Y) – kowariancja pomiędzy cechami X i Y

sx (sy) – odchylenie standardowe cechy X (cechy Y)

Kowariancja jest kluczowym parametrem rozkładu dwóch cech w

badaniu zaleŜności cech ilościowych X i Y. Wylicza się ją wg

następującego wzoru (dla szeregu(ów) szczegółowego):

( ) (^) ∑( )( )

= − −

n
i

xi x yi y n

C X Y

1 ,

Współczynnik korelacji (Pearsona) rxy spełnia zawsze warunek:

− 1 ≤ rxy ≤ 1

Współczynnik korelacji (Pearsona) jest miarą symetryczną, tzn.

rxy = r yx

INTERPRETACJA współczynnika korelacji rxy

Znak współczynnika rxy mówi nam o kierunku zaleŜności. I tak:

  • znak plus – zaleŜność liniowa dodatnia, tzn. wraz ze wzrostem

wartości jednej cechy rosną średnie wartości drugiej z cech,

  • znak minus – zaleŜność liniowa ujemna, tzn. wraz ze wzrostem

wartości jednej cechy maleją średnie wartości drugiej z cech.

Wartość bezwzględna współczynnika korelacji, czyli |rxy|,

mówi nam o sile zaleŜności. JeŜeli wartość bezwzględna |rxy|:

  • jest mniejsza od 0,2, to praktycznie brak związku liniowego

pomiędzy badanymi cechami,

  • 0,2 – 0,4 - zaleŜność liniowa wyraźna, lecz niska,
  • 0,4 – 0,7 - zaleŜność liniowa umiarkowana,
  • 0,7 – 0,9 - zaleŜność liniowa znacząca,
  • powyŜej 0,9 - zaleŜność liniowa bardzo silna.

PRZYKŁAD 1 W grupie 7 studentów badano zaleŜność pomiędzy oceną z egzaminu ze statystyki (Y), a liczbą dni poświęconych na naukę (X).

nr

studenta

ocena

z egzaminu

(Y)

liczba dni

nauki

(X)

i yi xi

146 7

2 1022 sx = = 1 , 07

2 7 ,^5

sy = =

sx = 146 = 12 , 08 sy =^1 ,^07 =^1 ,^03

( ) 12 , 36

C X, Y = =

Współczynnik korelacji (Pearsona) wynosi dla danych z przykładu 1:

( ) 0 , 993 12 , 08 1 , 03

, 12 , 36 = + ×

= =

x y

xy s s

C X Y r

INTERPRETACJA

W badanej grupie studentów wystąpiła bardzo silna dodatnia

(znak plus) zaleŜność liniowa pomiędzy czasem nauki

(cecha X), a uzyskaną oceną z egzaminu (cecha Y). Oznacza to, Ŝe wraz ze wzrostem czasu poświęconego na naukę rosła w tej grupie uzyskiwana ocena.

WSPÓŁCZYNNIK KORELACJI RANG

(Spearmana)

Współczynnik korelacji rang (Spearmana) rS uŜywamy w

przypadku gdy:

1. choć jedna z badanych cech jest cechą jakościową

(niemierzalną), ale istnieje moŜliwość uporządkowania

(ponumerowania) wariantów kaŜdej z cech;

2. cechy mają charakter ilościowy (mierzalny), ale liczebność

zbiorowości jest mała (n<30).

Numery jakie nadajemy wariantom cech noszą nazwę rang.

UWAGA! W procesie nadawania rang stymulanty porządkujemy

malejąco, a destymulanty rosnąco.

UWAGA! W procesie nadawania rang moŜe zdarzyć się więcej niŜ

1 jednostka o takiej samej wartości cechy (np. k jednostek).

Wówczas naleŜy na chwilę nadać tym jednostkom kolejne rangi.

Następnie naleŜy zsumować takie rangi i podzielić przez k

(otrzymamy w ten sposób średnią rangę dla tej grupy k jednostek).

W ostateczności kaŜda jednostka z tych k jednostek otrzyma

identyczną rangę (średnią dla danej grupy k jednostek).

Współczynnik korelacji rang (Spearmana) rS wyznaczamy

wg następującego wzoru:

2

1

2

×

=

n n

d

r

n

i

i

S

di – róŜnica pomiędzy rangami dla cechy X i cechy Y

Pomiar KIERUNKU i SIŁY zaleŜności liniowej

Szeregi rozdzielcze

TABLICA KORELACYJNA

Schemat tablicy korelacyjnej

Warianty cechy Y (yj)

Warianty cechy X (xi) (^) y 1 y 1 ………… ys

(razem) ni••••

x 1 n 11 n 12 ………… n1s n 1 • ••• x 2 n 21 n 22 ………… n2s n 2 • ••• ∂ (^) ………… ………… ………… ………… ………… xr nr1 nr2 ………… nrs nr • ••• (razem) n••••j

n•••• 1 n•••• 2 ………… n••••s n

Oznaczenia:

nij - liczba jednostek, która charakteryzuje się wartością xi cechy X oraz

wartością yj cechy Y

ni•••• - liczba jednostek, która charakteryzuje się wartością xi cechy X

  • =

s

j

ni nij

1

n••••j - liczba jednostek, która charakteryzuje się wartością yj cechy Y

  • =

r

i

n j nij

1

n - liczebność populacji

∑∑ ∑ ∑

=

= =

s

j

j

r

i

i

r

i

s

j

n nij n n

1 1 1 1

PRZYKŁAD 3 Podobnie jak w przykładzie 1 zbadamy zaleŜność pomiędzy czasem nauki (X), a uzyskaną oceną (Y). W tablicy korelacyjnej zestawiono informację o 400 studentach (n=400). Ocena Czas nauki (X) w dniach (Y) 0 - 7 7 - 14 14 - 21 21 - 28

ni••••

(^2 80 ) (^3 10 80 ) 3,5 (^60 10 ) (^4 20 30 ) 4,5 (^50 10 ) (^5 50 )

n••••j 90 160 90 60 400

Obliczamy osobno dla kaŜdej z cech: średnie, wariancje i

odchylenia standardowe.

Ocena^ Czas nauki (X) (Y) 0 - 7 7 - 14 14 - 21 21 - 28

(a) ni•••• i^ i•

y n

(b) yi − y

(c) (b)*(b)

(d) (c)*(a)

n••••j 90 160 90 60 400 1395 x x 387,

x&^ j 3,5 10,5 17,5 24,5 x x x x x

x & (^) j n• j 315 1680 1575 1470 5040 x x x x

x&^ j − x -9,1 -2,1 4,9 11,9 x x x x x

( x&^ j − x)^2 82,81 4,41 24,01 141,61 x x x x x

( x^ &^ j − x) 2 n•j 7452,9 705,6 2160,9 8496,6 18816 x x x x

i policzymy wszystkie iloczyny ( (^) x& (^) j −x)( (^) yi −y)n (^) ij

x&j − x

yi − y -9,1 -2,1 4,9 11,

razem

razem (^) 1137,5 63 318,5 1011,5 (^) 2530,

Zatem kowariancja wynosi:

( ) 6 , 33

C X, Y = =

Współczynnik korelacji (Pearsona) wynosi dla danych

z przykładu 3:

( ) 0 , 942 6 , 86 0 , 98

, 6 , 33 = + ×

= =

x y

xy s s

C X Y r

INTERPRETACJA

W badanej grupie 400 studentów wystąpiła bardzo silna

dodatnia (znak plus) zaleŜność liniowa pomiędzy czasem

nauki (cecha X), a uzyskaną oceną z egzaminu (cecha Y).

Inne miary zaleŜności

wyliczalne na podstawie tablicy korelacyjnej

Obok współczynnika korelacji Persona stosowane są inne miary zaleŜności pomiędzy cechą Y i cechą X. Są to:

  • Stosunek korelacji (eyx)
  • Miary oparte na chi-kwadrat (χχχχ

2 )

Stosunek korelacji

  • Miara ta jest oparta na spostrzeŜeniu, Ŝe przy braku zaleŜności średnie poziomy cechy Y wewnątrz grup (klas) pokrywają się ze średnią ogólną cechy Y.
  • Miara ta spełnia warunki

0 < eyx < 1

ryx ≤ e yx

  • Warunkiem policzenia stosunku korelacji jest mierzalność cechy Y.
  • Jest to miara zalecana w przypadku badania zaleŜności dla związków nieliniowych.

Miary oparte na chi-kwadrat

  • Miary te oparte są na badaniu róŜnic pomiędzy liczebnościami empirycznymi a liczebnościami teoretycznymi, które wyliczane są przy załoŜeniu niezaleŜności cechy Y i cechy X.
  • Do tej grupy naleŜą współczynniki (por. wykład 10): C – Persona Q – Yule’a T – Czuprowa
  • V - Cramera

ZauwaŜmy, Ŝe liniowa funkcja trendu (omówiona w wykładzie 6)

yˆt =at+ b

moŜe być równieŜ traktowana jako liniowa funkcja regresji prostej. Zmienna zaleŜna Y opisuje tam poziom badanego zjawiska Y. Zmienną niezaleŜną X jest tam czas (zmienna czasowa t).

W efekcie podstawiając x zamiast t oraz zmieniając wskaźnik t

na wskaźnik i otrzymamy funkcję regresji

yˆi =axi + b

W nowym układzie funkcja trendu moŜe być traktowana jako funkcja regresji Y względem czasu t.

Szacowanie parametrów a i b funkcji regresji

( )

2

,

s x

C X Y a =

b = y −a x

PRZYKŁAD 4 Dla danych z przykładu 1 szacowanie parametrów funkcji regresji przebiega następująco:

x = 18 y^ =^3146

s (^) x = C( X, Y) = 12 , 36

( )

2

s x

C X Y

a

b = y −ax = 3 − 0 , 085 × 18 = 1 , 47

Funkcja regresji w przykładzie 1 ma więc postać:

ˆ (^) = 0 , 085 ⋅ + 1 , 47

i i

y x

INTERPRETACJA:

współczynnik regresji (a=0,085 > 0) - jeŜeli liczba dni nauki wzrośnie o jednostkę (o 1 dzień), to ocena z egzaminu wzrośnie o 0,085 (inaczej: kaŜdy dzień nauki podnosi średnio ocenę o 0,085) wyraz wolny (b=1,47) - stały, niezaleŜny od liczby dni nauki (x=0) poziom uzyskanej oceny z egzaminu to 1,47 (poniŜej niedostatecznej)

Otrzymaną funkcję regresji, wykreśloną na korelogramie pokazano na rysunku:

Wykorzystanie funkcji regresji do prognozowania

Słuchacz o numerze 8 (przypomnijmy, Ŝe badanie przeprowadzono dla n= studentów) poświęcił na naukę 20 dni (x 8 =20). Jakiej oceny moŜe spodziewać się (średnio) przy takim nakładzie czasu na naukę?

yˆ 8 = 0 , 085 ⋅x 8 + 1 , 47 = 0 , 085 × 20 + 1 , 47 = 3 , 17

Poświęcając 20 dni na naukę słuchacz moŜe spodziewać się (średnio !!!) oceny 3,17 czyli „dst+”.

y = 0,085x + 1, R^2 = 0,

0,

1,

2,

3,

4,

5,

6,

0 5 10 15 20 25 30 35 40 45 dni nauki (X )

ocena (

Y^

)

Średni błąd szacunku (Se):

( )

n k

y y

S S

n

i

i i

e e −

= =

∑ = 1

2

2

ˆ

gdzie:

k – liczba szacowanych parametrów funkcji regresji

(tutaj k=2; szacujemy dwa parametry: a i b )

Jest to pierwiastek z wariancji resztowej (Se

2 ).

Nazwa bierze się od reszty (ei), którą definiuje się jako:

róŜnicę pomiędzy wartością empiryczną, a wartością teoretyczną

cechy zaleŜnej Y:

ei yi y i = − ˆ

PRZYKŁAD 5

Ocena dopasowania funkcji regresji dla danych z przykładu 1.

yˆ^ i = 0 , 085 ⋅xi + 1 , 47 y = 3

(1) (2) (3) (4) (5) (6) (7) (8) i yi xi yˆi^ (^ yi −^ y) (^ yi^ −^ yˆi) ( )

2 yi − y ( )

2 yi − y^ ˆi 1 2,0 5 1,90 -1,0 0,10 1,00 0, 2 2,5 13 2,58 -0,5 -0,08 0,25 0, 3 2,5 16 2,83 -0,5 -0,33 0,25 0, 4 4,0 28 3,85 1,0 0,15 1,00 0, 5 5,0 42 5,04 2,0 -0,04 4,00 0, 6 3,0 16 2,83 0,0 0,17 0,00 0, 7 2,0 6 1,98 -1,0 0,02 1,00 0, razem x x x x x 7,50 0,

Współczynnik zbieŜności

( )

( )

0 , 024 7 , 5

0 , 1787

ˆ

1

2

1

2

2 = =

=

=

= n

i

i

n

i

i i

y y

y y

ϕ

Współczynnik determinacji

1 1 0 , 024 0 , 976

2 2 R = − ϕ = − =

lub wg innego wzoru

( 0 , 993 ) 0 , 986

2 2 2 R = rxy = =

Uwaga! RóŜnice w wartości współczynnika determinacji wynikają z błędów zaokrągleń na etapie liczenia współczynników: zbieŜności i korelacji

Średni błąd szacunku

( )

0 , 189 7 2

0 , 1787

ˆ 1

2

= −

= −

=

n k

y y

S

n

i

i i

e

W celu wyrobienia sobie poglądu nt. wielkości tego błędu odniesiemy go

średniego poziomu cechy Y:

100 % 6 , 3 % 3

0 , 189 × 100 % = × = y

Se

Uwaga! Nie moŜna uŜyć znanego współczynnika zmienności (Vx) poniewaŜ średnia wartość reszt jest teoretycznie równa 0. Wystąpiłoby zatem dzielenie przez zero.

PODSUMOWANIE (przykład 5) Wszystkie policzone miary dopasowania potwierdzają bardzo dobre dopasowanie funkcji regresji do danych empirycznych.