Docsity
Docsity

Przygotuj się do egzaminów
Przygotuj się do egzaminów

Studiuj dzięki licznym zasobom udostępnionym na Docsity


Otrzymaj punkty, aby pobrać
Otrzymaj punkty, aby pobrać

Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium


Informacje i wskazówki
Informacje i wskazówki

Analiza Regresji Liniowej: Wprowadzenie i Przykładowe Zastosowanie, Ćwiczenia z Analiza regresji

ANALIZA REGRESJI. Na poprzednich ćwiczeniach omówiliśmy współczynnik korelacji liniowej Pearsona mierzący siłę i kierunek liniowego związku między dwiema ...

Typologia: Ćwiczenia

2022/2023

Załadowany 24.02.2023

mellow_99
mellow_99 🇵🇱

4.3

(26)

170 dokumenty

1 / 4

Toggle sidebar

Ta strona nie jest widoczna w podglądzie

Nie przegap ważnych części!

bg1
ANALIZA REGRESJI
Na poprzednich ćwiczeniach omówiliśmy współczynnik korelacji liniowej Pearsona mierzący
siłę i kierunek liniowego związku między dwiema zmiennymi losowymi. Na obecnych
ćwiczeniach poświęconych regresji liniowej zajmiemy się modelowaniem związku między:
zmienną zależną, oznaczaną przez Y i zmienną niezależną, oznaczaną przez X. Model, który
tu będziemy opisywać zakłada, że między X i Y zachodzi liniowy związek. Model regresji
liniowej opisujący zależność zmiennej Y od X przyjmuje w takiej sytuacji postaci:
Y = β0 + β1X + ε
gdzie odpowiednio:
β0, β1 - parametry liniowej funkcji regresji
ε - składnik losowy
Wyraz wolny β0 jest punktem przecięcia linii prostej z osią rzędnych(oś Y), a β1 jest
współczynnikiem kierunkowym, czyli miarą nachylenia linii β0 + β1x (względem osi
odciętych). Składnik losowy reprezentuje losowe zakłócenia funkcyjnego powiązania między
wartościami zmiennej zależnej a wartościami zmiennej niezależnej. Składnik ten wyraża
wpływ wszystkich czynników, które obok X wpływać mogą na zmienną objaśnianą Y, oraz
związany jest z brakiem pełnego dopasowania analitycznej postaci funkcji regresji do
rzeczywistego powiązania między analizowanymi zmiennymi. Składnik ten jest losową
zmienną, która pozwala na obliczenie dokładności szacunku parametrów liniowej funkcji
regresji. Musimy pamiętać, że w rzeczywistości nie są znane parametry β0, β1. Możemy je
jedynie oszacować na podstawie n-elementowej próby składającej się z par obserwacji (xi, yi)
dla i = 1, 2,..., n. Oszacowana funkcja regresji przyjmuje wówczas następującą postać:
yi = b0 + b1xi i
gdzie odpowiednio:
b0 i b1 oceny parametrów β0, β1.
ei - tzw. reszty (zmienna losowa) definiowane jako 𝑒𝑖= 𝑦𝑖 𝑦𝑖, czyli różnica między
wartością obserwowaną yi a teoretyczną wyliczoną z modelu 𝑦𝑖.
Jak jednak znaleźć taką „dobrze dopasowaną” linię prostą? Punktem wyjścia reszty, a
właściwie suma kwadratów reszt opisująca rozbieżność pomiędzy wartościami empirycznymi
zmiennej zależnej a jej wartościami teoretycznymi, obliczonymi na podstawie wybranej
funkcji. Oszacowania b0 i b1 dobieramy tak, aby suma kwadratów reszt osiągnęła minimum.
Ta najbardziej znana i stosowana metoda szacowania parametrów linii regresji nosi nazwę
metody najmniejszych kwadratów (MNK). Nie musimy się martwić o skomplikowane
obliczenia występujące w tej metodzie, bowiem wszystkie pakiety statystyczne oblicza
oceny współczynników regresji. Tutaj tradycyjnie pokażemy, jak korzystać z pakietu
STATISTICA, aby uzysk pełne rozwiązanie problemu regresji. Pakiet ten dysponuje
modułem do przeprowadzenia bardziej ciekawych i złożonych analiz. Jest to moduł Regresja
Wielokrotna. Przy pomocy tego modułu możemy przeprowadzić obliczenia związane z
liniową regresją wielokrotną, regresją krokową lub przeprowadzić analizę modeli
nieliniowych, które poprzez transformację sprowadzamy do postaci liniowej.
Rozważmy badanie, w którym analizowano powiazanie między obwodem serca a masą ciała
dla 15 krów. Jesteśmy zainteresowani równaniem regresji opisującej zależność masy ciała
i obwodu serca. Fragment omawianych danych przedstawia poniższa tabelka.
pf3
pf4

Podgląd częściowego tekstu

Pobierz Analiza Regresji Liniowej: Wprowadzenie i Przykładowe Zastosowanie i więcej Ćwiczenia w PDF z Analiza regresji tylko na Docsity!

ANALIZA REGRESJI

Na poprzednich ćwiczeniach omówiliśmy współczynnik korelacji liniowej Pearsona mierzący siłę i kierunek liniowego związku między dwiema zmiennymi losowymi. Na obecnych ćwiczeniach poświęconych regresji liniowej zajmiemy się modelowaniem związku między: zmienną zależną, oznaczaną przez Y i zmienną niezależną, oznaczaną przez X. Model, który tu będziemy opisywać zakłada, że między X i Y zachodzi liniowy związek. Model regresji liniowej opisujący zależność zmiennej Y od X przyjmuje w takiej sytuacji postaci:

Y = β 0 + β 1 X + ε

gdzie odpowiednio:

β 0 , β 1 - parametry liniowej funkcji regresji

ε - składnik losowy

Wyraz wolny β 0 jest punktem przecięcia linii prostej z osią rzędnych(oś Y), a β 1 jest współczynnikiem kierunkowym, czyli miarą nachylenia linii β 0 + β 1 x (względem osi odciętych). Składnik losowy reprezentuje losowe zakłócenia funkcyjnego powiązania między wartościami zmiennej zależnej a wartościami zmiennej niezależnej. Składnik ten wyraża wpływ wszystkich czynników, które obok X wpływać mogą na zmienną objaśnianą Y, oraz związany jest z brakiem pełnego dopasowania analitycznej postaci funkcji regresji do rzeczywistego powiązania między analizowanymi zmiennymi. Składnik ten jest losową zmienną, która pozwala na obliczenie dokładności szacunku parametrów liniowej funkcji regresji. Musimy pamiętać, że w rzeczywistości nie są znane parametry β 0 , β 1. Możemy je jedynie oszacować na podstawie n-elementowej próby składającej się z par obserwacji (xi, yi) dla i = 1, 2,..., n. Oszacowana funkcja regresji przyjmuje wówczas następującą postać:

yi = b 0 + b 1 xi +ε (^) i

gdzie odpowiednio:

b 0 i b 1 – oceny parametrów β 0 , β 1.

ei - tzw. reszty (zmienna losowa) definiowane jako 𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖 , czyli różnica między wartością obserwowaną yi a teoretyczną wyliczoną z modelu 𝑦̂𝑖.

Jak jednak znaleźć taką „dobrze dopasowaną” linię prostą? Punktem wyjścia są reszty, a właściwie suma kwadratów reszt opisująca rozbieżność pomiędzy wartościami empirycznymi zmiennej zależnej a jej wartościami teoretycznymi, obliczonymi na podstawie wybranej funkcji. Oszacowania b 0 i b 1 dobieramy tak, aby suma kwadratów reszt osiągnęła minimum. Ta najbardziej znana i stosowana metoda szacowania parametrów linii regresji nosi nazwę metody najmniejszych kwadratów (MNK). Nie musimy się martwić o skomplikowane obliczenia występujące w tej metodzie, bowiem wszystkie pakiety statystyczne obliczają oceny współczynników regresji. Tutaj tradycyjnie pokażemy, jak korzystać z pakietu STATISTICA , aby uzyskać pełne rozwiązanie problemu regresji. Pakiet ten dysponuje modułem do przeprowadzenia bardziej ciekawych i złożonych analiz. Jest to moduł Regresja Wielokrotna. Przy pomocy tego modułu możemy przeprowadzić obliczenia związane z liniową regresją wielokrotną, regresją krokową lub przeprowadzić analizę modeli nieliniowych, które poprzez transformację sprowadzamy do postaci liniowej.

Rozważmy badanie, w którym analizowano powiazanie między obwodem serca a masą ciała dla 15 krów. Jesteśmy zainteresowani równaniem regresji opisującej zależność masy ciała i obwodu serca. Fragment omawianych danych przedstawia poniższa tabelka.

Masa 641 620 633 651 640 666 650 688 680 670 630 665 Obwód 205 212 213 216 217 218 219 221 226 207 222 212

Nas interesują współczynniki modelu Obwód = b 1 ⋅Waga + b 0 wyznaczone metodą najmniejszych kwadratów. Dla naszych przykładowych danych otrzymamy następujące arkusze wyników:

[1] [2] [3] [4] [5] [6] [7]

Rys 1. Arkusz wyników.

Arkusze te pokazują sumaryczne wyniki analizy regresji oraz dodatkowe statystyki. Współczynniki regresji to kolumna oznaczona przez [4]. Pierwszy wiersz to wartość stała b 0 , a drugi to współczynnik b 1. Tak więc poszukiwany model ma postać:

Obwód = 0,23335⋅Waga + 63,

Jak wiemy w praktyce nie dysponujemy pełną informacją o populacji generalnej. To co mamy, to funkcja regresji wyliczona metodą najmniejszych kwadratów w oparciu o dane z losowej próby. Wiąże się z tym problem oceny rozbieżności między wartościami zmiennej zależnej yi a wartościami y ˆ i wyliczonymi z modelu. Różnice ei = yi − 𝑦̂𝑖 opisujące tą

rozbieżność jak wiemy noszą nazwę reszt. Im reszty będą mniejsze, tym wartości empirycznej yi będą bliższe wartości y ˆ i przewidywanej przez model. To podpowiada, aby jako miarę

omawianej rozbieżności potraktować odchylenie standardowe reszt ei W statystyce bowiem precyzję estymatora mierzy jego wariancja. I tak jest w istocie, wielkość ta zwana błędem standardowym estymacji i oznaczana jako Se informuje o przeciętnej wielkości odchyleń wartości obserwowanych zmiennej zależnej od wartości wyliczonych z modelu (teoretycznych). Odchylenie standardowe reszt mówi nam o stopniu „dopasowania” modelu do danych empirycznych. Im Se mniejsze tym lepiej dopasowany model. Wartość ta dla naszego modelu jest równa Se = 4,0362. Oznacza to, że przewidywane wartości zmiennej Obwód różnią się od wartości obserwowanych średnio biorąc o 4,0362.

Możemy więc napisać: Obwód = 0,23335⋅Waga + 63,38385 ± 4,

Wyliczone współczynniki regresji b 0 i b 1 są, jak wiemy, oszacowaniami współczynników regresji dla całej populacji. Nasuwa się więc pytanie, jakim błędem są one obarczone. Odpowiedzi na nie udziela średni błąd szacunku parametru. Jest on oszacowaniem średniej rozbieżności między parametrami modelu a jego możliwymi ocenami. Wartości te są podane w kolumnie oznaczonej przez [5].mamy zatem:

 oceny parametru b 0 odchylają się od tego parametru o Sb0 = 32,

 oceny parametru b 1 odchylają się od tego parametru o Sb1 = 0,05037.

Rozszerzeniem regresji liniowej jest regresja wieloraka postaci:

Y = β 0 + β 1 X 1 +  2 X 2 + + kXk + ε

gdzie odpowiednio:

β 0 , β 1 …k - parametry liniowej funkcji regresji szacowane metoda najmniejszych kwadratów,

ε - składnik losowy.

Jeżeli dodatkowo w naszym przykładzie rozważymy wiek krowy mamy równanie postaci

Obwód = 0, 183 ⋅Waga + 2,14Wiek +58,