Regresja liniowa

Regresja liniowa z jednym predyktorem

Istotą analizy regresji jest znalezienie funkcji opisującej związek cech statystycznych. Funkcja regresji jest matematycznym przybliżeniem przyporządkowania wartości jednej cechy (lub wielu cech) – predyktorów (zmiennych niezależnych)  - wartościom innej cechy – zmiennej wyjaśnianej  (zależnej). Funkcja regresji y względem x opisuje zależność cechy statystycznej y (zmienna wyjaśniana) od cechy staystycznej x (zmienna wyjaśniająca).  Zależność ta dana jest równaniem:

Współczynniki regresji dane są wzorami:

Jeśli  a> 0 to wzrost wartości zmiennej niezależnej x o jednostkę powoduje wzrost wartości zmiennej zależnej y przeciętnie o a

Jeśli  a<0  to to wzrost wartości zmiennej niezależnej x o jednostkę powoduje spadek wartości zmiennej zależnej y przeciętnie o a

b wyraz wolny określa teoretyczną wartość zmiennej zależnej y, gdy x wynosi 0, na wykresie liniowej funkcji regresji jest to punkt przecięcia z osią y.

Wykres 1. Graficzne przedstawienie modelu regresji liniowej. Obliczenia wykonano w MS Excel.

Poziom dopasowania linii regresji jest sprawdzany za pomocą analizy wariancji. Analiza wariancji testuje założenie, że średnia arytmetyczna dla zmiennej zależnej y tak samo dobrze pozwala przewidywać poziom zmiennej y względem x jak przybliżenie za pomocą metody najmniejszych kwadratów. Istotny statystycznie wynik analizy wariancji pokazuje, że przewidywanie na podstawie modelu regresji jest lepsze, niż na podstawie samej średniej.

Wartość  wskazuje jaki procent wariancji zmiennej zależnej jest wyjaśniany przez predyktor. W przypadku podanym na wykresie 75,97% wariancji zmiennej zależnej wyjaśnia predyktor.

Metoda najmniejszych kwadratów

Najczęściej stosowaną metodą przybliżania równań regresji jest metoda najmniejszych kwadratów. Metoda najmniejszych kwadratów polega na poszukiwaniu minimum  dla sumy kwadratów różnicy między wartościami estymowanymi na podstawie równania a wartościami empirycznymi.

Założenia modelu regresji metodą najmniejszych kwadratów:

  1. Zmienne mierzone są na skali ilościowej
  2. Normalność rozkładów zmiennych
  3. Normalność rozkładów reszt
  4. Brak autokorelacji między resztami
  5. Homoksedastyczność (homoscedastyczność) rozkładów reszt
  6. Poszczególne predyktory muszą być od siebie niezależne
  7. Liczba predyktorów musi być większa od liczby obserwacji

Odnośnie pkt. 1 (zmienne mierzone na skali ilościowej) należy dodać, że jest możliwość wprowadzenia do regresji zmiennych binarnych pod warunkiem zakodowania ich na skali 0-1.

Odnośnie pkt. 5 Homoskedastyczność występuje gdy wariancja reszt jest równomiernie rozłożona, tj nie różni sią dla poszczególnych obserwacji. Heteroscedastyczność występuje np. gdy wariancja reszt jest wysoka dla wyników niskich i niska dla wysokich.

Bibliografia: 

Bedyńska, S., Książek, M. (2012). Statystyczny drogowskaz 3. Praktyczny przewodnik wykorzystania modeli regresji oraz równań strukturalnych. Warszawa: Wyd. Akademickie "Sedno" Sp. z o.o. 

Maksimowicz - Ajchel, A., (2007). Wstęp do statystyki. Metody opisu statystycznego. Warszawa: Wyd. Uniwersytetu Warszawskiego