Regresja logistyczna

Regresja logistyczna

Regresja logistyczna pozwala na oszacowania prawdopodobieństwa wystąpienia jakiegoś zdarzenia w zależności od zestawu predyktorów, wartość prawdopodobieństwa zawiera się w zakresie 0-1.   Regresja logistyczna jest wolna od większości założeń, które muszą spełniać ogólne modele liniowe i regresja linowa metodą najmniejszych kwadratów, takich jak:

  • Liniowość związków między zmienną zależną a predyktorami
  • Normalność rozkładów predyktorów
  • Normalność rozkładów reszt
  • Równoliczność grup zmiennych nominalnych
  • Ilościowy poziom pomiaru predyktorów

Założenia regresji logistycznej, które muszą być spełnione:

  1. Minimalna liczebność próby większa niż 10 * (k+1) k- liczba zmiennych niezależnych
  2. Predyktory nie powinny być ze sobą zbyt silnie skorelowane, czyli należy ograniczyć współliniowość predyktorów.
  3. Zmienna zależna jest binarna

Kodując dane należy pamiętać aby kategoria niediagnostyczna miała niższą wartość niż diagnostyczna.

Przykład

Badanie zachowań terapeutycznych lekarzy psychiatrów wobec pacjentów chorych na schizofrenię. Lekarze przez 4 tygodnie wypełniali ankiety oceny terapii pacjenta, do analizy zakwalifikowano dane od 781 pacjentów, zatem n=718. Na podstawie wyników ankiet chcemy poznać prawdopodobieństwo hospitalizacji pacjenta. Kodowanie zmiennej zależnej: 0-nie był hospitalizowany (kategoria nie diagnostyczna) 1-był hospitalizowany (kategoria diagnostyczna), zmienne niezależne (predyktory) – 10 predyktorów.

Interpretacja wyników

Procent poprawnych klasyfikacji

Model budowano metodą krokową, w najlepszym  modelu znalazło się 7 predyktorów i jedna interakcja. 

Tabela 1. Regresja logistyczna - podsumowanie modelu: procent poprawnych klasyfikacji. Obliczenia wykonano w programie R. 

Na podstawie modelu składającym się z 7  predyktorów  i interakcji można poprawnie przewidzieć 76,1% przypadków, przy czym dla zmienne diagnostycznej (był hospitalizowany) odsetek ten jest wyższy i wynosi 82,3% .

Testy dobroci dopasowania

Test dobroci dopasowania dały różne wyniki; istotny statystycznie wynik testu dobroci dopasowania  Hosmera i Lemeshowa  χ2(8); p=0,005 wskazuje  na słabe dopasowanie modelu do danych, ale  test zbiorowy współczynników modelu dał wynik istotny χ2(15)=320,7; p<0,001, co przemawia za akceptacją modelu. 

Logartym wiarygodności to suma kwadratów reszt regresji. Im wyższa jego wartość, tym więcej wariancji zmiennej zależnej pozostaje niewyjaśniona. W analizowanym przypadku  jego wartość jest wysoka i wynosi 705,246. 

Współczynniki R – kwadrat Coxa i Snella (0,343)  oraz R – kwadrat Nagelkerkego (4,64) są relatywnie wysokie, co wskazuje na dobre dopasowanie modelu.  R-kwadrat Nagelkerkego jest odpowiednikiem dopasowanego R-kwadrat (Adjusted R2) w regresji liniowej i wskazuje na odsetek wariancji zmiennej zależnej wyjaśniany przez model.  Model złożony z 8 predyktorów wyjaśnia 46,4% wariancji zmiennej zależnej: hospitalizacja vs brak hospitalizacji. Jest to wartość relatywnie wysoka.

Zmienne w modelu

W modelu budowanym metodą krokową znalazło się 7 z 10 predyktorów i interakcja – ocena terapii  by czas terapii

 

 Tabela 2. Zmienne w modelu regresji logistycznej, model budowano metodą krokową z wykorzystaniem programu R.

Kierunek wpływu 6 predyktorów jest dodatni a 2 ujemny

Schemat 1. Wnioski z modelu regresji logistycznej - kiednek 

 

B – niestandaryzowany współczynnik regresji

Wielkość współczynnika Wald jest równa ilorazowi współczynnika regresji i błędu standardowego podniesionego do kwadratu.  Wartość współczynnika Exp(B) wskazuje na to o ile wzrosną/spadną szanse wystąpienia cechy diagnostycznej wraz ze zmianą poziomu danego predyktora o jednostkę Chcąc przewidywać jak zmieni się prawdopodobieństwo wystąpienia cechy diagnostycznej wraz ze zmianą nasilenia predyktora należy skorzystać ze wzoru:

 

IO – iloraz szans

e – liczba Eulera (2,71828)

B – współczynnik regresji

x – poziom predyktora

Wykres 1: Graficzne przedstawienie ilorazu szans. Wykres wykonano w programie ME Excel.

 

Wraz ze wzrostem czasu terapii w latach rośnie szansa na hospitalizację. Wartość współczynnika Exp(B)=1,347 wskazuje na to, że wraz z wydłużaniem się czasu trwania terapii o rok szanse na hospitalizację wzrastają o 34,7%. Wraz ze wzrostem czasu trwania terapii o 3 lata szanse na hospitalizację wzrastają o 210,6%.

Wykres 1: Graficzne przedstawienie ilorazu szans. Wykres wykonano w programie ME Excel.

 

Współczynnik Exp(B) 0,738 wskazuje na to, że wraz pogorszeniem stanu zdrowia o jednostkę szanse na wystąpienie cechy diagnostycznej spadają o 26,2% , co wynika z wyliczenia 100-73,8=26,2.  W przypadku stanu ostrego szansa na hospitalizację spada o 96,2%. Wartości zmiennej faza choroby: 1-  Wyleczony, 2-  Remisja, 3 – Stan stabilny, 4 – Stan ostry  

 

Efekt interakcji (moderacja)

 

Wpływ oceny skuteczności terapii na wystąpienie cechy diagnostycznej jest moderowany przez czas trwania terapii. Ocena skuteczności terapii ma różny wpływ na wystąpienie cechy diagnostycznej w zależności od czasu trwania terapii.

Ocena skuteczności terapii  jest w tym modelu  zmienną niezależną, a czas trwania terapii moderatorem.

Tabela 3. Wynik dla efektu interakcji. Obliczenia przeprowadzono w programie R.   

 

Obliczanie ilorazu szans dla efektu interakcji

Iloraz szans dla interakcji obliczamy dla co najmniej dwóch poziomów moderatora, np. wartość pierwszego kwartyla 0,383 i trzeciego kwartyla 1,123

 

Podsumowanie efektu interakcji

U pacjentów, których czas terapii trwa do 0,383 (pierwszy kwartyl)  roku szansa hospitalizacji w grupie w wysoką oceną dotychczasowego leczenia (3-5 punktów) jest 1,256 razy wyższa, niż wśród osób z niską oceną leczenia (1-4 punkty).  W grupie pacjentów leczonych ponad rok (1,123 – trzeci kwartyl) szansa hospitalizacji  w grupie w wysoką oceną dotychczasowego leczenia (3-5 punktów) jest 1,217 razy niższa niż wśród osób z niską oceną leczenia (1-4 punkty).

 

Bibliografia: 

Danieluk, B. (2010). Zastosowanie regresji logistycznej w badaniach eksperymentalnych. Psychologia Społeczna 5 3-3 (14) 199-2016

Giemza, J., Zwierzchowska, K. (2011). Wprowadzenie do modelu regresji logistycznej wraz z przykładem zastosowania w pakiecie statystycznym R do danych o pacjentach po przeszczepie nerki. Praca licencjacka na kierunku matematyka. Uniwersytet Warszawski Wydział Matematyki Informatyki i Mechaniki.