Regresja logistyczna
Regresja logistyczna
Regresja logistyczna pozwala na oszacowania prawdopodobieństwa wystąpienia jakiegoś zdarzenia w zależności od zestawu predyktorów, wartość prawdopodobieństwa zawiera się w zakresie 0-1. Regresja logistyczna jest wolna od większości założeń, które muszą spełniać ogólne modele liniowe i regresja linowa metodą najmniejszych kwadratów, takich jak:
- Liniowość związków między zmienną zależną a predyktorami
- Normalność rozkładów predyktorów
- Normalność rozkładów reszt
- Równoliczność grup zmiennych nominalnych
- Ilościowy poziom pomiaru predyktorów
Założenia regresji logistycznej, które muszą być spełnione:
- Minimalna liczebność próby większa niż 10 * (k+1) k- liczba zmiennych niezależnych
- Predyktory nie powinny być ze sobą zbyt silnie skorelowane, czyli należy ograniczyć współliniowość predyktorów.
- Zmienna zależna jest binarna
Kodując dane należy pamiętać aby kategoria niediagnostyczna miała niższą wartość niż diagnostyczna.
Przykład
Badanie zachowań terapeutycznych lekarzy psychiatrów wobec pacjentów chorych na schizofrenię. Lekarze przez 4 tygodnie wypełniali ankiety oceny terapii pacjenta, do analizy zakwalifikowano dane od 781 pacjentów, zatem n=718. Na podstawie wyników ankiet chcemy poznać prawdopodobieństwo hospitalizacji pacjenta. Kodowanie zmiennej zależnej: 0-nie był hospitalizowany (kategoria nie diagnostyczna) 1-był hospitalizowany (kategoria diagnostyczna), zmienne niezależne (predyktory) – 10 predyktorów.
Interpretacja wyników
Procent poprawnych klasyfikacji
Model budowano metodą krokową, w najlepszym modelu znalazło się 7 predyktorów i jedna interakcja.
Tabela 1. Regresja logistyczna - podsumowanie modelu: procent poprawnych klasyfikacji. Obliczenia wykonano w programie R.
Na podstawie modelu składającym się z 7 predyktorów i interakcji można poprawnie przewidzieć 76,1% przypadków, przy czym dla zmienne diagnostycznej (był hospitalizowany) odsetek ten jest wyższy i wynosi 82,3% .
Testy dobroci dopasowania
Test dobroci dopasowania dały różne wyniki; istotny statystycznie wynik testu dobroci dopasowania Hosmera i Lemeshowa χ2(8); p=0,005 wskazuje na słabe dopasowanie modelu do danych, ale test zbiorowy współczynników modelu dał wynik istotny χ2(15)=320,7; p<0,001, co przemawia za akceptacją modelu.
Logartym wiarygodności to suma kwadratów reszt regresji. Im wyższa jego wartość, tym więcej wariancji zmiennej zależnej pozostaje niewyjaśniona. W analizowanym przypadku jego wartość jest wysoka i wynosi 705,246.
Współczynniki R – kwadrat Coxa i Snella (0,343) oraz R – kwadrat Nagelkerkego (4,64) są relatywnie wysokie, co wskazuje na dobre dopasowanie modelu. R-kwadrat Nagelkerkego jest odpowiednikiem dopasowanego R-kwadrat (Adjusted R2) w regresji liniowej i wskazuje na odsetek wariancji zmiennej zależnej wyjaśniany przez model. Model złożony z 8 predyktorów wyjaśnia 46,4% wariancji zmiennej zależnej: hospitalizacja vs brak hospitalizacji. Jest to wartość relatywnie wysoka.
Zmienne w modelu
W modelu budowanym metodą krokową znalazło się 7 z 10 predyktorów i interakcja – ocena terapii by czas terapii
Tabela 2. Zmienne w modelu regresji logistycznej, model budowano metodą krokową z wykorzystaniem programu R.
Kierunek wpływu 6 predyktorów jest dodatni a 2 ujemny
Schemat 1. Wnioski z modelu regresji logistycznej - kiednek
B – niestandaryzowany współczynnik regresji
Wielkość współczynnika Wald jest równa ilorazowi współczynnika regresji i błędu standardowego podniesionego do kwadratu. Wartość współczynnika Exp(B) wskazuje na to o ile wzrosną/spadną szanse wystąpienia cechy diagnostycznej wraz ze zmianą poziomu danego predyktora o jednostkę Chcąc przewidywać jak zmieni się prawdopodobieństwo wystąpienia cechy diagnostycznej wraz ze zmianą nasilenia predyktora należy skorzystać ze wzoru:
IO – iloraz szans
e – liczba Eulera (2,71828)
B – współczynnik regresji
x – poziom predyktora
Wykres 1: Graficzne przedstawienie ilorazu szans. Wykres wykonano w programie ME Excel.
Wraz ze wzrostem czasu terapii w latach rośnie szansa na hospitalizację. Wartość współczynnika Exp(B)=1,347 wskazuje na to, że wraz z wydłużaniem się czasu trwania terapii o rok szanse na hospitalizację wzrastają o 34,7%. Wraz ze wzrostem czasu trwania terapii o 3 lata szanse na hospitalizację wzrastają o 210,6%.
Wykres 1: Graficzne przedstawienie ilorazu szans. Wykres wykonano w programie ME Excel.
Współczynnik Exp(B) 0,738 wskazuje na to, że wraz pogorszeniem stanu zdrowia o jednostkę szanse na wystąpienie cechy diagnostycznej spadają o 26,2% , co wynika z wyliczenia 100-73,8=26,2. W przypadku stanu ostrego szansa na hospitalizację spada o 96,2%. Wartości zmiennej faza choroby: 1- Wyleczony, 2- Remisja, 3 – Stan stabilny, 4 – Stan ostry
Efekt interakcji (moderacja)
Wpływ oceny skuteczności terapii na wystąpienie cechy diagnostycznej jest moderowany przez czas trwania terapii. Ocena skuteczności terapii ma różny wpływ na wystąpienie cechy diagnostycznej w zależności od czasu trwania terapii.
Ocena skuteczności terapii jest w tym modelu zmienną niezależną, a czas trwania terapii moderatorem.
Tabela 3. Wynik dla efektu interakcji. Obliczenia przeprowadzono w programie R.
Obliczanie ilorazu szans dla efektu interakcji
Iloraz szans dla interakcji obliczamy dla co najmniej dwóch poziomów moderatora, np. wartość pierwszego kwartyla 0,383 i trzeciego kwartyla 1,123
Podsumowanie efektu interakcji
U pacjentów, których czas terapii trwa do 0,383 (pierwszy kwartyl) roku szansa hospitalizacji w grupie w wysoką oceną dotychczasowego leczenia (3-5 punktów) jest 1,256 razy wyższa, niż wśród osób z niską oceną leczenia (1-4 punkty). W grupie pacjentów leczonych ponad rok (1,123 – trzeci kwartyl) szansa hospitalizacji w grupie w wysoką oceną dotychczasowego leczenia (3-5 punktów) jest 1,217 razy niższa niż wśród osób z niską oceną leczenia (1-4 punkty).
Bibliografia:
Danieluk, B. (2010). Zastosowanie regresji logistycznej w badaniach eksperymentalnych. Psychologia Społeczna 5 3-3 (14) 199-2016
Giemza, J., Zwierzchowska, K. (2011). Wprowadzenie do modelu regresji logistycznej wraz z przykładem zastosowania w pakiecie statystycznym R do danych o pacjentach po przeszczepie nerki. Praca licencjacka na kierunku matematyka. Uniwersytet Warszawski Wydział Matematyki Informatyki i Mechaniki.