Analiza czynnikowa

Eksploracyjna analiza czynnikowa

Eksploracyjna analiza czynnikowa (analiza składowych głównych – Principal Component Analysis PCA -  jest techniką statystyczną, która z zadanej puli itemów/zmienych utworzy (o ile to możliwe) mniejszą pulę zmiennych (zwykle kilka wymiarów) według określonego kryterium. Analizy eksploracyjnej  (PCA) nie należy mylić z konformacyjną analizą czynnikową (Confirmatory Factor Analysis - CFA), która jest metodą testowania zgodności teoretycznego modelu według, którego pogrupowano itemy z danymi empirycznymi.

W analizie eksploracyjnej (PCA)wyodrębniane grupy zmiennych nie są czynnikami sensu stricte jak w analizie konfirmacyjnej  (CFA), w praktyce nazywa się je zamiennie czynnikami lub składowymi.  Celem eksploracyjnej analizy czynnikowej jest, na podstawie istniejących zmiennych, utworzyć wymiary, które w możliwie najlepszy sposób wyjaśniają wariancję (czyli zmienność) wyników wszystkich itemów, które były brane pod uwagę w analizie. Obliczenia opierają się na współczynniku korelacji r-Pearsona. Teoretyczne podstawy eksploracyjnej analizy czynnikowej są takie, że jeśli jedna grupa pytań mierzy dany konstrukt to odpowiedzi na te pytania powinny być ze sobą skorelowane. Stosując analizę eksploracyjną zadajemy pytanie badawcze: z ilu składowych (zwanych czynnikami) składa się nasze nasz zbiór danych? Wyniki uzyskane w analizie można porównać z założeniami badawczymi, o ile były takie założenia.  Eksploracyjną analizę można wykonać także gdy brak  jakichkolwiek założeń co do wyniku.

Jeśli otrzymany wynik rozmija się z oczekiwaniami to wówczas można, np. wykonaniu odpowiednich działań korygujących, (np.  po wyeliminowaniu problematycznych itemów lub przypadków) wykonać kolejną analizę składowych głównych (czynnikową) aż do uzyskania efektu  maksymalnie zbliżonego założeń teoretycznych dotyczących narzędzia badawczego. Wskaźniki zmiennych uzyskane wskutek analizy czynnikowej reprezentują określony konstrukt teoretyczny, który jest zmienną latentną (nieobserwowalną). Uzyskane w ten sposób rozwiązanie można testować za pomocą analizy konfirmacyjnej.

Jeśli przed przystąpieniem do analiz przyjmuje się założenie, utworzone grupy zmiennych, (czynniki, składowe) mają być wobec siebie ortogonalne, czyli nie ma między nimi korelacji, to należy wykonać rotację ortogonalą, np. Varimax. W przypadku braku tego typu założeń lub gdy zakłada się skorelowanie czynników, jako metodę wyodrębniania stosuje się rotację ukośną, np. Oblimin. Rotacja ukośna jest więc bardziej uniwersalna od ortogonalnej, gdyż rotację ukośną można stosować w przypadku braku jakichkolwiek założeń odnośnie modelu.

Warunki jakie muszą spełniać zmienne wykorzystane w analizie czynnikowej:

  1. Mierzone na skali ilościowej (ilorazowej lub interwałowej) w praktyce w niektórych dziedzina (psychologia, pedagogika, zarządzanie) skale porządkowe o liczbie poziomów >=2, skala dwuwartościowa  0-1,  są szczególnym przypadkiem skali porządkowej i traktowane jako ilościowe, np. skala stenowa,  skala ocen szkolnych, czy skala Likerta.
  2. Wielkość grupy badanej nie powinna być mniejsza, niż 5*liczba itemów.
  3. Zmienne nie mogą być redundantne (wnosić tej samej informacji), czyli nie wprowadzamy do analizy czynnikowej wymiaru, który jest sumą kilku itemów, które także są brane pod uwagę w analizie czynnikowej. Ponadto poszczególne itemy nie powinny mierzyć tego samego zjawiska, tj. np. stanowić inne sformułowanie (parafrazę) treści wyrażonych już w innych stwierdzeniach.
  4. Do analizy wprowadzamy jednorazowo tylko ten zbiór zmiennych, który stanowi całość, np. jeden kwestionariusz. Wynik analizy jest zależny od zbioru, więc nie wolno wprowadzać do analizy przypadkowych zmiennych.
  5. Żadna zmienna nie może mieć odchylenia standardowego równego zero, czyli takich wartości.
  6. Przed przystąpieniem do analizy należy dokonać imputacji braków danych.
  7. Analizowane zmienne powinny pochodzić ze zbioru, w którym mają rozkład normalny.

Testy dobroci dopasowania

W pierwszym kroku analizy ocenia się dopasowanie modelu do danych.

Wyznacznik

Wyznacznik macierzy korelacji czyli stosunek wielkość wariancji zmiennych do ich kowariancji. Wartość powinna być jak najniższa, gdyż to wskazuje że w zbiorze jest wiele istotnych korelacji. Wartość bliska jedynce wskazywałaby na słabe skorelowanie zmiennych, zatem nie należy wykonywać analizy czynnikowej na tym zbiorze zmiennych.

KMO (współczynnik Kaisera – Meyera – Olkina)

KMO to miara adekwatności doboru próby, powinna być jak najwyższa, najlepiej blisko 0,9. Przyjmuje się, że minimalne KMO wynosi 0,6. W praktyce miara KMO wnosi najważniejszą informację, na której opieramy decyzję o tym, czy wykonać analizę czynnikową.  Matematycznie KMO to stosunek wielkości korelacji zmiennych do wielkości korelacji częściowej tych zmiennych.

Test sferyczności Barletta

Test sferyczności Barletta testuje założenie o braku korelacji między zmiennymi. Wynik nieistotny wskazuje na słabe skorelowanie zmiennych i mówi, że nie należy wykonywać analizy czynnikowej. Istotny wynik testu Barletta wskazuje, że występują korelacje między zmiennymi i można wykonać analizę czynnikową.

W analizie metodą największej wiarygodności ważny jest test dopasowania chi-kwadrat, którego nieistotna wartość wskazuje na to, że struktura empiryczna nie różni się istotnie od teoretycznej.

Podstawowe wskaźniki wyników eksploracyjnej analizy czynnikowej

Wartość własna -  wielkość wariancji danego czynnika po standaryzacji   czyli część  wariancji całkowitej wyjaśniona przez dany czynnik.  Wartość ta jest wykorzystywana do ustalenia liczny czynników, które chcemy uzyskać. Im większa wartość własna, tym większą liczbę informacji wnoszą zmienne wejściowe do danego czynnika.

Wykres osypiska bazuje na wartościach własnych, używany do określanie liczby składowych/czynników. Kryterium odrzucenia jest punkt, w którym nachylenie linii staje się bardzo małe, punkt ten oddziela informację użyteczną dla badacza od szumu informacyjnego. Wartość własna ukazuje siłę powiązania między zmiennymi tworzącymi dany czynnik.

Wykres 1. Wykres osypiska. Wykonano w programie XlStat

Na podstawie powyższego wykresu osypiska można wyodrębnić dwa lub trzy czynniki (składowe).

Rotacja polega na obracaniu danych wejściowych w taki sposób aby ułatwić ich interpretację, wyróżnia się dwa typy rotacji – ortogonalną ( z zachowaniem kątów prostych) i ukośną, czyli dopuszczającą korelacje między czynnikami. W rotacji ortogonalnej niezależność czynników jest wymuszona, a w ukośnej tylko dopuszczona, zatem również i w rotacji ukośnej można uzyskać czynniki nieskorelowane, jeśli taka jest struktura danych. Z tego powodu gdy brak teoretycznego założenia o ortogonalności stosujemy rotację ukośną.

Przykładowe rotacje ortogonalne wykonywane przez pakiety statystyczne:

Varimax  - metoda wybierana najczęściej, minimalizuje liczbę zmiennych, które mają wysokie ładunki w każdym czynniku

Quatrimax – minimalizuje liczbę czynników potrzebnych do wyjaśnienia zmiennej

Equamax – połącznie dwu wyżej wymienionych

Rotacje ukośne:

Oblimin – parametr Delta określa stopień ukośności, czyli to jak bardzo mogą być skorelowane czynniki, domyślna wartość wynosi 0.

Promax – polecana przy dużych zbiorach danych

Macierz odwrotna do macierzy korelacji

Macierz odwrotna do macierzy korelacji pozwala na wskazanie zmiennych, które są ze sobą nadmiernie skorelowane, uznaje się że należy usunąć zmienną dla której wartość odwrotnego współczynnika korelacji na głównej przekątnej przekracza 10. 

Macierz przeciwobrazów

Macierz przeciwobrazów ukazuje wartości odwrotne do współczynników korelacji/kowariancji cząstkowej wartości poza przekątną powinny być możliwie małe.

Zasoby zmienności wspólnej

Zasoby zmienności wspólnej – wariancja zmiennej utworzonej po wyodrębnieniu czynników, powinny być możliwie najwyższe.  Początkowe zasoby zmienności wspólnej wynoszą 1, ponieważ wariancja zmiennej standaryzowanej wynosi 1.

Całkowita wyjaśniona wariancja

Przykładowa tabela całkowitej wyjaśnionej wariancji z analizy w programie XlStat. W kolumnie Eigenvalue znajdą się początkowe wartości własne, w kolumnie Variability procent wyjaśnionej przez każdy czynnik (składową) wariancji ogólnej, a w kolumnie Comulative – procent skumulowany wariancji wyjaśnionej. Trzy czynniki, dla których wartości własne przekraczają 5% wyjaśniają w sumie 45,378% wariancji wyjściowych zmiennych. W przypadku takich danych określanie ich struktury czynnikowej jest problematyczne.

Tabela 1. Całkowita wyjaśniona wariancja. Obliczenia przeprowadzono w programie XlStat. 

 

Macierz odtworzonych korelacji

W macierzy odtworzonych korelacji reszty powinny być jak najmniejsze, ponieważ wskazują na różnice między rzeczywistą a odtworzoną macierzą korelacji.

 Wykres rotowanego rozwiązania

Przykład wykresu rotowanego rozwiązania z programu XlStat. Wykres ten ukazuje usytuowanie dwóch kluczowych czynników, wyodrębnionych metodą składowych głównych (Principal Component Analysis – PCA) z rotacją  ukośną Oblimin.

Wykres 2. Wykres rotowanego rozwiązania. Obliczenia przeoprowadzono w programie XlStat. 

 

Macierz modelowa po rotacji ukośnej Oblimin, dla dwóch czynników, metoda składowych głównych (Principal Component Analysis). Analizy wykonano w programie XlStat.

Wyodrębniono dwa czynniki, liczby zaznaczone pogrubioną czcionką są rekomendowane do czynnika 1 lub 2. Ostatecznie jednak decyzję o tym, które itemy tworzą dany czynnik podejmuje badacz w kontekście teorii.

Tabela 2. Macierz modelowa - analiza składowych głównych z rotacją Oblimin - obliczenia wykonano w programie XlStat.

Sposoby identyfikacji liczby czynników

Czynniki (składowe) to powiązane ze sobą grupy zmiennych.

Metoda Kaisera – bazuje na wartości własnej, minimalne kryterium dla wyodrębnienia czynnika to wartość własne >1.

Metoda Catella – opiera się na wykresie osypiska (zob. Wykres 1) – widoczny „uskok” stanowi granicę wyodrębniania czynnika.

Kryterium procentowe – czynniki tworzą grupy zmiennych, które wyjaśniają określony procent zmienności wspólnej (zob. Tabela 1), procent wyjaśnianej wariancji przez dany czynnik nie powinien być mniejszy, niż 5% a suma wariancji wyjaśnianej przez wszystkie czynniki łącznie (procent skumulowany) nie niższy, niż 70%.

Bibliografia:

Bedyńska, S., Brzezicka, A. (2007). Statystyczny Drogowskaz. Warszawa: Wyd. SWPS

Król, G., Wieczorkowska, G. (2004). Budowanie wskaźników za pomocą analizy czynnikowej. (red.) J. Brzeziński. Metodologia badań psychologicznych. Wybór tekstów: s. 391-416. Warszawa: PWN