Analiza skupień

Analiza skupień dla danych ilościowych

Analiza skupień dzieli zbiór obiektów na klasy bez wcześniejszych założeń, co do kryterium grupowania. W wyniku analizy skupień otrzymuje się grupy obiektów podobnych do siebie w obrębie skupienia i różniące się między skupieniami. Kryterium decydujące o przyporządkowaniu do określonego skupienia jest zdefiniowane matematycznie. Celem wyodrębnienia skupisk naturalnie grupujących się obiektów należy wybrać odpowiednią – zdefiniowaną matematycznie – miarę podobieństwa, która pozwoli rozstrzygnąć które obiekty należy przyporządkować do których grup.

Wybór kryterium grupowania obiektów (funkcji podobieństwa)   zależy od wielu czynników, takich jak skala pomiarowa, dla skal ilościowych i jakościowych istnieją inne metody grupowania.  Grupowanie zmiennych ilościowych może odbywać się względem zmiennych lub względem obiektów. Aby podzielić obiekty na skupienia porównuje się ich pary pod względem cech ilościowych. By utworzyć skupienia dla zmiennych sprawdza się zgodność wszystkich par cech ilościowych w grupie obiektów. O wyborze algorytmu, który utworzy skupienia ostatecznie zawsze decyduje badacz. Istnieje kilkanaście (lub nawet więcej) miar podobieństwa i odległości, zaimplementowanych w  różnych pakietach statystycznych. Miary stopnia podobieństwa obiektów dzieli sią na dwie zasadnicze grupy:

  • odległości taksonomiczne
  • współczynniki podobieństwa

Miary te są przeciwstawne względem siebie, zatem całkiem inna jest ich interpretacja

Odległość euklidesowa

Odległość euklidesowa jest prostą odległością geometryczną w przestrzeni wielowymiarowej. Odległość euklidesowa dana jest wzorem: 

Zmienne (bądź obiekty) brane pod uwagę w analizie powinny być wyrażone na takich samych skalach lub wystandaryzowane

Kwadrat odległości euklidesowej

Jest to odległość euklidesowa podniesiona do kwadratu: 

Kwadrat odległości euklidesowej tym różni się od zwykłej odległości euklidesowej, że wskutek podniesienia do kwadratu przypisuje większą wagę obiektom bardziej od siebie oddalonym

Odległość Czybyszewa

Odległość Czybyszewa bywa nazywana metryką dominacji lub metryką maksimum. Odległość między punktami jest wyrażona jako największa z różnic między współrzędnymi. Odległość Czybyszewa dana jest wzorem:

Przed wykonaniem analizy dane powinny zostać wystandaryzowane aby wartości były porównywalne

 

Odległość miejska (Manhattan city – block)

Metryka miejska jest obliczana wzdłuż prostopadłych osi, jest wartością bezwzględną między wartościami cech (i) dla badanych obiektów (x,y).  Nazwa wywodzi się stąd że w przypadku dwuwymiarowym określa odległość między dwoma punktami w mieście, w którym można poruszać się tylko ulicami równoległymi do dwóch osi miasta. Taki układ ulic znajduje się na Manhattanie, stąd nazwa Manhattan city-block. Odległość miejska dana jest wzorem: 

Wszystkie opisane wyżej miary odległości należą do grupy metryk Minkowskiego.

 Współczynniki podobieństwa

Współczynnik korelacji Pearsona

Współczynnik ten jest obliczany jako korelacja między wektorami, które reprezentują zmienne lub obiekty. Współczynnik ten jest obliczany z wartości standaryzowanych i dany jest wzorem.

Miara ta przyjmuje wartości z zakresu <0,1>, im bliżej 1 tym większe jest podobieństwo obiektów (zmiennych).

Kosinus wektorów (odległość kątowa)

Odległość kątowa jest miarą polegającą na obliczeniu kosinusa kąta pomiędzy wektorami, odpowiadającymi zmiennym lub obiektom. Kosinus wektorów dany jest wzorem:

Metody aglomeracji

Metody odległości lub podobieństwa służą do utworzenia skupisk obiektów lub zmiennych. Nie pozwalają jednak na określenie odległości między skupieniami. Do tego celu służą metody aglomeracji.  Wykonując analizę skupień badacz musi podjąć decyzję dotyczące funkcji grupującej oraz metody aglomeracji. Istnieje kilka lub nawet kilkanaście metod aglomeracji zaimplementowanych w różne pakiety statystyczne. Do najczęściej stosowanych należą: metoda najbliższego sąsiedztwa, metoda najdalszego sąsiedztwa, metoda Warda.

Metoda najbliższego sąsiedztwa (pojedynczego wiązania) – odległość między skupieniami określa odległość między obiektami tychże skupień, które najbliżej sąsiadują ze sobą. Skupienia klasyfikowane według metody pojedynczego wiązania tworzą ciągi, zwane „łańcuchami”.

Metoda najdalszego sąsiedztwa (pełnego wiązania) – odległość między skupieniami jest określona przez odległość między obiektami tych skupisk, które są najbardziej od siebie oddalone, tzw. „najdalsi sąsiedzi”. Metoda najdalszego sąsiedztwa jest polecana gdy obiekty tworzą wyraźne grupy naturalne.

Metoda Warda dla oszacowania odległości między skupieniami stosuje się analizę wariancji. Metoda analizy wariancji minimalizuje sum kwadratów odchyleń między skupieniami. W ten sposób uzyskuje się zwykle wiele małych skupień.

Przykład

Hierarchiczna analiza skupień – metoda odległości euklidesowej, aglomeracja metodą Warda, obliczenia przeprowadzono w programie XlStat.

W analizie brano pod uwagę 20 zmiennych reprezentujących różne aspekty postaw wobec reklamy (poznawczy, behawioralny, afektywny), zbadano 285 studentów.  Zmienne wystandaryzowano i przeprowadzono grupowanie według zmiennych.

Wykres 1. Dentrogram –  podział na klasy zmiennych, wykonano w programie XlStat

 

Tabela 1. Podział wariancji

 

 

 

Absolute

Percent

Within-class

139,251

64,26%

Between-classes

77,453

35,74%

Total

216,704

100,00%

 

Większy odsetek wariancji przypada na zmienność wewnątrzgrupową, niż międzygrupową.

 

 

Wykres 2. Dendrogram – skupienia z uwzględnieniem zmiennych. Wykonano w programie XlStat.

 

 

Tabela 2. Wynik grupowania

Class

1

2

3

Objects

9

7

4

Sum of weights

9

7

4

Within-class variance

144,223

144,653

115,190

Minimum distance to centroid

7,231

7,200

7,484

Average distance to centroid

11,074

10,757

9,102

Maximum distance to centroid

14,502

15,939

12,305

 

zm1 - poznawczy

zm3 - poznawczy

zm15 - afektywny

 

zm2 - poznawczy

zm4 - poznawczy

zm16 - afektywny

 

zm5 - behawioralny

zm8 - poznawczy

zm17 - afektywny

 

zm6 - behawioralny

zm9 – poznawczy

zm18 - afektywny

 

zm7 – behawioralny

zm11 - poznawczy

 
 

zm10 – behawioralny

zm13 - afektywny

 
 

zm12 - behawioralny

zm20 - afektywny

 
 

zm14 behawioralny

   
 

zm19 - behawioralny

   

 

Skupienia 1 i 2 charakteryzują się podobną wariancją, skupienie 3 jest relatywnie najbardziej jednorodne, składa się ono tylko z 4 zmiennych. Na grafie dendrogramu skupienie 3 jest oznaczone kolorem czerwonym. Minimalne dystanse do centrum skupienia są podobne w przypadku każdego ze skupień i zbliżone do 7.  Średni dystans do centrum skupienia jest największy w skupieniu 1 (niebieska część dendrogramu), które jest największym skupieniem. Najmniejszy dystans dotyczy skupienia trzeciego – najmniejszego, w którym także najmniejszy jest dystans maksymalny. Największy maksymalny dystans do środka skupienia dotyczy skupienia drugiego – zielona część dendrogramu.

Reasumując analiza skupień wyodrębniła afektywny i behawioralny składnik postawy. Składnik poznawczy jest klasyfikowany razem z behawioralnym i afektywnym. Na podstawie przeprowadzonego badania nie sposób wyodrębnić w sposób klarowny poznawczego komponentu postawy wobec reklamy.

 

Bibliografia 

Migut, G. (2009). Zastosowanie technik analizy skupień i drzew decyzyjnych do segmentacji rynku. W: Zastosowanie nowoczesnej analizy danych w marketingu i badaniach rynku. Kraków: Wyd. StatSoft, s. 75-92  

Zakrzewska, M. (2004). Miary podobieństwa i odległości dla danych ilościowych wykorzystywane przez SPSS w analizie skupień. W: Metodologia badań psychologicznych, J. Brzeziński (red.), Warszawa: PWN, s. 506 – 559