Analiza skupień

Analiza skupień dla danych ilościowych

Analiza skupień dzieli zbiór obiektów na klasy bez wcześniejszych założeń, co do kryterium grupowania. W wyniku analizy skupień otrzymuje się grupy obiektów podobnych do siebie w obrębie skupienia i różniące się między skupieniami. Kryterium decydujące o przyporządkowaniu do określonego skupienia jest zdefiniowane matematycznie. Celem wyodrębnienia skupisk naturalnie grupujących się obiektów należy wybrać odpowiednią – zdefiniowaną matematycznie – miarę podobieństwa, która pozwoli rozstrzygnąć które obiekty należy przyporządkować do których grup.

Wybór kryterium grupowania obiektów (funkcji podobieństwa) zależy od wielu czynników, takich jak skala pomiarowa, dla skal ilościowych i jakościowych istnieją inne metody grupowania. Grupowanie zmiennych ilościowych może odbywać się względem zmiennych lub względem obiektów. Aby podzielić obiekty na skupienia porównuje się ich pary pod względem cech ilościowych. By utworzyć skupienia dla zmiennych sprawdza się zgodność wszystkich par cech ilościowych w grupie obiektów. O wyborze algorytmu, który utworzy skupienia ostatecznie zawsze decyduje badacz. Istnieje kilkanaście (lub nawet więcej) miar podobieństwa i odległości, zaimplementowanych w różnych pakietach statystycznych. Miary stopnia podobieństwa obiektów dzieli sią na dwie zasadnicze grupy:

odległości taksonomiczne
współczynniki podobieństwa

Miary te są przeciwstawne względem siebie, zatem całkiem inna jest ich interpretacja

Odległość euklidesowa

Odległość euklidesowa jest prostą odległością geometryczną w przestrzeni wielowymiarowej. Odległość euklidesowa dana jest wzorem:

Zmienne (bądź obiekty) brane pod uwagę w analizie powinny być wyrażone na takich samych skalach lub wystandaryzowane

Kwadrat odległości euklidesowej

Jest to odległość euklidesowa podniesiona do kwadratu:

Kwadrat odległości euklidesowej tym różni się od zwykłej odległości euklidesowej, że wskutek podniesienia do kwadratu przypisuje większą wagę obiektom bardziej od siebie oddalonym

Odległość Czybyszewa

Odległość Czybyszewa bywa nazywana metryką dominacji lub metryką maksimum. Odległość między punktami jest wyrażona jako największa z różnic między współrzędnymi. Odległość Czybyszewa dana jest wzorem:

Przed wykonaniem analizy dane powinny zostać wystandaryzowane aby wartości były porównywalne

Odległość miejska (Manhattan city – block)

Metryka miejska jest obliczana wzdłuż prostopadłych osi, jest wartością bezwzględną między wartościami cech (i) dla badanych obiektów (x,y). Nazwa wywodzi się stąd że w przypadku dwuwymiarowym określa odległość między dwoma punktami w mieście, w którym można poruszać się tylko ulicami równoległymi do dwóch osi miasta. Taki układ ulic znajduje się na Manhattanie, stąd nazwa Manhattan city-block. Odległość miejska dana jest wzorem:

Wszystkie opisane wyżej miary odległości należą do grupy metryk Minkowskiego.

Współczynniki podobieństwa

Współczynnik korelacji Pearsona

Współczynnik ten jest obliczany jako korelacja między wektorami, które reprezentują zmienne lub obiekty. Współczynnik ten jest obliczany z wartości standaryzowanych i dany jest wzorem.

Miara ta przyjmuje wartości z zakresu <0,1>, im bliżej 1 tym większe jest podobieństwo obiektów (zmiennych).

Kosinus wektorów (odległość kątowa)

Odległość kątowa jest miarą polegającą na obliczeniu kosinusa kąta pomiędzy wektorami, odpowiadającymi zmiennym lub obiektom. Kosinus wektorów dany jest wzorem:

Metody aglomeracji

Metody odległości lub podobieństwa służą do utworzenia skupisk obiektów lub zmiennych. Nie pozwalają jednak na określenie odległości między skupieniami. Do tego celu służą metody aglomeracji. Wykonując analizę skupień badacz musi podjąć decyzję dotyczące funkcji grupującej oraz metody aglomeracji. Istnieje kilka lub nawet kilkanaście metod aglomeracji zaimplementowanych w różne pakiety statystyczne. Do najczęściej stosowanych należą: metoda najbliższego sąsiedztwa, metoda najdalszego sąsiedztwa, metoda Warda.

Metoda najbliższego sąsiedztwa (pojedynczego wiązania) – odległość między skupieniami określa odległość między obiektami tychże skupień, które najbliżej sąsiadują ze sobą. Skupienia klasyfikowane według metody pojedynczego wiązania tworzą ciągi, zwane „łańcuchami”.

Metoda najdalszego sąsiedztwa (pełnego wiązania) – odległość między skupieniami jest określona przez odległość między obiektami tych skupisk, które są najbardziej od siebie oddalone, tzw. „najdalsi sąsiedzi”. Metoda najdalszego sąsiedztwa jest polecana gdy obiekty tworzą wyraźne grupy naturalne.

Metoda Warda dla oszacowania odległości między skupieniami stosuje się analizę wariancji. Metoda analizy wariancji minimalizuje sum kwadratów odchyleń między skupieniami. W ten sposób uzyskuje się zwykle wiele małych skupień.

Przykład

Hierarchiczna analiza skupień – metoda odległości euklidesowej, aglomeracja metodą Warda, obliczenia przeprowadzono w programie XlStat.

W analizie brano pod uwagę 20 zmiennych reprezentujących różne aspekty postaw wobec reklamy (poznawczy, behawioralny, afektywny), zbadano 285 studentów. Zmienne wystandaryzowano i przeprowadzono grupowanie według zmiennych.

Wykres 1. Dentrogram – podział na klasy zmiennych, wykonano w programie XlStat

Tabela 1. Podział wariancji

	Absolute	Percent
Within-class	139,251	64,26%
Between-classes	77,453	35,74%
Total	216,704	100,00%

Większy odsetek wariancji przypada na zmienność wewnątrzgrupową, niż międzygrupową.

Wykres 2. Dendrogram – skupienia z uwzględnieniem zmiennych. Wykonano w programie XlStat.

Tabela 2. Wynik grupowania

Class	1	2	3
Objects	9	7	4
Sum of weights	9	7	4
Within-class variance	144,223	144,653	115,190
Minimum distance to centroid	7,231	7,200	7,484
Average distance to centroid	11,074	10,757	9,102
Maximum distance to centroid	14,502	15,939	12,305
	zm1 - poznawczy	zm3 - poznawczy	zm15 - afektywny
	zm2 - poznawczy	zm4 - poznawczy	zm16 - afektywny
	zm5 - behawioralny	zm8 - poznawczy	zm17 - afektywny
	zm6 - behawioralny	zm9 – poznawczy	zm18 - afektywny
	zm7 – behawioralny	zm11 - poznawczy
	zm10 – behawioralny	zm13 - afektywny
	zm12 - behawioralny	zm20 - afektywny
	zm14 behawioralny
	zm19 - behawioralny

Skupienia 1 i 2 charakteryzują się podobną wariancją, skupienie 3 jest relatywnie najbardziej jednorodne, składa się ono tylko z 4 zmiennych. Na grafie dendrogramu skupienie 3 jest oznaczone kolorem czerwonym. Minimalne dystanse do centrum skupienia są podobne w przypadku każdego ze skupień i zbliżone do 7. Średni dystans do centrum skupienia jest największy w skupieniu 1 (niebieska część dendrogramu), które jest największym skupieniem. Najmniejszy dystans dotyczy skupienia trzeciego – najmniejszego, w którym także najmniejszy jest dystans maksymalny. Największy maksymalny dystans do środka skupienia dotyczy skupienia drugiego – zielona część dendrogramu.

Reasumując analiza skupień wyodrębniła afektywny i behawioralny składnik postawy. Składnik poznawczy jest klasyfikowany razem z behawioralnym i afektywnym. Na podstawie przeprowadzonego badania nie sposób wyodrębnić w sposób klarowny poznawczego komponentu postawy wobec reklamy.

Bibliografia

Migut, G. (2009). Zastosowanie technik analizy skupień i drzew decyzyjnych do segmentacji rynku. W: Zastosowanie nowoczesnej analizy danych w marketingu i badaniach rynku. Kraków: Wyd. StatSoft, s. 75-92

Zakrzewska, M. (2004). Miary podobieństwa i odległości dla danych ilościowych wykorzystywane przez SPSS w analizie skupień. W: Metodologia badań psychologicznych, J. Brzeziński (red.), Warszawa: PWN, s. 506 – 559