Analiza skupień
Analiza skupień dla danych ilościowych
Analiza skupień dzieli zbiór obiektów na klasy bez wcześniejszych założeń, co do kryterium grupowania. W wyniku analizy skupień otrzymuje się grupy obiektów podobnych do siebie w obrębie skupienia i różniące się między skupieniami. Kryterium decydujące o przyporządkowaniu do określonego skupienia jest zdefiniowane matematycznie. Celem wyodrębnienia skupisk naturalnie grupujących się obiektów należy wybrać odpowiednią – zdefiniowaną matematycznie – miarę podobieństwa, która pozwoli rozstrzygnąć które obiekty należy przyporządkować do których grup.
Wybór kryterium grupowania obiektów (funkcji podobieństwa) zależy od wielu czynników, takich jak skala pomiarowa, dla skal ilościowych i jakościowych istnieją inne metody grupowania. Grupowanie zmiennych ilościowych może odbywać się względem zmiennych lub względem obiektów. Aby podzielić obiekty na skupienia porównuje się ich pary pod względem cech ilościowych. By utworzyć skupienia dla zmiennych sprawdza się zgodność wszystkich par cech ilościowych w grupie obiektów. O wyborze algorytmu, który utworzy skupienia ostatecznie zawsze decyduje badacz. Istnieje kilkanaście (lub nawet więcej) miar podobieństwa i odległości, zaimplementowanych w różnych pakietach statystycznych. Miary stopnia podobieństwa obiektów dzieli sią na dwie zasadnicze grupy:
- odległości taksonomiczne
- współczynniki podobieństwa
Miary te są przeciwstawne względem siebie, zatem całkiem inna jest ich interpretacja
Odległość euklidesowa
Odległość euklidesowa jest prostą odległością geometryczną w przestrzeni wielowymiarowej. Odległość euklidesowa dana jest wzorem:
Zmienne (bądź obiekty) brane pod uwagę w analizie powinny być wyrażone na takich samych skalach lub wystandaryzowane
Kwadrat odległości euklidesowej
Jest to odległość euklidesowa podniesiona do kwadratu:
Kwadrat odległości euklidesowej tym różni się od zwykłej odległości euklidesowej, że wskutek podniesienia do kwadratu przypisuje większą wagę obiektom bardziej od siebie oddalonym
Odległość Czybyszewa
Odległość Czybyszewa bywa nazywana metryką dominacji lub metryką maksimum. Odległość między punktami jest wyrażona jako największa z różnic między współrzędnymi. Odległość Czybyszewa dana jest wzorem:
Przed wykonaniem analizy dane powinny zostać wystandaryzowane aby wartości były porównywalne
Odległość miejska (Manhattan city – block)
Metryka miejska jest obliczana wzdłuż prostopadłych osi, jest wartością bezwzględną między wartościami cech (i) dla badanych obiektów (x,y). Nazwa wywodzi się stąd że w przypadku dwuwymiarowym określa odległość między dwoma punktami w mieście, w którym można poruszać się tylko ulicami równoległymi do dwóch osi miasta. Taki układ ulic znajduje się na Manhattanie, stąd nazwa Manhattan city-block. Odległość miejska dana jest wzorem:
Wszystkie opisane wyżej miary odległości należą do grupy metryk Minkowskiego.
Współczynniki podobieństwa
Współczynnik korelacji Pearsona
Współczynnik ten jest obliczany jako korelacja między wektorami, które reprezentują zmienne lub obiekty. Współczynnik ten jest obliczany z wartości standaryzowanych i dany jest wzorem.
Miara ta przyjmuje wartości z zakresu <0,1>, im bliżej 1 tym większe jest podobieństwo obiektów (zmiennych).
Kosinus wektorów (odległość kątowa)
Odległość kątowa jest miarą polegającą na obliczeniu kosinusa kąta pomiędzy wektorami, odpowiadającymi zmiennym lub obiektom. Kosinus wektorów dany jest wzorem:
Metody aglomeracji
Metody odległości lub podobieństwa służą do utworzenia skupisk obiektów lub zmiennych. Nie pozwalają jednak na określenie odległości między skupieniami. Do tego celu służą metody aglomeracji. Wykonując analizę skupień badacz musi podjąć decyzję dotyczące funkcji grupującej oraz metody aglomeracji. Istnieje kilka lub nawet kilkanaście metod aglomeracji zaimplementowanych w różne pakiety statystyczne. Do najczęściej stosowanych należą: metoda najbliższego sąsiedztwa, metoda najdalszego sąsiedztwa, metoda Warda.
Metoda najbliższego sąsiedztwa (pojedynczego wiązania) – odległość między skupieniami określa odległość między obiektami tychże skupień, które najbliżej sąsiadują ze sobą. Skupienia klasyfikowane według metody pojedynczego wiązania tworzą ciągi, zwane „łańcuchami”.
Metoda najdalszego sąsiedztwa (pełnego wiązania) – odległość między skupieniami jest określona przez odległość między obiektami tych skupisk, które są najbardziej od siebie oddalone, tzw. „najdalsi sąsiedzi”. Metoda najdalszego sąsiedztwa jest polecana gdy obiekty tworzą wyraźne grupy naturalne.
Metoda Warda dla oszacowania odległości między skupieniami stosuje się analizę wariancji. Metoda analizy wariancji minimalizuje sum kwadratów odchyleń między skupieniami. W ten sposób uzyskuje się zwykle wiele małych skupień.
Przykład
Hierarchiczna analiza skupień – metoda odległości euklidesowej, aglomeracja metodą Warda, obliczenia przeprowadzono w programie XlStat.
W analizie brano pod uwagę 20 zmiennych reprezentujących różne aspekty postaw wobec reklamy (poznawczy, behawioralny, afektywny), zbadano 285 studentów. Zmienne wystandaryzowano i przeprowadzono grupowanie według zmiennych.
Wykres 1. Dentrogram – podział na klasy zmiennych, wykonano w programie XlStat
Tabela 1. Podział wariancji
Absolute |
Percent |
|
Within-class |
139,251 |
64,26% |
Between-classes |
77,453 |
35,74% |
Total |
216,704 |
100,00% |
Większy odsetek wariancji przypada na zmienność wewnątrzgrupową, niż międzygrupową.
Wykres 2. Dendrogram – skupienia z uwzględnieniem zmiennych. Wykonano w programie XlStat.
Tabela 2. Wynik grupowania
Class |
1 |
2 |
3 |
Objects |
9 |
7 |
4 |
Sum of weights |
9 |
7 |
4 |
Within-class variance |
144,223 |
144,653 |
115,190 |
Minimum distance to centroid |
7,231 |
7,200 |
7,484 |
Average distance to centroid |
11,074 |
10,757 |
9,102 |
Maximum distance to centroid |
14,502 |
15,939 |
12,305 |
zm1 - poznawczy |
zm3 - poznawczy |
zm15 - afektywny |
|
zm2 - poznawczy |
zm4 - poznawczy |
zm16 - afektywny |
|
zm5 - behawioralny |
zm8 - poznawczy |
zm17 - afektywny |
|
zm6 - behawioralny |
zm9 – poznawczy |
zm18 - afektywny |
|
zm7 – behawioralny |
zm11 - poznawczy |
||
zm10 – behawioralny |
zm13 - afektywny |
||
zm12 - behawioralny |
zm20 - afektywny |
||
zm14 behawioralny |
|||
zm19 - behawioralny |
Skupienia 1 i 2 charakteryzują się podobną wariancją, skupienie 3 jest relatywnie najbardziej jednorodne, składa się ono tylko z 4 zmiennych. Na grafie dendrogramu skupienie 3 jest oznaczone kolorem czerwonym. Minimalne dystanse do centrum skupienia są podobne w przypadku każdego ze skupień i zbliżone do 7. Średni dystans do centrum skupienia jest największy w skupieniu 1 (niebieska część dendrogramu), które jest największym skupieniem. Najmniejszy dystans dotyczy skupienia trzeciego – najmniejszego, w którym także najmniejszy jest dystans maksymalny. Największy maksymalny dystans do środka skupienia dotyczy skupienia drugiego – zielona część dendrogramu.
Reasumując analiza skupień wyodrębniła afektywny i behawioralny składnik postawy. Składnik poznawczy jest klasyfikowany razem z behawioralnym i afektywnym. Na podstawie przeprowadzonego badania nie sposób wyodrębnić w sposób klarowny poznawczego komponentu postawy wobec reklamy.
Bibliografia
Migut, G. (2009). Zastosowanie technik analizy skupień i drzew decyzyjnych do segmentacji rynku. W: Zastosowanie nowoczesnej analizy danych w marketingu i badaniach rynku. Kraków: Wyd. StatSoft, s. 75-92
Zakrzewska, M. (2004). Miary podobieństwa i odległości dla danych ilościowych wykorzystywane przez SPSS w analizie skupień. W: Metodologia badań psychologicznych, J. Brzeziński (red.), Warszawa: PWN, s. 506 – 559