Analiza skupień inaczej zwana również analizą klasterową (cluster analysis) ma na celu pogrupowanie badanych elementów w podobne do siebie grupy.
Ideą analizy skupień jest takie pogrupowanie badanych osób, aby wedle wyznaczonych kryteriów wyodrębnić podobne do siebie jednostki w oddzielne grupy. Stosowana jest tutaj zasada podobieństwa wewnętrznego i niepodobieństwa zewnętrznego. Innymi słowy, grupowanie polega na takim przyporządkowaniu obiektów do grup, aby wewnątrz każdej z wydzielonych grup jednostki w niej znajdujące się były podobne do siebie, ale różne wyodrębnione grupy były jak najmniej podobne do siebie.
W analizie skupień wybieramy również kryteria, według, których grupujemy obserwacje. Tymi kryteriami są analizowane zmienne. Przykład:
Naukowiec chciał sprawdzić, czy można wykazać różne grupy osób kupujących samochody. Przeprowadził ankietę, w której pytał o to jakimi czynnikami kierują się w głównej mierze przy zakupie samochodów. Przeprowadził analizę skupień, która wyodrębniła (badania hipotetyczne) trzy grupy osób kupujących samochody: I grupa kieruje się prestiżem i mocą silnika; II grupa kieruje się ceną i zużyciem paliwa; III grupa natomiast cechuje się komfortem jazdy i dodatkowymi akcesoriami samochodowymi.
Analiza skupień pozwoliła naukowcowi wykazać, jakie są typy konsumentów kupujących samochody ORAZ jak liczna jest każda z tych grup. Analiza skupień może dostarczać bardzo ciekawych rezultatów, mających przełożenie na podejmowane decyzje zarówno naukowe jak i biznesowe. Oczywiście, nie dla każdych danych analiza skupień dostarczy kilku różnych grup. W zależności od zebranych danych analiza może zaproponować rozwiązanie z tylko jedną grupą obserwacji (bez podziału), ponieważ badane jednostki nie różniły się znacznie między sobą pod względem analizowanych zmiennych.
Najczęściej analizę skupień wykorzystuje się do grupowania badanych obiektów (osób bądź innych jednostek badanych), jednakże można również wykorzystywać tę metodę do grupowania zmiennych. Jednakże w przypadku grupowania zmiennych jest więcej metod mogących służyć ich grupowaniu, np. analiza czynnikowa, skalowanie optymalne. Najczęściej jednak naukowcy wykorzystują analizę skupień do grupowania jednostek badawczych.
Istnieje kilka różnych metod analizy skupień:
Metody hierarchiczne – tworzą skupienia na tej zasadzie, że na każdym poziomie skupienia tworzona jest grupa składająca się z grup otrzymanych w poprzednich krokach łączenia. Poczynając od pojedynczych obserwacji najbardziej podobnych do siebie do coraz to większych grup.
Grupowanie metodą k-średnich – na początku z góry określana jest liczba skupień a algorytm przyporządkowuje poszczególne obserwacje do grup w celu zminimalizowania zmienności wewnątrz skupień a zmaksymalizowania między skupieniami.
Dwustopniowa analiza skupień – metoda rzadziej opisywana jednakże bardzo dobra w eksploracyjnej analizie skupień. Metoda sama automatycznie proponuje najlepsze rozwiązanie: liczba skupień, pozwala na analizę zarówno zmiennych o charakterze ilościowym jak i nominalnym.
Analiza skupień Wasze opinie