Grupowanie hierarchiczne a częściowe

Klastrowanie jest techniką uczenia maszynowego do analizy danych i dzielenia ich na grupy podobnych danych. Te grupy lub zestawy podobnych danych są znane jako klastry. Analiza skupień analizuje algorytmy klastrowania, które mogą automatycznie identyfikować klastry. Hierarchiczna i częściowa to dwie takie klasy algorytmów klastrowych. Hierarchiczne algorytmy grupowania dzielą dane na hierarchię klastrów. Algorytmy warunkowe dzielą zestaw danych na wzajemnie rozłączne partycje.

Co to jest hierarchiczne grupowanie?

Hierarchiczne algorytmy grupowania powtarzają cykl łączenia mniejszych klastrów w większe lub dzielenia większych klastrów na mniejsze. Tak czy inaczej, tworzy hierarchię klastrów zwaną dendogramem. Strategia grupowania aglomeracyjnego wykorzystuje podejście oddolne polegające na łączeniu klastrów w większe, natomiast strategia grupowania dzielącego wykorzystuje podejście odgórne polegające na dzieleniu na mniejsze. Zazwyczaj chciwe podejście jest stosowane przy podejmowaniu decyzji, które większe / mniejsze klastry są używane do łączenia / dzielenia. Odległość euklidesowa, odległość Manhattanu i podobieństwo kosinusowe to jedne z najczęściej używanych miar podobieństwa danych liczbowych. W przypadku danych nienumerycznych stosuje się takie miary, jak odległość Hamminga. Należy zauważyć, że rzeczywiste obserwacje (instancje) nie są potrzebne do grupowania hierarchicznego, ponieważ wystarczająca jest tylko matryca odległości. Dendogram to wizualna reprezentacja klastrów, która bardzo wyraźnie pokazuje hierarchię. Użytkownik może uzyskać różne grupowanie w zależności od poziomu cięcia dendogramu.

Co to jest klastrowanie częściowe?

Algorytmy klastrowania częściowego generują różne partycje, a następnie oceniają je według pewnego kryterium. Są one również określane jako niehierarchiczne, ponieważ każda instancja jest umieszczona w dokładnie jednym z k wzajemnie wykluczających się klastrów. Ponieważ tylko jeden zestaw klastrów jest wynikiem typowego algorytmu klastrowania częściowego, użytkownik musi wprowadzić żądaną liczbę klastrów (zwykle nazywaną k). Jednym z najczęściej używanych algorytmów klastrowania częściowego jest algorytm klastrowania k-średnich. Użytkownik musi podać liczbę klastrów (k) przed uruchomieniem, a algorytm najpierw inicjuje środki (lub centroidy) k partycji. W skrócie, algorytm k-średnich klastrów przypisuje następnie elementy na podstawie bieżących centrów i ponownie szacuje centra na podstawie bieżących elementów. Te dwa etapy są powtarzane do momentu zoptymalizowania określonej funkcji celu podobieństwa wewnątrz klastra i funkcji celu podobieństwa między klastrami. Dlatego rozsądna inicjalizacja centrów jest bardzo ważnym czynnikiem w uzyskiwaniu wyników jakościowych z algorytmów klastrowania częściowego.

Jaka jest różnica między grupowaniem hierarchicznym a częściowym?

Klastry hierarchiczne i częściowe mają kluczowe różnice w czasie działania, założeniach, parametrach wejściowych i wynikowych klastrach. Zazwyczaj klastrowanie częściowe jest szybsze niż klastrowanie hierarchiczne. Klastrowanie hierarchiczne wymaga jedynie miary podobieństwa, natomiast klastrowanie częściowe wymaga silniejszych założeń, takich jak liczba klastrów i centra początkowe. Klastrowanie hierarchiczne nie wymaga żadnych parametrów wejściowych, natomiast algorytmy klastrowania częściowego wymagają do uruchomienia liczby klastrów. Klastrowanie hierarchiczne zwraca znacznie bardziej znaczący i subiektywny podział klastrów, ale klastrowanie częściowe daje dokładnie k klastrów. Hierarchiczne algorytmy grupowania są bardziej odpowiednie dla danych kategorycznych, o ile można odpowiednio zdefiniować miarę podobieństwa.