Regroupement hiérarchique réparti

existe-il des algorithmes qui peuvent aider avec le clustering hiérarchique? La carte de Google-réduire a seulement un exemple de K-clustering. En cas de regroupement hiérarchique, Je ne suis pas sûr comment il est possible de diviser le travail entre les noeuds. Autre ressource que j'ai trouvée:http://issues.apache.org/jira/browse/MAHOUT-19 Mais ce n'est pas évident, quels algorithmes sont utilisés.

21
demandé sur cynicalman 2008-09-17 20:00:53

5 réponses

tout d'Abord, vous devez décider si vous allez construire votre hiérarchie bottom-up ou top-down.

Bottom-up est appelé clustering hiérarchique agglomérative. Voici un algorithme simple et bien documenté: http://nlp.stanford.edu/IR-book/html/htmledition/hierarchical-agglomerative-clustering-1.html.

distribuer un algorithme ascendant est délicat parce que chaque processus distribué a besoin de l'ensemble complet de données pour faire des choix sur les clusters appropriés. Il il faut aussi une liste de clusters à son niveau actuel pour qu'il n'ajoute pas de point de données à plus d'un cluster au même niveau.

la construction hiérarchique descendante s'appelle clustering Divisive. K-signifie est une option pour décider comment diviser les noeuds de votre hiérarchie. Cet article se penche sur les moyennes de K et le partitionnement diviseur de Direction principale (PDDP) pour la division de noeuds.: http://scgroup.hpclab.ceid.upatras.gr/faculty/stratis/Papers/tm07book.pdf