Qu'est-ce que le Dremel de Google? En quoi est-ce différent de Mapreduce?

Le Dremel de Google est décrit ici . Quelle est la différence entre Dremel et Mapreduce?

22
demandé sur Kara 2011-07-07 12:03:39

3 réponses

Vérifiez cet article . Dremel est ce que l'avenir de hive devrait (et sera) être.

Le problème majeur de MapReduce et des solutions en plus, comme Pig, Hive etc, est qu'ils ont une latence inhérente entre l'exécution du travail et l'obtention de la réponse. Dremel utilise une approche totalement nouvelle (est sorti en 2010 dans cet article de google) qui...

...utilise un nouveau moteur d'exécution de requête basé sur des arborescences d'agrégateur...

... pour exécuter presque en temps réel , les requêtes interactives et adhoc que MapReduce ne peut pas faire. Et Pig et Hive ne sont pas temps réel

Vous devriez garder un œil sur les projets qui en sortent. Est est assez nouveau pour moi aussi... donc, tous les autres commentaires d'experts sont les bienvenus!

Edit: Dremel est ce que l'avenir de RUCHE (et pas MapReduce comme je l'ai mentionné avant) devrait être. Hive fournit maintenant une interface de type SQL pour exécuter des tâches MapReduce. Hive a une latence très élevée, et n'est donc pas pratique dans l'analyse de données ad hoc. Dremel fournit une interface de type SQL très rapide aux données en utilisant une technique différente de MapReduce.

18
répondu Jai 2011-07-07 11:59:23

Dremel et MapReduce ne sont pas directement comparables, mais plutôt qu'ils sont des technologies complémentaires.

MapReduce n'est pas spécialement conçu pour analyser les données - c'est plutôt un framework logiciel qui permet à une collection de nœuds de résoudre les problèmes de calcul distribués pour les grands ensembles de données.

Dremel est un outil d'analyse de données conçu pour exécuter rapidement des requêtes sur des ensembles de données massifs et structurés (tels que des fichiers de journaux ou d'événements). Il prend en charge une syntaxe de type SQL, mais en dehors du tableau ajoute, il est en lecture seule. Il ne prend pas en charge la mise à jour ou la création de fonctions, ni ne comporte d'index de table. Les données sont organisées dans un format "colonnaire", ce qui contribue à une vitesse de requête très rapide. Le produit BigQuery de Google est une implémentation de Dremel accessible via L'API RESTful.

Hadoop (une implémentation open source de MapReduce) en conjonction avec le logiciel d'entrepôt de données "Hive", permet également l'analyse de données pour des ensembles de données massifs en utilisant une syntaxe de style SQL. Ruche transforme essentiellement les requêtes en fonctions MapReduce. Contrairement à L'utilisation D'un format ColumIO, Hive tente de rendre les requêtes rapides en utilisant des techniques telles que l'indexation de table.

34
répondu Michael Manoochehri 2012-01-27 05:13:07

MapReduce est un algorithme abstrait pour diviser un problème, le distribuer et combiner les résultats. Dremel semble être un outil spécifique pour interroger et analyser des ensembles de données.

3
répondu Jim Deville 2011-07-07 08:06:50