Apache Storm comparé à Hadoop
comment Storm se compare-t-elle à Hadoop? Hadoop semble être la norme de facto pour le traitement par lots open-source à grande échelle, est-ce que Storm a des avantages par rapport à hadoop? ou Sont-ils complètement différents?
6 réponses
pourquoi ne pas donner votre avis?
- http://www.infoq.com/news/2011/09/twitter-storm-real-time-hadoop/
- http://engineering.twitter.com/2011/08/storm-is-coming-more-details-and-plans.html
Twitter Storm a été présenté comme un Hadoop en temps réel. C'est plus une question de marketing pour une consommation facile.
ils sont superficiellement similaires puisque les deux sont des solutions d'application distribuées. Hormis des éléments architecturaux typiques distribués comme maître / esclave, coordination basée sur le zokeeper, me comparaison tombe de la falaise.
Twitter est plus comme une pipline pour le traitement des données comme il vient. Le tube est ce qui connecte divers noeuds de calcul qui reçoivent des données, calculent et délivrent la sortie. (Il y a le jargon du jargon et des boulons) étendez cette analogie à un câblage de pipeline complexe qui peut être modifié au besoin et vous obtenez Twitter Tempête.
En coquille de noix il traite les données comme il vient. Il n'y a pas de latence.
Hadoop cependant est différent à cet égard principalement en raison de HDFS. Il s'agit d'une solution conçue pour le stockage distribué et la tolérance aux pannes de plusieurs balances (disques, machines, rayonnages, etc.)
M / R est construit pour tirer parti de la localisation des données sur HDFS pour distribuer des travaux de calcul. Ensemble, ils ne permettent pas de traiter des données en temps réel. Mais ce n'est pas toujours une exigence lorsque vous consultez de grandes données. (l'aiguille dans la botte de foin analogie)
en bref, Twitter Storm est une solution distribuée de traitement de données en temps réel. Je ne pense pas que nous devrions comparer. Twitter l'a construit parce qu'il avait besoin d'une installation pour traiter les petits tweets mais un nombre énorme d'entre eux et en temps réel.
Voir: HStreaming si vous êtes obligé de le comparer avec quelque chose
fondamentalement, les deux sont utilisés pour l'analyse de big data, mais Storm est utilisé pour le traitement en temps réel tandis que Hadoop est utilisé pour le traitement par lots.
C'est une très bonne introduction à Storm que j'ai trouvé: Cliquez ici
plutôt que d'être comparées, elles sont supposées se compléter les unes les autres en ayant maintenant le traitement batch + real-time (pseudo-real time). Il y a une présentation vidéo correspondante - Ted Dunning sur la tempête de Twitter
j'utilise Storm depuis un certain temps et maintenant j'ai arrêté cette technologie vraiment bonne pour une technologie étonnante : Spark (http://spark.apache.org) qui fournit au développeur une API unifiée pour le traitement par lots ou en continu (micro-lots) ainsi que pour l'apprentissage machine et le traitement graphique.
vaut la peine d'essayer.
Tempête est Rapide de Données (temps réel) et Hadoop est pour le Big data(pré-existantes des tonnes de données). Storm ne peut pas traiter les données volumineuses, mais il peut générer des données volumineuses en sortie.
Apache Storm est un système de calcul distribué en temps réel libre et open source. Storm facilite le traitement fiable de flux de données illimités, faisant pour le traitement en temps réel ce que Hadoop a fait pour le traitement par lots.
Hadoop MapReduce est efficace pour le traitement par lots d'un travail parfois. C'est la raison pour laquelle Hadoop est largement utilisé comme outil d'entreposage de données plutôt que comme outil d'analyse de données.
puisque la question est liée à seulement"Tempête" et " Hadoop", ont un coup d'oeil à cas D'utilisation de la tempête
jetez un oeil à cette article de dezyre pour la comparaison entre Hadoop, Storm et Spark. Il explique les similitudes et les différences.