Apache spark peut-il fonctionner sans hadoop?

il n'y a aucune dépendance entre l'Étincelle et Hadoop ?

si ce n'est pas le cas, y a-t-il des fonctionnalités que je manquerai quand je lancerai "Spark sans Hadoop ?

56
demandé sur Backtrack 2015-08-15 09:51:25

8 réponses

Spark peut fonctionner sans Hadoop mais certaines de ses fonctionnalités repose sur le code de Hadoop (par exemple la manipulation de fichiers de Parquet). Nous exécutons Spark sur Mesos et S3 qui était un peu délicat à configurer mais fonctionne vraiment bien une fois fait (vous pouvez lire un résumé de ce qu'il fallait pour bien le configurer ici ).

28
répondu Arnon Rotem-Gal-Oz 2015-08-15 12:00:06

Spark est un moteur de calcul distribué en mémoire.

Hadoop est un cadre pour le stockage distribué ( HDFS ) et le traitement distribué ( fils ).

Étincelle peut fonctionner avec ou sans composants Hadoop (HDFS/FILS)


distribué Stockage:

étant donné que Spark n'a pas son propre système de stockage distribué, il doit dépendre de l'un de ces systèmes de stockage pour le calcul distribué.

S3 – travaux par lots Non urgents. S3 correspond à des cas d'utilisation très spécifiques lorsque la localisation des données n'est pas critique.

Cassandra - parfait pour l'analyse de données en streaming et un surmenage pour des jobs batch.

HDFS – grand ajustement pour les travaux par lots sans compromis sur la localisation des données.


traitement distribué:

vous pouvez lancer Spark dans trois modes différents: Standalone, fils et Mesos

regardez la question SE ci-dessous pour une explication détaillée sur les deux stockage distribué et traitement distribué.

quel type de cluster choisir pour Spark?

63
répondu Ravindra babu 2017-05-23 12:26:35

par défaut , Spark n'a pas de mécanisme de stockage.

pour stocker des données, il a besoin d'un système de fichiers rapide et évolutif. Vous pouvez utiliser S3 ou HDFS ou tout autre système de fichiers. Hadoop est une option économique en raison de son faible coût.

en outre, si vous utilisez Tachyon, il augmentera les performances avec Hadoop. Il est fortement recommandé Hadoop pour Apache spark traitement. enter image description here

17
répondu Venu A Positive 2017-07-13 20:45:57

Oui, spark peut fonctionner sans hadoop. Toutes les fonctionnalités du noyau spark continueront à fonctionner, mais vous manquerez des choses comme la distribution facile de tous vos fichiers (code ainsi que des données) à tous les noeuds du cluster via hdfs, etc.

3
répondu quantum_random 2015-08-15 07:28:46

Oui, vous pouvez installer l'Étincelle sans Hadoop. Que serait un peu délicat Vous pouvez utiliser arnon link pour utiliser parquet pour configurer sur S3 comme stockage de données. http://arnon.me/2015/08/spark-parquet-s3/

Spark est seulement faire le traitement et il utilise la mémoire dynamique pour effectuer la tâche, mais pour stocker les données que vous avez besoin d'un certain système de stockage de données. Ici hadoop vient dans le rôle avec Spark, il fournit le stockage pour Spark. Une raison de plus pour utiliser Hadoop avec Spark est ils sont open source et les deux peuvent s'intégrer facilement comme comparer à d'autres systèmes de stockage de données. Pour un autre stockage comme S3, vous devriez être difficile à configurer comme mention dans le lien ci-dessus.

mais Hadoop a aussi son unité de traitement appelée Mapreduce.

vous voulez savoir la différence dans les deux?

vérifier cet article: https://www.dezyre.com/article/hadoop-mapreduce-vs-apache-spark-who-wins-the-battle/83

je pense que cet article vous aidera à comprendre

  • ce que,

  • quand utiliser et

  • comment utiliser !!!

2
répondu Abhijit Kumar 2016-01-17 00:47:55

comme dans la documentation Spark, Spark peut fonctionner sans Hadoop.

vous pouvez l'exécuter en mode autonome sans aucun gestionnaire de ressources.

mais si vous voulez exécuter dans la configuration multi-noeuds, vous avez besoin d'un gestionnaire de ressources comme YARN ou Mesos et d'un système de fichiers distribués comme HDFS,S3 etc.

2
répondu user2359003 2017-06-07 15:38:16

Oui, bien sûr. Spark est un cadre de calcul indépendant. Hadoop est un système de stockage de distribution(HDFS) avec MapReduce cadre de calcul. Spark peut obtenir des données à partir de HDFS, ainsi que toute autre source de données comme la base de données traditionnelle(JDBC), kafka ou même disque local.

0
répondu ssnijik 2015-08-18 15:12:26

Pas de. Il nécessite une installation Hadoop complète pour commencer à travailler - https://issues.apache.org/jira/browse/SPARK-10944

-3
répondu user1391095 2015-10-09 09:40:25