preguntar acerca de mapreduce

13
réponses

Enchaîner plusieurs emplois MapReduce dans Hadoop

Dans de nombreuses situations réelles où vous appliquez MapReduce, les algorithmes finaux finissent par être plusieurs étapes MapReduce. C'est-à-dire Map1, Reduce1, Map2, Reduce2, et ainsi de suite. Vous avez donc la sortie de la dernière réduction …
demandé sur 1970-01-01 00:33:30
9
réponses

Quel est le but de mélanger et de trier la phase dans le réducteur dans la programmation Map Reduce?

Dans la programmation Map Reduce, la phase reduce a été mélangée, triée et réduite comme sous-parties. Le tri est une affaire coûteuse. Quel est le but de mélanger et de trier la phase dans le réducteur dans la programmation Map Reduce? ... …
demandé sur 1970-01-01 00:33:34
2
réponses

MongoDB Procédure Stockée Équivalent

J'ai un grand fichier CSV contenant une liste de magasins, dans lequel L'un des champs Est Code Postal. J'ai une base de données MongoDB séparée appelée ZipCodes, qui stocke la latitude et la longitude pour un code postal donné. Dans SQL Server, j'e …
demandé sur 1970-01-01 00:00:00
3
réponses

Qu’est-ce que le Dremel de Google? En quoi est-ce différent de Mapreduce?

Le Dremel de Google est décrit ici . Quelle est la différence entre Dremel et Mapreduce? ... …
demandé sur 1970-01-01 00:33:31
2
réponses

Renommer les fichiers de pièces dans Hadoop Map Reduce

J'ai essayé d'utiliser le MultipleOutputs la classe comme dans l'exemple de la page http://hadoop.apache.org/docs/mapreduce/r0.21.0/api/index.html?org/apache/hadoop/mapreduce/lib/output/MultipleOutputs.html Code Du Pilote Configuration conf = …
demandé sur 1970-01-01 00:33:33
7
réponses

Hadoop entrée split size vs taille de bloc

je passe en revue hadoop guide définitif, où il explique clairement sur les divisions d'entrée. Il va comme les séparations D'entrée ne contiennent pas les données réelles, mais plutôt le stockage les emplacements de données sur HDFS et …
demandé sur 1970-01-01 00:33:33
5
réponses

Modifier la taille du fichier Split dans Hadoop

j'ai un tas de petits fichiers HDFS répertoire. Bien que le volume des dossiers soit relativement petit, le temps de traitement par fichier est énorme. C'est, un 64mb file, qui est la taille de division par défaut pour TextInputFormat, prendrait même …
demandé sur 1970-01-01 00:33:32
6
réponses

Hadoop DistributedCache est déprécié — Quelle est l’API préférée?

Mes tâches de map ont besoin de quelques données de configuration, que je voudrais distribuer via le Cache distribué. Le Hadoop MapReduce Tutorial spectacles utilisation de la classe DistributedCache, à peu près comme suit: // In the driver JobCon …
demandé sur 1970-01-01 00:33:34
10
réponses

Comment obtenir le nom du fichier d’entrée dans le mapper dans un programme Hadoop?

Comment je peux obtenir le nom du fichier d'entrée dans un mappeur? J'ai plusieurs fichiers d'entrée, stocké dans le répertoire d'entrée, chaque mappeur peut lire un fichier différent, et j'ai besoin de savoir quel fichier le mappeur a lire. ... …
demandé sur 1970-01-01 00:33:33
8
réponses

taille des blocs de données en HDFS, pourquoi 64 Mo?

la taille par défaut des blocs de données de HDFS / hadoop est de 64MB. La taille du bloc dans le disque est généralement 4KB. Qu'est-ce que la taille de bloc de 64 Mo signifie? ->Est-ce que cela signifie que la plus petite unité de lecture à part …
demandé sur 1970-01-01 00:33:33