preguntar acerca de mapreduce
13
réponses
Enchaîner plusieurs emplois MapReduce dans Hadoop
Dans de nombreuses situations réelles où vous appliquez MapReduce, les algorithmes finaux finissent par être plusieurs étapes MapReduce.
C'est-à-dire Map1, Reduce1, Map2, Reduce2, et ainsi de suite.
Vous avez donc la sortie de la dernière réduction …
demandé sur
1970-01-01 00:33:30
9
réponses
Quel est le but de mélanger et de trier la phase dans le réducteur dans la programmation Map Reduce?
Dans la programmation Map Reduce, la phase reduce a été mélangée, triée et réduite comme sous-parties. Le tri est une affaire coûteuse.
Quel est le but de mélanger et de trier la phase dans le réducteur dans la programmation Map Reduce? ... …
demandé sur
1970-01-01 00:33:34
2
réponses
MongoDB Procédure Stockée Équivalent
J'ai un grand fichier CSV contenant une liste de magasins, dans lequel L'un des champs Est Code Postal.
J'ai une base de données MongoDB séparée appelée ZipCodes, qui stocke la latitude et la longitude pour un code postal donné.
Dans SQL Server, j'e …
demandé sur
1970-01-01 00:00:00
3
réponses
Qu’est-ce que le Dremel de Google? En quoi est-ce différent de Mapreduce?
Le Dremel de Google est décrit ici . Quelle est la différence entre Dremel et Mapreduce? ... …
demandé sur
1970-01-01 00:33:31
2
réponses
Renommer les fichiers de pièces dans Hadoop Map Reduce
J'ai essayé d'utiliser le MultipleOutputs la classe comme dans l'exemple de la page http://hadoop.apache.org/docs/mapreduce/r0.21.0/api/index.html?org/apache/hadoop/mapreduce/lib/output/MultipleOutputs.html
Code Du Pilote
Configuration conf = …
demandé sur
1970-01-01 00:33:33
7
réponses
Hadoop entrée split size vs taille de bloc
je passe en revue hadoop guide définitif, où il explique clairement sur les divisions d'entrée.
Il va comme
les séparations D'entrée ne contiennent pas les données réelles, mais plutôt le stockage
les emplacements de données sur HDFS
et
…
demandé sur
1970-01-01 00:33:33
5
réponses
Modifier la taille du fichier Split dans Hadoop
j'ai un tas de petits fichiers HDFS répertoire. Bien que le volume des dossiers soit relativement petit, le temps de traitement par fichier est énorme. C'est, un 64mb file, qui est la taille de division par défaut pour TextInputFormat, prendrait même …
demandé sur
1970-01-01 00:33:32
6
réponses
Hadoop DistributedCache est déprécié — Quelle est l’API préférée?
Mes tâches de map ont besoin de quelques données de configuration, que je voudrais distribuer via le Cache distribué.
Le Hadoop MapReduce Tutorial spectacles utilisation de la classe DistributedCache, à peu près comme suit:
// In the driver
JobCon …
demandé sur
1970-01-01 00:33:34
10
réponses
Comment obtenir le nom du fichier d’entrée dans le mapper dans un programme Hadoop?
Comment je peux obtenir le nom du fichier d'entrée dans un mappeur? J'ai plusieurs fichiers d'entrée, stocké dans le répertoire d'entrée, chaque mappeur peut lire un fichier différent, et j'ai besoin de savoir quel fichier le mappeur a lire.
... …
demandé sur
1970-01-01 00:33:33
8
réponses
taille des blocs de données en HDFS, pourquoi 64 Mo?
la taille par défaut des blocs de données de HDFS / hadoop est de 64MB.
La taille du bloc dans le disque est généralement 4KB.
Qu'est-ce que la taille de bloc de 64 Mo signifie? ->Est-ce que cela signifie que la plus petite unité de lecture à part …
demandé sur
1970-01-01 00:33:33