preguntar acerca de apache-spark
3
réponses
Utiliser reduceByKey dans Apache Spark (Scala)
j'ai une liste de Tuples de type : (identifiant, nom, comte de).
Par exemple,
val x = sc.parallelize(List(
("a", "b", 1),
("a", "b", 1),
("c", "b", 1),
("a", "d", 1))
)
j'essaie de réduire cette collection à un type où chaque
no …
demandé sur
1970-01-01 00:33:34
4
réponses
Spark: produire RDD [(X, X)] de toutes les combinaisons possibles à partir de RDD[X]
Est-il possible d'Étincelle à mettre en œuvre."la fonction des combinaisons des collections scala?
/** Iterates over combinations.
*
* @return An Iterator which traverses the possible n-element combinations of this $coll.
* @example …
demandé sur
1970-01-01 00:33:34
7
réponses
Comment charger IPython shell avec PySpark
je veux charger IPython shell (pas IPython notebook) dans lequel je peux utiliser PySpark en ligne de commande. Est-ce possible?
J'ai installé Spark-1.4.1.
... …
demandé sur
1970-01-01 00:33:35
6
réponses
Comment configurer Intellij 14 feuille de travail Scala pour lancer Spark
j'essaie de créer un SparkContext dans une feuille de travail Intellij 14 Scala.
voici mon dépendances
name := "LearnSpark"
version := "1.0"
scalaVersion := "2.11.7"
// for working with Spark API
libraryDependencies += "org.apache.spark" %% "spark- …
demandé sur
1970-01-01 00:33:35
4
réponses
Spark Context Textfile: charger plusieurs fichiers
j'ai besoin de traiter plusieurs fichiers dispersés sur différents annuaires. Je voudrais charger tout cela dans un RDD simple et puis effectuer la carte/réduire sur elle. Je vois que SparkContext est capable de charger plusieurs fichiers à partir d' …
demandé sur
1970-01-01 00:33:34
4
réponses
Apache Spark vs Apache Ignite
actuellement, j'étudie les cadres Apache spark et apache ignite. Quelques différences de principe entre eux sont décrites dans cet article enflammer vs étincelle
Mais j'ai réalisé que je ne comprends toujours pas leurs buts. Je veux dire pour quels p …
demandé sur
1970-01-01 00:33:36
6
réponses
Comment convertir Unix timestamp en date en Spark
j'ai une base de données avec une colonne de timestamp unix(par ex.1435655706000), et je veux le convertir en données avec le format 'AAAA-MM-JJ', j'ai essayé nscala-time mais cela ne fonctionne pas.
val time_col = sqlc.sql("select ts from mr").ma …
demandé sur
1970-01-01 00:33:35
6
réponses
Exécution du programme Spark job
j'ai une tâche Spark qui lit une table source, fait un certain nombre de map / aplatir / réduire les opérations et puis stocke les résultats dans une table séparée que nous utilisons pour la déclaration. Actuellement ce travail est exécuté manuelleme …
demandé sur
1970-01-01 00:33:35
1
réponses
Filtrage de DataFrame en utilisant la longueur d’une colonne
je veux filtre DataFrame en utilisant une condition liée à la longueur d'une colonne, cette question pourrait être très facile, mais je n'ai pas trouvé de question liée dans le SO.
plus précisément, j'ai un DataFrame avec un seul ColumnArrayType(S …
demandé sur
1970-01-01 00:33:35
3
réponses
Spark DataFrame GROUP BY et trier dans l’ordre décroissant (pyspark)
j'utilise pyspark (Python 2.7.9/Spark 1.3.1) et j'ai un objet de groupe dataframe que je dois filtrer et trier dans l'ordre décroissant. Essaie de l'atteindre par le biais de ce morceau de code.
group_by_dataframe.count().filter("`count` >= 10") …
demandé sur
1970-01-01 00:33:35