preguntar acerca de apache-spark

3
réponses

Utiliser reduceByKey dans Apache Spark (Scala)

j'ai une liste de Tuples de type : (identifiant, nom, comte de). Par exemple, val x = sc.parallelize(List( ("a", "b", 1), ("a", "b", 1), ("c", "b", 1), ("a", "d", 1)) ) j'essaie de réduire cette collection à un type où chaque no …
demandé sur 1970-01-01 00:33:34
4
réponses

Spark: produire RDD [(X, X)] de toutes les combinaisons possibles à partir de RDD[X]

Est-il possible d'Étincelle à mettre en œuvre."la fonction des combinaisons des collections scala? /** Iterates over combinations. * * @return An Iterator which traverses the possible n-element combinations of this $coll. * @example …
demandé sur 1970-01-01 00:33:34
7
réponses

Comment charger IPython shell avec PySpark

je veux charger IPython shell (pas IPython notebook) dans lequel je peux utiliser PySpark en ligne de commande. Est-ce possible? J'ai installé Spark-1.4.1. ... …
demandé sur 1970-01-01 00:33:35
6
réponses

Comment configurer Intellij 14 feuille de travail Scala pour lancer Spark

j'essaie de créer un SparkContext dans une feuille de travail Intellij 14 Scala. voici mon dépendances name := "LearnSpark" version := "1.0" scalaVersion := "2.11.7" // for working with Spark API libraryDependencies += "org.apache.spark" %% "spark- …
demandé sur 1970-01-01 00:33:35
4
réponses

Spark Context Textfile: charger plusieurs fichiers

j'ai besoin de traiter plusieurs fichiers dispersés sur différents annuaires. Je voudrais charger tout cela dans un RDD simple et puis effectuer la carte/réduire sur elle. Je vois que SparkContext est capable de charger plusieurs fichiers à partir d' …
demandé sur 1970-01-01 00:33:34
4
réponses

Apache Spark vs Apache Ignite

actuellement, j'étudie les cadres Apache spark et apache ignite. Quelques différences de principe entre eux sont décrites dans cet article enflammer vs étincelle Mais j'ai réalisé que je ne comprends toujours pas leurs buts. Je veux dire pour quels p …
demandé sur 1970-01-01 00:33:36
6
réponses

Comment convertir Unix timestamp en date en Spark

j'ai une base de données avec une colonne de timestamp unix(par ex.1435655706000), et je veux le convertir en données avec le format 'AAAA-MM-JJ', j'ai essayé nscala-time mais cela ne fonctionne pas. val time_col = sqlc.sql("select ts from mr").ma …
demandé sur 1970-01-01 00:33:35
6
réponses

Exécution du programme Spark job

j'ai une tâche Spark qui lit une table source, fait un certain nombre de map / aplatir / réduire les opérations et puis stocke les résultats dans une table séparée que nous utilisons pour la déclaration. Actuellement ce travail est exécuté manuelleme …
demandé sur 1970-01-01 00:33:35
1
réponses

Filtrage de DataFrame en utilisant la longueur d’une colonne

je veux filtre DataFrame en utilisant une condition liée à la longueur d'une colonne, cette question pourrait être très facile, mais je n'ai pas trouvé de question liée dans le SO. plus précisément, j'ai un DataFrame avec un seul ColumnArrayType(S …
demandé sur 1970-01-01 00:33:35
3
réponses

Spark DataFrame GROUP BY et trier dans l’ordre décroissant (pyspark)

j'utilise pyspark (Python 2.7.9/Spark 1.3.1) et j'ai un objet de groupe dataframe que je dois filtrer et trier dans l'ordre décroissant. Essaie de l'atteindre par le biais de ce morceau de code. group_by_dataframe.count().filter("`count` >= 10") …
demandé sur 1970-01-01 00:33:35