preguntar acerca de apache-spark
1
réponses
Spark / Scala: remplissage en avant avec la dernière observation
En Utilisant Spark 1.4.0, Scala 2.10
J'ai essayé de trouver un moyen de transférer les valeurs null avec la dernière observation connue, mais je ne vois pas un moyen facile. Je pense que c'est une chose assez commune à faire, mais je ne trouve pas d …
demandé sur
1970-01-01 00:33:35
2
réponses
Comment aplatir une collection avec Spark / Scala?
Dans Scala, je peux aplatir une collection en utilisant:
val array = Array(List("1,2,3").iterator,List("1,4,5").iterator)
//> array : Array[Iterator[String]] = Array(non-empty iterator, non-empt …
demandé sur
1970-01-01 00:33:34
2
réponses
Spark RDD — comment fonctionnent-ils
J'ai un petit programme Scala qui fonctionne bien sur un seul nœud. Cependant, je le redimensionne pour qu'il fonctionne sur plusieurs nœuds. C'est ma première tentative de ce genre. J'essaie juste de comprendre comment les RDDs fonctionnent dans Spa …
demandé sur
1970-01-01 00:33:34
4
réponses
Comment sauvegarder une DataFrame sous forme compressée (gzipped) CSV?
J'utilise Spark 1.6.0 et Scala.
je veux enregistrer une base de données en format CSV compressé.
Voici ce que j'ai jusqu'à présent (j'ai déjà df et scSparkContext):
//set the conf to the codec I want
sc.getConf.set("spark.hadoop.mapred.output.com …
demandé sur
1970-01-01 00:33:36
4
réponses
Pourquoi SparkContext se ferme-t-il au hasard, et comment le redémarre-t-on à partir de Zeppelin?
je travaille dans Zeppelin en écrivant des requêtes spark-sql et parfois je commence soudainement à recevoir cette erreur (après ne pas avoir changé de code):
Cannot call methods on a stopped SparkContext.
puis le résultat dit plus bas:
The curr …
demandé sur
1970-01-01 00:33:36
1
réponses
pyspark en utilisant une tâche pour les mapPartitions lors de la conversion rdd en dataframe
Je ne comprends pas pourquoi il semble que Spark utilise 1 tâche pour rdd.mapPartitions lors de la conversion du RDD résultant en une base de données.
C'est un problème pour moi parce que je voudrais faire :
DataFrame --> RDD--> rdd.mapParti …
demandé sur
1970-01-01 00:33:36
3
réponses
Extrait de la matrice document-sujet du modèle Lda de Pyspark
j'ai formé avec succès un modèle LDA en spark, via L'API Python:
from pyspark.mllib.clustering import LDA
model=LDA.train(corpus,k=10)
cela fonctionne tout à fait bien, mais j'ai maintenant besoin de la document - matrice des sujets pour le modèl …
demandé sur
1970-01-01 00:33:35
1
réponses
Exception avec la Table identifiée via AWS Glue Crawler et stockée dans Le Catalogue de données
je travaille à construire le nouveau lac de données de la compagnie et essaye de trouver la meilleure et la plus récente option pour travailler ici.
J'ai donc trouvé une bonne solution pour travailler avec EMR + S3 + Athena + Glue.
Le processus que …
demandé sur
1970-01-01 00:33:37
7
réponses
Pyspark —PY-files ne fonctionne pas
j'ai utiliser ce document suggère http://spark.apache.org/docs/1.1.1/submitting-applications.html
spsark version 1.1.0
./spark/bin/spark-submit --py-files /home/hadoop/loganalysis/parser-src.zip
/home/hadoop/loganalysis/ship-test.py
et conf da …
demandé sur
1970-01-01 00:33:34
8
réponses
Obtenir CSV à Spark dataframe
j'utilise python sur Spark et je voudrais mettre un csv dans une dataframe.
documentation pour le Spark SQL étrangement ne fournit pas d'explications pour le CSV comme une source.
j'ai trouvé Spark-CSV cependant j'ai des problèmes avec les deux p …
demandé sur
1970-01-01 00:33:35