preguntar acerca de apache-spark

1
réponses

Spark / Scala: remplissage en avant avec la dernière observation

En Utilisant Spark 1.4.0, Scala 2.10 J'ai essayé de trouver un moyen de transférer les valeurs null avec la dernière observation connue, mais je ne vois pas un moyen facile. Je pense que c'est une chose assez commune à faire, mais je ne trouve pas d …
demandé sur 1970-01-01 00:33:35
2
réponses

Comment aplatir une collection avec Spark / Scala?

Dans Scala, je peux aplatir une collection en utilisant: val array = Array(List("1,2,3").iterator,List("1,4,5").iterator) //> array : Array[Iterator[String]] = Array(non-empty iterator, non-empt …
demandé sur 1970-01-01 00:33:34
2
réponses

Spark RDD — comment fonctionnent-ils

J'ai un petit programme Scala qui fonctionne bien sur un seul nœud. Cependant, je le redimensionne pour qu'il fonctionne sur plusieurs nœuds. C'est ma première tentative de ce genre. J'essaie juste de comprendre comment les RDDs fonctionnent dans Spa …
demandé sur 1970-01-01 00:33:34
4
réponses

Comment sauvegarder une DataFrame sous forme compressée (gzipped) CSV?

J'utilise Spark 1.6.0 et Scala. je veux enregistrer une base de données en format CSV compressé. Voici ce que j'ai jusqu'à présent (j'ai déjà df et scSparkContext): //set the conf to the codec I want sc.getConf.set("spark.hadoop.mapred.output.com …
demandé sur 1970-01-01 00:33:36
4
réponses

Pourquoi SparkContext se ferme-t-il au hasard, et comment le redémarre-t-on à partir de Zeppelin?

je travaille dans Zeppelin en écrivant des requêtes spark-sql et parfois je commence soudainement à recevoir cette erreur (après ne pas avoir changé de code): Cannot call methods on a stopped SparkContext. puis le résultat dit plus bas: The curr …
demandé sur 1970-01-01 00:33:36
1
réponses

pyspark en utilisant une tâche pour les mapPartitions lors de la conversion rdd en dataframe

Je ne comprends pas pourquoi il semble que Spark utilise 1 tâche pour rdd.mapPartitions lors de la conversion du RDD résultant en une base de données. C'est un problème pour moi parce que je voudrais faire : DataFrame --> RDD--> rdd.mapParti …
demandé sur 1970-01-01 00:33:36
3
réponses

Extrait de la matrice document-sujet du modèle Lda de Pyspark

j'ai formé avec succès un modèle LDA en spark, via L'API Python: from pyspark.mllib.clustering import LDA model=LDA.train(corpus,k=10) cela fonctionne tout à fait bien, mais j'ai maintenant besoin de la document - matrice des sujets pour le modèl …
demandé sur 1970-01-01 00:33:35
1
réponses

Exception avec la Table identifiée via AWS Glue Crawler et stockée dans Le Catalogue de données

je travaille à construire le nouveau lac de données de la compagnie et essaye de trouver la meilleure et la plus récente option pour travailler ici. J'ai donc trouvé une bonne solution pour travailler avec EMR + S3 + Athena + Glue. Le processus que …
demandé sur 1970-01-01 00:33:37
7
réponses

Pyspark —PY-files ne fonctionne pas

j'ai utiliser ce document suggère http://spark.apache.org/docs/1.1.1/submitting-applications.html spsark version 1.1.0 ./spark/bin/spark-submit --py-files /home/hadoop/loganalysis/parser-src.zip /home/hadoop/loganalysis/ship-test.py et conf da …
demandé sur 1970-01-01 00:33:34
8
réponses

Obtenir CSV à Spark dataframe

j'utilise python sur Spark et je voudrais mettre un csv dans une dataframe. documentation pour le Spark SQL étrangement ne fournit pas d'explications pour le CSV comme une source. j'ai trouvé Spark-CSV cependant j'ai des problèmes avec les deux p …
demandé sur 1970-01-01 00:33:35