preguntar acerca de apache-spark-sql

5
réponses

Comment définir le partitionnement de DataFrame?

J'ai commencé à utiliser Spark SQL et DataFrames dans Spark 1.4.0. Je veux définir un partitionneur personnalisé sur les DataFrames, dans Scala, mais je ne vois pas comment le faire. L'une des tables de données avec lesquelles je travaille contient …
demandé sur 1970-01-01 00:33:35
8
réponses

Spark-charger le fichier CSV en tant que DataFrame?

Je voudrais lire un CSV dans spark et le convertir en DataFrame et le stocker dans HDFS avec df.registerTempTable("table_name") J'ai essayé: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Erreur que j'ai eu: java.lang.Runt …
demandé sur 1970-01-01 00:33:35
3
réponses

Renommer les noms de colonnes d’un DataFrame dans Spark Scala

J'essaie de convertir tous les en-têtes / noms de colonnes d'un DataFrame dans Spark-Scala. maintenant je viens avec code suivant qui ne remplace qu'un seul nom de colonne. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.col …
demandé sur 1970-01-01 00:33:36
5
réponses

Extraire les valeurs de colonne de Dataframe en tant que liste dans Apache Spark

Je voudrais convertir une colonne de chaîne d'un dataframe en une liste. Ce que je peux trouver à partir de l'API Dataframe est RDD, j'ai donc essayé de le convertir en RDD en premier, puis d'appliquer la fonction toArray au RDD. Dans ce cas, la long …
demandé sur 1970-01-01 00:33:35
4
réponses

Mise à jour d’une colonne dataframe dans spark

En regardant la nouvelle api spark dataframe, on ne sait pas s'il est possible de modifier les colonnes dataframe. Comment pourrais-je changer une valeur dans la ligne x colonne y d'un dataframe? Dans pandas ce serait df.ix[x,y] = new_value Edit: …
demandé sur 1970-01-01 00:33:35
4
réponses

Convertir la chaîne pyspark au format de date

J'ai un dataframe date pyspark avec une colonne de chaîne au format MM-dd-yyyy et j'essaie de le convertir en une colonne de date. J'ai essayé: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() Et je reçois une chaîne de nulls. Que …
demandé sur 1970-01-01 00:33:36
2
réponses

Inclure des valeurs null dans une jointure Apache Spark

Je voudrais inclure des valeurs null dans une jointure Apache Spark. Spark n'inclut pas les lignes avec null par défaut. Voici le comportement D'étincelle par défaut. val numbersDf = Seq( ("123"), ("456"), (null), ("") ).toDF("numbers") v …
demandé sur 1970-01-01 00:33:37
1
réponses

Aplatir les rangées dans Spark

Je fais des tests pour spark en utilisant scala. Nous lisons généralement les fichiers json qui doivent être manipulés comme l'exemple suivant: Test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json") Comment puis-je le conve …
demandé sur 1970-01-01 00:33:35
4
réponses

Comment puis-je trouver la taille D’un RDD

J'ai RDD[Row], qui doit être conservé dans un référentiel tiers. Mais ce référentiel tiers accepte un maximum de 5 Mo en un seul appel. Je veux donc créer une partition en fonction de la taille des données présentes dans RDD et non en fonction du no …
demandé sur 1970-01-01 00:33:35
4
réponses

Pourquoi SparkContext se ferme-t-il au hasard, et comment le redémarre-t-on à partir de Zeppelin?

je travaille dans Zeppelin en écrivant des requêtes spark-sql et parfois je commence soudainement à recevoir cette erreur (après ne pas avoir changé de code): Cannot call methods on a stopped SparkContext. puis le résultat dit plus bas: The curr …
demandé sur 1970-01-01 00:33:36