preguntar acerca de apache-spark-sql
5
réponses
Comment définir le partitionnement de DataFrame?
J'ai commencé à utiliser Spark SQL et DataFrames dans Spark 1.4.0. Je veux définir un partitionneur personnalisé sur les DataFrames, dans Scala, mais je ne vois pas comment le faire.
L'une des tables de données avec lesquelles je travaille contient …
demandé sur
1970-01-01 00:33:35
8
réponses
Spark-charger le fichier CSV en tant que DataFrame?
Je voudrais lire un CSV dans spark et le convertir en DataFrame et le stocker dans HDFS avec df.registerTempTable("table_name")
J'ai essayé:
scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv")
Erreur que j'ai eu:
java.lang.Runt …
demandé sur
1970-01-01 00:33:35
3
réponses
Renommer les noms de colonnes d’un DataFrame dans Spark Scala
J'essaie de convertir tous les en-têtes / noms de colonnes d'un DataFrame dans Spark-Scala. maintenant je viens avec code suivant qui ne remplace qu'un seul nom de colonne.
for( i <- 0 to origCols.length - 1) {
df.withColumnRenamed(
df.col …
demandé sur
1970-01-01 00:33:36
5
réponses
Extraire les valeurs de colonne de Dataframe en tant que liste dans Apache Spark
Je voudrais convertir une colonne de chaîne d'un dataframe en une liste. Ce que je peux trouver à partir de l'API Dataframe est RDD, j'ai donc essayé de le convertir en RDD en premier, puis d'appliquer la fonction toArray au RDD. Dans ce cas, la long …
demandé sur
1970-01-01 00:33:35
4
réponses
Mise à jour d’une colonne dataframe dans spark
En regardant la nouvelle api spark dataframe, on ne sait pas s'il est possible de modifier les colonnes dataframe.
Comment pourrais-je changer une valeur dans la ligne x colonne y d'un dataframe?
Dans pandas ce serait df.ix[x,y] = new_value
Edit: …
demandé sur
1970-01-01 00:33:35
4
réponses
Convertir la chaîne pyspark au format de date
J'ai un dataframe date pyspark avec une colonne de chaîne au format MM-dd-yyyy et j'essaie de le convertir en une colonne de date.
J'ai essayé:
df.select(to_date(df.STRING_COLUMN).alias('new_date')).show()
Et je reçois une chaîne de nulls. Que …
demandé sur
1970-01-01 00:33:36
2
réponses
Inclure des valeurs null dans une jointure Apache Spark
Je voudrais inclure des valeurs null dans une jointure Apache Spark. Spark n'inclut pas les lignes avec null par défaut.
Voici le comportement D'étincelle par défaut.
val numbersDf = Seq(
("123"),
("456"),
(null),
("")
).toDF("numbers")
v …
demandé sur
1970-01-01 00:33:37
1
réponses
Aplatir les rangées dans Spark
Je fais des tests pour spark en utilisant scala. Nous lisons généralement les fichiers json qui doivent être manipulés comme l'exemple suivant:
Test.json:
{"a":1,"b":[2,3]}
val test = sqlContext.read.json("test.json")
Comment puis-je le conve …
demandé sur
1970-01-01 00:33:35
4
réponses
Comment puis-je trouver la taille D’un RDD
J'ai RDD[Row], qui doit être conservé dans un référentiel tiers.
Mais ce référentiel tiers accepte un maximum de 5 Mo en un seul appel.
Je veux donc créer une partition en fonction de la taille des données présentes dans RDD et non en fonction du no …
demandé sur
1970-01-01 00:33:35
4
réponses
Pourquoi SparkContext se ferme-t-il au hasard, et comment le redémarre-t-on à partir de Zeppelin?
je travaille dans Zeppelin en écrivant des requêtes spark-sql et parfois je commence soudainement à recevoir cette erreur (après ne pas avoir changé de code):
Cannot call methods on a stopped SparkContext.
puis le résultat dit plus bas:
The curr …
demandé sur
1970-01-01 00:33:36