preguntar acerca de apache-spark-sql

Question

5

réponses

Comment définir le partitionnement de DataFrame?

J'ai commencé à utiliser Spark SQL et DataFrames dans Spark 1.4.0. Je veux définir un partitionneur personnalisé sur les DataFrames, dans Scala, mais je ne vois pas comment le faire. L'une des tables de données avec lesquelles je travaille contient …

apache-spark apache-spark-sql dataframe partitioning scala

demandé sur 1970-01-01 00:33:35

8

réponses

Spark-charger le fichier CSV en tant que DataFrame?

Je voudrais lire un CSV dans spark et le convertir en DataFrame et le stocker dans HDFS avec df.registerTempTable("table_name") J'ai essayé: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Erreur que j'ai eu: java.lang.Runt …

apache-spark apache-spark-sql hadoop hdfs scala

demandé sur 1970-01-01 00:33:35

3

réponses

Renommer les noms de colonnes d’un DataFrame dans Spark Scala

J'essaie de convertir tous les en-têtes / noms de colonnes d'un DataFrame dans Spark-Scala. maintenant je viens avec code suivant qui ne remplace qu'un seul nom de colonne. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.col …

apache-spark apache-spark-sql dataframe scala

demandé sur 1970-01-01 00:33:36

5

réponses

Extraire les valeurs de colonne de Dataframe en tant que liste dans Apache Spark

Je voudrais convertir une colonne de chaîne d'un dataframe en une liste. Ce que je peux trouver à partir de l'API Dataframe est RDD, j'ai donc essayé de le convertir en RDD en premier, puis d'appliquer la fonction toArray au RDD. Dans ce cas, la long …

apache-spark apache-spark-sql scala spark-dataframe

demandé sur 1970-01-01 00:33:35

4

réponses

Mise à jour d’une colonne dataframe dans spark

En regardant la nouvelle api spark dataframe, on ne sait pas s'il est possible de modifier les colonnes dataframe. Comment pourrais-je changer une valeur dans la ligne x colonne y d'un dataframe? Dans pandas ce serait df.ix[x,y] = new_value Edit: …

apache-spark apache-spark-sql pyspark python spark-dataframe

demandé sur 1970-01-01 00:33:35

4

réponses

Convertir la chaîne pyspark au format de date

J'ai un dataframe date pyspark avec une colonne de chaîne au format MM-dd-yyyy et j'essaie de le convertir en une colonne de date. J'ai essayé: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() Et je reçois une chaîne de nulls. Que …

apache-spark apache-spark-sql pyspark pyspark-sql

demandé sur 1970-01-01 00:33:36

2

réponses

Inclure des valeurs null dans une jointure Apache Spark

Je voudrais inclure des valeurs null dans une jointure Apache Spark. Spark n'inclut pas les lignes avec null par défaut. Voici le comportement D'étincelle par défaut. val numbersDf = Seq( ("123"), ("456"), (null), ("") ).toDF("numbers") v …

apache-spark apache-spark-sql join scala sql

demandé sur 1970-01-01 00:33:37

1

réponses

Aplatir les rangées dans Spark

Je fais des tests pour spark en utilisant scala. Nous lisons généralement les fichiers json qui doivent être manipulés comme l'exemple suivant: Test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json") Comment puis-je le conve …

apache-spark apache-spark-sql distributed-computing scala

demandé sur 1970-01-01 00:33:35

4

réponses

Comment puis-je trouver la taille D’un RDD

J'ai RDD[Row], qui doit être conservé dans un référentiel tiers. Mais ce référentiel tiers accepte un maximum de 5 Mo en un seul appel. Je veux donc créer une partition en fonction de la taille des données présentes dans RDD et non en fonction du no …

apache-spark apache-spark-sql

demandé sur 1970-01-01 00:33:35

4

réponses

Pourquoi SparkContext se ferme-t-il au hasard, et comment le redémarre-t-on à partir de Zeppelin?

je travaille dans Zeppelin en écrivant des requêtes spark-sql et parfois je commence soudainement à recevoir cette erreur (après ne pas avoir changé de code): Cannot call methods on a stopped SparkContext. puis le résultat dit plus bas: The curr …

apache-spark apache-spark-sql apache-zeppelin pyspark

demandé sur 1970-01-01 00:33:36

1
2

Las etiquetas más populares

preguntar acerca de apache-spark-sql