preguntar acerca de spark-dataframe

5
réponses

Extraire les valeurs de colonne de Dataframe en tant que liste dans Apache Spark

Je voudrais convertir une colonne de chaîne d'un dataframe en une liste. Ce que je peux trouver à partir de l'API Dataframe est RDD, j'ai donc essayé de le convertir en RDD en premier, puis d'appliquer la fonction toArray au RDD. Dans ce cas, la long …
demandé sur 1970-01-01 00:33:35
4
réponses

Mise à jour d’une colonne dataframe dans spark

En regardant la nouvelle api spark dataframe, on ne sait pas s'il est possible de modifier les colonnes dataframe. Comment pourrais-je changer une valeur dans la ligne x colonne y d'un dataframe? Dans pandas ce serait df.ix[x,y] = new_value Edit: …
demandé sur 1970-01-01 00:33:35
1
réponses

Spark / Scala: remplissage en avant avec la dernière observation

En Utilisant Spark 1.4.0, Scala 2.10 J'ai essayé de trouver un moyen de transférer les valeurs null avec la dernière observation connue, mais je ne vois pas un moyen facile. Je pense que c'est une chose assez commune à faire, mais je ne trouve pas d …
demandé sur 1970-01-01 00:33:35
4
réponses

Comment sauvegarder une DataFrame sous forme compressée (gzipped) CSV?

J'utilise Spark 1.6.0 et Scala. je veux enregistrer une base de données en format CSV compressé. Voici ce que j'ai jusqu'à présent (j'ai déjà df et scSparkContext): //set the conf to the codec I want sc.getConf.set("spark.hadoop.mapred.output.com …
demandé sur 1970-01-01 00:33:36
2
réponses

Ajouter la somme de la colonne comme nouvelle colonne dans le dataframe de PySpark

j'utilise PySpark et j'ai une base de données Spark avec un tas de colonnes numériques. Je veux ajouter une colonne qui est la somme de toutes les autres colonnes. supposons que mon datagramme ait les colonnes "a", "b", et "c". Je sais que je peux …
demandé sur 1970-01-01 00:33:35
4
réponses

Comment changer la position d’une colonne dans une base de données spark?

je me demandais s'il était possible de changer la position d'une colonne dans une base de données, en fait de changer le schéma ? Justement si j'ai un dataframe comme [champ1, champ2, champ3], et je voudrais obtenir [champ1, champ3, champ2]. Toute …
demandé sur 1970-01-01 00:33:36
2
réponses

Comment exclure plusieurs colonnes dans Spark dataframe en Python

J'ai trouvé que PySpark a une méthode appelée drop mais il semble qu'il ne peut déposer une colonne à la fois. Toutes les idées sur la façon de déposer plusieurs colonnes en même temps? df.drop(['col1','col2']) TypeError …
demandé sur 1970-01-01 00:33:36
2
réponses

Scala Spark DataFrame: dataFrame.sélectionner plusieurs colonnes avec une séquence de noms de colonnes

val columnName=Seq("col1","col2",....."coln"); y a-t-il un moyen de faire le dataframe.sélectionnez opération pour obtenir dataframe contenant seulement les noms de colonne spécifiés . Je sais que je peux faire dataframe.select("col1","col2"...) m …
demandé sur 1970-01-01 00:33:36
5
réponses

Enregistrez la base de données Spark comme table de partitionnement dynamique dans la ruche

j'ai un exemple d'application qui fonctionne pour lire des fichiers csv dans une base de données. La dataframe peut être stockée sur une table ruche au format parquet en utilisant la méthode df.saveAsTable(tablename,mode). le code ci-dessus foncti …
demandé sur 1970-01-01 00:33:35
1
réponses

AttributeError: l’objet ‘DataFrame’ n’a pas d’attribut ‘map’

je voulais convertir le cadre de données spark pour ajouter en utilisant le code ci-dessous: from pyspark.mllib.clustering import KMeans spark_df = sqlContext.createDataFrame(pandas_df) rdd = spark_df.map(lambda data: Vectors.dense([float(c) for c i …
demandé sur 1970-01-01 00:33:36