preguntar acerca de spark-dataframe
5
réponses
Extraire les valeurs de colonne de Dataframe en tant que liste dans Apache Spark
Je voudrais convertir une colonne de chaîne d'un dataframe en une liste. Ce que je peux trouver à partir de l'API Dataframe est RDD, j'ai donc essayé de le convertir en RDD en premier, puis d'appliquer la fonction toArray au RDD. Dans ce cas, la long …
demandé sur
1970-01-01 00:33:35
4
réponses
Mise à jour d’une colonne dataframe dans spark
En regardant la nouvelle api spark dataframe, on ne sait pas s'il est possible de modifier les colonnes dataframe.
Comment pourrais-je changer une valeur dans la ligne x colonne y d'un dataframe?
Dans pandas ce serait df.ix[x,y] = new_value
Edit: …
demandé sur
1970-01-01 00:33:35
1
réponses
Spark / Scala: remplissage en avant avec la dernière observation
En Utilisant Spark 1.4.0, Scala 2.10
J'ai essayé de trouver un moyen de transférer les valeurs null avec la dernière observation connue, mais je ne vois pas un moyen facile. Je pense que c'est une chose assez commune à faire, mais je ne trouve pas d …
demandé sur
1970-01-01 00:33:35
4
réponses
Comment sauvegarder une DataFrame sous forme compressée (gzipped) CSV?
J'utilise Spark 1.6.0 et Scala.
je veux enregistrer une base de données en format CSV compressé.
Voici ce que j'ai jusqu'à présent (j'ai déjà df et scSparkContext):
//set the conf to the codec I want
sc.getConf.set("spark.hadoop.mapred.output.com …
demandé sur
1970-01-01 00:33:36
2
réponses
Ajouter la somme de la colonne comme nouvelle colonne dans le dataframe de PySpark
j'utilise PySpark et j'ai une base de données Spark avec un tas de colonnes numériques. Je veux ajouter une colonne qui est la somme de toutes les autres colonnes.
supposons que mon datagramme ait les colonnes "a", "b", et "c". Je sais que je peux …
demandé sur
1970-01-01 00:33:35
4
réponses
Comment changer la position d’une colonne dans une base de données spark?
je me demandais s'il était possible de changer la position d'une colonne dans une base de données, en fait de changer le schéma ?
Justement si j'ai un dataframe comme [champ1, champ2, champ3], et je voudrais obtenir [champ1, champ3, champ2].
Toute …
demandé sur
1970-01-01 00:33:36
2
réponses
Comment exclure plusieurs colonnes dans Spark dataframe en Python
J'ai trouvé que PySpark a une méthode appelée drop mais il semble qu'il ne peut déposer une colonne à la fois. Toutes les idées sur la façon de déposer plusieurs colonnes en même temps?
df.drop(['col1','col2'])
TypeError …
demandé sur
1970-01-01 00:33:36
2
réponses
Scala Spark DataFrame: dataFrame.sélectionner plusieurs colonnes avec une séquence de noms de colonnes
val columnName=Seq("col1","col2",....."coln");
y a-t-il un moyen de faire le dataframe.sélectionnez opération pour obtenir dataframe contenant seulement les noms de colonne spécifiés .
Je sais que je peux faire dataframe.select("col1","col2"...)
m …
demandé sur
1970-01-01 00:33:36
5
réponses
Enregistrez la base de données Spark comme table de partitionnement dynamique dans la ruche
j'ai un exemple d'application qui fonctionne pour lire des fichiers csv dans une base de données. La dataframe peut être stockée sur une table ruche au format parquet en utilisant la méthode
df.saveAsTable(tablename,mode).
le code ci-dessus foncti …
demandé sur
1970-01-01 00:33:35
1
réponses
AttributeError: l’objet ‘DataFrame’ n’a pas d’attribut ‘map’
je voulais convertir le cadre de données spark pour ajouter en utilisant le code ci-dessous:
from pyspark.mllib.clustering import KMeans
spark_df = sqlContext.createDataFrame(pandas_df)
rdd = spark_df.map(lambda data: Vectors.dense([float(c) for c i …
demandé sur
1970-01-01 00:33:36