preguntar acerca de apache-spark-sql
1
réponses
pyspark en utilisant une tâche pour les mapPartitions lors de la conversion rdd en dataframe
Je ne comprends pas pourquoi il semble que Spark utilise 1 tâche pour rdd.mapPartitions lors de la conversion du RDD résultant en une base de données.
C'est un problème pour moi parce que je voudrais faire :
DataFrame --> RDD--> rdd.mapParti …
demandé sur
1970-01-01 00:33:36
2
réponses
Comment exclure plusieurs colonnes dans Spark dataframe en Python
J'ai trouvé que PySpark a une méthode appelée drop mais il semble qu'il ne peut déposer une colonne à la fois. Toutes les idées sur la façon de déposer plusieurs colonnes en même temps?
df.drop(['col1','col2'])
TypeError …
demandé sur
1970-01-01 00:33:36
2
réponses
Encoder pour les ensembles de données Spark
je voudrais écrire un codeur Ligne tapez un ensemble de données, pour une opération cartographique que je fais. Essentiellement, je ne comprends pas comment écrire les encodeurs.
ci-Dessous est un exemple d'une opération de carte:
In the example be …
demandé sur
1970-01-01 00:33:37
4
réponses
Parse CSV as DataFrame / DataSet avec Apache Spark et Java
je suis nouveau à spark, et je veux utiliser group-by & reduce pour trouver ce qui suit de CSV (une ligne par employé):
Department, Designation, costToCompany, State
Sales, Trainee, 12000, UP
Sales, Lead, 32000, AP
Sales, Lead, 32000, LA …
demandé sur
1970-01-01 00:33:34
5
réponses
Enregistrez la base de données Spark comme table de partitionnement dynamique dans la ruche
j'ai un exemple d'application qui fonctionne pour lire des fichiers csv dans une base de données. La dataframe peut être stockée sur une table ruche au format parquet en utilisant la méthode
df.saveAsTable(tablename,mode).
le code ci-dessus foncti …
demandé sur
1970-01-01 00:33:35
6
réponses
Meilleure façon de convertir un champ string en timestamp en Spark
j'ai un CSV dans lequel un champ est datetime dans un format spécifique. Je ne peux pas l'importer directement dans mon Dataframe car il doit être un timestamp. Donc je l'importe comme chaîne de caractères et le transforme en Timestamp comme ceci
im …
demandé sur
1970-01-01 00:33:35
1
réponses
Filtre spark DataFrame sur la chaîne contient
j'utilise étincelle 1.3.0 et Spark Avro 1.0.0.
Je travaille à partir de l'exemple sur la page de référentiel. Ce code suivant fonctionne bien
val df = sqlContext.read.avro("src/test/resources/episodes.avro")
df.filter("doctor > 5").write.avr …
demandé sur
1970-01-01 00:33:36
8
réponses
Écraser les partitions spécifiques dans la méthode d’écriture spark dataframe
je veux écraser des partitions spécifiques au lieu de tout dans spark. Je suis en train d'essayer la commande suivante:
df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')
où df est dataframe ayant les données incrémentielles …
demandé sur
1970-01-01 00:33:36
1
réponses
Compter le nombre d’entrées non-NaN dans chaque colonne de Spark dataframe avec Pyspark
j'ai un très grand ensemble de données qui est chargé dans la ruche. Il se compose d'environ 1,9 millions de lignes et 1450 colonnes. Je dois déterminer la" couverture " de chacune des colonnes, c'est-à-dire la fraction de lignes qui ont des valeur …
demandé sur
1970-01-01 00:33:35
3
réponses
Spark: ajouter une colonne à dataframe sous condition
je suis en train de prendre mes données d'entrée:
A B C
--------------
4 blah 2
2 3
56 foo 3
Et d'ajouter une colonne à la fin, selon si B est vide ou pas:
A B C D
--------------------
4 blah 2 …
demandé sur
1970-01-01 00:33:36