preguntar acerca de apache-spark-sql

1
réponses

pyspark en utilisant une tâche pour les mapPartitions lors de la conversion rdd en dataframe

Je ne comprends pas pourquoi il semble que Spark utilise 1 tâche pour rdd.mapPartitions lors de la conversion du RDD résultant en une base de données. C'est un problème pour moi parce que je voudrais faire : DataFrame --> RDD--> rdd.mapParti …
demandé sur 1970-01-01 00:33:36
2
réponses

Comment exclure plusieurs colonnes dans Spark dataframe en Python

J'ai trouvé que PySpark a une méthode appelée drop mais il semble qu'il ne peut déposer une colonne à la fois. Toutes les idées sur la façon de déposer plusieurs colonnes en même temps? df.drop(['col1','col2']) TypeError …
demandé sur 1970-01-01 00:33:36
2
réponses

Encoder pour les ensembles de données Spark

je voudrais écrire un codeur Ligne tapez un ensemble de données, pour une opération cartographique que je fais. Essentiellement, je ne comprends pas comment écrire les encodeurs. ci-Dessous est un exemple d'une opération de carte: In the example be …
demandé sur 1970-01-01 00:33:37
4
réponses

Parse CSV as DataFrame / DataSet avec Apache Spark et Java

je suis nouveau à spark, et je veux utiliser group-by & reduce pour trouver ce qui suit de CSV (une ligne par employé): Department, Designation, costToCompany, State Sales, Trainee, 12000, UP Sales, Lead, 32000, AP Sales, Lead, 32000, LA …
demandé sur 1970-01-01 00:33:34
5
réponses

Enregistrez la base de données Spark comme table de partitionnement dynamique dans la ruche

j'ai un exemple d'application qui fonctionne pour lire des fichiers csv dans une base de données. La dataframe peut être stockée sur une table ruche au format parquet en utilisant la méthode df.saveAsTable(tablename,mode). le code ci-dessus foncti …
demandé sur 1970-01-01 00:33:35
6
réponses

Meilleure façon de convertir un champ string en timestamp en Spark

j'ai un CSV dans lequel un champ est datetime dans un format spécifique. Je ne peux pas l'importer directement dans mon Dataframe car il doit être un timestamp. Donc je l'importe comme chaîne de caractères et le transforme en Timestamp comme ceci im …
demandé sur 1970-01-01 00:33:35
1
réponses

Filtre spark DataFrame sur la chaîne contient

j'utilise étincelle 1.3.0 et Spark Avro 1.0.0. Je travaille à partir de l'exemple sur la page de référentiel. Ce code suivant fonctionne bien val df = sqlContext.read.avro("src/test/resources/episodes.avro") df.filter("doctor > 5").write.avr …
demandé sur 1970-01-01 00:33:36
8
réponses

Écraser les partitions spécifiques dans la méthode d’écriture spark dataframe

je veux écraser des partitions spécifiques au lieu de tout dans spark. Je suis en train d'essayer la commande suivante: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4') où df est dataframe ayant les données incrémentielles …
demandé sur 1970-01-01 00:33:36
1
réponses

Compter le nombre d’entrées non-NaN dans chaque colonne de Spark dataframe avec Pyspark

j'ai un très grand ensemble de données qui est chargé dans la ruche. Il se compose d'environ 1,9 millions de lignes et 1450 colonnes. Je dois déterminer la" couverture " de chacune des colonnes, c'est-à-dire la fraction de lignes qui ont des valeur …
demandé sur 1970-01-01 00:33:35
3
réponses

Spark: ajouter une colonne à dataframe sous condition

je suis en train de prendre mes données d'entrée: A B C -------------- 4 blah 2 2 3 56 foo 3 Et d'ajouter une colonne à la fin, selon si B est vide ou pas: A B C D -------------------- 4 blah 2 …
demandé sur 1970-01-01 00:33:36