preguntar acerca de pyspark

10
réponses

Charger le fichier CSV avec Spark

Je suis nouveau sur Spark et j'essaie de lire des données CSV à partir d'un fichier avec Spark. Voici ce que je fais: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Je m'attendrais à ce que …
demandé sur 1970-01-01 00:33:35
4
réponses

Mise à jour d’une colonne dataframe dans spark

En regardant la nouvelle api spark dataframe, on ne sait pas s'il est possible de modifier les colonnes dataframe. Comment pourrais-je changer une valeur dans la ligne x colonne y d'un dataframe? Dans pandas ce serait df.ix[x,y] = new_value Edit: …
demandé sur 1970-01-01 00:33:35
4
réponses

Convertir la chaîne pyspark au format de date

J'ai un dataframe date pyspark avec une colonne de chaîne au format MM-dd-yyyy et j'essaie de le convertir en une colonne de date. J'ai essayé: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() Et je reçois une chaîne de nulls. Que …
demandé sur 1970-01-01 00:33:36
4
réponses

Pourquoi SparkContext se ferme-t-il au hasard, et comment le redémarre-t-on à partir de Zeppelin?

je travaille dans Zeppelin en écrivant des requêtes spark-sql et parfois je commence soudainement à recevoir cette erreur (après ne pas avoir changé de code): Cannot call methods on a stopped SparkContext. puis le résultat dit plus bas: The curr …
demandé sur 1970-01-01 00:33:36
1
réponses

pyspark en utilisant une tâche pour les mapPartitions lors de la conversion rdd en dataframe

Je ne comprends pas pourquoi il semble que Spark utilise 1 tâche pour rdd.mapPartitions lors de la conversion du RDD résultant en une base de données. C'est un problème pour moi parce que je voudrais faire : DataFrame --> RDD--> rdd.mapParti …
demandé sur 1970-01-01 00:33:36
3
réponses

Extrait de la matrice document-sujet du modèle Lda de Pyspark

j'ai formé avec succès un modèle LDA en spark, via L'API Python: from pyspark.mllib.clustering import LDA model=LDA.train(corpus,k=10) cela fonctionne tout à fait bien, mais j'ai maintenant besoin de la document - matrice des sujets pour le modèl …
demandé sur 1970-01-01 00:33:35
2
réponses

Comment convertir Spark RDD en pandas dataframe en ipython?

j'ai un RDD et je veux le convertir en pandas dataframe. Je sais que pour convertir et RDD normal dataframe nous pouvons faire df = rdd1.toDF() Mais je veux convertir le RDDpandas dataframe et pas normale dataframe. Comment puis-je le faire? …
demandé sur 1970-01-01 00:33:36
8
réponses

Obtenir CSV à Spark dataframe

j'utilise python sur Spark et je voudrais mettre un csv dans une dataframe. documentation pour le Spark SQL étrangement ne fournit pas d'explications pour le CSV comme une source. j'ai trouvé Spark-CSV cependant j'ai des problèmes avec les deux p …
demandé sur 1970-01-01 00:33:35
2
réponses

Ajouter la somme de la colonne comme nouvelle colonne dans le dataframe de PySpark

j'utilise PySpark et j'ai une base de données Spark avec un tas de colonnes numériques. Je veux ajouter une colonne qui est la somme de toutes les autres colonnes. supposons que mon datagramme ait les colonnes "a", "b", et "c". Je sais que je peux …
demandé sur 1970-01-01 00:33:35
2
réponses

Comment exclure plusieurs colonnes dans Spark dataframe en Python

J'ai trouvé que PySpark a une méthode appelée drop mais il semble qu'il ne peut déposer une colonne à la fois. Toutes les idées sur la façon de déposer plusieurs colonnes en même temps? df.drop(['col1','col2']) TypeError …
demandé sur 1970-01-01 00:33:36