preguntar acerca de pyspark
10
réponses
Charger le fichier CSV avec Spark
Je suis nouveau sur Spark et j'essaie de lire des données CSV à partir d'un fichier avec Spark.
Voici ce que je fais:
sc.textFile('file.csv')
.map(lambda line: (line.split(',')[0], line.split(',')[1]))
.collect()
Je m'attendrais à ce que …
demandé sur
1970-01-01 00:33:35
4
réponses
Mise à jour d’une colonne dataframe dans spark
En regardant la nouvelle api spark dataframe, on ne sait pas s'il est possible de modifier les colonnes dataframe.
Comment pourrais-je changer une valeur dans la ligne x colonne y d'un dataframe?
Dans pandas ce serait df.ix[x,y] = new_value
Edit: …
demandé sur
1970-01-01 00:33:35
4
réponses
Convertir la chaîne pyspark au format de date
J'ai un dataframe date pyspark avec une colonne de chaîne au format MM-dd-yyyy et j'essaie de le convertir en une colonne de date.
J'ai essayé:
df.select(to_date(df.STRING_COLUMN).alias('new_date')).show()
Et je reçois une chaîne de nulls. Que …
demandé sur
1970-01-01 00:33:36
4
réponses
Pourquoi SparkContext se ferme-t-il au hasard, et comment le redémarre-t-on à partir de Zeppelin?
je travaille dans Zeppelin en écrivant des requêtes spark-sql et parfois je commence soudainement à recevoir cette erreur (après ne pas avoir changé de code):
Cannot call methods on a stopped SparkContext.
puis le résultat dit plus bas:
The curr …
demandé sur
1970-01-01 00:33:36
1
réponses
pyspark en utilisant une tâche pour les mapPartitions lors de la conversion rdd en dataframe
Je ne comprends pas pourquoi il semble que Spark utilise 1 tâche pour rdd.mapPartitions lors de la conversion du RDD résultant en une base de données.
C'est un problème pour moi parce que je voudrais faire :
DataFrame --> RDD--> rdd.mapParti …
demandé sur
1970-01-01 00:33:36
3
réponses
Extrait de la matrice document-sujet du modèle Lda de Pyspark
j'ai formé avec succès un modèle LDA en spark, via L'API Python:
from pyspark.mllib.clustering import LDA
model=LDA.train(corpus,k=10)
cela fonctionne tout à fait bien, mais j'ai maintenant besoin de la document - matrice des sujets pour le modèl …
demandé sur
1970-01-01 00:33:35
2
réponses
Comment convertir Spark RDD en pandas dataframe en ipython?
j'ai un RDD et je veux le convertir en pandas dataframe. Je sais que pour convertir et RDD normal dataframe nous pouvons faire
df = rdd1.toDF()
Mais je veux convertir le RDDpandas dataframe et pas normale dataframe. Comment puis-je le faire?
…
demandé sur
1970-01-01 00:33:36
8
réponses
Obtenir CSV à Spark dataframe
j'utilise python sur Spark et je voudrais mettre un csv dans une dataframe.
documentation pour le Spark SQL étrangement ne fournit pas d'explications pour le CSV comme une source.
j'ai trouvé Spark-CSV cependant j'ai des problèmes avec les deux p …
demandé sur
1970-01-01 00:33:35
2
réponses
Ajouter la somme de la colonne comme nouvelle colonne dans le dataframe de PySpark
j'utilise PySpark et j'ai une base de données Spark avec un tas de colonnes numériques. Je veux ajouter une colonne qui est la somme de toutes les autres colonnes.
supposons que mon datagramme ait les colonnes "a", "b", et "c". Je sais que je peux …
demandé sur
1970-01-01 00:33:35
2
réponses
Comment exclure plusieurs colonnes dans Spark dataframe en Python
J'ai trouvé que PySpark a une méthode appelée drop mais il semble qu'il ne peut déposer une colonne à la fois. Toutes les idées sur la façon de déposer plusieurs colonnes en même temps?
df.drop(['col1','col2'])
TypeError …
demandé sur
1970-01-01 00:33:36