preguntar acerca de pyspark

1
réponses

AttributeError: l’objet ‘DataFrame’ n’a pas d’attribut ‘map’

je voulais convertir le cadre de données spark pour ajouter en utilisant le code ci-dessous: from pyspark.mllib.clustering import KMeans spark_df = sqlContext.createDataFrame(pandas_df) rdd = spark_df.map(lambda data: Vectors.dense([float(c) for c i …
demandé sur 1970-01-01 00:33:36
3
réponses

Comment écrire le RDD résultant dans un fichier csv en Python Spark

j'ai un résultat de RDD labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). C'est la sortie dans ce format: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....] ce que je veux c'est créer un fichier CSV avec une co …
demandé sur 1970-01-01 00:33:35
7
réponses

Comment charger IPython shell avec PySpark

je veux charger IPython shell (pas IPython notebook) dans lequel je peux utiliser PySpark en ligne de commande. Est-ce possible? J'ai installé Spark-1.4.1. ... …
demandé sur 1970-01-01 00:33:35
1
réponses

Filtrage de DataFrame en utilisant la longueur d’une colonne

je veux filtre DataFrame en utilisant une condition liée à la longueur d'une colonne, cette question pourrait être très facile, mais je n'ai pas trouvé de question liée dans le SO. plus précisément, j'ai un DataFrame avec un seul ColumnArrayType(S …
demandé sur 1970-01-01 00:33:35
3
réponses

Spark DataFrame GROUP BY et trier dans l’ordre décroissant (pyspark)

j'utilise pyspark (Python 2.7.9/Spark 1.3.1) et j'ai un objet de groupe dataframe que je dois filtrer et trier dans l'ordre décroissant. Essaie de l'atteindre par le biais de ce morceau de code. group_by_dataframe.count().filter("`count` >= 10") …
demandé sur 1970-01-01 00:33:35
5
réponses

Comment puis-je tester les programmes PySpark à l’unité?

ma méthode actuelle de test de L'Unité Java/Spark fonctionne (détaillé ici) en instanciantun SparkContext à l'aide de "local" et en exécutant des tests unitaires à L'aide de JUnit. le code doit être organisé pour effectuer des entrées/sorties dans …
demandé sur 1970-01-01 00:33:35
1
réponses

Compter le nombre d’entrées non-NaN dans chaque colonne de Spark dataframe avec Pyspark

j'ai un très grand ensemble de données qui est chargé dans la ruche. Il se compose d'environ 1,9 millions de lignes et 1450 colonnes. Je dois déterminer la" couverture " de chacune des colonnes, c'est-à-dire la fraction de lignes qui ont des valeur …
demandé sur 1970-01-01 00:33:35
7
réponses

Meilleure façon d’obtenir la valeur max dans une Étincelle dataframe colonne

j'essaie de trouver la meilleure façon d'obtenir la plus grande valeur dans une colonne de base de données Spark. considérons l'exemple suivant: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() Qui crée: +---+---+ …
demandé sur 1970-01-01 00:33:35
7
réponses

Supprimer les doublons des lignes basées sur des colonnes spécifiques dans une base de données RDD/Spark

disons que j'ai un assez vaste ensemble de données sous la forme suivante: data = sc.parallelize([('Foo',41,'US',3), ('Foo',39,'UK',1), ('Bar',57,'CA',2), ('Bar',72,'CA',2), …
demandé sur 1970-01-01 00:33:35
10
réponses

Est-il possible d’obtenir les paramètres de contexte spark actuels dans PySpark?

j'essaie d'obtenir le chemin vers spark.worker.dir pour sparkcontext. si je l'ai explicitement défini comme un config param, je peux le lire à l'arrière d' SparkConf, mais est-il de toute façon d'accéder à tout l' config (incluant toutes les valeur …
demandé sur 1970-01-01 00:33:35