preguntar acerca de apache-spark
2
réponses
Ajouter la somme de la colonne comme nouvelle colonne dans le dataframe de PySpark
j'utilise PySpark et j'ai une base de données Spark avec un tas de colonnes numériques. Je veux ajouter une colonne qui est la somme de toutes les autres colonnes.
supposons que mon datagramme ait les colonnes "a", "b", et "c". Je sais que je peux …
demandé sur
1970-01-01 00:33:35
3
réponses
Quelle est la différence entre HashingTF et CountVectorizer dans Spark?
J'essaie de faire la classification doc dans Spark. Je ne suis pas sûr de ce que fait le hachage dans HashingTF; est-ce qu'il sacrifie une quelconque précision? J'en doute, mais je ne sais pas. L'étincelle doc dit qu'il utilise le "hachage truc"... j …
demandé sur
1970-01-01 00:33:36
4
réponses
Comment changer la position d’une colonne dans une base de données spark?
je me demandais s'il était possible de changer la position d'une colonne dans une base de données, en fait de changer le schéma ?
Justement si j'ai un dataframe comme [champ1, champ2, champ3], et je voudrais obtenir [champ1, champ3, champ2].
Toute …
demandé sur
1970-01-01 00:33:36
2
réponses
Comment exclure plusieurs colonnes dans Spark dataframe en Python
J'ai trouvé que PySpark a une méthode appelée drop mais il semble qu'il ne peut déposer une colonne à la fois. Toutes les idées sur la façon de déposer plusieurs colonnes en même temps?
df.drop(['col1','col2'])
TypeError …
demandé sur
1970-01-01 00:33:36
2
réponses
Encoder pour les ensembles de données Spark
je voudrais écrire un codeur Ligne tapez un ensemble de données, pour une opération cartographique que je fais. Essentiellement, je ne comprends pas comment écrire les encodeurs.
ci-Dessous est un exemple d'une opération de carte:
In the example be …
demandé sur
1970-01-01 00:33:37
3
réponses
Formation progressive du modèle de SLA
j'essaie de savoir s'il est possible d'avoir une "formation incrémentielle" sur les données en utilisant MLlib dans Apache Spark.
ma plate-forme est prédiction IO, et c'est essentiellement une enveloppe pour Spark (MLlib), HBase, ElasticSearch et d …
demandé sur
1970-01-01 00:33:35
3
réponses
Comment exécuter Spark code dans Airflow?
Bonjour peuple de la Terre!
J'utilise Airflow pour programmer et exécuter des tâches D'étincelles.
Tout ce que j'ai trouvé à ce moment-là, c'est des DAGs en python que Airflow peut gérer.
DAG exemple:
spark_count_lines.py
import logging
from airfl …
demandé sur
1970-01-01 00:33:36
4
réponses
Temps d’écriture extrêmement lent S3 à partir D’EMR / Spark
j'écris pour voir si quelqu'un sait comment accélérer les temps d'écriture de S3 à partir de Spark courant dans EMR?
mon travail D'étincelle prend plus de 4 heures à compléter, cependant le faisceau est seulement sous la charge pendant les première …
demandé sur
1970-01-01 00:33:37
4
réponses
Parse CSV as DataFrame / DataSet avec Apache Spark et Java
je suis nouveau à spark, et je veux utiliser group-by & reduce pour trouver ce qui suit de CSV (une ligne par employé):
Department, Designation, costToCompany, State
Sales, Trainee, 12000, UP
Sales, Lead, 32000, AP
Sales, Lead, 32000, LA …
demandé sur
1970-01-01 00:33:34
4
réponses
Fendre 1 colonne en 3 colonnes en spark scala
j'ai une base de données en Spark en utilisant scala qui a une colonne que j'ai besoin de diviser.
scala> test.show
+-------------+
|columnToSplit|
+-------------+
| a.b.c|
| d.e.f|
+-------------+
j'ai besoin que cette colonne s …
demandé sur
1970-01-01 00:33:36