preguntar acerca de apache-spark

2
réponses

Ajouter la somme de la colonne comme nouvelle colonne dans le dataframe de PySpark

j'utilise PySpark et j'ai une base de données Spark avec un tas de colonnes numériques. Je veux ajouter une colonne qui est la somme de toutes les autres colonnes. supposons que mon datagramme ait les colonnes "a", "b", et "c". Je sais que je peux …
demandé sur 1970-01-01 00:33:35
3
réponses

Quelle est la différence entre HashingTF et CountVectorizer dans Spark?

J'essaie de faire la classification doc dans Spark. Je ne suis pas sûr de ce que fait le hachage dans HashingTF; est-ce qu'il sacrifie une quelconque précision? J'en doute, mais je ne sais pas. L'étincelle doc dit qu'il utilise le "hachage truc"... j …
demandé sur 1970-01-01 00:33:36
4
réponses

Comment changer la position d’une colonne dans une base de données spark?

je me demandais s'il était possible de changer la position d'une colonne dans une base de données, en fait de changer le schéma ? Justement si j'ai un dataframe comme [champ1, champ2, champ3], et je voudrais obtenir [champ1, champ3, champ2]. Toute …
demandé sur 1970-01-01 00:33:36
2
réponses

Comment exclure plusieurs colonnes dans Spark dataframe en Python

J'ai trouvé que PySpark a une méthode appelée drop mais il semble qu'il ne peut déposer une colonne à la fois. Toutes les idées sur la façon de déposer plusieurs colonnes en même temps? df.drop(['col1','col2']) TypeError …
demandé sur 1970-01-01 00:33:36
2
réponses

Encoder pour les ensembles de données Spark

je voudrais écrire un codeur Ligne tapez un ensemble de données, pour une opération cartographique que je fais. Essentiellement, je ne comprends pas comment écrire les encodeurs. ci-Dessous est un exemple d'une opération de carte: In the example be …
demandé sur 1970-01-01 00:33:37
3
réponses

Formation progressive du modèle de SLA

j'essaie de savoir s'il est possible d'avoir une "formation incrémentielle" sur les données en utilisant MLlib dans Apache Spark. ma plate-forme est prédiction IO, et c'est essentiellement une enveloppe pour Spark (MLlib), HBase, ElasticSearch et d …
demandé sur 1970-01-01 00:33:35
3
réponses

Comment exécuter Spark code dans Airflow?

Bonjour peuple de la Terre! J'utilise Airflow pour programmer et exécuter des tâches D'étincelles. Tout ce que j'ai trouvé à ce moment-là, c'est des DAGs en python que Airflow peut gérer. DAG exemple: spark_count_lines.py import logging from airfl …
demandé sur 1970-01-01 00:33:36
4
réponses

Temps d’écriture extrêmement lent S3 à partir D’EMR / Spark

j'écris pour voir si quelqu'un sait comment accélérer les temps d'écriture de S3 à partir de Spark courant dans EMR? mon travail D'étincelle prend plus de 4 heures à compléter, cependant le faisceau est seulement sous la charge pendant les première …
demandé sur 1970-01-01 00:33:37
4
réponses

Parse CSV as DataFrame / DataSet avec Apache Spark et Java

je suis nouveau à spark, et je veux utiliser group-by & reduce pour trouver ce qui suit de CSV (une ligne par employé): Department, Designation, costToCompany, State Sales, Trainee, 12000, UP Sales, Lead, 32000, AP Sales, Lead, 32000, LA …
demandé sur 1970-01-01 00:33:34
4
réponses

Fendre 1 colonne en 3 colonnes en spark scala

j'ai une base de données en Spark en utilisant scala qui a une colonne que j'ai besoin de diviser. scala> test.show +-------------+ |columnToSplit| +-------------+ | a.b.c| | d.e.f| +-------------+ j'ai besoin que cette colonne s …
demandé sur 1970-01-01 00:33:36