preguntar acerca de rdd

3
réponses

Apache Spark: carte vs mapPartitions?

Quelle est la différence entre un RDD l' map et mapPartitions méthode? Et flatMap se comporte - t-il comme map ou comme mapPartitions? Grâce. (modifier) c'est-à-dire quelle est la différence (sémantiquement ou en termes d'exécution) entre def m …
demandé sur 1970-01-01 00:33:34
2
réponses

Spark: soustraire deux DataFrames

Spark version 1.2.0 on pourrait utiliser subtract 2 SchemRDDs terminer avec seulement le contenu différent de la première val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD) onlyNewData contient les lignes de todaySchemRDD qui n'existent …
demandé sur 1970-01-01 00:33:35
2
réponses

Spark RDD — comment fonctionnent-ils

J'ai un petit programme Scala qui fonctionne bien sur un seul nœud. Cependant, je le redimensionne pour qu'il fonctionne sur plusieurs nœuds. C'est ma première tentative de ce genre. J'essaie juste de comprendre comment les RDDs fonctionnent dans Spa …
demandé sur 1970-01-01 00:33:34
2
réponses

Comment convertir Spark RDD en pandas dataframe en ipython?

j'ai un RDD et je veux le convertir en pandas dataframe. Je sais que pour convertir et RDD normal dataframe nous pouvons faire df = rdd1.toDF() Mais je veux convertir le RDDpandas dataframe et pas normale dataframe. Comment puis-je le faire? …
demandé sur 1970-01-01 00:33:36
2
réponses

Comment mettre à jour un RDD?

nous sommes en train d'élaborer le cadre Spark dans lequel nous transférons les données historiques dans des ensembles de données de RDD. fondamentalement, RDD est immuable, lire seulement ensemble de données sur lesquelles nous faisons des opératio …
demandé sur 1970-01-01 00:33:34
4
réponses

Comment puis-je mettre à jour une variable de diffusion dans spark streaming?

j'ai, je crois, relativement utilisation de spark streaming: j'ai un flux d'objets que je voudrais filtre sur la base de quelques données de référence au départ, j'ai pensé que ce serait une chose très simple à réaliser en utilisant un Variable D …
demandé sur 1970-01-01 00:33:35
8
réponses

Qu’est-ce que RDD in spark

Définition dit: CA est immuable distribué collection d'objets Je ne comprends pas très bien ce que cela signifie. Est-ce que c'est comme des données (objets partitionnés) stockées sur un disque dur si c'est le cas, alors comment se fait-il q …
demandé sur 1970-01-01 00:33:35
4
réponses

Comment lire à partir de hbase en utilisant spark

le code ci-dessous Lira à partir de l'hbase, puis le convertira en structure json et le convertira en schemaRDD , mais le problème est que je suis using List pour stocker la chaîne json puis passer à javaRDD, pour des données d'environ 100 Go le mast …
demandé sur 1970-01-01 00:33:34
7
réponses

Spark spécifie plusieurs conditions de colonne pour la jointure de dataframe

comment donner plus de conditions de colonne en rejoignant deux dataframes. Par exemple je veux exécuter la commande suivante : val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") == …
demandé sur 1970-01-01 00:33:35
7
réponses

Expliquer la fonctionnalité de l’agrégat dans Spark

je cherche une meilleure explication des fonctionnalités agrégées disponibles via spark en python. l'exemple que j'ai est comme suit (en utilisant pyspark de la version 1.2.0 de Spark) sc.parallelize([1,2,3,4]).aggregate( (0, 0), (lambda acc …
demandé sur 1970-01-01 00:33:35