preguntar acerca de rdd
3
réponses
Apache Spark: carte vs mapPartitions?
Quelle est la différence entre un RDD l' map et mapPartitions méthode? Et flatMap se comporte - t-il comme map ou comme mapPartitions? Grâce.
(modifier)
c'est-à-dire quelle est la différence (sémantiquement ou en termes d'exécution) entre
def m …
demandé sur
1970-01-01 00:33:34
2
réponses
Spark: soustraire deux DataFrames
Spark version 1.2.0 on pourrait utiliser subtract 2 SchemRDDs terminer avec seulement le contenu différent de la première
val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)
onlyNewData contient les lignes de todaySchemRDD qui n'existent …
demandé sur
1970-01-01 00:33:35
2
réponses
Spark RDD — comment fonctionnent-ils
J'ai un petit programme Scala qui fonctionne bien sur un seul nœud. Cependant, je le redimensionne pour qu'il fonctionne sur plusieurs nœuds. C'est ma première tentative de ce genre. J'essaie juste de comprendre comment les RDDs fonctionnent dans Spa …
demandé sur
1970-01-01 00:33:34
2
réponses
Comment convertir Spark RDD en pandas dataframe en ipython?
j'ai un RDD et je veux le convertir en pandas dataframe. Je sais que pour convertir et RDD normal dataframe nous pouvons faire
df = rdd1.toDF()
Mais je veux convertir le RDDpandas dataframe et pas normale dataframe. Comment puis-je le faire?
…
demandé sur
1970-01-01 00:33:36
2
réponses
Comment mettre à jour un RDD?
nous sommes en train d'élaborer le cadre Spark dans lequel nous transférons les données historiques dans des ensembles de données de RDD.
fondamentalement, RDD est immuable, lire seulement ensemble de données sur lesquelles nous faisons des opératio …
demandé sur
1970-01-01 00:33:34
4
réponses
Comment puis-je mettre à jour une variable de diffusion dans spark streaming?
j'ai, je crois, relativement utilisation de spark streaming:
j'ai un flux d'objets que je voudrais filtre sur la base de quelques données de référence
au départ, j'ai pensé que ce serait une chose très simple à réaliser en utilisant un Variable D …
demandé sur
1970-01-01 00:33:35
8
réponses
Qu’est-ce que RDD in spark
Définition dit:
CA est immuable distribué collection d'objets
Je ne comprends pas très bien ce que cela signifie. Est-ce que c'est comme des données (objets partitionnés) stockées sur un disque dur si c'est le cas, alors comment se fait-il q …
demandé sur
1970-01-01 00:33:35
4
réponses
Comment lire à partir de hbase en utilisant spark
le code ci-dessous Lira à partir de l'hbase, puis le convertira en structure json et le convertira en schemaRDD , mais le problème est que je suis using List pour stocker la chaîne json puis passer à javaRDD, pour des données d'environ 100 Go le mast …
demandé sur
1970-01-01 00:33:34
7
réponses
Spark spécifie plusieurs conditions de colonne pour la jointure de dataframe
comment donner plus de conditions de colonne en rejoignant deux dataframes. Par exemple je veux exécuter la commande suivante :
val Lead_all = Leads.join(Utm_Master,
Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") == …
demandé sur
1970-01-01 00:33:35
7
réponses
Expliquer la fonctionnalité de l’agrégat dans Spark
je cherche une meilleure explication des fonctionnalités agrégées disponibles via spark en python.
l'exemple que j'ai est comme suit (en utilisant pyspark de la version 1.2.0 de Spark)
sc.parallelize([1,2,3,4]).aggregate(
(0, 0),
(lambda acc …
demandé sur
1970-01-01 00:33:35