Spark: soustraire deux DataFrames
Spark version 1.2.0 on pourrait utiliser subtract 2 SchemRDDs terminer avec seulement le contenu différent de la première
val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)
onlyNewData contient les lignes de todaySchemRDD qui n'existent pas dans yesterdaySchemaRDD.
Comment cela peut-il être réalisé avec DataFrames dans la version Spark 1.3.0?
26
demandé sur
Eric Eijkelenboom
2015-04-09 14:42:09
2 réponses
Selon les API docs , Faire:
dataFrame1.except(dataFrame2)
Renverra un nouveau DataFrame contenant des lignes dans dataFrame1 mais pas dans dataframe2.
48
répondu
Eric Eijkelenboom
2015-04-10 09:12:12