Spark: soustraire deux DataFrames
Spark version 1.2.0 on pourrait utiliser subtract
2 SchemRDD
s terminer avec seulement le contenu différent de la première
val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)
onlyNewData
contient les lignes de todaySchemRDD
qui n'existent pas dans yesterdaySchemaRDD
.
Comment cela peut-il être réalisé avec DataFrames
dans la version Spark 1.3.0?
26
demandé sur
Eric Eijkelenboom
2015-04-09 14:42:09
2 réponses
Selon les API docs , Faire:
dataFrame1.except(dataFrame2)
Renverra un nouveau DataFrame contenant des lignes dans dataFrame1 mais pas dans dataframe2.
48
répondu
Eric Eijkelenboom
2015-04-10 09:12:12