Spark: soustraire deux DataFrames

Spark version 1.2.0 on pourrait utiliser subtract 2 SchemRDDs terminer avec seulement le contenu différent de la première

val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)

onlyNewData contient les lignes de todaySchemRDD qui n'existent pas dans yesterdaySchemaRDD.

Comment cela peut-il être réalisé avec DataFrames dans la version Spark 1.3.0?

26
demandé sur Eric Eijkelenboom 2015-04-09 14:42:09

2 réponses

Selon les API docs , Faire:

dataFrame1.except(dataFrame2)

Renverra un nouveau DataFrame contenant des lignes dans dataFrame1 mais pas dans dataframe2.

48
répondu Eric Eijkelenboom 2015-04-10 09:12:12

Dans pyspark DOCS ce serait soustraire

df1.subtract(df2)
14
répondu Teja 2016-06-15 14:01:36