1. 程式人生 > >spark rdd根據某一列去重

spark rdd根據某一列去重

比如一個rdd有兩列 name age

name有重複的,現在要根據name來去重

m = rdd.map(lambda r:(r[0],r))
r = m.reduceByKey(lambda x,y:x)
首先先生成一個以該列為標準去重的key,該行為value,然後呼叫reduceByKey就可以啦