1. 程式人生 > >spark運算元:distinct去重的原理

spark運算元:distinct去重的原理

1、Distinct是transformation運算元,不是action運算元。

2、Distinct的去重,是當key與value都一樣的時候,會被當做重複的資料。

     也就是說,有多條key和value都相同的資料在執行完distincct之後,只會保留1條。

原文地址:https://blog.csdn.net/wyqwilliam/article/details/82110860