1. 程式人生 > >pyspark 根據某欄位去重 取時間最新

pyspark 根據某欄位去重 取時間最新

cj_spouse_false = cj_spouse_false.withColumn("row_number", \
                                       F.row_number().over(Window.partitionBy("contract_no").orderBy(desc("spouse_false"))))

選取時候 where row_number==1