1. 程式人生 > >(4)pyspark中dataframe的清理操作

(4)pyspark中dataframe的清理操作

tab tin eight 存在 ast wid column idt src

1、交叉表(crosstab):

pandas中也有,常和pivot_table比較。

技術分享圖片

查看家庭ID與評分的交叉表:

技術分享圖片

2、處理缺失值:fillna

技術分享圖片

withColumn:新增一列數據

cast : 用於將某種數據類型的表達式顯式轉換為另一種數據類型

技術分享圖片

將缺失值刪除:dropna

技術分享圖片

3、處理重復值

查看有沒有重復值存在:distinct().count()

技術分享圖片

將重復值去除:dropDuplicates()

技術分享圖片

(4)pyspark中dataframe的清理操作