1. 程式人生 > >R讀書筆記之特徵工程(一)空值處理

R讀書筆記之特徵工程(一)空值處理

在特徵處理中,會有空值的刪除或者填充。

一:刪除

    1一般刪除是最簡單的,用na.omit(data)就搞定,但是太粗暴了。

    2若是有的觀測量空缺值太多的話,確實需要刪除,因為用別的方法填充反而會導致模型偏差。

    那麼腫麼統計觀測量的空值的個數捏?可以參考函式:apply(dataframe,1,function(x) sum(is.na(x))),其中is.na()返回

一個邏輯向量,求和時T為1,F為0,因此求和返回的是該行觀測量空值的個數。

   用函式manyNAs(data,0.2)可以返回data中空值數量大於列數20%的行,因此可以data[-manyNAs(data,0.2),]快速對應

行,0.2引數可以自己修改。

二:填充

    待續