1. 程式人生 > >missingno庫---缺失值視覺化分析

missingno庫---缺失值視覺化分析

缺失值

當我們拿到資料的時候,資料不一定是完整的,有時候一些特徵有缺失值,我們可以通過視覺化缺失值來決定我們下一步要進行的操作。

missingno庫

missingno是一個視覺化缺失值的庫,方便使用,我們可以用pip install missingno 即可下載該庫。

例子

import missingno as msno
msno.matrix(players.sample(500))#players表示型別為dataframe的表格,sample(500)表示抽取表格中500個樣本。

在這裡插入圖片描述
上圖是程式碼執行後得到的結果,白線越多,代表缺失值越多。
再來驗證一下,我們去掉rater1和rate2的缺失值。

players = players[players.rater1.notnull()]
msno.matrix(players.sample(500))

在這裡插入圖片描述
看得出,rate1的白線沒了,因為我們把缺失值給去掉了。所以白線沒了。
我們還可以生成熱度圖。

msno.heatmap(players,figsize=(16, 7))#figsize是指圖的大小

在這裡插入圖片描述
生成了這樣一個圖,這個圖的意思是,比如說rater1和rater2的熱度值是1,代表的是,當rater1缺失時,rater2也百分之百缺失,表示的是兩個特徵之間的關係。