1. 程式人生 > >資料探索(1)資料質量分析

資料探索(1)資料質量分析

資料質量分析

資料質量分析的主要任務是檢查原始資料中是否存在髒資料,髒資料一般是指不符合要求,以及不能直接進行相應分析的資料。
在常見的資料探勘工作中,髒資料包括如下內容:

  • 缺失值
  • 異常值
  • 不一致的值
  • 重複的值以及包含特殊符號的資料

缺失值分析

資料的缺失主要包括記錄的缺失和記錄中某個欄位資訊的缺失。
(1)缺失值產生的原因
1)有些資訊暫時無法獲取,或者獲取資訊的代價太大
2)有些資訊被遺漏。(輸入時認為不重要、忘記填寫或者對資料理解錯誤等認為因素,也可能是資料採集裝置的故障,儲存介質的故障,傳輸媒體的故障等非人為原因引起)
3)屬性值不存在
某些情況下缺失值並不意味著資料有錯誤。如一個未婚者的配偶姓名,一個兒童的固定收入。
(2)缺失值的影響
1)資料探勘建模將丟失大量的有用資訊
2)資料探勘模型所表現出的不確定性更加顯著,模型中蘊涵的規律更加難以把握
3)包含空值的資料會使建模過程陷入混亂,導致不可靠的輸出
(3)缺失值分析
使用簡單的統計分析,可以得到含有缺失值的屬性的個數,以及每個屬性的未缺失數、缺失數和缺失率等
從總體上來說,缺失值的處理分為刪除存在缺失值的記錄、
對可能值進行插補 和不處理三種情況。

異常值分析

異常值分析是檢驗資料是否有錄入錯誤以及含有不合常理的資料。
異常值也稱為離群點,異常值的分析也稱為離群點分析。
(1)簡單統計量分析
對變數做描述性統計,觀測資料是否是在合理的範圍
(2)3σ原則
如果資料服從正態分佈,則在距離平均值3σ之外的值出現的概率極低
(3)箱形圖分析
異常值通常被定義為小於下四分位數減去1.5倍的四分位數間距或者大於上四分位數加上1.5倍的四分衛間距之外的資料。
異常值的標準以四分位數局和四分位間距為基礎,具有一定的魯棒性,異常值對其不會昌盛影響。由此可見,箱形圖識別異常值的結果比較客觀,在識別異常值方面有一定的優越性。

– 在python的pandas庫中,只需要讀入資料,然後使用describe()函式就可以檢視資料的基本情況。

一致性分析

資料不一致是指資料的矛盾性、不相容性。
不一致的資料的產生主要發生在資料整合的過程中,這可能是由於被挖掘資料是來自於不同的資料來源、對於重複存放的資料未能進行一致性更新造成的。