1. 程式人生 > >利用Numpy對特徵中的異常值進行替換及條件替換

利用Numpy對特徵中的異常值進行替換及條件替換

   原始資料為Excel檔案,由感測器獲得,通過Pyhton xlrd模組讀入,讀入後為陣列形式,由於其存在部分異常值和缺失值,所以便利用Numpy對其中的異常值進行替換或條件替換。

1. 將'nan'替換為給定值

import numpy as np

data = np.array([['nan', 1, 2, 3, 4],  # 資料型別為字串型
                [10, 15, 20, 25, 'nan'],
                ['nan', 5, 8, 10, 20]])
print(data)
# [['nan' '1' '2' '3' '4']
# ['10' '15' '20' '25' 'nan']
# ['nan' '5' '8' '10' '20']]

data[data == 'nan'] = 100  # 將numpy中為'nan'的項替換為 100
print(data)
# [['100' '1' '2' '3' '4']
#  ['10' '15' '20' '25' '100']
#  ['100' '5' '8' '10' '20']]

data = data.astype(float)  # 將資料由字元型轉換為浮點型
print(data)
# [[100.   1.   2.   3.   4.]
#  [ 10.  15.  20.  25. 100.]
#  [100.   5.   8.  10.  20.]]

2. 按列進行條件替換

   當利用'3σ準則'或者箱型圖進行異常值判斷時,通常需要對 > upper 或 < lower的值進行處理,這時就需要按列進行條件替換了。

print(data)
# [[100.   1.   2.   3.   4.]
#  [ 10.  15.  20.  25. 100.]
#  [100.   5.   8.  10.  20.]]

data[:, 1][data[:, 1] < 5] = 5  # 對第2列小於 5 的替換為5
print(data)
# [[100.   5.   2.   3.   4.]
#  [ 10.  15.  20.  25. 100.]
#  [100.   5.   8.  10.  20.]]

data[:, 2][data[:, 2] > 15] = 10  # 對第3列大於 15 的替換為10
print(data)
# [[100.   5.   2.   3.   4.]
#  [ 10.  15.  10.  25. 100.]
#  [100.   5.   8.  10.  20.]]