1. 程式人生 > >機器學習之資料歸一化

機器學習之資料歸一化

器學習中,資料歸一化是非常重要,如果不進行資料歸一化,可能會導致模型壞掉或者訓練出一個奇怪的模型。

為什麼要進行資料歸一化

現在有一個訓練資料集,包含兩個樣本,內容如下:

樣本1 1 200
樣本2 5 100

以 k-近鄰演算法為例,“發現時間”的數值比“腫瘤大小”的數值大很多,樣本間的距離被“發現時間”主導,訓練出來的模型主要由“發現時間”影響,甚至“腫瘤大小”的影響可忽略不計。

解決方法就是將是資料對映到同一尺度,這就是資料歸一化。

資料歸一化的兩個常用方式為:最值歸一化

均值方差歸一化

程式碼如下