1. 程式人生 > >機器學習中的資料預處理

機器學習中的資料預處理

資料的預處理總共可以大致分為6步。

  1. 匯入需要的庫
    這兩個是我們每次都需要匯入的庫
    Numpy包含數學計算函式
    Pandas用於匯入和管理資料集

  2. 匯入資料集
    資料集通常是.csv格式。csv檔案以文字形式儲存表格資料。檔案的每一行是一條資料記錄。我們使用pandas的read_csv方法讀取本地CSV檔案為一個數據幀。然後從資料幀中製作自變數和因變數的矩陣和向量。

  3. 處理丟失資料
    我們得到的資料很少是完整的。資料可能因為各種原因丟失,為了不降低機器學習模型的效能,需要處理資料。我們可以用整列的平均值或中間值替換丟失的資料。我們用sklearn.preprocessiong庫中的Imputer類完成這項任務

  4. 解析分類資料
    分類資料指的是函式標籤值而不是數字值的變數。取值範圍通常是固定的。例如“YES”和“NO”不能用於模型的數字計算,所以需要解析成數字。為實現這一功能,我們從sklearn.preprocessing庫匯入LabelEndoer類。

  5. 拆分資料集為測試集合和訓練集合
    把資料集拆分成兩個:一個是用來訓練模型的訓練集合,另一個是用來驗證模型的測試集合。兩者比例一般是80:20。我們匯入sklearn.crossvalidation庫中的train_test_split()方法。

  6. 特徵縮放
    大部分模型演算法使用兩點間的歐式距離表示,但此特徵在幅度、單位和範圍姿態問題上變化很大。在距離計算中,高幅度的特徵比低幅度特徵權重更大。可用特徵標準化或Z值歸一化解決。匯入sklearn.preprocessing庫中的StandardScalar類。

本文摘抄自
https://github.com/MLEveryday/100-Days-Of-ML-Code