1. 程式人生 > >《python機器學習—預測分析核心算法》:理解數據

《python機器學習—預測分析核心算法》:理解數據

變量 body 因子 需要 ont 行數 數量 數據規模 分布

參見原書2.1-2.2節

新數據集就像一個包裝好的禮物,它充滿了承諾和希望!

但是直到你打開前,它都保持神秘!

一、基礎問題的架構、術語,機器學習數據集的特性

通常,行代表實例,列代表屬性特征

屬性,實例中用於預測的數據
其他名稱:預測因子 特征 獨立變量 輸入

標簽,需要預測的數據
其他名稱:結果 目標 依賴變量 響應

2.1.1屬性和標簽的不同類型決定模型的選擇
數值變量 類別變量/因素變量

懲罰回歸算法只能處理數值變量:SVM 核方法 K最近鄰
轉換:類別變量->數值變量

當標簽是數值的,就叫作回歸問題
當標簽是類別的,就叫作分類問題
轉換:回歸問題 170 210 分類問題 >200?

分類問題也可能比回歸問題簡單

2.1.2新數據集的註意事項
需要檢查的事項:
行數、列數
類別變量的數目、類別的取值範圍
缺失的值
屬性和標簽的統計特性

處理缺失值:
1.有大量數據,直接丟棄缺失值
2.數據比較昂貴,難以獲得,填充缺失值
遺失值插補:最簡單的方法,每行所有此項的平均值代替缺失值

2.2分類問題

實例:用聲吶發現未爆炸的水雷

(1)確定數據集的規模

數據規模的影響:
1.可以大致判斷訓練所需的時間

懲罰線性回歸 集成方法
1000 * 1000 1min 幾分鐘
10000 * 10000 3-4 hour 12-24 hour

2.如果數據集的列數遠遠大於行數,那麽采用懲罰線性回歸的方法很可能獲得最佳的預測

(2)確定每個屬性的特征
哪些列是數值型,哪些列是類別型

(3)獲得屬性的統計信息
數值型 描述性統計信息
類別型 具體類別的數量分布

《python機器學習—預測分析核心算法》:理解數據