【基礎知識八】集成學習
阿新 • • 發佈:2017-08-12
大致 p s 學習方法 ron 完成 ima 結合 alt http
難點:如何產生“好而不同”的個體學習器;“好而不同”:“準確性”和“多樣性”
一、個體與集成
構建並結合多個學習器來完成學習任務
集成:結果通過投票法voting產生,“少數服從多數”
獲得整體性能提升要求個體學習器:好而不同
1)個體學習器有一定的“準確性”
2)學習器間具有差異
集成學習的錯誤率:
假設基學習器的誤差相互獨立,隨著集成中個體分類器數目T的增大,集成的錯誤率將指數級下降,最終趨向於零
事實上,個體學習器是為了解決同一個問題訓練出來的,它們不可能相互獨立
集成學習方法大致分兩大類:
個體學習器之間存在強依賴關系:代表是Boosting
個體之間不存在強依賴關系:代表是Bagging和“隨機森林”
二、Bagging
bootstrap sampling產生T個訓練樣本的采樣集,基於每個采樣集訓練處一個基學習器
隨機森林是Bagging的一個擴展變體
在以決策樹為基學習器構建Bagging集成的基礎上,進一步在決策樹的訓練過程中引入隨機屬性選擇
三、結合策略
數值型輸出:
1. 簡單平均法
2. 加權平均法
標記分類:
1.絕對多數投票法
2.相對多數投票法
3. 加權投票法
學習法
四、多樣性
1. 多樣性度量
通常,考慮個體分類器的兩兩相似/不相似性:
不合度量
相關系數
Q-統計量
K-統計量
2. 多樣性增強
數據樣本擾動
輸入屬性擾動
輸出表示擾動
算法參數擾動
【基礎知識八】集成學習