1. 程式人生 > >【基礎知識八】集成學習

【基礎知識八】集成學習

大致 p s 學習方法 ron 完成 ima 結合 alt http

難點:如何產生“好而不同”的個體學習器;“好而不同”:“準確性”和“多樣性”

一、個體與集成

構建並結合多個學習器來完成學習任務

集成:結果通過投票法voting產生,“少數服從多數”

獲得整體性能提升要求個體學習器:好而不同

1)個體學習器有一定的“準確性”

2)學習器間具有差異

集成學習的錯誤率:

技術分享

假設基學習器的誤差相互獨立,隨著集成中個體分類器數目T的增大,集成的錯誤率將指數級下降,最終趨向於零

事實上,個體學習器是為了解決同一個問題訓練出來的,它們不可能相互獨立

集成學習方法大致分兩大類:

個體學習器之間存在強依賴關系:代表是Boosting

個體之間不存在強依賴關系:代表是Bagging和“隨機森林”

二、Bagging

bootstrap sampling產生T個訓練樣本的采樣集,基於每個采樣集訓練處一個基學習器

隨機森林是Bagging的一個擴展變體

在以決策樹為基學習器構建Bagging集成的基礎上,進一步在決策樹的訓練過程中引入隨機屬性選擇

三、結合策略

數值型輸出:

1. 簡單平均法

2. 加權平均法

標記分類:

1.絕對多數投票法

2.相對多數投票法

3. 加權投票法

學習法

四、多樣性

1. 多樣性度量

通常,考慮個體分類器的兩兩相似/不相似性:

不合度量

相關系數

Q-統計量

K-統計量

2. 多樣性增強

數據樣本擾動

輸入屬性擾動

輸出表示擾動

算法參數擾動

【基礎知識八】集成學習