機器學習實戰---整合學習
阿新 • • 發佈:2018-12-19
1.整合學習內容
2.數學支撐
整合學習的思想背後有比較成熟的數學理論作支撐,也即Valiant和Kearns提出的PAC (Probably approximately correct) 學習框架下的強可學習和弱可學習理論。 該理論指出:在PAC 的學習框架中,一個概念如果存在一個多項式的學習方法能夠學習它,並且如果預測正確率很高,那麼就稱這個概念是強可學習的;如果正確率僅比隨機猜測略好,那麼就稱這個概念是弱可學習的。 隨後,Schapire證明了強可學習和弱可學習是等價的,也就是說弱學習模型是可以通過組合提升為強學習模型的,由此便形成了後來的整合學習的思想。
2.bagging && boosting
樣本選擇 |
樣例權重 |
預測函式 |
平行計算 |
|
Bagging |
有放回選取的 各輪訓練集之間是獨立的 |
均勻取樣,權重相等 |
所有預測函式的權重相等 |
各個預測函式可以並行生成 |
Boosting |
權重發生變化 權值是根據上一輪的分類結果進行調整 |
根據錯誤率不斷調整樣例的權值,錯誤率越大則權重越大 |
每個弱分類器都有相應的權重,對於分類誤差小的分類器會有更大的權重 |
各個預測函式只能順序生成, |