[Mechine Learning & Algorithm] 整合學習方法——Bagging和 Boosting

阿新 • • 發佈：2019-01-13

　　因為不同的模型具有不同的特點，所以有時也會將多個模型進行組合，以發揮"三個臭皮匠頂一個諸葛亮的作用"，這樣的思路，反應在模型中，主要有兩種思路：Bagging和Boosting

1. Bagging

　　Bagging 可以看成是一種圓桌會議，或是投票選舉的形式，其中的思想是："群眾的眼光是雪亮的"，可以訓練多個模型，之後將這些模型進行加權組合，一般這類方法的效果，都會好於單個模型的效果。在實踐中，在特徵一定的情況下，大家總是使用Bagging的思想去提升效果。例如kaggle上的問題解決，因為大家獲得的資料都是一樣的，特別是有些資料已經過預處理。

　　以下為Data Mining Concepts and Techniques 2nd 中的虛擬碼

　　基本的思路比較簡單，就是：訓練時，使用replacement的sampling方法， sampling一部分訓練資料k次並訓練k個模型；預測時，使用k個模型，如果為分類，則讓k個模型均進行分類並選擇出現次數最多的類(每個類出現的次數佔比可以視為置信度)；如為迴歸，則為各類器返回的結果的平均值。

　　在該處，Bagging演算法可以認為每個分類器的權重都一樣。

2. Boosting

　　在Bagging方法中，我們假設每個訓練樣本的權重都是一致的；而Boosting演算法則更加關注錯分的樣本，越是容易錯分的樣本，約要花更多精力去關注。對應到資料中，就是該資料對模型的權重越大，後續的模型就越要拼命將這些經常分錯的樣本分正確。最後訓練出來的模型也有不同權重，所以boosting更像是會整，級別高，權威的醫師的話語權就重些。

　　以下為Data Mining Concepts and Techniques 2nd 中adaboost虛擬碼：

　　訓練：先初始化每個訓練樣本的權重相等為1/d，d為樣本數量；之後每次使用一部分訓練樣本去訓練弱分類器，且只保留錯誤率小於0.5的弱分類器，對於分對的訓練樣本，將其權重調整為 error(Mi)/(1-error(Mi)) ，其中error(Mi)為第i個弱分類器的錯誤率（降低正確分類的樣本的權重，相當於增加分錯樣本的權重）；

　　測試：每個弱分類器均給出自己的預測結果，且弱分類器的權重為log(1-error(Mi))/error(Mi) ) 權重最高的類別，即為最終預測結果。

　　在adaboost中，弱分類器的個數的設計可以有多種方式，例如最簡單的就是使用一維特徵的樹作為弱分類器。

　　adaboost在一定弱分類器數量控制下，速度較快，且效果還不錯。

　　我們在實際應用中使用adaboost對輸入關鍵詞和推薦候選關鍵詞進行相關性判斷。隨著新的模型方法的出現， adaboost效果已經稍顯遜色，我們在同一資料集下，實驗了GBDT和adaboost，在保證召回基本不變的情況下，簡單調參後的Random Forest準確率居然比adaboost高5個點以上，效果令人吃驚。。。。

　　Bagging和Boosting都可以視為比較傳統的整合學習思路。現在常用的Random Forest，GBDT，GBRank其實都是更加精細化，效果更好的方法。後續會有更加詳細的內容專門介紹。

　　具體adaboost在百度關鍵詞搜尋推薦中的應用參見：《分類模型在關鍵詞推薦系統中的應用》

3. 參考內容

　　[2] Data Mining Concepts and Techniques 2nd

　　[3] Soft Margin for Adaboost

[Mechine Learning & Algorithm] 整合學習方法——Bagging和 Boosting

1. Bagging

2. Boosting

3. 參考內容

[Mechine Learning & Algorithm] 整合學習方法——Bagging和 Boosting

整合學習之Bagging和Boosting的簡介

你想看的整合學習之bagging和boosting區別特徵及例子

機器學習筆記-整合學習之Bagging，Boosting，隨機森林三者特性對比

python機器學習案例系列教程——整合學習（Bagging、Boosting、隨機森林RF、AdaBoost、GBDT、xgboost）

[白話解析] 通俗解析整合學習之bagging，boosting & 隨機森林

【IM】關於整合學習Bagging和Boosting的理解

bagging和boosting演算法（整合學習演算法）

整合學習:Bagging和Boosting比較

Lambda學習---方法引用和其他基本應用

機器學習筆記之十——整合學習之Bagging

整合學習方法及思想總結

整合學習——Bootstrap Bagging AdaBoost演算法

【Python-ML】SKlearn庫整合學習器Bagging

Ensemble Learning（整合學習）

機器學習回顧篇（12）：整合學習之Bagging與隨機森林

Bagging和Boosting 概念及區別

Bagging 和Boosting 概念和區別

bagging和boosting以及rand-forest

bagging和boosting 總結，較全

[Mechine Learning & Algorithm] 整合學習方法——Bagging和 Boosting

1. Bagging

2. Boosting

3. 參考內容

相關推薦