Bagging和Boosting 概念及區別

阿新 • • 發佈：2018-12-10

Bagging和Boosting都是將已有的分類或迴歸演算法通過一定方式組合起來，形成一個性能更加強大的分類器，更準確的說這是一種分類演算法的組裝方法。即將弱分類器組裝成強分類器的方法。

首先介紹Bootstraping，即自助法：它是一種有放回的抽樣方法（可能抽到重複的樣本）。

1、Bagging (bootstrap aggregating)

Bagging即套袋法，其演算法過程如下：

A）從原始樣本集中抽取訓練集。每輪從原始樣本集中使用Bootstraping的方法抽取n個訓練樣本（在訓練集中，有些樣本可能被多次抽取到，而有些樣本可能一次都沒有被抽中）。共進行k輪抽取，得到k個訓練集。（k個訓練集之間是相互獨立的）

B）每次使用一個訓練集得到一個模型，k個訓練集共得到k個模型。（注：這裡並沒有具體的分類演算法或迴歸方法，我們可以根據具體問題採用不同的分類或迴歸方法，如決策樹、感知器等）

C）對分類問題：將上步得到的k個模型採用投票的方式得到分類結果；對迴歸問題，計算上述模型的均值作為最後的結果。（所有模型的重要性相同）

2、Boosting

其主要思想是將弱分類器組裝成一個強分類器。在PAC（概率近似正確）學習框架下，則一定可以將弱分類器組裝成一個強分類器。

關於Boosting的兩個核心問題：

1）在每一輪如何改變訓練資料的權值或概率分佈？

通過提高那些在前一輪被弱分類器分錯樣例的權值，減小前一輪分對樣例的權值，來使得分類器對誤分的資料有較好的效果。

2）通過什麼方式來組合弱分類器？

通過加法模型將弱分類器進行線性組合，比如AdaBoost通過加權多數表決的方式，即增大錯誤率小的分類器的權值，同時減小錯誤率較大的分類器的權值。

而提升樹通過擬合殘差的方式逐步減小殘差，將每一步生成的模型疊加得到最終模型。

3、Bagging，Boosting二者之間的區別

Bagging和Boosting的區別：

1）樣本選擇上：

Bagging：訓練集是在原始集中有放回選取的，從原始集中選出的各輪訓練集之間是獨立的。

Boosting：每一輪的訓練集不變，只是訓練集中每個樣例在分類器中的權重發生變化。而權值是根據上一輪的分類結果進行調整。

2）樣例權重：

Bagging：使用均勻取樣，每個樣例的權重相等

Boosting：根據錯誤率不斷調整樣例的權值，錯誤率越大則權重越大。

3）預測函式：

Bagging：所有預測函式的權重相等。

Boosting：每個弱分類器都有相應的權重，對於分類誤差小的分類器會有更大的權重。

4）平行計算：

Bagging：各個預測函式可以並行生成

Boosting：各個預測函式只能順序生成，因為後一個模型引數需要前一輪模型的結果。

4、總結

這兩種方法都是把若干個分類器整合為一個分類器的方法，只是整合的方式不一樣，最終得到不一樣的效果，將不同的分類演算法套入到此類演算法框架中一定程度上會提高了原單一分類器的分類效果，但是也增大了計算量。

下面是將決策樹與這些演算法框架進行結合所得到的新的演算法：

1）Bagging + 決策樹 = 隨機森林

2）AdaBoost + 決策樹 = 提升樹

3）Gradient Boosting + 決策樹 = GBDT

參考文獻

[1] 林軒田，機器學習技法。

[3] 百度技術，http://baidutech.blog.51cto.com/4114344/743809/

Bagging和Boosting 概念及區別

Bagging和Boosting都是將已有的分類或迴歸演算法通過一定方式組合起來，形成一個性能更加強大的分類器，更準確的說這是一種分類演算法的組裝方法。即將弱分類器組裝成強分類器的方法。首先介紹Bootstraping，即自助法：它是一種有放回的抽樣方法（可能抽到重複

Bagging 和Boosting 概念和區別

Bagging和Boosting都是將已有的分類或迴歸演算法通過一定方式組合起來，形成一個性能更加強大的分類器，更準確的說這是一種分類演算法的組裝方法。即將弱分類器組裝成強分類器的方法。首先介紹Bootstraping，即自助法：它是一種有放回的抽樣方法（可能抽到重複的樣本）。 1、Bag

你想看的整合學習之bagging和boosting區別特徵及例子

這篇文章主要講述整合學習的bagging和boosting。首先bagging和boosting是整合學習的兩個大家族，每個家族也包括很多成員，例如boosting包括adaboost、xgboost，bagging也有RandomForest等方法。既然b

linux 系統tty、pty和pts 的概念及區別

發送種類型 rtl mina com 文件閱讀遠程好玩 linux 系統tty、pty和pts 的概念及區別 tty(終端設備的統稱):tty一詞源於Teletypes，或者teletypewriters，原來指的是電傳打字機，是通過串行線用打印機鍵盤通過閱讀和發

(轉)Http狀態碼301和302概念簡單區別及企業應用案例

ash BE light div www oldboy dex -i 地址 Http狀態碼301和302的區別及企業應用案例原文：http://blog.51cto.com/oldboy/1774260 1、什麽是301重定向? 　　301重定向/跳轉一般，表示本網頁永

用來評估模型好壞的方差和偏差的概念及區別對比

一、基本概念上的對比解釋 1、偏差Bias：描述的是預測值（估計值）的期望與真實值之間的差距。偏差越大，越偏離真實資料，物件是單個模型。 2、方差Variance：描述的是預測值的變化範圍，離散程度，也就是離其期望值的距離。方差越大，資料的分佈越分散，物件是多個模型在忽略噪聲的

IntelliJ IDEA 中 Project 和 Module 的概念及區別

在 IntelliJ IDEA 中，沒有類似於 Eclipse 工作空間（Workspace）的概念，而是提出了Project和Module這兩個概念。接下來，就讓我們一起看看 IntelliJ IDEA 官方是如何描述兩者的吧！對於 Project，IntelliJ IDE

CountDownLatch和Cyclicbarrier概念、區別及原理

CountDownLatch和Cyclicbarrier概念、區別及原理 1、概念 CountDownLatch:具有計數器的功能，等待其他執行緒執行完畢，主執行緒在繼續執行，用於監聽某些初始化操作，並且執行緒進行阻塞，等初始化執行完畢後，通知主執行緒繼續工作執行。值得注意的是CountDownL

C++:堆和棧的概念及區別

一、預備知識—程式的記憶體分配一個由C/C++編譯的程式佔用的記憶體分為以下幾個部分 1、棧區（stack）— 由編譯器自動分配釋放，存放函式的引數值，區域性變數的值等。其操作方式類似於資料結構中的棧。 2、堆區（heap） — 一般由程式設計師分配釋放，

bagging和boosting的區別

bagging和boosting是提高監督式學習方法準確率的兩種常用的整合方法。 1､bagging bagging即套袋法，是並行式的整合學習方法，隨機森林是bagging的一種。執行步驟: 1､從原始訓練集中隨機抽取小部分資料當作新的訓練集。假設設定需要n個弱學習器，則需要抽取

java中 servlet和jsp的概念及區別

目錄一、瞭解Servlet的概念 Servlet定義：Servlet是基於Java技術的Web元件，由容器管理併產生動態的內容。Servlet引擎作為WEB伺服器的擴充套件提供支援Servlet的功能。Servlet與客戶端通過Servlet

web中靜態資源和動態資源的概念及區別

1.靜態資源和動態資源的概念簡單來說：靜態資源：一般客戶端傳送請求到web伺服器，web伺服器從記憶體在取到相應的檔案，返回給客戶端，客戶端解析並渲染顯示出來。動態資源：一般客戶端請求的動態資源，先將請求交於web容器，web容器連線資料庫，資料庫處理資料之後，將內容

詳述 PO VO BO DTO DAO 和 POJO 的概念及區別

說實話，我相信對於剛接觸 PO、VO、BO、DTO、DAO 和 POJO 這些概念的同學來說，大都會有一種“這都是什麼鬼？”的感覺，可謂是雲裡霧裡，不知今夕何夕！現在，就讓咱們一起揭開這些 “X”O 的面紗，看看它們的廬山真面目。首先，來個圖瞅瞅：第 1 個：DAO　　DAO

Bagging和Boosting的介紹及對比

　　“團結就是力量”這句老話很好地表達了機器學習領域中強大「整合方法」的基本思想。總的來說，許多機器學習競賽（包括 Kaggle）中最優秀的解決方案所採用的整合方法都建立在一個這樣的假設上：將多個模型組合在一起通常可以產生更強大的模型。一、整合方法　　整合（Ensemble）方法就是針對同一任務，將多個或

整合學習之Bagging和Boosting的簡介

一、什麼是整合學習整合學習在機器學習演算法中具有較高的準確率，不足的就是模型訓練比較複雜，效率不高。 Boosting主要有：Adaboost、GBDT、XGBoost Bagging主要有：Random Forest 整合學習的思想：整合學習的主要思想是構建出多個弱分

【IM】關於整合學習Bagging和Boosting的理解

整合學習在各大比賽中非常流程，如XGboost、LGBM等，對其基學習器決策樹及其剪枝等，可參考： https://blog.csdn.net/fjssharpsword/article/details/54861274 整合學習可參考： https://blog.csdn.net/

php中==和===的含義及區別

===比較兩個變數的值和型別；==比較兩個變數的值，不比較資料型別。比如 $a = '123'; $b = 123; $a === $b為假； $a == $b為真；有些情況下不能使用==，可以使用===，比如： <

Python類、模組、包的概念及區別

類類的概念在許多語言中出現，是面向物件程式設計的基礎，很容易理解。抽象出不同物體的共同特徵，根據相似性原則，把彼此相似的物體歸於相同的類概念，它將資料和操作進行封裝，以便將來的複用。模組模組，在Python中一個檔案就可以認為是一個模組。在建立了一個指令碼檔案後，定義了某些函式和變數。你在其他需

Python類、模塊、包的概念及區別

基礎應用程序概念找不到 type python pat 什麽模塊名類類的概念在許多語言中出現，是面向對象編程的基礎，很容易理解。抽象出不同物體的共同特征，根據相似性原則，把彼此相似的物體歸於相同的類概念，它將數據和操作進行封裝，以便將來的復用。模塊模塊，在

Anaconda和canda簡介及區別

Anaconda簡介： 1.是一個開源的Python發行版本，其包含了conda、Python等軟體包，numpy，pandas（資料分析），scipy等科學計算包,而無需再單獨下載配置. 可以在同一個機器上安裝不同的軟體版本（python版本）。Anaconda 的下載檔案比較大（約 531 MB），如果只

Bagging和Boosting 概念及區別

相關推薦