如何利用AdaBoost提高分類效能

阿新 • • 發佈：2019-02-18

AdaBoost屬於元演算法，不同於傳統的單分類器（決策樹、樸素貝葉斯、SVM等），它是多個分類器的組合，共同決定預測結果。而且適用數值型和標稱型（類別）資料。工作流程如下：

對於訓練資料中的每個樣本資料，賦予其一個權重，這些權重構成了向量D，初始時權重都化為相等值。Di=1樣本中數據個數
在訓練資料上訓練出一個弱分類器，並計算該分類器的錯誤率，然後在同一資料集上再次訓練弱分類器，直到錯誤率為零。

工作流程就是這樣，但是還要注意幾點：

在分類器第二次訓練中，會重新調整每個樣本的權重，其中第一次分對的樣本的權重會降低，而第一次分錯的樣本的權重會提高（目的是下次重點關注錯誤樣本，儘量使其分對）

傳統單分類器都可以作為弱分類器，AdaBoost選取單層決策樹作為弱分類器。單層決策樹就是僅針對一個特徵來做決策，算上根節點只有兩層，類標籤有幾個就有幾個分支。以收入作為特徵，類標籤為研究生和本科生，分支就為兩個，決策判斷就是收入大於是否10K，最終構建如圖：
為了從所有弱分類器中得到最終的分類結果，AdaBoost給每個分類器都分配了一個權重值α，即帶不同權重的分類器共同決定分類結果。

簡言之，對於AdaBoost要記住兩點：

AdaBoost分類的結果是基於所有分類器的加權求和得到的，每個分類器的權重不等，權重代表的是其對應分類器在上一輪迭代中的成功度。
adaboost是通過集中關注被已有分類器錯分的那些資料來獲得新的分類器。

然後我們從演算法角度說明AdaBoost包含4個核心部分。

首先給出訓練資料集，關於性別預測，給出收入和上網時間兩個特徵。

構建單層決策樹。單層決策樹的目的是從若干特徵中選出錯誤率最小的那個特徵（對結果影響最大），並返回預測結果和錯誤率。其實特別簡單：對於樣本一（1，2，1.3，1，2），我構建的決策樹就是找個閾值，大於該閾值將樣本一中的元素劃分到類別1，小於（等）該閾值將樣本一中的元素劃分到類別-1，這就是一顆決策樹。然後我麼要注意的是閾值要動態調整，最好有固定步長，來使得預測分類的錯誤率最小（目標）。

講到這，弱分類基本上就算是建好了，但是我們還有一個細節沒有說，那就是錯誤率的計算需要算上樣本的向量權重D，也就是說由於每個樣本元素的權重不同，最終的錯誤率應該是加權錯誤率。以樣本一為例（D=[0.2，0.2，0.2，0.2，0.2]），閾值為1.3時，其預測分類結果為（-1，1，-1,-1，1），而正確分類結果為（1，1，-1,-1，1）。大家可以看到第一資料被分錯了，這樣加權錯誤率為0.2*1=0.2。同理，若樣本權重向量D=(0.1,0.3,0.2,0.3,0.1),預測分類結果為（1，-1，1,-1，1），加權錯誤率為0.3×1+0.2×1=0.5

基於單層決策樹的AdaBoost訓練過程：

訓練過程解釋說明：

單層決策樹會根據D返回加權錯誤率以及預測的分類結果，該分類結果就是分類器。
通過錯誤率ε可以計算出分類器的權重α:
α=12ln(1−ϵϵ)
α結合單層決策樹預測的分類結果（分類器），共同產生新的預測結果，與正確類標籤進行比對得出新的錯誤率（此時的錯誤率是加權分類器產生的預測結果與正確類標籤比對的，比對時不加權值），判斷是否為0決策是否繼續迭代。
若不為0，觸發分類器權重α得出新的權重向量D：
D(t+1)i=DtieαSum(D)錯誤分類
D(t+1)i=Dtie−αSum(D)正確分類
由新的權重向量D進行新一輪的迭代，得到新的錯誤率等。AdaBoost的最終返回值是對應不同權重α的分類器集合，也就是說只要不斷迭代，就會有新的α和分類器，可以儲存到一個字典中。

構建完整的AdaBoost分類函式：
基於單層決策樹的訓練過程得到了多個弱分類器以及對應的α值，現在我們就可以通過這些弱分類器及其權重通過加權求和來預測測試資料啦。

還可以在完整些的，下次給出核心程式碼，然後應用實際資料通過對比KNN、貝葉斯分類畫出效果影象。

如何利用AdaBoost提高分類效能

AdaBoost屬於元演算法，不同於傳統的單分類器（決策樹、樸素貝葉斯、SVM等），它是多個分類器的組合，共同決定預測結果。而且適用數值型和標稱型（類別）資料。工作流程如下：對於訓練資料中的每個樣本資料，賦予其一個權重，這些權重構成了向量D，初始時權重都化

機器學習實戰——利用AdaBoost元演算法提高分類效能實現記錄

問題：TypeError: __new__() takes from 2 to 4 positional arguments but 6 were given def loadSimpData(): datMat = matrix([1. ,2.1],

利用AdaBoost元演算法提高分類效能

一、元演算法元演算法是對其他演算法進行組合的一種方式。我們自然可以將不同的分類器組合起來，而這種組合結果則被稱為整合演算法或者元演算法。整合學習的結果通過投票法產生，即“少數服從多數” 從這個例子中得出：要獲得好的整合，個體學習器應“好而不同”，即個體學習器要有一定的“準確性”，即

利用APR提高Tomcat效能

最近新找到了一篇關於APR提高效能的安裝部署 http://mirror.bjtu.edu.cn/apache/apr/ http://archive.apache.org/dist/apr/ apr-1.5.2.tar.gz tomcat-native.t

機器學習（利用adaboost元算法提高分類性能）

ear tarray 我們 imp quit figure cte 訓練樣本這一元算法背後的思路是對其他算法進行組合的一種方式，A from numpy import * def loadSimpData(): datMat = matrix([[ 1. ,

機器學習實戰第7章——利用AdaBoost元算法提高分類性能

nes 重要性 function mine spl 技術可能 copy elar 將不同的分類器組合起來，這種組合結果被稱為集成方法或元算法（meta-algorithm）。使用集成方法時會有多種形式：（1）可以是不同算法的集成（2）可以是同一種算法在不同設置下的集成

利用大記憶體提高磁碟效能

前兩天在學校的科協實驗室突發奇想：我的電腦配置是這樣的：這臺電腦是大約2年前剛剛上大學時買的，當時因為打算玩遊戲，配置方面還算過得去吧，但畢竟兩年過去了，硬碟的效能已經下降的不成樣子了，尤其是我用來作為非系統盤的一塊750G的機械硬碟，4K隨機速度竟然連1M/s都不到

利用jstack定位典型效能問題例項

此文已由作者朱笑天授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。問題的起因是筆者在一輪效能測試的中，發現某協議的響應時間很長，去觀察哨兵監控裡的javamethod監控可以看到以下結果： onMessage是該協

快速提高 MySQL 效能的 7 個技巧

點選上方“CSDN大資料”，選擇“置頂公眾號” 關鍵時刻，第一時間送達！作者丨Peter Zaitsev 翻譯丨Peter 譯者注：隨著尺寸和負載的增長，MySQL的效能會趨於下降。記住這些訣竅，便可保持MySQL的流暢執行。

提高網站效能的常見方法

一.Web前端效能優化一般來說Web前端指網站業務邏輯之前的部分，包括瀏覽器載入，網站檢視模型，圖片服務，CDN服務等，主要優化手段有優化瀏覽器訪問，使用反向代理，CDN等。 1..瀏覽器訪問優化 (1)減少http請求 HTTP協議是無狀態的應用層協議，意味著每次HTTP請求都需要簡歷通訊鏈路，

提高網頁效能優化

　　1.多采用雪碧圖　　將很多圖片合成一張圖片，需要多次請求，只需要一次就請求過來了，減少向伺服器的請求次數　　2.阻止超連結的預設行為　　點選超連結，會向後臺傳送請求，重新整理頁面，所以要以<a href="javascript:;"></a>&n

Keras之DNN：基於Keras(sigmoid+binary_crossentropy+predict_proba)利用DNN實現分類預測概率——DIY二分類資料集&預測新資料點

#Keras之DNN：基於Keras(sigmoid+binary_crossentropy+predict_proba)利用DNN實現分類預測概率——DIY二分類資料集&預測新資料點輸出結果實現程式碼 # coding:utf-8 #Ke

利用 sklearn SVM 分類器對 IRIS 資料集分類

利用 sklearn SVM 分類器對 IRIS 資料集分類支援向量機（SVM）是一種最大化分類間隔的線性分類器（如果不考慮核函式）。通過使用核函式可以用於非線性分類。SVM 是一種判別模型，既適用於分類也適用於迴歸問題，標準的 SVM 是二分類器，可以採用 “one vs one”

通過多執行緒處理提高Redis效能

Redis通常被稱為單程序單執行緒模型。這不是真的！ Redis還執行多個後端執行緒來執行後端清理工作，例如清理髒資料和關閉檔案描述符。在Redis中，主執行緒負責主要任務，包括但不限於：接收來自客戶端的連線，處理連線讀/寫事件，解析請求，處理命令，處理定時器事件和同步資料。只有一個CPU核心執行單個程

第七章：整合學習（利用AdaBoost元演算法...）

---恢復內容開始--- 　　整合學習其實不能算一個演算法，應該算是一種框架，集百家之長。整合演算法具體有Bagging與Boosting兩種大類。兩者區別：　　1)Bagging是並行的，它就好比找男朋友，美女選擇擇偶物件的時候，會問幾個閨蜜（幾個演算法）的建議，最後選擇一個綜合得分最高的一個作為男朋

提高 MySQL 效能之常用技巧

基準測試工具: http_load sysbench 查看錶相關操作: show create table [table_name]; describe [table_name]; show table status like [table_name];

基於邏輯迴歸/決策樹/隨機森林/多層感知分類器/xgboost/樸素貝葉斯分類的資訊多分類效能對比

在上一篇（https://blog.csdn.net/baymax_007/article/details/82748544）中，利用邏輯迴歸實現資訊多分類。本文在之前基礎上，又引入決策樹、隨機森林、多層感知分類器、xgboost和樸素貝葉斯分類演算法，並對驗證集和測試集分類

提高C++效能的程式設計技術筆記：多執行緒記憶體池+測試程式碼

為了使多個執行緒併發地分配和釋放記憶體，必須在分配器方法中新增互斥鎖。全域性記憶體管理器(通過new()和delete()實現)是通用的，因此它的開銷也非常大。因為單執行緒記憶體管理器要比多執行緒記憶體管理器快的多，所以如果要分配的大多數記憶體塊限於單執行緒中使用，那麼可以顯著提升效

提高C++效能的程式設計技術筆記：單執行緒記憶體池+測試程式碼

頻繁地分配和回收記憶體會嚴重地降低程式的效能。效能降低的原因在於預設的記憶體管理是通用的。應用程式可能會以某種特定的方式使用記憶體，並且為不需要的功能付出效能上的代價。通過開發專用的記憶體管理器可以解決這個問題。對專用記憶體管理器的設計可以從多個角度考慮。我們至少可以想到兩個方面：大小和併發。

提高C++效能的程式設計技術筆記：臨時物件+測試程式碼

型別不匹配：一般情況是指當需要X型別的物件時提供的卻是其它型別的物件。編譯器需要以某種方式將提供的型別轉換成要求的X型別。這一過程可能會產生臨時物件。按值傳遞：建立和銷燬臨時物件的代價是比較高的。倘若可以，我們應該按指標或者引用來傳遞物件以避免生成臨時物件。按值返回：如果編寫的函式是

如何利用AdaBoost提高分類效能

相關推薦