【機器學習入門二】整合學習及AdaBoost演算法的python實現

阿新 • • 發佈：2019-02-05

本文主要基於周志華老師的《機器學習》第八章內容

個體與整合

整合學習通過構建並結合多個學習器來完成學習任務。整合學習的一般結構如圖所示：
這裡寫圖片描述
先產生一組個體學習器，在用某種策略把它們結合在一起。個體學習器通常有一個現有的學習演算法從訓練資料產生，如決策樹樁和BP神經網路。個體學習器可以使相同型別的也可以是不同型別的，比如全是神經網路或者同事含有神經網路和決策樹樁。
整合學習通過將多個學習器進行結合，通常可以獲得比單一學習器顯著優越的泛化效能，尤其是弱學習器（即泛化效能略優於隨機猜測的學習器，比如在二分類問題上精度略高於50%的分類器）。從理論上來說，使用弱學習器整合就足以獲得好的效能。
如何提高整合學習的效能？這要求個體學習器應該“好而不同”。書上的例子很好且簡單易懂，這裡直接拿來。
在二分類任務中，假定三個分類器在三個測試樣本上的表現分別如下面的三個表所示，
其中對號表示分類正確，叉號表示分類錯誤，整合策略選擇投票法。在（a）中，每個分類器都只有66.6%的精度，但是整合學習後達到了100%，（b）中，三個分類器完全一樣，整合後沒有區別，（c）中，每個分類器的精度都只有33.3%，整合後結果更差。這個例子直觀的解釋了為什麼應該好而不同，即個體學習器要比較準確，並且各個個體學習器之間還要有一定的差異性。
這裡寫圖片描述

整合學習根據個體學習器的生成方式可以分為2大類，如果個體學習器存在強依賴關係、必須序列生成的序列化方法，典型代表是Boosting。第二種是個體學習器之間不存在強依賴關係，可以同時生成的並行化方法，如Bagging和隨機森林（Random Forest）。

Boosting

Boosting是一族可將弱學習器提升為強學習器的演算法。演算法的流程為：先從初始訓練集訓練出一個個體學習器，再根據該學習器的表現對訓練樣本的分佈進行調整，使得先前學習器做錯的訓練樣本在後續受到更多關注，然後基於調整後的樣本分佈來訓練下一個個體學習器，如此反覆進行，直到個體學習器的數量達到事先指定的值T或者整合的誤差已經小於閾值，最終將這些個體學習器進行加權結合。

演算法流程

Boosting演算法族中最著名的是AdaBoost演算法。下面是演算法的過程：

輸入：訓練集 $D = {(x_{1}, y_{1}), . . . . ., (x_{m}, y_{m})}$ ，基學習演算法 $ξ$ ，訓練次數T
過程：
1. $D_{1} (x) = 1 / m .$ (表示第一輪時每個樣本的權重是相等的)
2. $f o r t = 1, 2, 3, . . ., T d o :$
3. $h_{t} = ξ (D, D_{t});$
4. $ε_{t} = P_{x - D_{t}} (h_{t} (x) \neq f (x));$ ( $f (x) 是真实函数$

f (x) 是 真 實 函 數

)
5.

i f ε_{t} > 0.5 t h e n b r e a k

α_{t} = \frac{1}{2} l n (\frac{1 - ε_{t}}{ε_{t}});

D_{t + 1} (x) = \frac{D_{t} (x)}{Z_{t}} \times {\begin{cases} e x p (- α_{t}), & i f h_{t} (x) = f (x) \\ e x p (α_{t}), & i f h_{t} (x) \neq f (x) \end{cases}

= \frac{D_{t} (x) e x p (- α_{t} f (x) h_{t} (x))}{Z_{t}}

Z_{t}

是規範化因子，確保

D_{t + 1}

是一個分佈

【機器學習入門二】整合學習及AdaBoost演算法的python實現

個體與整合

Boosting

演算法流程

【機器學習入門二】整合學習及AdaBoost演算法的python實現

【機器學習實戰系列】讀書筆記之AdaBoost演算法公式推導和例子講解（一）

機器學習實戰（第二篇）-k-近鄰演算法Python實現

【知識發現】隱語義模型LFM演算法python實現(二)

【並發編程】Future模式及JDK中的實現

【知識發現】隱語義模型LFM演算法python實現(三)

【機器學習模型】整合學習總結

【python和機器學習入門3】樸素貝葉斯1——過濾惡意留言

【python與機器學習入門3】樸素貝葉斯2——垃圾郵件分類

【python和機器學習入門2】決策樹3——使用決策樹預測隱形眼鏡型別

【python和機器學習入門2】決策樹2——決策樹構建

【python與機器學習入門1】KNN（k近鄰）演算法2 手寫識別系統

《web安全之機器學習入門》第5章K近鄰演算法讀書筆記【下】

《web安全之機器學習入門》第5章K近鄰演算法讀書筆記【上】

【機器學習入門——1】Python 開發環境的安裝 Python（x，y）及Pycharm

【機器學習】整合學習+程式碼實現

【機器學習】整合學習(一)----基本思想和方法

【python學習入門_day1】

機器學習入門(二) — 迴歸模型 (理論)

機器學習入門二 ----- 機器學習術語表

【機器學習入門二】整合學習及AdaBoost演算法的python實現

個體與整合

Boosting

演算法流程

相關推薦