《機器學習》周志華 整合學習
8.1個體整合
個體學習器可以由 C4.5決策樹演算法 BP神經網路等 來訓練。
個體學習器(同質)---->叫基學習器(也叫弱學習器---指泛化效能略優於隨機猜測的學習器,如二分類問題上精度略高於50%的分類器) 相應的演算法叫做 基學習演算法。
個體學習器(異質)----->叫元件學習器或者直接稱為個體學習器。
(理論上來說)對“弱學習器”,將多個學習器結合,常可獲得比單一學習器顯著優越的泛化效能 。
(實踐中來說)常用的學習器“好而不同“,即個體學習器要有一定的”準確性“,學習器不能太壞,並且要有”多樣性“,學習器之間要有差異。
而且基於分類器的錯誤率相互獨立的假設,由Hoeffding不等式,我們推斷出了隨著整合中個體分類器的數目T的增大,整合的錯誤率將指數級下降,最終趨於0。但這是基於個體分類器相互獨立的前提下做出的判斷,實際中的個體學習器是為解決一個問題訓練出來的,他們顯然不可能相互獨立!事實上,個體學習器的”準確性“和”多樣性“本來就存在衝突。 如何產生並結合”好而不同“的學習器是整合學習研究的核心。
整合學習的分類(按照個體學習器的生成方式)可分為
{1.個體學習器間存在強依賴關係、必須序列生成的序列化方法。------>Boosting
2.個體學習器間不存在強依賴關係、可同時生成的並行化方法。------>Bagging和”隨機森林“}
8.2Boosting
基本思想:1.先從初始訓練集訓練出一個基學習器。
2.再根據基學習器的表現對訓練樣本分佈進行調整,使得先前基學習器做錯的訓練樣本在後續受 到更多關注。
3.然後基於調整後的樣本分佈來訓練下一個基學習器。
4.重複上邊2,3步,直到基學習器的數目達到事先指定的值T。
5.最後將T個基學習器進行加權結合。