1. 程式人生 > >《機器學習》周志華 整合學習

《機器學習》周志華 整合學習

8.1個體整合

        個體學習器可以由  C4.5決策樹演算法  BP神經網路等  來訓練。

        個體學習器(同質)---->叫基學習器(也叫弱學習器---指泛化效能略優於隨機猜測的學習器,如二分類問題上精度略高於50%的分類器)  相應的演算法叫做  基學習演算法。

        個體學習器(異質)----->叫元件學習器或者直接稱為個體學習器。

        (理論上來說)對“弱學習器”,將多個學習器結合,常可獲得比單一學習器顯著優越的泛化效能 。

        (實踐中來說)常用的學習器“好而不同“,即個體學習器要有一定的”準確性“,學習器不能太壞,並且要有”多樣性“,學習器之間要有差異。

        而且基於分類器的錯誤率相互獨立的假設,由Hoeffding不等式,我們推斷出了隨著整合中個體分類器的數目T的增大,整合的錯誤率將指數級下降,最終趨於0。但這是基於個體分類器相互獨立的前提下做出的判斷,實際中的個體學習器是為解決一個問題訓練出來的,他們顯然不可能相互獨立!事實上,個體學習器的”準確性“和”多樣性“本來就存在衝突。    如何產生並結合”好而不同“的學習器是整合學習研究的核心

        整合學習的分類(按照個體學習器的生成方式)可分為

        {1.個體學習器間存在強依賴關係、必須序列生成的序列化方法。------>Boosting

        2.個體學習器間不存在強依賴關係、可同時生成的並行化方法。------>Bagging和”隨機森林“}

8.2Boosting

        基本思想:1.先從初始訓練集訓練出一個基學習器。

                         2.再根據基學習器的表現對訓練樣本分佈進行調整,使得先前基學習器做錯的訓練樣本在後續受                             到更多關注。

                         3.然後基於調整後的樣本分佈來訓練下一個基學習器。

                         4.重複上邊2,3步,直到基學習器的數目達到事先指定的值T。

                         5.最後將T個基學習器進行加權結合。