1. 程式人生 > >機器學習筆記之十——整合學習之Bagging

機器學習筆記之十——整合學習之Bagging

上一節學習了決策樹:https://blog.csdn.net/qq_35946969/article/details/85039097

最後說到提升決策樹的效能,整合就是非常強大的解決方案。

藉助一個圖,直觀的瞭解整合學習:

 

Bagging

    Bagging是整合個體學習器的一種方式,它的思想十分簡單:

    a.對原始樣本進行有放回取樣,得到一個樣本子集,用這個樣本子集去訓練,得到一個學習器。

   b.重複以上步驟,得到n個樣本子集,訓練出n個學習器。

   c.預測目標樣本時,用這n個學習器進行投票法(分類問題中)、平均值法(迴歸問題中)等方法。

 

Random Fores(隨機森林,RF)

  隨機森林時Bagging方法的典型代表,同時也是決策樹的提升優化。

  隨機森林的過程:(1)、從總樣本中有放回的隨機取樣,得到m組樣本子集。

                                (2)、在m組樣本子集中,各自分別隨機選擇K個特徵值作為本子集的訓練特徵,訓練出m個決策樹。

                                 (3)、predict——以m個弱分類器預測的結果投票或者取平均值。

以上即是隨機森林的思想,sklearn的實現中,需要調整的引數一般是決策樹的數目(50~100),特徵數量K,結果的預測的方法以及決策樹中的一些引數。

 

Extra Tree

    Extra Tree 是隨機森林的一個變種,不常用。但是在隨機森林都過擬合的情況下,可以嘗試這個演算法。

    Extra Tree和隨機森林的主要區別如下:

           (1)、RF用於訓練的樣本子集是隨機取樣的,而Extra Tree每次都直接使用原始樣本。

            (2)、RF特徵選擇使用的是最優選擇(即使用資訊增益、基尼係數等選擇),而Extra Tree則是使用隨機選擇的方式。因為是隨機選擇,所以一般Extra Tree生成的決策森林一般比較大,方差較小,泛化能力強。

 

Totally Random Tree Embedding(TRTE)

  TRTE不是分類迴歸演算法,而是一種非監督的資料轉化方式,可以將低維的資料對映到高維,從而讓高維的資料更好得用於分類迴歸模型。。

   

Isolation Forest(IForest)

    一種異常點檢測演算法。