1. 程式人生 > >RF 和 GBDT聯系和區別

RF 和 GBDT聯系和區別

log 關聯 創建 屬性 依賴關系 樣本 眾數 理解 數量

1、RF 原理

用隨機的方式建立一個森林,森林裏面有很多的決策樹,隨機森林的每一棵決策樹之間是沒有關聯的。在得到森林之後,當有一個新的輸入樣本進入的時候,就讓森林中的每一棵決策樹分別進行一下判斷,看看這個樣本應該屬於哪一類(對於分類算法),然後看看哪一類被選擇最多,就預測這個樣本為那一類。

2、RF 優缺點

優點:
(1)在數據集上表現良好,兩個隨機性的引入,使得隨機森林不容易陷入過擬合。
(2)在當前的很多數據集上,相對其他算法有著很大的優勢,兩個隨機性的引入,使得隨機森林具有很好的抗噪聲能力
(3)能夠處理很高維度(feature 很多)的數據,並且不用做特征選擇,對數據集的適應能力強,既能處理離散數據,也能處理連續型數據,數據集無需規範化。
(4)可生成一個 Proximities = (pij) 矩陣,用於度量樣本之間的相似性:pij=aij/N, aij表示樣本i和j出現在隨機森林中同一個葉子結點的次數,N隨機森林中樹的棵數
(5)在創建隨機森林的時候,對 generlization error 使用的是無偏估計
(6)訓練速度快,可以得到變量重要性排序(兩種:基於 OOB 誤分率的增加量和基於分裂時的 GINI 下降量)
(7)在訓練過程中,能夠檢測到 feature 間的相互影響
(8)容易做成並行化方法
(9)實現比較簡單

缺點:
(1)需要大量的維護工作
(2)對於小量數據集和低維數據集的分類不一定可以得到很好的效果。
(3)執行速度雖然比 Boosting 等快,但是比單個的決策樹慢很多。
(4)可能會出現一些差異度很小的樹,淹沒了一些正確的決策。
(5)當我們需要推斷超出範圍的獨立變量或非獨立變量,隨機森林做的並不好,我們最好使用如 MARS 那樣的算法。
(6)隨機森林算法在訓練和預測時都比較慢。
(7)如果需要區分的類別十分多,隨機森林的表現並不會很好。

3、RF 的優化點

(1)候選特征數 K
K 越大,單棵樹的效果會提升,但樹之間的相關性也會增強

(2)決策樹數量 M
M 越大,模型效果會有提升,但計算量會變大

4、RF 和 GBDT 的聯系和區別

聯系:

RF 和 GBDT 都是在決策樹上進行改造或者集成完成的。

區別:

隨機森林:決策樹 + bagging = 隨機森林
梯度提升樹:決策樹 + Boosting = GBDT

1. RF 原理

多個決策樹同時建模,生成的結果,輸出的結果是集體輸出的眾數決定的,隨機森林可以通過收集很多樹的子節點對各個類別投票,然後選擇獲得最多投票的類別作為判斷結果。通過計算”森林“的所有子節點的值的平均值來解決回歸問題。
隨機森林既可以解決回歸問題,也可以解決分類問題。

2. RF 優缺點

優點: 可以使用更少的重要變量,獲得最好的預測性能 1、在數據集上表現良好,相對於其他算法有較大的優勢(訓練速度、預測準確度);2、能夠處理很高維的數據,並且不用特征選擇,而且在訓練完後,給出特征的重要性;3、容易做成並行化方法。
缺點:在噪聲較大的分類或者回歸問題上回過擬合。

3. RF 的優化點
基於隨機森林的智能算法特征選擇和參數優化混合算法,通過二進制編碼,對樹的規模、子屬性個數和特征選擇同時搜索,以最小化袋外數據誤差為目標函數。實驗選擇高維二分類和多分類數據,對比了無特征選擇下,參數傳統取值和混合遺傳隨機森林、混合粒子群隨機森林和混合魚群隨機森林算法的結果,從F值、G-mean、AUC和OOB error等多個指標表明該算法可以提高隨機森林的性能,為特征選擇和參數優化提供了新思路。

4. RF 和 GBDT的聯系和區別
隨機森林,決策樹基礎上使用Bagging,Bagging可以簡單的理解為:放回抽樣,多數表決(分類)或簡單平均(回歸),同時Bagging的基學習器之間屬於並列生成,不存在強依賴關系。
GBDT,決策樹基礎上使用Boosting,與傳統的Boosting區別較大,它的每一次計算都是為了減少上一次的殘差,而為了消除殘差,我們可以在殘差減小的梯度方向上建立模型,所以說,在GradientBoost中,每個新的模型的建立是為了使得之前的模型的殘差往梯度下降的方法,與傳統的Boosting中關註正確錯誤的樣本加權有著很大的區別。

by the way:

RF的兩個隨機指的是
隨機選取劃分特征:對於決策樹的每個節點,先從該節點的屬性集合中隨機選取包含k個屬性的子集,再從這個子集中選擇一個最優屬性進行劃分,一般推薦k=log2d
隨機選取樣本:有放回的隨機選取樣本,因此每個弱學習器的訓練樣本是有重疊的樣本子集。

技術分享圖片

RF 和 GBDT聯系和區別