[面試筆記] 決策樹、隨機森林、GBDT、XGBoost

阿新 • • 發佈：2019-01-05

摘要

本文主要分享了決策樹、隨機森林、GBDT、XGBoost 四種模型的原理

決策樹

對於決策樹，李航老師在《統計學習方法》裡有詳細的解釋

分為ID3, C4.5, CART三個基本的樹生成演算法

ID3 是一個多叉樹，使用了熵作為資訊增益，不能處理連續值，而且有偏向性，傾向於選擇類別較多的特徵，因為IG相對偏大
C4.5 是一個多叉樹，使用了熵計算資訊增益比，資訊增益比進行子節點分裂，對類別較多的特徵進行懲罰
CART是一棵二叉樹，對分類和迴歸都適用，對於迴歸樹用平方誤差最小化，對分類樹用基尼指數進行特徵選擇。分類時和ID3、C4.5類似；迴歸時會遍歷變數j，對固定的切分變數掃描切分點s，計算MSE，選擇使得MSE最小的（j，s）對。
CART之所以使用Gini指數是因為熵需要計算log，速度較慢

隨機森林（Bagging進化版）

RF使用了CART決策樹作為弱學習器，並行的訓練出多棵互相獨立的樹，最後通過投票得出結果

RF有兩個隨機取樣過程：
- 行取樣：採用有放回的方式，也就是在取樣得到的樣本集合中，可能有重複的樣本
- 列取樣：從M個feature中，選擇m個(m << M)

通過樣本的隨機取樣和特徵的隨機取樣，RF的魯棒性非常好

傳統Boosting 與 GradientBoost

原始的Boost演算法是在演算法開始的時候，為每一個樣本賦上一個權重值，初始的時候，大家都是一樣重要的。
在每一步訓練中得到的模型，會使得資料點的估計有對有錯，我們就在每一步結束後，增加分錯的點的權重，減少分對的點的權重，這樣使得某些點如果老是被分錯，那麼就會被“嚴重關注”，也就被賦上一個很高的權重。
然後等進行了N次迭代（由使用者指定），將會得到N個簡單的分類器（basic learner），然後我們將它們組合起來（比如說可以對它們進行加權、或者讓它們進行投票等），得到一個最終的模型
而Gradient Boost與傳統的Boost的區別是，每一次的計算是為了減少上一次的殘差(residual)，而為了消除殘差，我們可以在殘差減少的梯度(Gradient)方向上建立一個新的模型。
GBDT每一步都通過上一時刻的輸出加上當前時刻的負梯度來得到一個Loss更小的強模型。對於迴歸而言，就直接是算梯度就行，對於分類而言，需要Logistics變換

XGBoost

根據GBDT的原理，為了在每次迭代中找到負梯度ft(xi)，我們需要通過求導得到負梯度
然而XGB不通過求導，而是通過將損失函式(MSE或Logistics)進行泰勒展開，得到一次和二次導數項，得到當前時間步的梯度值。問題轉化為如何使得當前梯度值最大，目標函式變為一次、二次導數之和
然後就要開始建樹了，建樹的目標是使得當前梯度最大
為了防止過擬合，在當前目標函式（一次、二次導數之和）的基礎上加入了正則項，包括葉節點個數和對葉節點得分score的L2正則
The Structure Score 這個score你可以理解成類似於資訊增益的一個指標，在切分點查詢演算法中用到
切分點查詢演算法（貪心演算法），需要掃描所有排序過的特徵的得分，得出最優切分點

這裡寫圖片描述

最後通過縮減因子（類似學習率），減小本次迭代中變化的幅度，防止過擬合，通過這種方式來減小每棵樹的影響力，給後面的樹提供空間去優化模型
全過程如下：

這裡寫圖片描述

[面試筆記] 決策樹、隨機森林、GBDT、XGBoost

摘要本文主要分享了決策樹、隨機森林、GBDT、XGBoost 四種模型的原理決策樹對於決策樹，李航老師在《統計學習方法》裡有詳細的解釋分為ID3, C4.5, CART三個基本的樹生成演算法 ID3 是一個多叉樹，使用了熵作為

決策樹與隨機森林

隨機 tro 過程能夠 ots pull 葉子節點合並 pan 決策樹　　決策樹學習采用的是自頂向下的遞歸方法, 其基本思想是以信息熵為度量構造一棵熵值下降最快的樹,到葉子節點處的熵值為零, 　　此時每個葉節點中的實例都屬於同一類。決策樹三種生成算法 ID3 -

機器學習之決策樹與隨機森林模型

會有 strong pytho red -s 很多 4.5 是我機器歡迎大家前往騰訊雲技術社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：汪毅雄導語本文用容易理解的語言和例子來解釋了決策樹三種常見的算法及其優劣、隨機森林的含義，相信能幫助初學者真正地理解相關知識

[三]機器學習之決策樹與隨機森林

3.1 目標任務 1.學習決策樹和隨機森林的原理、特性 2.學習編寫構造決策樹的python程式碼 3.學習使用sklearn訓練決策樹和隨機森林，並使用工具進行決策樹視覺化 3.2 實驗資料資料集：鳶尾花資料集，詳情見[機器學習之迴歸]的Logistic迴歸實驗 3.3

R語言︱決策樹族——隨機森林演算法

筆者寄語：有一篇《有監督學習選擇深度學習還是隨機森林或支援向量機?》（作者Bio：SebastianRaschka）中提到，在日常機器學習工作或學習中，當我們遇到有監督學習相關問題時，不妨考慮下先用簡單的假設空間（簡單模型集合），例如線性模型邏輯迴歸。若效果不好，也即並沒達到你的預期或評判效果基

在OpenCV中實現決策樹和隨機森林

目錄 1.決策樹 2.隨機森林 1.決策樹需要注意的點： Ptr<TrainData> data_set = TrainData::loadFromCSV("mushroom.data",//檔名

機器學習——決策樹和隨機森林演算法

認識決策樹決策樹思想的來源非常樸素，程式設計中的條件分支結構就是if-then結構，最早的決策樹就是利用這類結構分割資料的一種分類學習方法。下面以一個問題引出決策樹的思想這個問題用圖來表示就是這樣: 為什麼先把年齡放在第一個呢，下面就是一個概念:資訊熵資訊熵

【機器學習】決策樹與隨機森林（轉）

文章轉自： https://www.cnblogs.com/fionacai/p/5894142.html 首先，在瞭解樹模型之前，自然想到樹模型和線性模型有什麼區別呢？其中最重要的是，樹形模型是一個一個特徵進行處理，之前線性模型是所有特徵給予權重相加得到一個新的值。決

【線上直播】決策樹與隨機森林

講師：段喜平講師簡介：研究生畢業於中山大學，曾就職於華為，百分點等公司，目前在魅族擔任NLP演算法工程師。分享大綱： 1. 樹模型簡介 2. 常用決策樹演算法ID3, C4.5, CART，隨機森林等演算法介紹 3. 隨機森林程

決策樹之隨機森林

一、簡單介紹 1、Bootstraping 一種有放回抽樣的選擇訓練樣本資料的方法。 2、Bagging策略二、隨機森林一個樣本集合中有n個樣本，用Bootstrap方法對它取樣m次就會得到m個有n個樣本的樣本集合，就等於得到了m個訓練資料集。對於每一個訓

《web安全之機器學習入門》第6章決策樹與隨機森林演算法

決策樹識別pop3埠掃描（原書中識別暴力破解，實際上pop3協議的並沒有guess_passwd型別的資料，所以改為識別port_sweep.）：待分析資料集：KDD-99資料集，連結：http://kdd.ics.uci.edu/databases/kddcup99/kdd

決策樹和隨機森林演算法

決策樹和隨機森林都是常用的分類演算法，它們的判斷邏輯和人的思維方式非常類似，人們常常在遇到多個條件組合問題的時候，也通常可以畫出一顆決策樹來幫助決策判斷。本文簡要介紹了決策樹和隨機森林的演算法以及實現，並使用隨機森林演算法和決策樹演算法來檢測FTP暴力破解和PO

R語言之決策樹和隨機森林

總結決策樹之前先總結一下特徵的生成和選擇，因為決策樹就是一種內嵌型的特徵選擇過程，它的特徵選擇和演算法是融合在一起的，不需要額外的特徵選擇。一、特徵生成：特徵生成是指在收集資料之時原始資料就具有的資料特徵，這些資料特徵由收集的資料決定（其實也就是在產品定型時設定的需要收

機器學習與人工智障(5):決策樹與隨機森林

一、從LR到決策樹　　1.總體流程與核心問題　　　　(1)決策樹是基於樹的結構進行決策：　　　　　　每個“內部節點”對應於某個屬性上的“測試” 　　　　　　每個分支對應於該測試的一種可能結果(即該屬性上的每個取值) 　　　　　　每個葉節點對應於一個預測結果　　　　(2)學習過程：通過對訓練

Python 資料科學手冊 5.8 決策樹和隨機森林

5.8 決策樹和隨機森林之前，我們深入研究了簡單的生成分類器（見樸素貝葉斯分類）和強大的辨別分類器（參見支援向量機）。這裡我們來看看另一個強大的演算法的動機 - 一種稱為隨機森林的非引數演算法。隨機森林是組合方法的一個例子，這意味著它依賴於更簡單估計

決策樹和隨機森林

三種決策樹的剪枝過程演算法相同，區別僅是對於當前樹的評價標準不同：資訊增益（ID3），資訊增益率（C4.5），基尼指數（CART）一個屬性的資訊增益越大，表明屬性對樣本的熵減少的能力越強。這個屬性使得資料由不確定性變為確定性的能力越強。決策樹的評價：對於決策樹的某

python在Scikit-learn中用決策樹和隨機森林預測NBA獲勝者

在本文中，我們將以Scikit學習的決策樹和隨機森林預測NBA獲勝者。美國國家籃球協會（NBA）是北美主要的男子職業籃球聯賽，被廣泛認為是首屈一指的男子職業籃球聯賽在世界上。它有30個團隊（美國29個，

乾貨｜從決策樹到隨機森林：樹型演算法的實現原理與Python 示例

原文地址基於樹（Tree based）的學習演算法在資料科學競賽中是相當常見的。這些演算法給預測模型賦予了準確性、穩定性以及易解釋性。和線性模型不同，它們對非線性關係也能進行很好的對映。常見的基於樹的模型有：決策樹、隨機森林和提升樹。在本篇文章中，我們將會介紹決策

決策樹和隨機森林用 python treeinterpreter實現

示例說明這個部落格深入到決策樹和隨機森林的基礎上，以便更好地解釋它們。在過去的幾年中，隨機森林是一種新興的機器學習技術。它是一種基於非線性樹的模型，可以提供精確的結果。然而，大多是黑箱，通常很難解釋和充分理解。在本文中，我們將深入瞭解隨機森林的基本知

08 決策樹與隨機森林

08 決策樹與隨機森林決策樹之資訊理論基礎認識決策樹來源：決策樹的思想來源非常樸素，程式設計中的條件分支結構就是if - then 結構，最早的決策樹就是利用這類結構分割資料的一種分類學習方法。舉例：是否見相親物件資訊的度量和作用克勞德 .艾爾伍德 .夏農：資訊理論創始人，密西根大學學

[面試筆記] 決策樹、隨機森林、GBDT、XGBoost

摘要

決策樹

隨機森林（Bagging進化版）

傳統Boosting 與 GradientBoost

XGBoost

相關推薦