決策樹和基於決策樹的集成方法（DT,RF,GBDT,XGB）復習總結

阿新 • • 發佈：2019-03-31

alpha 做了 .org ntb 變量 feature sum mac 實踐

摘要：

　　1.算法概述

　　2.算法推導

　　3.算法特性及優缺點

　　4.註意事項

　　5.實現和具體例子

內容：

1.算法概述

　　1.1 決策樹（DT）是一種基本的分類和回歸方法。在分類問題中它可以認為是if-then規則的集合，也可以認為是定義在特征空間與類空間上的條件概率分布，學習思想包括ID3,C4.5,CART（摘自《統計學習方法》）。

　　1.2 Bagging :基於數據隨機重抽樣的集成方法（Ensemble methods），也稱為自舉匯聚法（boostrap aggregating）,整個數據集是通過在原始數據集中隨機選擇一個樣本進行替換得到的。進而得到S個基預測器（ base estimators），選擇estimators投票最多的類別作為分類結果，estimators的平均值作為回歸結果。（摘自《統計學習方法》和scikit集成方法介紹）

　　1.3 隨機森林（RF）：基於boostrap重抽樣和隨機選取特征，基預測器是決策樹的集成方法（Ensemble methods）

　　1.4 Boosting :通過改變樣本的權重（誤分樣本權重擴大）學習多個基預測器，並將這些預測器進行線性加權的集成方法（摘自《統計學習方法》）

　　1.5 梯度提升決策樹（GBDT）:基於boosting方法，提升方向是梯度方向的決策樹的集成方法（Ensemble methods）

　　1.6 XGBDT:基於GBDT的一種升級版本，對目標函數做了二階導數，主要改進是使用了正則化和特征分塊存儲並行處理（參考大殺器xgboost指南）

　　1.7 回歸/分類樹樹模型函數：

技術分享圖片，這裏數據集被劃分為R1,...,Rm個區域，每一個區域對應一個預測值Cm;其中I()是指示函數，當滿足條件時返回1，否則為0

　　1.8 決策樹常見的損失函數：

　　　　用於分類的損失函數：01損失，LR的對數損失，softmax的mlogloss

　　　　用於回歸的損失函數：線性回歸的MSE

2.算法推導

　　2.1 決策樹生成過程就是一個遞歸的過程，如果滿足某種停止條件（樣本都是同一類別，叠代次數或者其他預剪枝參數）則返回多數投票的類作為葉結點標識；否則選擇最佳劃分特征和特征值生成|T|個子節點，對子節點數據進行劃分；所以劃分屬性的計算方式是DT的精髓，以下總結各種劃分屬性的計算方法（附一個java實現決策樹的demo）：

　　ID3與C4.5中使用的信息增益和信息增益率：

　　信息熵（Entropy）是表示隨機變量不確定性的度量：

　　　　技術分享圖片，其中S是數據集，X是類別集合，p（x）是類別x占數據集的比值。

　　信息增益（Information gain）表示數據集以特征A劃分，數據集S不確定性下降的程度

　　　　技術分享圖片，其中H(S)是原數據集S的熵；T是S以特征A劃分的子集集合，即

　　　　p(t)是T的某一劃分子集t占數據集S的比值，H(t)是劃分子集t的熵。

　　信息增益率（為了克服ID3傾向於特征值多的特征）：

　　　　IG_Ratio = IG(A,S) / H(A)，特征A的熵越大，受到的懲罰也越多，從而保證特征之間的信息增益率可比

　　信息增益/信息增益率越大，樣本集合的不確定性越小

　　 CART中使用的Gini指數：

　　　基尼（gini）指數是元素被隨機選中的一種度量：

　　　數據集D的gini系數：技術分享圖片

　　　在數據集D中以特征A劃分的gini系數：技術分享圖片

　　　gini指數越小，樣本集合的不確定性越小

　　　2.2回歸樹：CART,GBDT以及XGBoost 都可以用作回歸樹，所以這裏梳理下回歸樹是如何確定劃分特征和劃分值的：

　　　技術分享圖片 ,其中C1,C2是劃分區域R1,R2的均值，J,S是劃分特征和劃分的特征值

　　　2.3 GBDT算法（來自這個論文,可以參考《統計學習方法》中例8.2手算一下）

　　　技術分享圖片

　　附：　

技術分享圖片

　　　　參考自：《統計學習基礎數據挖據、推理與預測》 by Friedman 10.9節

　　　　2.4 XGBoost

　　　　模型函數：　　

　　　　技術分享圖片　　　

　　　　最終得：

　　　　技術分享圖片

　　　　詳細的推導會附在文尾

3.算法特性及優缺點

　　決策樹的優（特性）缺點：

　　優點：

　　　　（1）輸出結果易於理解，

　　　　（2）對缺失值不敏感，可以處理無關數據，可以處理非線性數據

　　　　（3）對於異常點的容錯能力好，健壯性高

　　　　（4）不需要提前歸一化

　　　　（5）可以處理多維度輸出的分類問題。

　　　缺點：

　　　　（1）容易過擬合，需要剪枝或者RF避免

　　　　（2）只註重單個特征的局部劃分，而不能像LR那樣考慮整體的特征

　　　ID3算法比較：

　　　缺點：

　　　　（1）按照特征切分後，特征不在出現，切分過於迅速；

　　　　（2）只能處理類別類型，決策樹不一定是二叉樹，導致學習出來的樹可能非常寬

　　　　（3）不能回歸

　　　　（4）信息增益的結果偏向於數值多的特征　　　

　　CART算法比較：

　　　　優點：離散或者連續特征可以重復使用；可以處理連續性特征；可以回歸

　　RF的特性

　　　　優點：並行處理速度快，泛化能力強,可以很好的避免過擬合；能夠得到特征的重要性評分（部分參考這篇總結）

　　　　　　　對於不平衡數據集可以平衡誤差（參考中文維基百科）

　　　　缺點：偏差會增大（方差減小）

　　GBDT的特性

　　　　優點：精度高;可以發現多種有區分性的特征以及特征組合

　　　　缺點：串行處理速度慢

　　XGB算法比較：

　　　　使用了二階導數，對特征分塊，從而可以並行加快運算速度

4.註意事項

　　4.1 樹的剪枝（結合sklearn中的參數進行總結）

　　　　　max_depth ：DT的最大深度（默認值是3）

　　　　　max_features ：最大特征數（默認值是None）

　　　　　min_samples_split ：觸發分割的最小樣本個數，如果是2，兩個葉結點各自1個樣本

　　　　　min_samples_leaf ：葉子節點的最小樣本數，如果是2，兩個葉結點至少2個樣本

　　　　　min_impurity_split ：最小分割純度（與分割標準有關，越大越不容易過擬合）　

　　　　（附：樹模型調參）

　　4.2 如何計算的屬性評分（結合sklearn總結）

　　　　　 The importance of a feature is computed as the (normalized) total reduction of the criterion brought by that feature. It is also known as the Gini importance [R245].

　　4.3 正則化

　　　　衰減（Shrinkage）因子（learning_rate）：

　　　　proposed a simple regularization strategy that scales the contribution of each weak learner by a factor $技術分享圖片$ : $技術分享圖片$

　　　　The parameter $技術分享圖片$ is also called the learning rate because it scales the step length the gradient descent procedure; it can be set via the learning_rate parameter. ——摘自scikit官網

　　　　eta [default=0.3]

為了防止過擬合，更新過程中用到的收縮步長。在每次提升計算之後，算法會直接獲得新特征的權重。 eta通過縮減特征的權重使提升計算過程更加保守。缺省值為0.3
取值範圍為：[0,1]
通常最後設置eta為0.01~0.2 ——摘自XGBOOST調優

　　　　正則項系數：

lambda [default=0]
- L2 正則的懲罰系數
- 用於處理XGBoost的正則化部分。通常不使用，但可以用來降低過擬合
alpha [default=0]
- L1 正則的懲罰系數
- 當數據維度極高時可以使用，使得算法運行更快。
lambda_bias
- 在偏置上的L2正則。缺省值為0（在L1上沒有偏置項的正則，因為L1時偏置不重要） ——摘自XGBOOST調優

　　4.4 其他參數：

　　　class_weight：為了克服類別不均衡問題，引入代價敏感方法，class_weight是各類別的權重 ——摘自scikit官網：

gamma [default=0]
- minimum loss reduction required to make a further partition on a leaf node of the tree. the larger, the more conservative the algorithm will be.
- range: [0,∞]
- 模型在默認情況下，對於一個節點的劃分只有在其loss function 得到結果大於0的情況下才進行，而gamma 給定了所需的最低loss function的值
- gamma值使得算法更conservation，且其值依賴於loss function ，在模型中應該進行調參。 ——摘自XGBOOST調優

　　　註：以上只是列出個人覺得比較重要的超參，具體的調參還請參見這兩篇博文：RF和GBDT參數詳解：《使用sklearn進行集成學習——實踐》；XGBoost參數調優：XGBoost-Python完全調參指南-參數解釋篇

5.實現和具體例子

　　微額借款人品預測競賽

　　風控違約預測競賽

　　CTR預測（GBDT+LR），sklearn官網RF+LR的進行特征選擇的例子

　　Spark ml GradientBoostedTrees 核心實現部分

　　預測多變量的例子——(kaggle)預測沃爾瑪超市38個購物區購物量

附：XGB推導目標函數推導：

技術分享圖片

決策樹和基於決策樹的集成方法（DT,RF,GBDT,XGB）復習總結

alpha 做了 .org ntb 變量 feature sum mac 實踐摘要：　　1.算法概述　　2.算法推導　　3.算法特性及優缺點　　4.註意事項　　5.實現和具體例子內容： 1.算法概述　　1.1 決策樹（DT）是一種基本的分類和

springcloud集成redis（單機模式+哨兵模式）

amp con template data you line block 工具類 data- 下面是自己寫的springcloud兩種集成redis操作的方式 spring-data-redis（單機和哨兵模式） RedisTemplate工具類（單機和哨兵模式）

基於圖的影象分割方法（Graph-Based Image Segmentation）原始碼閱讀筆記

這個方法被應用於深度學習目標檢測的經典之作selective search方法中（Selective Search for Object Recognition），用於初始化分割區域。。論文題目：《Efficient Graph-Based Image Segm

演算法班筆記第五章二叉樹和基於樹的DFS

第五章二叉樹和基於樹的DFS 在這一章節的學習中，我們將要學習一個數據結構——二叉樹（Binary Tree），和基於二叉樹上的搜尋演算法。在二叉樹的搜尋中，我們主要使用了分治法（Divide Conquer）來解決大部分的問題。之所以大部分二叉樹的問題可以使用分治法

基於樹的查詢(二叉排序樹、平衡二叉樹、B樹、B+樹、伸展樹和紅黑樹)

本文主要介紹幾種比較重要的樹形結構： ① 二叉排序樹 ② 平衡二叉樹 ③ B樹 ④ B+樹 ⑤ 伸展樹 ⑥ 紅黑樹分為三個問題來描述每種樹： ① 是什麼？主要應用？ ② 有什麼特點(性質)？ ③ 基於它的操作？

Harbor用戶機制、鏡像同步和與Kubernetes的集成實踐

kuberntesHabor是由VMWare公司開源的容器鏡像倉庫。事實上，Habor是在Docker Registry上進行了相應的企業級擴展，從而獲得了更加廣泛的應用，這些新的企業級特性包括：管理用戶界面，基於角色的訪問控制，AD/LDAP集成以及審計日誌等。容器的核心在於鏡象的概念，由於可以將應用打包

基於ping++第三方集成各類支付

gif intval val mount attribute sub header null del 首先需要開通ping++賬戶下所需要的支付渠道以上為掃碼支付的流程，首先需要獲取支付對象charge 1 Charge charge = null;

solr搜索之demo和集成IKAnalyzer（二）

solr solr搜索 ikanalyzer分詞器 ikanalyzer 1 新建demo-solr關閉運行的solr應用。進入solr目錄：D:\solr-4.10.2\example1、在example目錄下創建demo-solr文件夾；2、將./solr下的solr.xml拷貝

樹和二叉樹

reat 完成 child names space -1 include ges 中序編程語言：c++ 截圖展示：代碼如下： main.cpp 1 #include <iostream> 2 #include <cstdio&g

第六章樹和二叉樹

a20 cfb 樹和二叉樹 fff itblog ffd ace cab dac 第六章樹和二叉樹

Lync Server 2013 標準版部署（七）前端服務器和Office Web Apps集成

OWA集成 lync與OWA集成在需要安裝Office Web Apps 服務器初始化：服務器名稱、IP地址、防火墻、Windows補丁，加入到域中。1.查看計算機名稱及IP地址2.掛載Windows Server 2012 R2 鏡像（盤符為D：）3.使用管理員打開Windows PowerShe

樹和二叉樹->最優二叉樹

nco 代碼實現 type except close 輸出結點 eof fde 左右文字描述結點的路徑長度　　從樹中一個結點到另一個結點之間的分支構成這兩個結點之間的路徑，路徑上的分支數目稱作路徑長度。樹的路徑長度　　從樹根到每一個結點的路徑長度之和叫樹的路徑長

直播APP開發，擴展類庫用戶、會話和第三方登錄集成

集成 efault 創建興趣有效 common type 下載初始化直播APP開發擴展類庫用戶、會話和第三方登錄集成，允許我將些擴展類庫進行開源。原來此類庫的功能只是當前開發項目中的功能，我現將其抽離成可配置使用的擴展類庫，以供大家共享。此類庫主要特點有：1、可以和

一個尖括號能幹什麽，畫一個笑臉開始（為了支持交互，它又增添了JavaScript。HTML頁面也越來越臃腫。於是CSS便誕生了。API和核心代碼的出現使HTML能夠訪問更復雜的軟件功能－－支持更高級的交互和雲服務集成。這就是今天的HTML5）

重要 htm 服務廠商 inf web運行 ima 用戶界面一個尖括號 < 一個尖括號能幹什麽 < ? 你可以編出一頂帽子 <(:-p 或一張笑臉 :-> 再或者更直接一些 20世紀90年代初，html作為一種簡單標記語言面

決策樹和基於決策樹的集成方法（DT,RF,GBDT,XGB）復習總結

決策樹和基於決策樹的集成方法（DT,RF,GBDT,XGB）復習總結

springcloud集成redis（單機模式+哨兵模式）

基於圖的影象分割方法（Graph-Based Image Segmentation）原始碼閱讀筆記

演算法班筆記第五章二叉樹和基於樹的DFS

基於樹的查詢(二叉排序樹、平衡二叉樹、B樹、B+樹、伸展樹和紅黑樹)

Harbor用戶機制、鏡像同步和與Kubernetes的集成實踐

基於ping++第三方集成各類支付

solr搜索之demo和集成IKAnalyzer（二）

樹和二叉樹

第六章樹和二叉樹

Lync Server 2013 標準版部署（七）前端服務器和Office Web Apps集成

樹和二叉樹->最優二叉樹

直播APP開發，擴展類庫用戶、會話和第三方登錄集成

數據結構——第三章樹和二叉樹：01樹和二叉樹的類型定義

資料結構——第三章樹和二叉樹：02二叉樹

資料結構——第三章樹和二叉樹：03樹和森林

pat-A1043:Is it a Binary Search Tree（二叉搜尋樹和及其映象樹的遍歷）

第六章樹和二叉樹--Huffman樹-計算機17級

第六章樹和二叉樹--樹和森林-計算機17級 7-2 家譜處理（30 分）

決策樹和基於決策樹的集成方法（DT,RF,GBDT,XGB）復習總結

相關推薦