機器學習 - 決策樹（下）- CART 以及與 ID3、C4.5的比較

CART
迴歸樹
分類樹
剪枝

剪枝
選擇

決策樹特點總結
ID3，C4.5，CART 比較

CART

CART（Classification and Regression Tree），分類與迴歸樹。CART假設決策樹為二叉樹，遞迴的二分每個特徵，既可以做迴歸，也可以做分類。
迴歸樹

損失函式採用平方誤差最小化。
- ① 選擇最優切分變數 $x$
  
  ( j ) x_{(j)} $x_{(j)}$ 、切分點 $s$ ，切分點將資料劃分為 $R_1,R_2$ ，求解：
  
  $\mathop{}_{j,s}^{min}[\mathop{}_{c_1}^{min}\sum_{x_i∈R_1(j,s)}(y_i-c_1)^2+\mathop{}_{c_2}^{min}\sum_{x_i∈R_2(j,s)}(y_i-c_2)^2]$
  
  得出最優解 $j_1^*,x_1^*$
- ② 根據 $j_1^*,x_1^*$ 劃分區域 $R_1,R_2$ 並計算其相應的輸出值：
  
  $R_1(j_1^*,x_1^*)=\{x|x^{(j)}\le s\}$ ， $R_2(j_1^*,x_1^*)=\{x|x^{(j)}>s\}$
  
  $\mathop{}_{c_m}^{-}=\frac{1}{N}\sum_{x_i∈R_m(j,s)}y_i，x∈R_m,m=1,2$
- ③ 繼續對兩個子區域重複 ① ② 步驟，直至滿足條件
- ④ 將輸入空間劃分為 M 個區域 $R_1,R_2,...R_M$ ，生成決策樹
  
  $f(x)=\sum_{m=1}^{M}\mathop{}_{c_m}^{-}I(x∈R_m)$
分類樹

CART 的分類樹與 ID3，C4.5 類似，但衡量最優特徵的標準有差異。分類樹中使用基尼指數選擇最優特徵，同時決定該特徵的最優切分點。
1. 基尼（ $Gini$ ）指數
  分類問題中，假設有 $K$ 個類，樣本點屬於第 $k$ 類的概率為 $P_k$ ，則
  $G i n i (P) = \sum_{k = 1}^{K} P_{k} (1 - P_{k}) = 1 - \sum_{k = 1}^{K} P_{k}^{相關推薦 .r{ margin-bottom:10px; border-bottom:1px solid #f1f1f1; padding-bottom:10px;}
  .r p{ color:#999; line-height:25px;}
  .r h5 a{ font-size:16px; line-height:25px;}
  .r h5 a:hover{ color:#ff6600} 機器學習 - 決策樹（下） - CART 以及與 ID3 、 C4 . 5 的比較機器學習 - 決策樹（下）- CART 以及與 ID3、C4.5的比較
  
  CART
  迴歸樹
  分類樹
  剪枝
  
  剪枝
  選擇
  
  決策樹特點總結
  ID3，C4. 機器學習 - 提升樹（下） - XGBoost 以及與 GBDT 的比較機器學習 - 提升樹（下）- XGBoost 以及與 GBDT 的比較
  
  XGBoost（eXtreme Gradient Boost）
  
  原理
  預剪枝
  與 GBDT 的比較機器學習 - 決策樹（中） - ID3 、 C4 . 5 以及剪枝機器學習 - 決策樹（中）- ID3、C4.5 以及剪枝
  
  決策樹簡述
  決策樹過程
  
  ID3
  C4.5
  過擬合
  
  剪枝定義
  剪枝過程機器學習 - 決策樹（上） - 資訊理論基礎機器學習 - 決策樹 and 資訊理論基礎
  
  熵
  
  自資訊
  夏農熵
  交叉熵
  條件熵
  互資訊（ID3 所使用的資訊增益）
  KL 散度（相對熵）機器學習 - 決策樹（ decision tree ）機器學習中分類和預測演算法的評估：
  準確率
  速度
  強壯性（演算法中當有噪音和某些值缺失時，演算法能否依然很好）
  可規模性
  可解釋性（能否很好的解釋模型）
  
  一、什麼是決策樹？
  1、判定樹（決策樹）是一個類似於流程圖的樹結構，其中，每個內部節點表示在一個屬性上的機器學習實戰決策樹（一） ——資訊增益與劃分資料集 from math import log
  #計算給定的熵
  def calcsahnnonent(dataset):
  numentries = len(dataset) #計算例項的總數
  labelcounts ={}
  # 機器學習第一篇（下）實戰演練 ——MovieLens
  第一步：獲取資料集
  
  第二步：解壓檔案後，將u.item以及u.data新增到專案中，加入方法loadMovieLens
  def loadMovieLens(path='data/movielens'):
  movies={}
  for 機器學習作業KNN （下） ——字元分類作業背景：
  今天機器學習實驗課，老師給了個很小的資料集，是劃分英文字母B和M，讓我們用KNN做，看看分類效果嗎，正好我上個實驗也用的KNN，所以把上次的程式稍微修改一下即可（偷懶狂魔）。
  
  資料預處理：
  大致看了下資料集，是這個樣子的：
  
  2.1 特徵選機器學習 - 提升樹（上） - BT 、 GBDT 機器學習 - 提升樹（上）- BT、GBDT
  
  BT（Boosting Tree）
  
  介紹
  原理
  演算法過程
  舉例
  
  GBDT（Gradient Boosting De R語言編寫決策樹（ rpart ） CART ID3 演算法決策樹(decision tree)是一類常見的機器學習方法。以二分類任務為例，我們希望從給定訓練資料集學得一個模型用以對新示例進行分類，這個把樣本分類的任務，可看做對“當前樣本屬於正常嗎？”這個問題的‘決策’或者‘判定’過程。顧名思義，決策樹是基於樹結構來進行機器學習速成筆記（二）：訓練與損失訓練模型通過有標籤樣本來學習（確定）所有的權重和偏差的理想值。
  損失是對槽糕預測的懲罰，損失是一個數值，模型的預測完全正確，則損失為零，反之，模型的預測越槽糕，損失越大。
  平方損失：一種常見的損失函式，線性迴歸模型就是使用該平方損失
  均方誤差：每個樣本的平均平方損失，計算均方誤差，要算出機器學習系列：（三）特徵提取與處理第一個SURF描述符：
  [ 1.15299134e+02 2.56185453e+02 3.51230841e+00 3.32786485e+02
  1.00000000e+00 1.75644866e+00 -2.94268692e-03 3.30736379e-03
  2 機器學習 - 整合方法（ Bagging VS. Boosting 以及隨機森林、 AdaBoost ）機器學習 - 整合方法（Bagging VS. Boosting 以及隨機森林）
  
  整合方法
  Bagging
  
  Bagging 分類：
  Bagging 的預測：
  
  Boosting 機器學習練習記錄（ 1 ）：偽逆法、勢函式、基於二次準則的H-K函式、感知器法勢函式的構造是人工勢場方法中的關鍵問題，典型的勢函式構造方法：P(θ)=f{d(θ,θ0),[dR(θ),O],dT}(1)，式中 θ，θ0——機器人當前位姿與目標位姿向量；d(θ,θ0)——θ與θ0間的某種廣義距離函式；dR(θ)，O——當前位姿下機器人與障礙物間的最小距離；dT——給定的門限值；P(θ) 【機器學習】決策樹（下) CART 演算法分類樹、迴歸樹 CART同樣由特徵選擇、樹的生成、剪枝組成。既可以用於迴歸，又可以用於分類。 CART是在給定輸入隨機變數X條件下輸出隨機變數Y的條件概率分佈的學習方法。 CART假設決策樹是二叉樹，內部節點特徵的取值為“是“和“否“，左分支是取值為“是“的分支，右分支是取值為“否“的分支。這樣的決策樹 python 機器學習案例系列教程—— 決策樹（ ID3 、 C4 . 5 、 CART ）決策樹簡介
  
  決策樹算是最好理解的分類器了。決策樹就是一個多層if-else函式，就是對物件屬性進行多層if-else判斷，獲取目標屬性（類標籤）的類別。由於只使用if-else對特徵屬性進行判斷，所以一般特徵屬性為離散值，即使為連續值也會先進行區間離散機器學習回顧篇（ 8 ）： CART 決策樹演算法注：本系列所有部落格將持續更新併發布在github和gitee上，您可以通過github、gitee下載本系列所有文章筆記檔案。
  1 引言
  上一篇部落格中介紹了ID3和C4.5兩種決策樹演算法，這兩種決策樹都只能用於分類問題，而本文要說的CART（classification and regression 機器學習 --DIY筆記與感悟--② 決策樹（ 1 ） lis ... 編寫代碼需要總結初始化對數三分 xtend 在完成了K臨近之後，今天我們開始下一個算法--->決策樹算法。
  
  一、決策樹基礎知識
  如果突然問你"有一個陌生人叫X,Ta今天需要帶傘嗎?", 你一定會覺得這個問題就像告訴你"兩千米外有一個超市, 我的機器學習之旅（六）：決策樹 family 分配根據 drop chrom labels arch ntp -o 決策樹概念：
  分類決策樹模型是一種描述對實例進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種類型：內部節點和葉節點，內部節點表示一個特征或屬性，葉節點表示一個類。分類的時候，從根機器學習讀書筆記（三）決策樹基礎篇之從相親說起方法事務家裏分類筆記判斷都是 rom tro
  
  一、決策樹
  決策樹是什麽？決策樹(decision tree)是一種基本的分類與回歸方法。舉個通俗易懂的例子，如下圖所示的流程圖就是一個決策樹，長方形代表判斷模塊(decision block)，橢圓形成代搜尋基礎教學 Mysql入門 Sql入門 Android入門 Docker入門 Go語言入門 Ruby程式入門 Python入門 Python進階 Django入門 Python爬蟲入門最近訪問首頁前端設計程式設計免費資源實用技巧資料庫資訊字典 Copyright © 2002-2020 程式人生 796T.COM All rights reserved..footer{padding-bottom: 20px;}hljs.initHighlightingOnLoad();}$

機器學習 - 決策樹（下）- CART 以及與 ID3、C4.5的比較

機器學習 - 決策樹（下）- CART 以及與 ID3、C4.5的比較

CART

迴歸樹

分類樹

機器學習 - 決策樹（下）- CART 以及與 ID3、C4.5的比較

機器學習 - 提升樹（下）- XGBoost 以及與 GBDT 的比較

機器學習 - 決策樹（中）- ID3、C4.5 以及剪枝

機器學習 - 決策樹（上）- 資訊理論基礎

機器學習-決策樹（decision tree）

機器學習實戰決策樹（一）——資訊增益與劃分資料集

機器學習第一篇（下）

機器學習作業KNN（下）——字元分類

機器學習 - 提升樹（上）- BT、GBDT

R語言編寫決策樹（rpart）CART ID3演算法

機器學習速成筆記（二）：訓練與損失

機器學習系列：（三）特徵提取與處理

機器學習 - 整合方法（Bagging VS. Boosting 以及隨機森林、AdaBoost）

機器學習練習記錄（1）：偽逆法、勢函式、基於二次準則的H-K函式、感知器法

【機器學習】決策樹（下)CART演算法分類樹、迴歸樹

python機器學習案例系列教程——決策樹（ID3、C4.5、CART）

機器學習回顧篇（8）：CART決策樹演算法

機器學習--DIY筆記與感悟--②決策樹（1）

我的機器學習之旅（六）：決策樹

機器學習讀書筆記（三）決策樹基礎篇之從相親說起

機器學習 - 決策樹（下）- CART 以及與 ID3、C4.5的比較

機器學習 - 決策樹（下）- CART 以及與 ID3、C4.5的比較

CART

迴歸樹

分類樹

相關推薦