【機器學習】決策樹01

阿新 • • 發佈：2019-04-28

.sh sca ted decision 之前 del png 數據 linspace

什麽是決策樹 - 從一個實際生活的例子入手

如何判斷一個人是否勝任機器學習算法工程師？

技術分享圖片

這裏的決策樹的每一個節點的判斷都是一個是否問題

使用scikit-learn庫實現的決策樹

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets


iris = datasets.load_iris()
X = iris.data[:, 2:]
y = iris.target

plt.scatter(X[y==0, 0], X[y==0,1])
plt.scatter(X[y==1, 0], X[y==1,1])
plt.scatter(X[y==2, 0], X[y==2,1])
plt.show()

from sklearn.tree import DecisionTreeClassifier

# max_depth表示決策樹的最大深度
# criterion表示決策樹節點分支的標準，entropy表示利用信息熵作為判斷的標準
dt_clf = DecisionTreeClassifier(max_depth=2, criterion="entropy")
dt_clf.fit(X, y)

def plot_decision_boundary(model, axis):
    x0,x1=np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(1,-1),
        np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(1,-1)
    )
    X_new=np.c_[x0. ravel(),x1. ravel()]
    
    y_predict=model.predict(X_new)
    zz=y_predict. reshape(x0. shape)
    from matplotlib. colors import ListedColormap
    custom_cmap=ListedColormap(['#EF9A9A','#FFE59D','#90CAF9'])
                               
    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)

plot_decision_boundary(dt_clf, axis=[0.5, 7.5, 0, 3])
plt.scatter(X[y==0, 0], X[y==0,1])
plt.scatter(X[y==1, 0], X[y==1,1])
plt.scatter(X[y==2, 0], X[y==2,1])
plt.show()

數據展示如下：
技術分享圖片

技術分享圖片

對上述這個決策樹分類的解釋

技術分享圖片

決策樹的一些特征

非參數學習算法
可以解決分類問題，尤其是天然支持多分類問題
也可以解決回歸問題
具有良好的可解釋性

決策樹的劃分依據

決策樹的核心問題是：

每個節點在哪個維度做劃分

每個維度在哪個值上做劃分

信息熵

信息熵表示數據的不確定性

嫡越大，數據的不確定性越高
嫡越小，數據的不確定性越低

信息熵的計算公式：

\[ H=-\sum_{i=1}^{k} p_{i} \log \left(p_{i}\right) \]

$p_{i}$表示每種可能的取值的概率

對於一個二分類問題，信息熵公式可以表示為

\[ H=-x \log (x)-(1-x) \log (1-x) \]

其中，$x$表示一個“1”類別的概率

使用信息熵的決策樹的劃分思想

使用信息熵的決策樹的劃分思想是劃分之後使得信息熵降低

使用遍歷的方法，對每個維度的每個閾值都進行信息熵運算，找到最佳劃分

使用信息熵尋找最優劃分

模擬使用信息熵進行劃分

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

iris = datasets.load_iris()
X = iris.data[:, 2:]
y = iris.target

def split(X, y, d, value):
    index_a = (X[:, d] <= value)
    index_b = (X[:, d] > value)
    return X[index_a], X[index_b], y[index_a], y[index_b]


from collections import Counter
from math import log


def entropy(y):
    counter = Counter(y)
    res = 0.0
    for num in counter.values():
        p = num / len(y)
        res += -p * log(p)
    return res


def try_split(X, y):
    best_entropy = float('inf')
    best_d, best_v = -1, -1
    for d in range(X.shape[1]):  # 遍歷每一個特征值，找到最佳劃分所在的維度
        sorted_index = np.argsort(X[:, d])  # 對所有樣本按照一個維度的值進行排序
        for i in range(1, len(X)):  # 遍歷每一個相鄰樣本對，嘗試在這裏進行劃分
            if X[sorted_index[i - 1], d] != X[sorted_index[i], d]:
                v = (X[sorted_index[i - 1], d] + X[sorted_index[i], d]) / 2  # v表示相鄰樣本對的該維度特征值的平均值
                X_l, X_r, y_l, y_r = split(X, y, d, v)  # 使用該平均值對樣本進行分割
                e = entropy(y_l) + entropy(y_r)  # 對y（分類值0,1,2）分別計算信息熵
                if e < best_entropy:
                    best_entropy = e
                    best_d = d
                    best_v = v
    return best_entropy, best_d, best_v


best_entropy, best_d, best_v = try_split(X, y)
print("best_entropy=", best_entropy)  # best_entropy= 0.6931471805599453
print("best_d=", best_d)  # best_d= 0
print("best_v=", best_v)  # best_v= 2.45

通過上述代碼就模擬了第一次進行劃分的過程，可以看到，與之前調用sklearn庫的結果相近。

基尼系數

$
G=1-\sum_{i=1}^{k} p_{i}^{2}
$

基尼系數（英語：Gini coefficient），是20世紀初意大利學者科拉多·基尼(另一說赫希曼)根據勞倫茨曲線所定義的判斷年收入分配公平程度的指標，是比例數值，在0和1之間。在民眾收入中，基尼系數最大為“1”，最小為“0”。前者表示居民之間的年收入分配絕對不平均（即該年所有收入都集中在一個人手裏，其余的國民沒有收入），而後者則表示居民之間的該年收入分配絕對平均，即人與人之間收入絕對平等。

使用scikit-learn庫中提供的決策樹

from sklearn.tree import DecisionTreeClassifier
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

iris = datasets.load_iris()
X = iris.data[:, 2:]
y = iris.target

plt.scatter(X[y == 0, 0], X[y == 0, 1])
plt.scatter(X[y == 1, 0], X[y == 1, 1])
plt.scatter(X[y == 2, 0], X[y == 2, 1])
plt.show()


# max_depth表示決策樹的最大深度；
# criterion表示決策樹節點分支的標準，gini表示使用基尼系數
dt_clf = DecisionTreeClassifier(max_depth=2, criterion="gini")
dt_clf.fit(X, y)


def plot_decision_boundary(model, axis):
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int(
            (axis[1] - axis[0]) * 100)).reshape(1, -1),
        np.linspace(axis[2], axis[3], int(
            (axis[3] - axis[2]) * 100)).reshape(1, -1))
    X_new = np.c_[x0.ravel(), x1.ravel()]

    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)
    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A', '#FFE59D', '#90CAF9'])

    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)


plot_decision_boundary(dt_clf, axis=[0.5, 7.5, 0, 3])
plt.scatter(X[y == 0, 0], X[y == 0, 1])
plt.scatter(X[y == 1, 0], X[y == 1, 1])
plt.scatter(X[y == 2, 0], X[y == 2, 1])
plt.show()

技術分享圖片

信息熵 vs. 基尼系數

信息熵的計算比基尼系數稍慢

scikit-learn中默認為基尼系數

大多數時候兩者沒有特別的效果優劣

CART(Classification And Regression Tree)

根據某一個維度d和某一閾值v進行二分

scikit-learn中的決策樹實現：CART

其他的決策樹：ID3, C4.5, C5.0

【機器學習】決策樹01

.sh sca ted decision 之前 del png 數據 linspace 什麽是決策樹 - 從一個實際生活的例子入手如何判斷一個人是否勝任機器學習算法工程師？這裏的決策樹的每一個節點的判斷都是一個是否問題使用scikit-learn庫實現的決策樹 im

【機器學習】決策樹剪枝優化及視覺化

前言 \quad\quad 前面，我們介紹了分類決策樹的實現，以及用 sklearn 庫中的 DecisionTre

【機器學習】決策樹與隨機森林（轉）

文章轉自： https://www.cnblogs.com/fionacai/p/5894142.html 首先，在瞭解樹模型之前，自然想到樹模型和線性模型有什麼區別呢？其中最重要的是，樹形模型是一個一個特徵進行處理，之前線性模型是所有特徵給予權重相加得到一個新的值。決

【機器學習】決策樹演算法（二）— 程式碼實現

#coding=utf8 ‘’’ Created on 2018年11月4日 @author: xiaofengyang 決策樹演算法：ID3演算法 ‘’’ from sklearn.feature_extraction import DictVectorize

【機器學習】決策樹（基於ID3,C4.5,CART分類迴歸樹演算法）—— python3 實現方案

內含3種演算法的核心部分. 沒有找到很好的測試資料. 但就理清演算法思路來說問題不大剪枝演算法目前只實現了CART迴歸樹的後剪枝. import numpy as np from collections import Counter from sklearn imp

【機器學習】決策樹（下)CART演算法分類樹、迴歸樹

CART同樣由特徵選擇、樹的生成、剪枝組成。既可以用於迴歸，又可以用於分類。 CART是在給定輸入隨機變數X條件下輸出隨機變數Y的條件概率分佈的學習方法。 CART假設決策樹是二叉樹，內部節點特徵的取值為“是“和“否“，左分支是取值為“是“的分支，右分支是取值為“否“的分支。這樣的決策樹

【機器學習】決策樹（上）

前言：決策樹是一種基本的分類與迴歸演算法。可以認為是if-then規則的集合，也可以認為是定義在特徵空間與類空間上的條件概率分佈。學習時，利用訓練資料，根據損失函式最小化原則建立決策樹模型。學習包括3個步驟：特徵選擇、決策樹的生成、決策樹的修建一、決策樹模型更多參照博文

【機器學習】決策樹總結

具體的細節概念就不提了，這篇blog主要是用來總結一下決策樹的要點和注意事項，以及應用一些決策樹程式碼的。一、決策樹的優點： • 易於理解和解釋。數可以視覺化。也就是說決策樹屬於白盒模型，如果一個情況被觀察到，使用邏輯判斷容易表示這種規則。相反，如

【機器學習】決策樹（上）——從原理到演算法實現

前言：決策樹（Decision Tree）是一種基本的分類與迴歸方法，本文主要討論分類決策樹。決策樹模型呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。它可以認為是if-then規則的集合，也可以認為是定義在特徵空間與類空間上的條件概率分佈。相比樸素

【機器學習】決策樹（三）——生成演算法（ID3、C4.5與CRAT）

回顧前面我們介紹了決策樹的特徵選擇，以及根據資訊增益構建決策樹。那麼決策樹的生成又有哪些經典演算法呢？本篇將主要介紹ID3的生成演算法，然後介紹C4.5中的生成演算法。最後簡單介紹CRAT演算法。 ID3演算法前面我們提到，一般而言，資訊增

【機器學習】決策樹演算法的基本原理

　　參考周志華老師的《機器學習》一書，對決策樹演算法進行總結。　　決策樹(Decision Tree)是在已知各種情況發生概率的基礎上，通過構建決策樹來求取淨現值期望值大於等於0的概率，評價專案風險，判斷其可行性的決策分析方法，是直觀運用概率分析的圖解法。

【機器學習】決策樹（二）——通過例子理解構建過程

回顧前面我們簡單介紹了決策樹，以及資訊熵和條件熵的概念。提到構建決策樹的過程，那麼我們是如何根據特徵來構建決策樹的呢？決策樹的構建過程決策樹演算法的重點就是決策樹的構造；決策樹的構造就是進行屬性選擇度量確定各個特徵之間的樹結構；構建決策樹的關鍵步驟就是分

【Machine Learning·機器學習】決策樹之ID3演算法(Iterative Dichotomiser 3)

目錄 1、什麼是決策樹 2、如何構造一棵決策樹？ 2.1、基本方法 2.2、評價標準是什麼/如何量化評價一個特徵的好壞？ 2.3、資訊熵、資訊增益的計算 2.4、決策樹構建方法

【機器學習】分類決策樹與迴歸決策樹案例

一、回顧什麼是決策樹，資訊熵構建決策樹的過程 ID3、C4.5和CRAT演算法上面三篇，主要介紹了相關的理論知識，其中構建決策樹的過程可以很好地幫助我們理解決策樹的分裂屬性的選擇。本篇所有原始碼：Github 二

【機器學習】CART分類決策樹+程式碼實現

1. 基礎知識 CART作為二叉決策樹，既可以分類，也可以迴歸。分類時：基尼指數最小化。迴歸時：平方誤差最小化。資料型別：標值型，連續型。連續型分類時採取“二分法”，取中間值進行左右子樹的劃分。 2. CART分類樹特徵A有N個取值，將每個取值作為分界點，將資料

【機器學習】分類決策樹基本介紹+程式碼實現

參考：https://blog.csdn.net/u012351768/article/details/73469813 1.基礎知識基於特徵對例項進行分類。優點：複雜度低，輸出結果易於理解，缺失中間值不敏感，可處理不相關特徵資料。缺點：過度匹配。適用資料型別：標稱和

【機器學習】【決策樹】有了決策樹的字典結構後，如何用python繪製決策樹？

1.需求說明求出決策樹的字典儲存形式資料後，繪製出決策樹的圖形，則會更形象認識和了解其決策樹。比如，有決策樹的字典結構如下所示：tree_dict = {'house?': {'hourse_no': {'working?': {'work_no': 'refuse', 'w

【機器學習】迭代決策樹GBRT（漸進梯度迴歸樹）

一、決策樹模型組合單決策樹C4.5由於功能太簡單，並且非常容易出現過擬合的現象，於是引申出了許多變種決策樹，就是將單決策樹進行模型組合，形成多決策樹，比較典型的就是迭代決策樹GBRT和隨機森林RF。在最近幾年的paper上，如iccv這種重量級會議，iccv 09年的裡面有不少

【機器學習】演算法原理詳細推導與實現(七):決策樹演算法

# 【機器學習】演算法原理詳細推導與實現(七):決策樹演算法在之前的文章中，對於介紹的分類演算法有[邏輯迴歸演算法](https://www.cnblogs.com/TTyb/p/10976291.html)和[樸素貝葉斯演算法](https://www.cnblogs.com/TTyb/p/109890

【機器學習】筆記01

機器學習總體流程圖機器學習四個階段 1.資料預處理階段：特徵提取：將原始資料轉化為特徵資料，從而能夠有效的對原始資料所涵蓋的資訊進行表達（raw data→feature）；特徵選擇：有時會從原始資料提取很多的特徵，我們選擇出一部分特徵來以適應當前的

【機器學習】決策樹01

什麽是決策樹 - 從一個實際生活的例子入手

使用scikit-learn庫實現的決策樹

對上述這個決策樹分類的解釋

決策樹的一些特征

決策樹的劃分依據

信息熵

使用信息熵的決策樹的劃分思想

使用信息熵尋找最優劃分

基尼系數

使用scikit-learn庫中提供的決策樹

信息熵 vs. 基尼系數

CART(Classification And Regression Tree)

相關推薦