機器學習演算法(2) 決策樹

阿新 • • 發佈：2019-02-09

基於決策樹的基本思想(ID3演算法)，學習資訊增益的計算，決策樹的構建、使用、儲存。

例子來自《Machine Learning in Action》 Peter Harrington

熵值計算

計算資料集合中分類的數量與概率，根據公式求得熵。

from math import log

"""計算熵值"""
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}                            # 用於儲存分類標籤的種類和個數
    for featVec in 
 dataSet:
        currentLabel = featVec[-1]              # 當前資料點的分類標籤
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob,2 
)        #以2為底求對數
    return shannonEnt

測試資料

提供一個如下的資料集合，用過兩個特徵對生物是否屬於魚類進行確認。

不浮出水面是否可以生存	是否有腳蹼	屬於魚類
1	是	是
2	是	是
3	是	否
4	否	是
5	否	是

def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0 
, 1, 'no'],
               [0, 1, 'no'],
    labels = ['no surfacing','flippers']

    return dataSet, labels

測試

def testShannonEnt():
    myDat,labels = createDataSet()
    print (calcShannonEnt(myDat))

結果

0.9709505944546686

當在資料集中再加入一種分類

"""建立測試資料集合"""
dataSet = [[1, 1, 'yes'],
           [1, 1, 'yes'],
           [1, 0, 'no'],
           [0, 1, 'no'],
           [0, 1, 'no'],
           [1, 1, 'maybe'],]

重新計算熵，可得結果：

1.4591479170272448

熵增大，即混亂度（不確定性）增大。值的變化符合熵的定義。

劃分資料集

以下程式碼包含三個輸入變數，具體含義見註釋。其中dataSet中所包含的資料點，每一個數據點都有多個特徵。axis表示接下來按照第幾個特徵進行劃分資料，value表示返回的資料集第axis特徵的特徵值等於多少。

"""劃分資料集"""
'''
dataSet:帶劃分資料集
axis:劃分資料集的特徵（第axis個，從零開始計數）
value:需要返回的特徵的值

'''
def splitDataSet(dataSet, axis, value):
    retDataSet = []             
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]    
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)          # 當前資料點 除去當前特徵後儲存
    return retDataSet

測試資料劃分

"""測試劃分資料集"""
def testSplitData():
    myDat,labels = trees.createDataSet()
    print(trees.splitDataSet(myDat,0,1))
    print(trees.splitDataSet(myDat,0,0))

結果

[[1, 'yes'], [1, 'yes'], [0, 'no']]
[[1, 'no'], [1, 'no']]

第一行的分類結果表示，按照第1個特徵對資料集進行劃分，返回的結果是第一個特徵值為1的資料點。第二行返回的是第一個特徵值等於0的資料點。劃分結果和預想的一致。

尋找最好的劃分方式

依照演算法，尋找資訊增益最大的分類方式作為最好的分類方式

"""尋找最好的劃分方式"""

def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1         # 獲得特徵個數    
    baseEntropy = calcShannonEnt(dataSet)     # 原始的熵值
    bestInfoGain = 0.0
    bestFeature = -1
    for i in range(numFeatures):             # 對於每一個特徵都進行迭代
        featList = [example[i] for example in dataSet]   # 提取當前特徵在每個資料點中的值
        uniqueVals = set(featList)           #轉換為一個set集合（沒有重複元素）
        newEntropy = 0.0
        for value in uniqueVals:
            # 針對資料集合，對第i個特徵進行分類，返回值是特徵值為value的
            subDataSet = splitDataSet(dataSet, i, value)  
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)     
        infoGain = baseEntropy - newEntropy     
        if (infoGain > bestInfoGain):       # 比較每次分類資訊增益
            bestInfoGain = infoGain         # 如果大，就替換當前的值
            bestFeature = i
    return bestFeature

測試

"""測試最好的劃分方式"""
def testChooseBestFeatureToSplit():
    myDat,labels = trees.createDataSet()
    print(trees.chooseBestFeatureToSplit(myDat))

結果

當前資料利用第0個特徵分類資訊增益最大。

遞迴構建決策樹

由遞迴構成樹停止的條件有兩個：
1. 所有的標籤的類都相同
2. 所有的特徵都用完了

具體實現見程式碼

"""建立樹"""
def createTree(dataSet,labels):
    classList = [example[-1] for example in dataSet]    # 分類標籤的值
    if classList.count(classList[0]) == len(classList):
        return classList[0]      # 所有的標籤的類都相同 返回這個類標籤
    if len(dataSet[0]) == 1:     # 如果所有的特徵都用完了，則停止
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)  # 獲得資訊增益最大的分類特徵
    bestFeatLabel = labels[bestFeat]              # 獲得當前特徵的具體含義
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])   # 刪除已分類的特徵
    featValues = [example[bestFeat] for example in dataSet]   # 當前分類特徵下的資料點特徵值
    uniqueVals = set(featValues)     # 轉換為list型別
    for value in uniqueVals:
        subLabels = labels[:]       # 拷貝標籤
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
    return myTree

"""返回出現次數最多的分類名稱"""
def majorityCnt(classList):
    classCount={}
    for vote in classList:
        if vote not in classCount.keys(): classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

測試

"""測試建立樹"""
def testCreateTree():
    myDat,labels = trees.createDataSet()
    myTree = trees.createTree(myDat,labels)
    print(myTree)

結果

以字典的形式返回決策樹

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

利用決策樹判斷新資料點

依照資料點的每一個特徵根據決策樹進行劃分，知道得出型別。

"""利用決策樹判斷新資料點"""
def classify(inputTree,featLabels,testVec):
    firstSides = list(inputTree.keys())   # 第一個分類特徵
    firstStr = firstSides[0]        #找到輸入的第一個元素
    secondDict = inputTree[firstStr]      # 二級字典
    featIndex = featLabels.index(firstStr)   # 當前特徵值在資料集的位置,返回時索引
    key = testVec[featIndex]             # 拿到新資料點的當前特徵的特徵值
    valueOfFeat = secondDict[key]        # 根據特徵值 劃分資料點
    if isinstance(valueOfFeat, dict):  # 如果不是葉節點，迭代；
        classLabel = classify(valueOfFeat, featLabels, testVec)
    else: classLabel = valueOfFeat     # 如果是葉節點，返回標籤類
    return classLabel

測試

"""測試決策樹判斷新資料點"""
def testClassify():
    myDat,labels = trees.createDataSet()
    myTree = trees.createTree(myDat,labels)
    myDat,labels = trees.createDataSet()
    print(trees.classify(myTree,labels,[1,0]))
    print(trees.classify(myTree,labels,[1,1]))

結果

返回判斷結果

no
yes

儲存決策樹

決策樹的建立比較耗時，為了方便一次建立多次使用。可以把建立的決策樹序列化，儲存到磁碟上，需要的時候再讀取使用。

"""序列化並寫入磁碟"""
def storeTree(inputTree,filename):
    fw = open(filename,'wb+')   # 要以二進位制格式開啟檔案
    pickle.dump(inputTree,fw)
    fw.close()

"""讀取磁碟並反序列化"""   
def grabTree(filename):
    fr = open(filename,'rb')    # 要以二進位制格式開啟檔案
    return pickle.load(fr)

測試

"""測試決策樹儲存"""   
def testStoreAndGrabTree():
    myDat,labels = trees.createDataSet()
    myTree = trees.createTree(myDat,labels)
    trees.storeTree(myTree,'trees.txt')
    reloadMyTree = trees.grabTree('trees.txt')
    print(reloadMyTree)

結果

可以從磁碟得到之前的決策樹

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

機器學習演算法(2) 決策樹

基於決策樹的基本思想(ID3演算法)，學習資訊增益的計算，決策樹的構建、使用、儲存。例子來自《Machine Learning in Action》 Peter Harrington 熵值計算計算資料集合中分類的數量與概率，根據公式求得熵。

十大機器學習演算法之決策樹（用於信用風險）

演算法原理 Decision Trees (DTs) 是一種用來和 regression 的無參監督學習方法。其目的是建立一種模型從資料特徵中學習簡單的決策規則來預測一個目標變數的值。決策樹類似於流程圖的樹結構，分支節點表示對一個特徵進行測試，根據測試結果進行分類，樹節點

無公式無程式碼白話機器學習演算法之決策樹

引子今天開始讀劉未鵬的《暗時間》一書。在序言中，有一句話引起了我的興趣，“波普爾曾經說過：人生不過是解決問題。而判斷和決策又是其中最常見的一類問題解決。” 哈哈，我們的機器學習各種演

《機器學習實戰》學習總結2——決策樹構造

決策樹一種依託於策略抉擇而建立起來的樹。從資料產生決策樹的機器學習技術叫做決策樹學習。資料形式：決策過程只有：是/否適用資料型別：數值型和標稱型標稱型：其實就是離散型資料，變數的結果只在有限目標集中取值。資訊增益資訊熵：表示資訊的混亂程度，也就是說：資訊越有序，資

《機器學習實戰》決策樹(ID3演算法)的分析與實現

決策樹是一個預測模型；他代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的物件的值。決策樹僅有單一輸出，若欲有複數輸出，可以建立獨立的決策樹以處理不同輸出。資料探勘中決策樹是一

Spark機器學習(6)：決策樹算法

projects 信息 txt .cn import n) .com util seq 1. 決策樹基本知識決策樹就是通過一系列規則對數據進行分類的一種算法，可以分為分類樹和回歸樹兩類，分類樹處理離散變量的，回歸樹是處理連續變量。樣本一般都有很多個特征，有的特征對分

機器學習入門之決策樹算法

所有最大的 id3 次數要去決策樹算法 4.5 獲取 ddl 1、什麽是決策樹（Decision Tree）決策樹是一個類似於流程圖的樹結構，其中每一個樹節點表示一個屬性上的測試，每一個分支代表一個屬性的輸出，每一個樹葉節點代表一個類或者類的分布

機器學習實戰精讀--------決策樹

決策樹機器學習 python感覺自己像個學走路的孩子，每一步都很吃力和認真！機器根據數據集創建規則，就是機器學習。決策樹：從數據集合中提取一系列規則，適用於探索式的知識發現。決策樹本質：通過一系列規則對數據進行分類的過程。決策樹算法核心：構建精度高，數據規模小的決策樹。ID3算法：此算法目的在於減少樹的深

機器學習(十二) 決策樹

圖解通過 rop 監管運用一個系統分支對象屬性決策樹(Decision Tree）是在已知各種情況發生概率的基礎上，通過構成決策樹來求取凈現值的期望值大於等於零的概率，評價項目風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種圖解法。由於這種決策分支畫

機器學習之路--決策樹

eve 分析完成後保存 not lba 不同排序離散一,引言：上一章我們講的kNN算法，雖然可以完成很多分類任務，但它最大的缺點是無法給出數據的內在含義，而決策樹的主要優勢就在於數據形式非常容易理解。決策樹算法能夠讀取數據集合，決策樹的一個重要

HIT機器學習期末複習（1）——機器學習簡介及決策樹

劉楊的機器學習終於上完了惹，下週就要考試了，趕緊複習ing...... 趁機做個總結，就當是複習了惹...... 機器學習簡介 1、什麼是機器學習簡單來說，就是一個三元組<P, T, E> P——performance效能（對應著效能的評估函式，也就是常說的loss或者likeli

HIT機器學習期末復習（1）——機器學習簡介及決策樹

決策樹開始矩陣 improve 節點 policy heat red program 劉楊的機器學習終於上完了惹，下周就要考試了，趕緊復習ing...... 趁機做個總結，就當是復習了惹...... 機器學習簡介 1、什麽是機器學習簡單來說，就是一個三元組<P

機器學習篇：決策樹的理解

1、決策樹是一個樹結構（可以是二叉樹或非二叉樹）決策樹是一個樹結構（可以是二叉樹或非二叉樹)其每個非葉節點表示一個特徵屬性上的測試，每個分支代表這個特徵屬性在某個值域上的輸出，而每個葉節點存放一個類別。使用決策樹進行決策的過程就是從根節點開始，測試待分類項中相應的特徵屬性，並按照其值選擇輸出分

【機器學習】分類決策樹與迴歸決策樹案例

一、回顧什麼是決策樹，資訊熵構建決策樹的過程 ID3、C4.5和CRAT演算法上面三篇，主要介紹了相關的理論知識，其中構建決策樹的過程可以很好地幫助我們理解決策樹的分裂屬性的選擇。本篇所有原始碼：Github 二

機器學習之分類決策樹DecisionTreeClassifier

機器學習之分類決策樹DecisionTreeClassifier # -*- coding: utf-8 -*- """ Created on Fri Nov 23 21:06:54 2018 @author: muli """ import numpy as np

機器學習之迴歸決策樹DecisionTreeRegressor

機器學習之迴歸決策樹DecisionTreeRegressor # -*- coding: utf-8 -*- """ Created on Fri Nov 23 20:00:23 2018 @author: muli """ import numpy as np

機器學習實戰——3決策樹

文章對應《機器學習實戰》第三章主要是對各個函式的功能進行了比較易懂的描述，可供python初學者參考。另外推薦機器學習實戰程式碼註釋，對在本書中入門python的同學應有很大幫助。 //計算給定資料集的夏農熵 def calcShannonEnt(dataSet):

機器學習分類器---決策樹

一、決策樹經常使用決策樹來處理分類問題，決策樹也是最經常使用的資料探勘演算法，不需要了解機器學習的知識，就能搞明白決策樹是如何工作的。 kNN演算法可以完成很多分類任務，但它最大的缺點就是無法給出資料的內在含義，決策樹的主要優勢在於資料形式非常容易理解決策樹能夠讀取資

機器學習實戰-簡單決策樹編寫

#!/user/bin/env python # !-*-coding:utf-8 -*- # !Time :2018/9/28 4:12 PM # !Author : hyCong # [email protected] : .py from ma

機器學習實戰之決策樹

學習《機器學習實戰》 1、決策樹的構造 1、決策樹理解決策樹是一種分類器，根據已知的特徵，做一個最純淨的劃分。例子：現在想構建一個郵件分類系統，第一步：先檢測傳送郵件的域名的地址，若地址是myEmployer.com，就把郵件放在無聊時需要閱讀的郵件，若域

機器學習演算法(2) 決策樹

熵值計算

測試資料

測試

結果

劃分資料集

測試資料劃分

結果

尋找最好的劃分方式

測試

結果

遞迴構建決策樹

測試

結果

利用決策樹判斷新資料點

測試

結果

儲存決策樹

測試

結果

相關推薦