《機器學習實戰》學習總結2——決策樹構造

阿新 • • 發佈：2018-11-24

決策樹
一種依託於策略抉擇而建立起來的樹。
從資料產生決策樹的機器學習技術叫做決策樹學習。

資料形式：決策過程只有：是/否
適用資料型別：數值型和標稱型
標稱型：其實就是離散型資料，變數的結果只在有限目標集中取值。

資訊增益

資訊熵：
表示資訊的混亂程度，也就是說：資訊越有序，資訊熵越低。
資訊增益：
資訊增益越大，做的東西越好——為了找劃分資料集的最好特徵
劃分資料集的最大原則是：將無序的資料變得更加有序。

from math import log
import operator

def createDataSet():
	#每一行代表不同的資料，一共有五個資料
    dataSet = 
 [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    #第一個1代表是否露出水面，第二個1代表是否露出腳蹼，第三個是結果yes/no（是否是魚類）
    labels = ['no surfacing', 'flippers']
    #change to discrete values
    return dataSet, labels#第一個是資料集，第二是描述（標籤）

def 
 calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet: #the the number of unique elements and their occurance
        currentLabel = featVec[-1]#最後一列遍歷，統計
        if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
        labelCounts[ 
currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob, 2) #log base 2#夏農熵求出夏農值
    return shannonEnt

def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
    #axis列為value的資料集【該資料集需要排除axis列】
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]     #chop out axis used for splitting
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

def chooseBestFeatureToSplit(dataSet):
	#求第一行有多少列的Feature，（減去最後一列是label列）
    numFeatures = len(dataSet[0]) - 1      #the last column is used for the labels
    #label的資訊熵（代表整體資料集的資訊（混亂程度））
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0; bestFeature = -1

    for i in range(numFeatures):        #iterate over all the features
    #獲取每一個feature的list集合
        featList = [example[i] for example in dataSet]#create a list of all the examples of this feature
        #獲取剔重後的集合
        uniqueVals = set(featList)       #get a set of unique values
        #建立一個臨時的資訊熵
        newEntropy = 0.0
        
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            #value代表label（a，b，c，d），i代表列
            #計算概率
            prob = len(subDataSet)/float(len(dataSet))
            #計算資訊熵
            newEntropy += prob * calcShannonEnt(subDataSet)
        infoGain = baseEntropy - newEntropy     #calculate the info gain; ie reduction in entropy
        #gain【資訊增益】：劃分資料集前後的資訊變化，獲取資訊熵最大的值
        #劃分越有序就作為那個根
        if (infoGain > bestInfoGain):       #compare this to the best gain so far
            bestInfoGain = infoGain         #if better than current best, set to best
            bestFeature = i
    return bestFeature                      #returns an integer

def majorityCnt(classList):
    classCount={}#字典宣告
    for vote in classList:
        if vote not in classCount.keys(): classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    #reverse=True倒序
    return sortedClassCount[0][0]

def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet]   #取分類標籤
    if classList.count(classList[0]) == len(classList):  #如果類別完全相同則停止繼續劃分
        return classList[0]
    if len(dataSet[0]) == 1:    #遍歷完所有特徵時返回出現次數最多的類標籤
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)  #選擇最優特徵
    bestFeatLabel = labels[bestFeat]   #最優特徵的標籤
    myTree = {bestFeatLabel:{}}    #根據最優特徵的標籤生成樹
    del(labels[bestFeat])    #刪除已經使用特徵標籤
    featValues =[example[bestFeat] for example in dataSet]    #得到訓練集中所有最優特徵的屬性值
    uniqueVals = set(featValues)   #去掉重複的屬性值
    for value in uniqueVals:   #遍歷特徵，建立決策樹。
        subLabels = labels[:]
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
    return myTree

def classify(inputTree, featLabels, testVec):
	'''
	inputTree：決策樹模型
	featLabels：Feature標籤對應的名稱
	testVec：測試輸入的資料
	返回值：classlabel分類的結果，需要對映到label才能知道名稱
	'''
	#獲取tree的根節點對應的key值
    firstStr = list(inputTree)[0]
    #通過key得到根節點對應的value
    secondDict = inputTree[firstStr]
    #傳入featLabels的名稱，求出對應根的名稱。index名稱對應的座標
    featIndex = featLabels.index(firstStr)
    key = testVec[featIndex]
    valueOfFeat = secondDict[key]
    if isinstance(valueOfFeat, dict):
        classLabel = classify(valueOfFeat, featLabels, testVec)
    else: classLabel = valueOfFeat
    return classLabel

def storeTree(inputTree, filename):
    import pickle
    fw = open(filename, 'wb')
    pickle.dump(inputTree, fw)
    fw.close()

def grabTree(filename):
    import pickle
    fr = open(filename, 'rb')
    return pickle.load(fr)

總結：

1.extend與append的區別


>>> A = ['q', 'w', 'e', 'r']
>>> A.extend(['t', 'y'])
>>> A
['q', 'w', 'e', 'r', 't', 'y']
>>>len(A)
6

>>> B = ['q', 'w', 'e', 'r']
>>> B.append(['t', 'y'])
>>> B
['q', 'w', 'e', 'r', ['t', 'y']]
>>>len(B)
5

使用文字註解繪製樹節點

import matplotlib.pyplot as plt

decisionNode = dict(boxstyle="sawtooth", fc='0.8')  #設定節點格式
leafNode = dict(boxstyle="round4", fc='0.8')   #設定葉節點格式
arrow_args = dict(arrowstyle="<-")   #定義箭頭格式

def plotNode(nodeTxt, centerPt, parentPt, nodeType):
    createPlot.ax1.annotate(nodeTxt, xy=parentPt,xycoords='axes fraction',
                            xytext=centerPt, textcoords='axes fraction',va='center',
                            ha='center',bbox=nodeType,arrowprops=arrow_args)   #繪製節點

def plotMidText(cntrPt, parentPt, txtString):    #計算標註位置
    xMid = (parentPt[0]-cntrPt[0])/2.0 + cntrPt[0]
    yMid = (parentPt[1]-cntrPt[1])/2.0 + cntrPt[1]
    createPlot.ax1.text(xMid,yMid, txtString)

def plotTree(myTree, parentPt, nodeTxt):
    numLeafs = getNumLeafs(myTree)   #獲取決策樹葉結點數目，決定了樹的寬度
    depth = getTreeDepth(myTree)  #獲取決策樹層數
    firstStr = next(iter(myTree)) 
    cntrPt = (plotTree.xOff +(1.0 + float(numLeafs))/2.0/plotTree.totalW,plotTree.yOff) #中心位置
    plotMidText(cntrPt, parentPt, nodeTxt) #標註有向邊屬性值
    plotNode(firstStr, cntrPt, parentPt, decisionNode) #繪製結點
    secondDict = myTree[firstStr]  #下一個字典，也就是繼續繪製子結點
    plotTree.yOff = plotTree.yOff - 1.0/plotTree.totalD #y偏移
    for key in secondDict.keys():
        if type(secondDict[key]).__name__=='dict':  #測試該結點是否為字典，如果不是字典，代表此結點為葉子結點
            plotTree(secondDict[key],cntrPt,str(key))  #不是葉結點，遞迴呼叫繼續繪製
        else:  #如果是葉結點，繪製葉結點，並標註有向邊屬性值 
            plotTree.xOff = plotTree.xOff + 1.0/plotTree.totalW
            plotNode(secondDict[key],(plotTree.xOff,plotTree.yOff),cntrPt, leafNode)
            plotMidText((plotTree.xOff,plotTree.yOff),cntrPt, str(key))
    plotTree.yOff = plotTree.yOff + 1.0/plotTree.totalD
    
def createPlot(inTree):
    fig = plt.figure(1,facecolor='white')  #建立fig
    fig.clf()  #清空fig
    axprops = dict(xticks=[], yticks=[])
    createPlot.ax1 = plt.subplot(111, frameon=False, **axprops)  #去掉x、y軸
    plotTree.totalW = float(getNumLeafs(inTree))  #獲取決策樹葉結點數目
    plotTree.totalD = float(getTreeDepth(inTree))  #獲取決策樹層數
    plotTree.xOff = -0.5/plotTree.totalW; plotTree.yOff = 1.0  #x偏移
    plotTree(inTree,(0.5,1.0),'')    #繪製決策樹
    plt.show() #顯示繪製結果

使用pickle模組儲存決策樹

def storeTree(inputTree, filename):
    import pickle
    fw = open(filename,'w')
    pickle.dump(inputTree,fw)
    fw.close()

def grabTree(filename):
    import pickle
    fr = open(filename)
    return pickle.load(fr)
fr=open('lenses.txt')
lenses = [inst.strip().split('\t') for inst in fr.readlines()]
lensesLabels = ['age','prescript','astigmatic','tearRate']
lensesTree = createTree(lenses,lensesLabels)
print(lensesTree)
createPlot(lensesTree)

《機器學習實戰》學習總結2——決策樹構造

決策樹一種依託於策略抉擇而建立起來的樹。從資料產生決策樹的機器學習技術叫做決策樹學習。資料形式：決策過程只有：是/否適用資料型別：數值型和標稱型標稱型：其實就是離散型資料，變數的結果只在有限目標集中取值。資訊增益資訊熵：表示資訊的混亂程度，也就是說：資訊越有序，資

機器學習實戰讀書筆記(2)--決策樹

決策樹決策樹的一個重要任務是為了資料中所蘊含的知識資訊,因此決策樹可以使用一系列不熟悉的資料集合,並從中提取系列規則,在這些機器根據資料集建立規則時,就是機器學習的過程.專家系統中經常使用決策樹決策樹的構造優點:計算複雜度不高,輸出結果易於理解,對中間值缺失不敏

機器學習實戰(第三篇)-決策樹構造

首先我們分析下決策樹的優點和缺點。優點：計算複雜度不高，輸出結果易於理解，對中間值的卻是不敏感，可以處理不相關特徵資料；缺點：可能會產生過度匹配問題。適用資料型別：數值型和標稱型。本篇文章我們將一步步地構造決策樹演算法，並會涉及許多有趣的細節。首先我們先討論數

機器學習實戰（二）決策樹DT（Decision Tree、ID3演算法）

目錄 0. 前言 1. 資訊增益（ID3） 2. 決策樹（Decision Tree） 3. 實戰案例 3.1. 隱形眼鏡案例 3.2. 儲存決策樹 3.3. 決策樹畫圖表示學習完機器學習實戰的決策樹，簡單的做

C++單刷《機器學習實戰》之二——決策樹

演算法概述：決策樹是用於分類的一種常用方法，根據資料集特徵值的不同，構造決策樹來將資料集不斷分成子資料集，直至決策樹下的每個分支都是同一類或用完所有的特徵值。決策樹的一般流程：（1）收集資料（2）準備資料：樹構造演算法只適用於標稱型資料，因此數值型資料必須離散化，最好轉為bool型

機器學習實戰程式碼_Python3.6_決策樹_程式碼

決策樹程式碼 from math import log import operator def calc_shannon_ent(data_set): num_entries = len(data_set) label_counts =

《機器學習實戰》之三——決策樹

花了差不多三天時間，終於把《機器學習實戰》這本書的第三章的決策樹過了一遍，知道了決策樹中ID3的一個具體編法和流程。【一】計算資料資訊熵這段程式碼主要是用於計算資料的每個特徵資訊熵，資訊熵用於描述資料的混亂程度，資訊熵越大說明資料包含的資訊越多，也就是資料的波動越大。而ID3演算

機器學習實戰(第三篇)-決策樹簡介

我們經常使用決策樹處理分類問題，近來的調查表明決策樹也是最經常使用的資料探勘演算法。它之所以如此流行，一個很重要的原因就是使用者基本上不用瞭解機器學習演算法，也不用深究它是如何工作的。如果你以前沒有接觸過決策樹，不用擔心，它的概念非常簡單。即使不知道它也可以通

機器學習實戰第三章——決策樹(原始碼解析)

機器學習實戰中的內容講的都比較清楚，一般都能看懂，這裡就不再講述了，這裡主要是對程式碼進行解析，如果你很熟悉python，這個可以不用看。 #coding=utf-8 ''' Created on 2016年1月5日 @author: ltc ''' from mat

機器學習實戰第三章——決策樹程式

在閱讀理解決策樹之後，按照《機器學習實戰》的程式碼，實現ID3決策樹程式如下： from math import log def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCounts

【10月31日】機器學習實戰（二）決策樹：隱形眼鏡資料集

決策樹的優點：計算的複雜度不高，輸出的結果易於理解，對中間值的確實不敏感，可以處理不相關的特徵資料決策樹的缺點：可能會產生過度匹配的問題。其本質的思想是通過尋找區分度最好的特徵（屬性），用於支援分類規則的制定。那麼哪些特徵是區分度好的，哪些特徵是區分度壞的呢？換句話說

機器學習實戰筆記2—決策樹

注：此係列文章裡的部分演算法和深度學習筆記系列裡的內容有重合的地方，深度學習筆記裡是看教學視訊做的筆記，此處文章是看《機器學習實戰》這本書所做的筆記，雖然演算法相同，但示例程式碼有所不同，多敲一遍沒有壞處，哈哈。（裡面用到的資料集、程式碼可以到網上搜索，很容易找到。）。Python版本3.6

機器學習實戰——1.2決策樹（2）

宣告：參考書目《機器學習實戰》作者: Peter Harrington 出版社: 人民郵電出版社譯者: 李銳 / 李鵬 / 曲亞東 / 王斌宣告：參考書目《統計學習方法》作者: 李航出版社: 清華大學出版社 ISBN: 9787302275954

機器學習實戰——1.2決策樹（1）

《機器學習》第三章決策樹學習筆記加總結

分類問題子集觀察組成 cas 普通重復 1.0 需要《機器學習》第三章決策樹學習決策樹學習方法搜索一個完整表示的假設空間，從而避免了受限假設空間的不足。決策樹學習的歸納偏置是優越選擇較小的樹。 3.1.簡介決策樹學習是一種逼近離散值目標函數的方法，在這種方法

機器學習實戰學習記錄--決策樹

決策樹中演算法採用的ID3.劃分資料集基於特徵。其中採用分類依據為資訊理論中的資訊增益和資訊熵（夏農熵）。機器學習中夏農熵計算公式為：其中xi表示分類，p（xi）表示xi分類的概率。首先，建立資料集及計算夏農熵 from math import log def cal

【python和機器學習入門2】決策樹2——決策樹構建

參考部落格：決策樹實戰篇之為自己配個隱形眼鏡（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第三章

機器學習與深度學習系列連載：第一部分機器學習（十一）決策樹2（Decision Tree）

決策樹2 決策樹很容易出現過擬合問題，針對過擬合問題，我們採用以下幾種方法劃分選擇 vs 剪枝剪枝 (pruning) 是決策樹對付“過擬合”的主要手段！基本策略：預剪枝 (pre-pruning): 提前終止某些分支的生長後剪枝 (post-pr

秦剛剛的機器學習成長之路之決策樹總結

決策樹之分類樹和迴歸樹本文主要講解最常用的3種決策樹（ID、C4.5和CART），為了更加系統和全面的認識這3種常用的決策樹演算法，我將從以下4個部分進行講解： 1.決策樹學習演算法步驟有哪些？ 2.常用的決策樹演算法有哪幾種？ 3.決策樹剪枝 4.Gini指數與熵的關係 1.

Spark2.0機器學習系列之3：決策樹及Spark 2.0-MLlib、Scikit程式碼分析

概述分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹可以看為一個if-then規則集合，具有“互斥完備”性質。決策樹基本上都是採用的是貪心（即非回溯）的演算法，自頂向下遞迴分治構造。生成決策樹一般包含三個步驟：特徵選擇決策樹生成剪枝

《機器學習實戰》學習總結2——決策樹構造

資訊增益

相關推薦