python實現決策樹分類（三）

阿新 • • 發佈：2019-02-12

在上一篇文章中，我們已經構建了決策樹，接下來可以使用它用於實際的資料分類。在執行資料分類時，需要決策時以及標籤向量。程式比較測試資料和決策樹上的數值，遞迴執行直到進入葉子節點。

這篇文章主要使用決策樹分類器就行分類，資料集採用UCI資料庫中的紅酒，白酒資料，主要特徵包括12個，主要有非揮發性酸,揮發性酸度, 檸檬酸, 殘糖含量,氯化物, 遊離二氧化硫, 總二氧化硫,密度, pH,硫酸鹽,酒精, 質量等特徵。

下面是具體程式碼的實現：

#coding :utf-8
'''
2017.6.26 author :Erin 
          function: "decesion tree" ID3
          
'''
import numpy as np
import pandas as pd
from math import log
import operator  
import random
def load_data():
   
    red = [line.strip().split(';') for line in open('e:/a/winequality-red.csv')]
    white = [line.strip().split(';') for line in open('e:/a/winequality-white.csv')]
    data=red+white
    random.shuffle(data)  #打亂data
    x_train=data[:800]
    x_test=data[800:]
    
    features=['fixed','volatile','citric','residual','chlorides','free','total','density','pH','sulphates','alcohol','quality']
    return x_train,x_test,features

def cal_entropy(dataSet):
 
    
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet:
        label = featVec[-1]
        if label not in labelCounts.keys():
            labelCounts[label] = 0
        labelCounts[label] += 1
    entropy = 0.0
    for key in labelCounts.keys():
        p_i = float(labelCounts[key]/numEntries)
        entropy -= p_i * log(p_i,2)#log(x,10)表示以10 為底的對數
    return entropy

def split_data(data,feature_index,value):
    '''
    劃分資料集
    feature_index：用於劃分特徵的列數，例如“年齡”
    value:劃分後的屬性值：例如“青少年”
    '''
    data_split=[]#劃分後的資料集
    for feature in data:
        if feature[feature_index]==value:
            reFeature=feature[:feature_index]
            reFeature.extend(feature[feature_index+1:])
            data_split.append(reFeature)
    return data_split
def choose_best_to_split(data):
    
    '''
    根據每個特徵的資訊增益，選擇最大的劃分資料集的索引特徵
    '''
    
    count_feature=len(data[0])-1#特徵個數4
    #print(count_feature)#4
    entropy=cal_entropy(data)#原資料總的資訊熵
    #print(entropy)#0.9402859586706309
    
    max_info_gain=0.0#資訊增益最大
    split_fea_index = -1#資訊增益最大，對應的索引號

    for i in range(count_feature):
        
        feature_list=[fe_index[i] for fe_index in data]#獲取該列所有特徵值
        #######################################

       # print(feature_list)
        unqval=set(feature_list)#去除重複
        Pro_entropy=0.0#特徵的熵
        for value in unqval:#遍歷改特徵下的所有屬性
            sub_data=split_data(data,i,value)
            pro=len(sub_data)/float(len(data))
            Pro_entropy+=pro*cal_entropy(sub_data)
            #print(Pro_entropy)
            
        info_gain=entropy-Pro_entropy
        if(info_gain>max_info_gain):
            max_info_gain=info_gain
            split_fea_index=i
    return split_fea_index
        
        
##################################################
def most_occur_label(labels):
    #sorted_label_count[0][0]  次數最多的類標籤
    label_count={}
    for label in labels:
        if label not in label_count.keys():
            label_count[label]=0
        else:
            label_count[label]+=1
        sorted_label_count = sorted(label_count.items(),key = operator.itemgetter(1),reverse = True)
    return sorted_label_count[0][0]
def build_decesion_tree(dataSet,featnames):
    '''
    字典的鍵存放節點資訊，分支及葉子節點存放值
    '''
    featname = featnames[:]              ################
    classlist = [featvec[-1] for featvec in dataSet]  #此節點的分類情況
    if classlist.count(classlist[0]) == len(classlist):  #全部屬於一類
        return classlist[0]
    if len(dataSet[0]) == 1:         #分完了,沒有屬性了
        return Vote(classlist)       #少數服從多數
    # 選擇一個最優特徵進行劃分
    bestFeat = choose_best_to_split(dataSet)
    bestFeatname = featname[bestFeat]
    del(featname[bestFeat])     #防止下標不準
    DecisionTree = {bestFeatname:{}}
    # 建立分支,先找出所有屬性值,即分支數
    allvalue = [vec[bestFeat] for vec in dataSet]
    specvalue = sorted(list(set(allvalue)))  #使有一定順序
    for v in specvalue:
        copyfeatname = featname[:]
        DecisionTree[bestFeatname][v] =  build_decesion_tree(split_data(dataSet,bestFeat,v),copyfeatname)
    return DecisionTree

def classify(Tree, featnames, X):
    classLabel=''
    root = list(Tree.keys())[0]
    firstDict = Tree[root]
    featindex = featnames.index(root)  #根節點的屬性下標
    #classLabel='0'
    for key in firstDict.keys():   #根屬性的取值,取哪個就走往哪顆子樹
        if X[featindex] == key:
            if type(firstDict[key]) == type({}):
                classLabel = classify(firstDict[key],featnames,X)
            else:
                classLabel = firstDict[key]
    return classLabel



            
    
if __name__ == '__main__':
    x_train,x_test,features=load_data()
    split_fea_index=choose_best_to_split(x_train)
    newtree=build_decesion_tree(x_train,features)
    #print(newtree)
    #classLabel=classify(newtree, features, ['7.4','0.66','0','1.8','0.075','13','40','0.9978','3.51','0.56','9.4','5'] )
    #print(classLabel)
    
    count=0
    for test in x_test:
        label=classify(newtree, features,test)
        
        if(label==test[-1]):
            count=count+1
    acucy=float(count/len(x_test))
    print(acucy)

測試的準確率大概在0.7左右。至此決策樹分類演算法結束。本文程式碼地址：https://github.com/lplping/decesion_tree

python實現決策樹分類（三）

在上一篇文章中，我們已經構建了決策樹，接下來可以使用它用於實際的資料分類。在執行資料分類時，需要決策時以及標籤向量。程式比較測試資料和決策樹上的數值，遞迴執行直到進入葉子節點。這篇文章主要使用決策樹分類器就行分類，資料集採用UCI資料庫中的紅酒，白酒資料，主要特徵包括12

決策樹系列（三）——ID3

決策樹系列（三）——ID3 預備知識：決策樹初識ID3 回顧決策樹的基本知識，其構建過程主要有下述三個重要的問題：（1）資料是怎麼分裂的（2

通俗地說決策樹演算法（三）sklearn決策樹實戰

前情提要通俗地說決策樹演算法（一）基礎概念介紹通俗地說決策樹演算法（二）例項解析上面兩篇介紹了那麼多決策樹的知識，現在也是時候來實踐一下了。Python有一個著名的機器學習框架，叫sklearn。我們可以用sklearn來執行前面說到的賴床的例子。不過在這之前，我們需要介紹一下sklearn中訓練一顆決

機器學習經典演算法詳解及Python實現--決策樹（Decision Tree）

（一）認識決策樹 1，決策樹分類原理決策樹是通過一系列規則對資料進行分類的過程。它提供一種在什麼條件下會得到什麼值的類似規則的方法。決策樹分為分類樹和迴歸樹兩種，分類樹對離散變數做決策樹，迴歸樹對連續變數做決策樹。近來的調查表明決策樹也是最經常使用的資料探勘演算法，它

【機器學習】決策樹演算法（二）— 程式碼實現

#coding=utf8 ‘’’ Created on 2018年11月4日 @author: xiaofengyang 決策樹演算法：ID3演算法 ‘’’ from sklearn.feature_extraction import DictVectorize

Python實現決策樹對西瓜進行分類

使用的周志華老師書上的例子，因為習主席講過一切不給資料集的演算法都是耍流氓，所以我這裡先給出資料集： 0,色澤,根蒂,敲聲,紋理,臍部,觸感,密度,含糖率,好瓜 1,青綠,蜷縮,濁響,清晰,凹陷,硬滑,0.697,0.46,是 2,烏黑,蜷縮,沉悶,清晰,凹陷,硬滑

python進階學習筆記（三）——實現python任意個數的關鍵字引數

class Person(object): def __init__(self, name, gender, birth, **kw): self.name = name self.gender = gender self.birth = birth

決策樹學習（上）——深度原理剖析及原始碼實現

引言本文給大家分享的主題是決策樹（Decision Tree）的原理剖析並附上程式碼實現供大家參考。由於基於決策樹的演算法較多，因此文章分為上下篇。上篇主要剖析決策樹原理、需要掌握的資訊理論知識以及Java原始碼實現等內容。下篇內容包括基於決策樹的ID3、C

雪飲者決策樹系列（二）決策樹應用

ssi 字符串長度 mes pla 選擇 font com vector nac 　　本篇以信息增益最大作為最優化策略來詳細介紹決策樹的決策流程。　　首先給定數據集，見下圖　　註：本數據來源於網絡本篇將以這些數據作為訓練數據（雖然少，但足以介紹清楚原理！），下圖是決

python列表、元組（三）

python一、列表的定義1. 創建列表>>> name = [‘gao‘, ‘sam‘, ‘snow‘, ‘jey‘] >>> type(name) <type ‘list‘> >>> name=list([‘gao‘, ‘sam‘, ‘sn

淺談秒級故障切換！用MHA輕松實現MySQL高可用（三）

mysql 高可用 mha MySQL復制是異步或者半同步的。當master故障時，一些slave可能並沒有收到最新的relay log，也就意味著每個slave可能處於不同的狀態。手動處理這些一致性問題是小事，因為不修復這些問題，就不能開始復制。但是手動修復這些問題，花費一個小時或更多的時間並不

Python Web框架Django學習（三）

pythonPython Web框架Django學習（三）目錄：五、Django生命周期六、Django的CBV與FBV 七、字典、基於正則的URL 八、ORM=====================================================================

python數字圖像處理（三）邊緣檢測常用算子

lin tco lap def ood 獲得 iou keep 算法在該文將介紹基本的幾種應用於邊緣檢測的濾波器,首先我們讀入saber用來做為示例的圖像 #讀入圖像代碼,在此之前應當引入必要的opencv matplotlib numpy saber = cv2.imr

測試開發系列之Python開發mock接口（三）

有一個 cep 內置 stat 遊標 tab lB 端口號 HERE 於進入主題了，前面的準備工作都已經做好了，下面就開始寫邏輯的代碼了，代碼我已經寫好了，每行都加了註釋，不明白的可以留言。 1 2 3 4 5 6 7 8 9 10 11 12 13

基於Orangpi Zero和Linux ALSA實現WIFI無線音箱（三）

http 和源 cal 快速實現播放音樂 lis 類型 ive 此外作品已經完成，先上源碼： https://files.cnblogs.com/files/qzrzq1/WIFISpeaker.zip 全文包含三篇，這是第三篇，主要講述接收端程序的原理和過程。第一篇

Python 各種測試框架簡介（三）：nose

調用 QQ upm href 命令 math 一點發現方法轉載：https://blog.csdn.net/qq_15013233/article/details/52527260 摘要這裏將從（pythontesting.net）陸續編譯四篇 Python 測試框

Python基礎班每日整理（三）

換行符轉義開發賦值 val 滿足輸出內容訪問次數 02_Python基礎_day04 while循環的基本格式初始化計數器while 條件:滿足條件要重復執行的代碼……修改計數器明白break和continue兩個關鍵字的作用，兩者的區別是什麽？break和

Python學習過程筆記整理（三）

font pytho def 駝峰 python學習 erl -s 函數參數 python 函數 -函數使用　　-函數需要先定義，定義不會執行函數　　-使用函數，俗稱調用 -定義函數　　-格式：def 函數名稱(參數):，函數名稱不能用大駝峰，參數可以沒有 -調用函數

python實現線性回歸（一）原理

函數乘法學習偏移量 python實現機器線性計算梯度線性回歸是機器學習的基礎，用處非常廣泛，在日常工作中有很大作用。 1.什麽是線性回歸通過多次取點，找出符合函數的曲線，那麽就可以完成一維線性回歸。 2.數學表示是截距值，為偏移量。因為單純計算多項

Python 二級模擬操作題（三）

img dash 數列 end 隨機數居中分享 bubuko 結果 1.根據輸入字符串 s，輸出一個寬度為 15 字符，字符串 s 居中顯示，以“=”填充的格式。如果輸入字符串超過 15 個字符，則輸出字符串前 15 個字符提示代碼如下：

python實現決策樹分類（三）

相關推薦