機器學習實戰程式碼_Python3.6_決策樹_程式碼

阿新 • • 發佈：2018-12-09

決策樹程式碼

from math import log
import operator

def calc_shannon_ent(data_set):
    num_entries = len(data_set)
    label_counts = { }
    for feat_vec in data_set:
        current_label = feat_vec[-1]
        if current_label not in label_counts.keys():
            label_counts[current_label] = 0
        label_counts[current_label] += 1 

    shannon_ent = 0.0
    for key in label_counts:
        prob = float(label_counts[key]) /num_entries
        shannon_ent -= prob*log(prob,2)
    return shannon_ent

def split_data_set(data_set, axis, value):
    return_data_set = []
    for feat_vec in data_set:
        if feat_vec[axis] == value:
            reduce_feat_vec = feat_vec[:axis]
            reduce_feat_vec.extend(feat_vec[axis+1 
 :])
            return_data_set.append(reduce_feat_vec)
    return return_data_set

def choose_best_feature_to_split(data_set):
    num_features = len(data_set[0]) - 1
    bese_entropy = calc_shannon_ent(data_set)
    best_info_gain = 0.0
    best_feature = -1
    for i in range(num_features):
        feat_list = [example[i] for 
 example in data_set]
        unique_vals = set(feat_list)
        new_entropy = 0.0
        for value in unique_vals:
            sub_data_set = split_data_set(data_set, i, value)
            prob = len(sub_data_set)/float(len(data_set))
            new_entropy += prob * calc_shannon_ent(sub_data_set)
        info_gain = bese_entropy - new_entropy
        if info_gain > best_info_gain :
            best_info_gain = info_gain
            best_feature = i
    return best_feature


def majority_cnt(class_list):
    class_count = {}
    for vote in class_list:
        if vote not in class_count.keys():
            class_count[vote] = 0
        class_count[vote] += 1
    sorted_class_count = sorted(class_count.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sorted_class_count[0][0]

def create_tree(data_set, labels):
    class_list = [example[-1] for example in data_set]
    if class_list.count(class_list[0]) == len(class_list):
        return class_list[0]
    if len(data_set[0]) == 1:
        return majority_cnt(class_list)
    best_feat = choose_best_feature_to_split(data_set)
    best_feat_label = labels[best_feat]
    my_tree = { best_feat_label:{} }
    del(labels[best_feat])
    feat_values = [example[best_feat] for example in data_set]
    unique_vals = set(feat_values)
    for value in unique_vals:
        sub_labels = labels[:]
        my_tree[best_feat_label][value] = create_tree(split_data_set(data_set, best_feat, value), sub_labels)
    return my_tree

繪製程式碼

import matplotlib.pyplot as plt
import decison_tree

decision_node = dict(boxstyle='sawtooth', fc='0.8')
leaf_node = dict(boxstyle='round4', fc='0.8')
arrow_args = dict(arrowstyle='<-')

def plot_node(node_text, center_pt, parent_pt, node_type):
    creat_plot.axl.annotate(node_text, xy=parent_pt, xycoords='axes fraction', xytext=center_pt, textcoords='axes fraction', va='center', ha='center', bbox=node_type,)
    creat_plot.axl.annotate(node_text, xy=parent_pt, xycoords='axes fraction', xytext=center_pt, textcoords='axes fraction', va='center', ha='center', bbox=node_type, arrowprops=arrow_args)

def creat_plot():
    fig = plt.figure(1, facecolor='white')
    fig.clf()   #清除當前 figure 的所有axes，但是不關閉這個 window，所以能繼續複用於其他的 plot。
    creat_plot.axl = plt.subplot(111, frameon=False)
    plot_node('Decision_node', (0.5, 0.1), (0.1, 0.5), decision_node)
    plot_node('Leaf_node', (0.8, 0.1), (0.3, 0.8), leaf_node)
    plt.savefig('tree_plot.png')
    plt.show()


def get_num_leafs(my_tree):
    num_leafs = 0
    first_str = list(my_tree.keys())[0] #首先轉為list型別才可以使用[0],否則報錯，Python3.x區別於書上Python2.x的程式碼
    second_dict = my_tree[first_str]
    for key in second_dict.keys():
        if type(second_dict[key]) == dict:
            num_leafs += get_num_leafs(second_dict[key])
        else:
            num_leafs += 1
    return num_leafs

def get_tree_depth(my_tree):
    max_depth = 0
    first_str = list(my_tree.keys())[0]
    second_dict = my_tree[first_str]
    for key in second_dict.keys():
        if type(second_dict[key]) == dict:
            this_depth = 1 + get_tree_depth(second_dict[key])
        else:
            this_depth = 1
        if this_depth > max_depth:
            max_depth = this_depth
    return max_depth

def retrieve_tree(i):
    list_of_trees = [ {'no surfacing':{0:'no', 1:{'flippers':{0:'no', 1:'yes'}}}}, \
                      {'no surfacing':{0:'no', 1:{'flippers':{0:{'head':{0:'no', 1:'yes'}}, 1:'n0'}}}}]
    return list_of_trees[i]

def plot_mid_text(cntr_pt, parent_pt, txt_string):
    x_mid = (parent_pt[0] - cntr_pt[0])/2.0 + cntr_pt[0]
    y_mid = (parent_pt[1] - cntr_pt[1])/2.0 + cntr_pt[1]
    creat_plot.axl.text(x_mid, y_mid, txt_string)

def plot_tree(my_tree, parent_pt, node_txt):
    num_leafs = get_num_leafs(my_tree)
    depth = get_tree_depth(my_tree)
    first_str = list(my_tree.keys())[0]
    cntr_pt = (plot_tree.xOff + (1.0+float(num_leafs))/2.0/plot_tree.totalW, plot_tree.yOff)
    plot_mid_text(cntr_pt, parent_pt, node_txt)
    plot_node(first_str, cntr_pt, parent_pt, decision_node)
    second_dict = my_tree[first_str]
    plot_tree.yOff = plot_tree.yOff - 1.0/plot_tree.totalD
    for key in second_dict.keys():
        if type(second_dict[key]) == dict:
            plot_tree(second_dict[key], cntr_pt, str(key))
        else:
            plot_tree.xOff = plot_tree.xOff + 1.0/plot_tree.totalW
            plot_node(second_dict[key], (plot_tree.xOff, plot_tree.yOff), cntr_pt, leaf_node)
            plot_mid_text((plot_tree.xOff, plot_tree.yOff), cntr_pt, str(key))
    plot_tree.yOff = plot_tree.yOff + 1.0/plot_tree.totalD


def creat_plot(in_tree):
    fig = plt.figure(1, facecolor='white')
    fig.clf()
    axprops = dict(xticks=[], yticks=[])
    creat_plot.axl = plt.subplot(111, frameon=False, **axprops)
    plot_tree.totalW = float(get_num_leafs(in_tree))
    plot_tree.totalD = float(get_tree_depth(in_tree))
    plot_tree.xOff = -0.5/plot_tree.totalW
    plot_tree.yOff = 1.0
    plot_tree(in_tree, (0.5, 1.0), '')
    plt.savefig('tree_plotter.png') #必須先savefig(),否則儲存的是空白影象
    plt.show()                      #不能再show()之後savefig(),否則儲存的就是空白影象

def classify(input_tree, feat_labels, test_vec):
    first_str = list(input_tree.keys())[0]
    second_dict = input_tree[first_str]
    feat_index = feat_labels.index(first_str)
    for key in second_dict.keys():
        if test_vec[feat_index] == key:
            if type(second_dict[key]) == dict:
                class_label = classify(second_dict[key], feat_labels, test_vec)
            else:
                class_label = second_dict[key]
    return class_label


def store_tree(input_tree, filename):
    import pickle
    fw = open(filename, 'w')
    pickle.dump(input_tree, fw)
    fw.close()

def grab_tree(filename):
    import pickle
    fr = open(filename)
    return pickle.load(fr)




if __name__ == '__main__':
    fr = open('lenses.txt')
    lenses = [inst.strip().split('\t') for inst in fr.readlines()]
    lenses_labels = ['age', 'prescript', 'astigmatic', 'tearRate']
    lenses_tree = decison_tree.create_tree(lenses, lenses_labels)
    creat_plot(lenses_tree)

機器學習實戰程式碼_Python3.6_決策樹_程式碼

決策樹程式碼 from math import log import operator def calc_shannon_ent(data_set): num_entries = len(data_set) label_counts =

機器學習實戰（二）決策樹DT（Decision Tree、ID3演算法）

目錄 0. 前言 1. 資訊增益（ID3） 2. 決策樹（Decision Tree） 3. 實戰案例 3.1. 隱形眼鏡案例 3.2. 儲存決策樹 3.3. 決策樹畫圖表示學習完機器學習實戰的決策樹，簡單的做

機器學習實戰讀書筆記(2)--決策樹

決策樹決策樹的一個重要任務是為了資料中所蘊含的知識資訊,因此決策樹可以使用一系列不熟悉的資料集合,並從中提取系列規則,在這些機器根據資料集建立規則時,就是機器學習的過程.專家系統中經常使用決策樹決策樹的構造優點:計算複雜度不高,輸出結果易於理解,對中間值缺失不敏

機器學習實戰（2）-決策樹

構建決策樹最重要的是分裂屬性的選取,重要的是每個屬性在節點的位置，比如說第一個節點屬性為什麼是A而不是B。分裂屬性就是在某個節點處按照某一特徵屬性的不同劃分構造不同的分支，其目標是讓各個分裂子集更加的純，所謂的純是指儘量讓一個分裂子集中待分類項屬於同一類別。判斷純的方法有ID3，C4.5，CART演算法。&n

C++單刷《機器學習實戰》之二——決策樹

演算法概述：決策樹是用於分類的一種常用方法，根據資料集特徵值的不同，構造決策樹來將資料集不斷分成子資料集，直至決策樹下的每個分支都是同一類或用完所有的特徵值。決策樹的一般流程：（1）收集資料（2）準備資料：樹構造演算法只適用於標稱型資料，因此數值型資料必須離散化，最好轉為bool型

《機器學習實戰》之三——決策樹

花了差不多三天時間，終於把《機器學習實戰》這本書的第三章的決策樹過了一遍，知道了決策樹中ID3的一個具體編法和流程。【一】計算資料資訊熵這段程式碼主要是用於計算資料的每個特徵資訊熵，資訊熵用於描述資料的混亂程度，資訊熵越大說明資料包含的資訊越多，也就是資料的波動越大。而ID3演算

機器學習實戰(第三篇)-決策樹簡介

我們經常使用決策樹處理分類問題，近來的調查表明決策樹也是最經常使用的資料探勘演算法。它之所以如此流行，一個很重要的原因就是使用者基本上不用瞭解機器學習演算法，也不用深究它是如何工作的。如果你以前沒有接觸過決策樹，不用擔心，它的概念非常簡單。即使不知道它也可以通

機器學習實戰(第三篇)-決策樹構造

首先我們分析下決策樹的優點和缺點。優點：計算複雜度不高，輸出結果易於理解，對中間值的卻是不敏感，可以處理不相關特徵資料；缺點：可能會產生過度匹配問題。適用資料型別：數值型和標稱型。本篇文章我們將一步步地構造決策樹演算法，並會涉及許多有趣的細節。首先我們先討論數

python機器學習實戰2：實現決策樹

1.決策樹的相關知識在之前的接觸中決策樹直觀印象應該就是if-else的迴圈，if會怎麼樣，else之後再繼續if-else直至最終的結果。在上節講的kNN它其實已經可以完成很多工，但是它最大的缺點就是無法給資料集的內在含義，決策樹的主要優勢在於資料形式非常

機器學習實戰第三章——決策樹(原始碼解析)

機器學習實戰中的內容講的都比較清楚，一般都能看懂，這裡就不再講述了，這裡主要是對程式碼進行解析，如果你很熟悉python，這個可以不用看。 #coding=utf-8 ''' Created on 2016年1月5日 @author: ltc ''' from mat

機器學習實戰第三章——決策樹程式

在閱讀理解決策樹之後，按照《機器學習實戰》的程式碼，實現ID3決策樹程式如下： from math import log def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCounts

【10月31日】機器學習實戰（二）決策樹：隱形眼鏡資料集

決策樹的優點：計算的複雜度不高，輸出的結果易於理解，對中間值的確實不敏感，可以處理不相關的特徵資料決策樹的缺點：可能會產生過度匹配的問題。其本質的思想是通過尋找區分度最好的特徵（屬性），用於支援分類規則的制定。那麼哪些特徵是區分度好的，哪些特徵是區分度壞的呢？換句話說

機器學習實戰之k-means聚類_程式碼註釋

#-*- coding: UTF-8 -*- from numpy import * def loadDataSet(fileName):#函式的輸入為檔名稱，函式的主要作用是將檔案中的每行內容轉換成浮點型， # 每行

機器學習實戰之樸素貝葉斯_程式碼註釋

#-*- coding: UTF-8 -*- from numpy import * def loadDataSet():#建立包含文件的訓練集和各文件對應的標籤列表 postinglist = [['my','dog','has','flea','problems',

機器學習實戰—第9章：樹迴歸程式程式碼中的小錯誤

提示：本人程式碼執行在Python3的環境下 1、程式清單9-1：應改為： list(map(float, curLine)) 解釋：map()返回結果是一個Iterator，Iterator是惰性序列，因此通過list()函式讓它把整個序列都計算出來並返回

Spark2.0機器學習系列之3：決策樹及Spark 2.0-MLlib、Scikit程式碼分析

概述分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹可以看為一個if-then規則集合，具有“互斥完備”性質。決策樹基本上都是採用的是貪心（即非回溯）的演算法，自頂向下遞迴分治構造。生成決策樹一般包含三個步驟：特徵選擇決策樹生成剪枝

機器學習(五)：通俗易懂決策樹與隨機森林及程式碼實踐

與SVM一樣，決策樹是通用的機器學習演算法。隨機森林，顧名思義，將決策樹分類器整合到一起就形成了更強大的機器學習演算法。它們都是很基礎但很強大的機器學習工具，雖然我們現在有更先進的演算法工具來訓練模型，但決策樹與隨機森林因其簡單靈活依然廣受喜愛，建議大家學習。 # 一、決策樹 ## 1.1 什麼是決策樹

機器學習入門 - 1. 介紹與決策樹(decision tree)

recursion machine learning programmming 機器學習(Machine Learning) 介紹與決策樹(Decision Tree)機器學習入門系列是個人學習過程中的一些記錄與心得。其主要以要點形式呈現，簡潔明了。1.什麽是機器學習？一個比較概括的理解是:

《機器學習》第三章決策樹學習筆記加總結

分類問題子集觀察組成 cas 普通重復 1.0 需要《機器學習》第三章決策樹學習決策樹學習方法搜索一個完整表示的假設空間，從而避免了受限假設空間的不足。決策樹學習的歸納偏置是優越選擇較小的樹。 3.1.簡介決策樹學習是一種逼近離散值目標函數的方法，在這種方法

機器學習二——分類算法--決策樹DecisionTree

其中 .cn 比較輸出選擇結構沒有 ati 流程圖機器學習算法評估標準：準確率，速度，強壯性（噪音影響較小），可規模性，可解釋性。 1、決策樹 Decision Tree：決策樹是一個類似於流程圖的樹結構，其中每個內部節點表示在一個屬性上的測試，每一個分支代表

機器學習實戰程式碼_Python3.6_決策樹_程式碼

決策樹程式碼

繪製程式碼

相關推薦