西瓜書決策樹ID3演算法實現，離散屬性

阿新 • • 發佈：2018-11-27

from math import log
import operator
import csv


def readDataset(filename):
    '''
    讀取資料
    :param filename: 資料檔名，CSV格式
    :return:  以列表形式返回資料列表和特徵列表
    '''
    with open(filename) as f:
        reader = csv.reader(f)
        header_row = next(reader)
        labels = header_row[1:7]
        dataset = []
        for line in reader:
            tempVect = line[1:7]
            tempVect.append(line[7])
            dataset.append(tempVect)
    return dataset, labels


def infoEnt(dataset):
    '''
    計算資訊熵
    :param dataset:  輸入資料集
    :return:  返回資訊熵
    '''
    numdata = len(dataset)
    labels = {}
    for featVec in dataset:
        label = featVec[-1]
        if label not in labels.keys():
            labels[label] = 0
        labels[label] += 1
    infoEnt = 0
    for lab in labels.keys():
        prop = float(labels[lab]) / numdata
        infoEnt -= (prop * log(prop, 2))
    return infoEnt


def splitDataset(dataset, axis, value):
    '''
    對某個特徵進行劃分後的資料集
    :param dataset: 資料集
    :param axis: 劃分屬性的下標
    :param value: 劃分屬性值
    :return: 返回剩餘資料集
    '''
    restDataset = []
    for featVec in dataset:
        if featVec[axis] == value:
            restFeatVec = featVec[:axis]
            restFeatVec.extend(featVec[axis + 1:])
            restDataset.append(restFeatVec)
    return restDataset


def bestFeatureSplit(dataset):
    '''
    最優屬性劃分
    :param dataset: 輸入需要劃分的資料集
    :return:  返回最優劃分屬性的下標
    '''
    numFeature = len(dataset[0]) - 1
    baseInfoEnt = infoEnt(dataset)
    bestInfoGain = 0
    bestFeature = -1
    for i in range(numFeature):
        featList = [example[i] for example in dataset]
        uniqueValue = set(featList)
        newEnt = 0
        for value in uniqueValue:
            subDataset = splitDataset(dataset, i, value)
            prop = len(subDataset) / float(len(dataset))
            newEnt += prop * infoEnt(subDataset)
        infoGain = baseInfoEnt - newEnt
        if (infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature


def majorClass(classList):
    '''
    對葉節點的分類結果進行劃分，按照數量大小
    :param classList:  葉節點上的樣本數量
    :return: 返回葉節點劃分結果
    '''
    classCount = {}
    for vote in classList:
        if vote not in classCount:
            classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)  # 返回陣列
    return sortedClassCount[0][0]


def createTree(dataset, labels, datasetFull, labelsFull):
    '''
    遞迴建立決策樹
    :param dataset: 資料集列表
    :param labels:  標籤集列表
    :param datasetFull: 資料集列表，再傳一次
    :param labelsFull:  標籤集列表，再傳一次
    :return: 返回決策樹字典
    '''
    classList = [example[-1] for example in dataset]
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    if len(dataset[0]) == 1:
        return (majorClass(classList))
    bestFeat = bestFeatureSplit(dataset)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel: {}}
    del (labels[bestFeat])
    featValues = [example[bestFeat] for example in dataset]
    uniqueVal = set(featValues)
    # 建立所有屬性標籤的所有值，以防漏掉某些取值
    bestFeatIndex = labelsFull.index(bestFeatLabel)
    featValuesFull = [example[bestFeatIndex] for example in datasetFull]
    uniqueValFull = set(featValuesFull)
    if uniqueVal == uniqueValFull:
        for value in uniqueVal:
            subLabels = labels[:]  # 遞歸回退過程需要繼續使用標籤，所以前行過程標籤副本
            myTree[bestFeatLabel][value] = createTree(splitDataset(dataset, bestFeat,                 
                                             value),subLabels, datasetFull, labelsFull)
    else:
        for value in uniqueVal:
            subLabels = labels[:]  # 遞歸回退過程需要繼續使用標籤，所以前行過程標籤副本
            myTree[bestFeatLabel][value] = createTree(splitDataset(dataset, bestFeat, 
                                             value), subLabels, datasetFull, labelsFull)
            uniqueValFull.remove(value)
        for value in uniqueValFull:
            myTree[bestFeatLabel][value] = majorClass(classList)
    return myTree


if __name__ == '__main__':
    filename = 'C:\\Users\\14399\\Desktop\\西瓜2.0.csv'
    dataset, labels = readDataset(filename)
    datasetFull = dataset[:]
    labelsFull = labels[:]
    myTree = createTree(dataset, labels, datasetFull, labelsFull)
    print(myTree)

生成決策樹：{'紋理': {'稍糊': {'觸感': {'硬滑': '否', '軟粘': '是'}}, '模糊': '否', '清晰': {'根蒂': {'硬挺': '否', '稍蜷': {'色澤': {'烏黑': {'觸感': {'硬滑': '是', '軟粘': '否'}}, '青綠': '是', '淺白': '是'}}, '蜷縮': '是'}}}}

西瓜2.0資料集：連結：https://pan.baidu.com/s/12aVngexje2RdizgOg1Fr0A 提取碼：uywy

參考：https://blog.csdn.net/csqazwsxedc/article/details/65697652

西瓜書決策樹ID3演算法實現，離散屬性

from math import log import operator import csv def readDataset(filename): ''' 讀取資料 :param filename: 資料檔名，CSV格式 :return: 以列表形式返回資料列

機器學習決策樹ID3演算法，手把手教你用Python實現

本文始發於個人公眾號：**TechFlow**，原創不易，求個關注今天是機器學習專題的第21篇文章，我們一起來看一個新的模型——決策樹。決策樹的定義決策樹是我本人非常喜歡的機器學習模型，非常直觀容易理解，並且和資料結構的結合很緊密。我們學習的門檻也很低，相比於那些動輒一堆公式的模型來說，實在是簡單

《機器學習實戰》決策樹(ID3演算法)的分析與實現

決策樹是一個預測模型；他代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的物件的值。決策樹僅有單一輸出，若欲有複數輸出，可以建立獨立的決策樹以處理不同輸出。資料探勘中決策樹是一

決策樹ID3演算法-matlab實現

ID3_decision_tree.m %% 使用ID3決策樹演算法預測銷量高低 clear ; %% 資料預處理 disp('正在進行資料預處理...'); [matrix,attributes_label,attributes] = id3_pre

寶具滑 / JS簡單實現決策樹(ID3演算法)

決策樹ID3演算法和C4.5演算法實戰

老師給的題目：程式碼實現【兩種演算法合在一個檔案裡】： from numpy import * def createDataSet(): dataSet = [[1, 1, 1, 0, 'no'], [1, 1, 1, 1, '

利用決策樹 ID3 演算法進行預測

決策樹：決策樹方法在分類、預測、規則提取等領域被廣泛應用決策樹是樹狀結構，它的每一個節點對應著一個分類，非葉節點對應著在某個屬性上的劃分，根據樣本在該屬性上的不同取值將其劃分城若干個子集。構造決策樹的核心問題是在每一步如何選擇適當的屬性對樣本做拆分。對一個分類問題，從一直分類

學習資料探勘決策樹ID3演算法

一個月前的C語言程式設計課上學習了決策樹ID3演算法然後自己用了兩個多星期的時間開始用C語言實現，結果由於過程太過於複雜，寫出來的東西就跟屎一樣。可能是自己對於這個演算法理解的不夠深刻，或者是在設計的時候沒有構思好。所以決定在這裡寫一寫大概的構思然後再去用C實現。這

決策樹ID3演算法

TypeError: 'dict_keys' object does not support indexing 9.TypeError: ‘dict_keys’ object does not support indexing 這個問題是python版本的問題

決策樹——ID3演算法

先上程式碼，理論有空補上，採用python 3.X編寫，沒有剪枝部分 import math import operator # 計算資料集的資訊熵 def calcEntropy(data): # label = [] numClass = {}

決策樹ID3原理及R語言python程式碼實現（西瓜書）

決策樹ID3原理及R語言python程式碼實現（西瓜書）摘要：決策樹是機器學習中一種非常常見的分類與迴歸方法，可以認為是if-else結構的規則。分類決策樹是由節點和有向邊組成的樹形結構，節點表示特徵或者屬性，而邊表示的是屬性值，邊指向的葉節點為對應的分類。在對樣本的分類過程中，由頂向下，根據特徵或屬性

機器學習總結（八）決策樹ID3，C4.5演算法，CART演算法

本文主要總結決策樹中的ID3,C4.5和CART演算法，各種演算法的特點，並對比了各種演算法的不同點。決策樹：是一種基本的分類和迴歸方法。在分類問題中，是基於特徵對例項進行分類。既可以認為是if-then規則的集合，也可以認為是定義在特徵空間和類空間上的條件概率分佈。決策樹模型：決策樹由結點和有向邊組

決策樹之ID3演算法實現(python) [置頂] 怒寫一個digit classification(不斷更新中)

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

西瓜書習題4.4 程式設計實現基尼指數決策樹

資料及程式碼地址：https://github.com/qdbszsj/decisionTreeGini這裡的程式碼在資訊熵決策樹的基礎上稍加修改就可以，之前是根據熵增的最大值來確定用哪個屬性劃分，現在是根據基尼指數（表現資料集D的純度）的最小值來建樹。這裡網上的很多人說建出

資料探勘-決策樹ID3分類演算法的C++實現

資料探勘課上面老師介紹了下決策樹ID3演算法，我抽空餘時間把這個演算法用C++實現了一遍。決策樹演算法是非常常用的分類演算法，是逼近離散目標函式的方法，學習得到的函式以決策樹的形式表示。其基本思路是不斷選取產生資訊增益最大的屬性來劃分樣例集和，構造決策樹。資訊增益定義為結點與

決策樹ID3、C4.5、CART演算法：資訊熵，區別，剪枝理論總結

決策樹演算法中的ID3、c4.5、CART演算法，記錄如下：決策樹演算法：顧名思義，以二分類問題為例，即利用自變數構造一顆二叉樹，將目標變數區分出來，所有決策樹演算法的關鍵點如下： 1.分裂屬性的選擇。即選擇哪個自變數作為樹叉，也就是在n個自變數中，優先選

機器學習演算法 --- 決策樹ID3，C4.5

一、決策樹基本概念及演算法優缺點 1.什麼是決策樹分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種型別：內部結點和葉結點。內部結點表示一個特徵或屬性，葉結點表示一個類。決策樹（Decision Tree），又稱判定

決策樹之ID3演算法實現(python)

最近開始學習machine learning方面的內容，大致瀏覽了一遍《machine learning in action》一書，大概瞭解了一些常用的演算法如knn,svm等具體式幹啥的。在kaggle上看到一個練手的專案：digit classification,又有良好的資料，於是打算用這個

決策樹ID3算法的實現，分四大步詳細解釋，參考機器學習實戰

sts 內容選擇 tro 創建存儲 con del inf 一、編寫計算歷史數據的經驗熵函數 from math import log def calcShannonEnt(dataSet): numEntries = len(dataSet)

javascript實現樸素貝葉斯分類與決策樹ID3分類

.com 訓練集 this ice map ive sum length roc 今年畢業時的畢設是有關大數據及機器學習的題目。因為那個時間已經步入前端的行業自然選擇使用JavaScript來實現其中具體的算法。雖然JavaScript不是做大數據處理的最佳語言，相比還沒有

西瓜書決策樹ID3演算法實現，離散屬性

相關推薦