西瓜書課後習題4.3 基於資訊熵決策樹，連續和離散屬性，並驗證模型

阿新 • • 發佈：2018-11-27

import matplotlib.pyplot as plt
import numpy as np
from math import log
import operator
import csv


def readDataset(filename):
    '''
    讀取資料
    :param filename: 資料檔名，CSV格式
    :return:  以列表形式返回資料列表和特徵列表
    '''
    with open(filename) as f:
        reader = csv.reader(f)
        header_row = next(reader)
        labels = header_row[1:9]
        dataset = []
        for line in reader:
            tempVect = line[1:10]
            dataset.append(tempVect)
    return dataset, labels


def infoEnt(dataset):
    '''
    計算資訊熵
    :param dataset:  輸入資料集
    :return:  返回資訊熵
    '''
    numdata = len(dataset)
    labels = {}
    for featVec in dataset:
        label = featVec[-1]
        if label not in labels.keys():
            labels[label] = 0
        labels[label] += 1
    infoEnt = 0
    for lab in labels.keys():
        prop = float(labels[lab]) / numdata
        infoEnt -= (prop * log(prop, 2))
    return infoEnt


def bestFeatureSplit(dataset):
    '''
    最優屬性劃分
    :param dataset: 輸入需要劃分的資料集
    :return:  返回最優劃分屬性的下標
    '''
    numFeature = len(dataset[0]) - 1
    baseInfoEnt = infoEnt(dataset)
    bestInfoGain = 0
    bestFeature = -1
    bestSplitPoint = None
    continuous = False
    for i in range(numFeature):
        featList = [example[i] for example in dataset]
        newEnt = 0
        if all(c in "0123456789.-" for c in featList[0]):  # 連續屬性
            continuous = True
            featList.sort()
            tempFeatList = [float(feat) for feat in featList]  # 字串轉換成數字,用set(featList)會出現結果不穩定
            mediumPoints = []
            for index in range(len(tempFeatList) - 1):
                mediumPoints.append((tempFeatList[index] + tempFeatList[index + 1]) / 2)
            for point in mediumPoints:
                for part in range(2):
                    subDataset = splitDataset(dataset, i, point, continuous, part)
                    prop = len(subDataset) / float(len(dataset))
                    newEnt += prop * infoEnt(subDataset)
                infoGain = baseInfoEnt - newEnt
                if (infoGain > bestInfoGain):
                    bestInfoGain = infoGain
                    bestFeature = i
                    bestSplitPoint = point
        else:
            uniqueValue = set(featList)
            for value in uniqueValue:
                subDataset = splitDataset(dataset, i, value, continuous)
                prop = len(subDataset) / float(len(dataset))
                newEnt += prop * infoEnt(subDataset)
            infoGain = baseInfoEnt - newEnt
            if (infoGain > bestInfoGain):
                bestInfoGain = infoGain
                bestFeature = i
                bestSplitPoint = None
    return bestFeature, bestSplitPoint


def splitDataset(dataset, axis, value, continuous, part=0):
    '''
    對某個特徵進行劃分後的資料集
    :param dataset: 資料集
    :param axis: 劃分屬性的下標
    :param value: 劃分屬性值
    :return: 返回剩餘資料集
    '''
    restDataset = []
    if continuous == True:  # 連續屬性
        for featVec in dataset:
            if part == 0 and float(featVec[axis]) <= value:
                restFeatVec = featVec[:axis]
                restFeatVec.extend(featVec[axis + 1:])
                restDataset.append(restFeatVec)
            if part == 1 and float(featVec[axis]) > value:
                restFeatVec = featVec[:axis]
                restFeatVec.extend(featVec[axis + 1:])
                restDataset.append(restFeatVec)
    else:  # 離散屬性
        for featVec in dataset:
            if featVec[axis] == value:
                restFeatVec = featVec[:axis]
                restFeatVec.extend(featVec[axis + 1:])
                restDataset.append(restFeatVec)
    return restDataset


def majorClass(classList):
    '''
    對葉節點的分類結果進行數量投票劃分
    :param classList:  葉節點上的樣本數量
    :return: 返回葉節點劃分結果
    '''
    classCount = {}
    for vote in classList:
        if vote not in classCount:
            classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)  # 返回陣列
    return sortedClassCount[0][0]


def createTree(dataset, labels, datasetFull, labelsFull):
    '''
    遞迴建立決策樹
    :param dataset: 資料集列表
    :param labels:  標籤集列表
    :param datasetFull: 資料集列表，再傳一次
    :param labelsFull:  標籤集列表，再傳一次
    :return: 返回決策樹字典
    '''
    classList = [example[-1] for example in dataset]
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    if len(dataset[0]) == 1:
        return (majorClass(classList))
    bestFeat, bestSplitPoint = bestFeatureSplit(dataset)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel: {}}
    # 建立所有屬性標籤的所有值，以防漏掉某些取值,例如西瓜資料集2.0中的  色澤：淺白
    bestFeatIndex = labelsFull.index(bestFeatLabel)
    featValuesFull = [example[bestFeatIndex] for example in datasetFull]
    uniqueValFull = set(featValuesFull)
    if bestSplitPoint == None:  # 離散節點
        del (labels[bestFeat])
        featValues = [example[bestFeat] for example in dataset]
        uniqueVal = set(featValues)
        if uniqueVal == uniqueValFull:
            for value in uniqueVal:
                subLabels = labels[:]  # 遞歸回退過程需要繼續使用標籤，所以前行過程標籤副本
                myTree[bestFeatLabel][value] = createTree(splitDataset(dataset, bestFeat, value, False),
                                                          subLabels, datasetFull, labelsFull)
        else:
            for value in uniqueVal:
                subLabels = labels[:]  # 遞歸回退過程需要繼續使用標籤，所以前行過程標籤副本
                myTree[bestFeatLabel][value] = createTree(splitDataset(dataset, bestFeat, value, False),
                                                          subLabels, datasetFull, labelsFull)
                uniqueValFull.remove(value)
            for value in uniqueValFull:
                myTree[bestFeatLabel][value] = majorClass(classList)
    else:  # 連續節點
        subLabels = labels[:]
        myTree[bestFeatLabel]['<=' + str(bestSplitPoint)] = createTree(
            splitDataset(dataset, bestFeat, bestSplitPoint, True, 0), subLabels, datasetFull, labelsFull)
        subLabels = labels[:]
        myTree[bestFeatLabel]['>' + str(bestSplitPoint)] = createTree(
            splitDataset(dataset, bestFeat, bestSplitPoint, True, 1), subLabels, datasetFull, labelsFull)
    return myTree


def decideTreePredict(decideTree, featList, testData):
    '''
    決策樹預測
    :param decideTree: 決策樹模型
    :param featList: 特徵列表
    :param testData: 測試資料
    :return: 返回預測結果
    '''
    firstFeat = list(decideTree.keys())[0]
    secDict = decideTree[firstFeat]
    featIndex = featList.index(firstFeat)
    decideLabel = None
    for key in secDict.keys():
        if key[0] == '<':
            value = float(key[2:])
            if float(testData[featIndex]) <= value:
                if type(secDict[key]).__name__ == 'dict':
                    decideLabel = decideTreePredict(secDict[key], featList, testData)
                else:
                    decideLabel = secDict[key]
        elif key[0] == '>':
            value = float(key[1:])
            if float(testData[featIndex]) > value:
                if type(secDict[key]).__name__ == 'dict':
                    decideLabel = decideTreePredict(secDict[key], featList, testData)
                else:
                    decideLabel = secDict[key]

        else:
            if testData[featIndex] == key:
                if type(secDict[key]).__name__ == 'dict':
                    decideLabel = decideTreePredict(secDict[key], featList, testData)
                else:
                    decideLabel = secDict[key]
    return decideLabel


if __name__ == '__main__':
    filename = 'C:\\Users\\14399\\Desktop\\西瓜3.0.csv'
    dataset, labels = readDataset(filename)
    datasetFull = dataset[:]
    labelsFull = labels[:]
    myTree = (createTree(dataset, labels, datasetFull, labelsFull))
    print(myTree)
    # 驗證結果，這裡用的原來訓練集資料，所以為100%正確
    count = 0
    for testData in dataset:
        if decideTreePredict(myTree, labelsFull, testData) == testData[-1]:
            count += 1
    print(count)

生成結果：{'紋理': {'模糊': '否', '清晰': {'根蒂': {'硬挺': '否', '蜷縮': '是', '稍蜷': {'密度': {'<=0.3815': '否', '>0.3815': '是'}}}}, '稍糊': {'觸感': {'軟粘': '是', '硬滑': '否'}}}} （與書中結果略有不同，但不影響正確率。）

西瓜3.0資料集：連結：https://pan.baidu.com/s/1RXTUG9gP1Jn9HKFCiEzOlA 密碼：3h6n

參考:

https://blog.csdn.net/u014514939/article/details/79299619 （含畫樹演算法）

https://blog.csdn.net/csqazwsxedc/article/details/65697652

https://blog.csdn.net/icefire_tyh/article/details/54575527

西瓜書課後習題4.3 基於資訊熵決策樹，連續和離散屬性，並驗證模型

import matplotlib.pyplot as plt import numpy as np from math import log import operator import csv def readDataset(filename): ''' 讀取資料 :

西瓜書習題4.3 基於資訊熵決策樹，連續和離散屬性

from math import log import operator import csv def readDataset(filename): ''' 讀取資料 :param filename: 資料檔名，CSV格式 :return:

西瓜書課後習題4.4 基尼指數未剪枝預剪枝後剪枝

import operator import csv import numpy as np def readDataset(filename): ''' 讀取資料 :param filename: 資料檔名，CSV格式 :return: 以列表形式返回資料列表和

西瓜書課後習題3.4 十折交叉和留一法，對率迴歸

import csv import numpy as np def readData(filename): """ :param filename:cvs資料檔案 :return: X1,y1,X2,y2,X3,y3 X: list with s

西瓜書課後習題5.5 標準bp演算法，累計bp演算法

import numpy as np def dataSet(): ''' 西瓜3.0資料集離散化 ''' X = np.mat('2,3,3,2,1,2,3,3,3,2,1,1,2,1,3,1,2;\ 1,1,1,1,1,2,2,2,2,

《機器學習》西瓜書課後習題參考答案

第一章緒論第二章模型評估與選擇第三章線性模型第四章決策樹第五章神經網路第六章支援向量機第七章貝葉斯分類器第八章整合學習第九章聚類第十章降緯與度量學習第十一章特徵選擇與稀疏學習第十二章計算理論學習第十三章半監督學習第十四章概率圖模型

西瓜書課後習題——第一章

語義訓練數據 ref 屬性 msu -s 包含 tps 個數 1.1 若表中只包含編號1和4兩個樣例，則訓練數據集為色澤根蒂敲聲是否好瓜青綠蜷縮濁響是烏黑稍蜷沈悶否

浙大版《資料結構》習題4.3 是否二叉搜尋樹（25 分）

本題要求實現函式，判斷給定二叉樹是否二叉搜尋樹。函式介面定義： bool IsBST ( BinTree T ); 其中BinTree結構定義如下： typedef struct TNode *Position; typedef Position BinT

python實現西瓜書《機器學習》習題4.3資訊增益決策樹

首先這篇的格式可能會亂，markdown裝上以後，有時候是用csdn原來的編輯器，有時候就變成了markdown編輯器，蒙。更蒙的是，大牛的程式碼太飄逸了，有點看不懂，慣例先來原地址：https://blog.csdn.net/Snoopy_Yuan/article/details/689

西瓜數課後習題3.5 線性判別分析

import csv import numpy as np import matplotlib.pyplot as plt def readData(filename): """ 讀取資料 :param filename: csv格式資料集 :return: X:

譚浩強紅寶書章節6 課後習題4

題目：有一個已排好序的陣列，要求輸入一個數後，按原來排序的規律將它插入陣列中像這種題目給的條件有點模糊，與一些指示明確的比賽題目不一樣。所以我們先暫定一個升序陣列 {1,2,4,5,8}, 因為有5個元素，所以我們定義時按照題目要求，應該給其多加一個元素。也就是a[6]={1,2,4,5

《機器學習》（西瓜書）筆記（3）--線性模型

思路 ensemble n-1 containe 線性分類 mvm img 很大的數學第三章線性模型3.1 基本形式線性模型（linear model）試圖學得一個通過屬性的線性組合來進行預測的函數，即一般用向量形式寫成，其中w 和 b 學得之後，模型就得以

1013: C語言程序設計教程（第三版）課後習題6.3

其中a是一個數字 blog += color turn sam c語言程序 [] c語言題目描述求Sn=a+aa+aaa+…+aa…aaa（有n個a）之值，其中a是一個數字。例如：2+22+222+2222+22222（n=5），n由鍵盤輸入。輸入 a 輸出和樣

1024: C語言程序設計教程（第三版）課後習題7.3

c語言程序 print clas 程序 scanf col class pri printf 題目描述求一個3×3矩陣對角線元素之和。輸入矩陣輸出主對角線副對角線元素和樣例輸入 1 2 3 1 1 1 3 2 1 樣例輸出 3 7 1 #include

1005 - C語言程式設計教程（第三版）課後習題4.9

1005 - C語言程式設計教程（第三版）課後習題4.9 時間限制：1秒記憶體限制：128兆題目描述輸入一個華氏溫度，要求輸出攝氏溫度。公式為 c=5(F-32)/9 輸出要求有文字說明，取位2小數。輸入一個華氏溫度，浮點數輸出攝氏溫度，浮點兩位小數樣例輸入 -4

《c與指標》第13章課後習題4

#include <stdio.h> #include <stdlib.h> #include <string.h> int arry[4] = { 6, 2, 3, 1 }; int cmp ( void * a, void * b) { return

1013 - C語言程式設計教程（第三版）課後習題6.3

1013 - C語言程式設計教程（第三版）課後習題6.3 時間限制：1秒記憶體限制：128兆題目描述求Sn=2+22+222+…+22…222（有n個2）之值，其中a是一個數字。例如：2+22+222+2222+22222（n=5），n由鍵盤輸入。輸入 n 輸出 Sn 樣例輸入

西瓜書課後答案Chapter1

1.1求版本空間首先看版本空間的定義，這篇文章寫的很好 http://blog.csdn.net/qq_18433441/article/details/55682732 概況說來，版本空間就是從假設空間剔除了與正例不一致和與反例一致的假設，它可以看成是對正例的最大泛化。現在

Python程式設計：從入門到實踐（課後習題4）

7-1 汽車租賃：編寫一個程式，詢問使用者要租賃什麼樣的汽車，並列印一條訊息，如“Let me see if I can find you a Subaru”。 #7-1 car = input("what car are you want ") print("let m

Uva 220 Othello 黑白棋（習題4-3）

做完這道加上前面兩道，這一章果然都是呼叫函式的。。。自己寫一堆函式來搞寫的過程中甚至覺得自己可以考慮寫一個黑白棋的遊戲了233 主要還是一個模擬其實做了象棋那題的話會發現和象棋那題差不多，也是一堆函式堆出來的象棋那題有一個思路就是需要對不同棋子也不同的函

西瓜書 課後習題4.3 基於資訊熵決策樹，連續和離散屬性，並驗證模型

相關推薦

西瓜書課後習題4.3 基於資訊熵決策樹，連續和離散屬性，並驗證模型