決策樹ID3演算法和C4.5演算法實戰

阿新 • • 發佈：2018-12-24

老師給的題目：

程式碼實現【兩種演算法合在一個檔案裡】：

from numpy import *

def createDataSet():
    dataSet = [[1, 1, 1, 0, 'no'],
               [1, 1, 1, 1, 'no'],
               [0, 1, 1, 0, 'yes'],
               [-1, 0, 1, 0, 'yes'],
               [-1,-1,0,0,'yes'],
               [-1,-1,0,1,'no'],
               [0,-1,0,1,'yes'],
               [1,0,1,0,'no'],
               [1,-1,0,0,'yes'],
               [-1,0,0,0,'yes'],
               [1,0,0,1,'yes'],
               [0,0,1,1,'yes'],
               [0,1,0,0,'yes'],
               [-1,0,1,1,'no']]
    labels = ['weather','temperature','humidity','wind speed','activity']
    return dataSet, labels

#計算資料集的entropy
def calcEntropy(dataSet):
    totalNum = len(dataSet)
    labelNum = {}
    entropy = 0
    for data in dataSet:
        label = data[-1]
        if label in labelNum:
            labelNum[label] += 1
        else:
            labelNum[label] = 1

    for key in labelNum:
        p = labelNum[key] / totalNum
        entropy -= p * log2(p)
    return entropy

def calcEntropyForFeature(featureList):
    totalNum = len(featureList)
    dataNum = {}
    entropy = 0
    for data in featureList:
        if data in dataNum:
            dataNum[data] += 1
        else:
            dataNum[data] = 1

    for key in dataNum:
        p = dataNum[key] / totalNum
        entropy -= p * log2(p)
    return entropy

#選擇最優劃分屬性ID3
def chooseBestFeatureID3(dataSet, labels):
    bestFeature = 0
    initialEntropy = calcEntropy(dataSet)
    biggestEntropyG = 0
    for i in range(len(labels)):
        currentEntropy = 0
        feature = [data[i] for data in dataSet]
        subSet = splitDataSetByFeature(i, dataSet)
        totalN = len(feature)
        for key in subSet:
            prob = len(subSet[key]) / totalN
            currentEntropy += prob * calcEntropy(subSet[key])
        entropyGain = initialEntropy - currentEntropy
        if(biggestEntropyG < entropyGain):
            biggestEntropyG = entropyGain
            bestFeature = i
    return bestFeature

#選擇最優劃分屬性C4.5
def chooseBestFeatureC45(dataSet, labels):
    bestFeature = 0
    initialEntropy = calcEntropy(dataSet)
    biggestEntropyGR = 0
    for i in range(len(labels)):
        currentEntropy = 0
        feature = [data[i] for data in dataSet]
        entropyFeature = calcEntropyForFeature(feature)
        subSet = splitDataSetByFeature(i, dataSet)
        totalN = len(feature)
        for key in subSet:
            prob = len(subSet[key]) / totalN
            currentEntropy += prob * calcEntropy(subSet[key])
        entropyGain = initialEntropy - currentEntropy
        entropyGainRatio = entropyGain / entropyFeature

        if(biggestEntropyGR < entropyGainRatio):
            biggestEntropyGR = entropyGainRatio
            bestFeature = i
    return bestFeature

def splitDataSetByFeature(i, dataSet):
    subSet = {}
    feature = [data[i] for data in dataSet]
    for j in range(len(feature)):
        if feature[j] not in subSet:
            subSet[feature[j]] = []

        splittedDataSet = dataSet[j][:i]
        splittedDataSet.extend(dataSet[j][i + 1:])
        subSet[feature[j]].append(splittedDataSet)
    return subSet

def checkIsOneCateg(newDataSet):
    flag = False
    categoryList = [data[-1] for data in newDataSet]
    category = set(categoryList)
    if(len(category) == 1):
        flag = True
    return flag

def majorityCateg(newDataSet):
    categCount = {}
    categList = [data[-1] for data in newDataSet]
    for c in categList:
        if c not in categCount:
            categCount[c] = 1
        else:
            categCount[c] += 1
    sortedCateg = sorted(categCount.items(), key = lambda x:x[1], reverse = True)

    return sortedCateg[0][0]

#建立ID3樹
def createDecisionTreeID3(decisionTree, dataSet, tmplabels):
    labels=[]
    for tmp in tmplabels:
        labels.append(tmp)
    bestFeature = chooseBestFeatureID3(dataSet, labels)
    decisionTree[labels[bestFeature]] = {}
    currentLabel = labels[bestFeature]
    subSet = splitDataSetByFeature(bestFeature, dataSet)
    del(labels[bestFeature])
    newLabels = labels[:]
    for key in subSet:
        newDataSet = subSet[key]
        flag = checkIsOneCateg(newDataSet)
        if(flag == True):
            decisionTree[currentLabel][key] = newDataSet[0][-1]
        else:
            if (len(newDataSet[0]) == 1): #無特徵值可劃分
                decisionTree[currentLabel][key] = majorityCateg(newDataSet)
            else:
                decisionTree[currentLabel][key] = {}
                createDecisionTreeID3(decisionTree[currentLabel][key], newDataSet, newLabels)

# 建立C4.5樹
def createDecisionTreeC45(decisionTree, dataSet, tmplabels):
    labels=[]
    for tmp in tmplabels:
        labels.append(tmp)
    bestFeature = chooseBestFeatureC45(dataSet, labels)
    decisionTree[labels[bestFeature]] = {}
    currentLabel = labels[bestFeature]
    subSet = splitDataSetByFeature(bestFeature, dataSet)
    del (labels[bestFeature])
    newLabels = labels[:]
    for key in subSet:
        newDataSet = subSet[key]
        flag = checkIsOneCateg(newDataSet)
        if (flag == True):
            decisionTree[currentLabel][key] = newDataSet[0][-1]
        else:
            if (len(newDataSet[0]) == 1):  # 無特徵值可劃分
                decisionTree[currentLabel][key] = majorityCateg(newDataSet)
            else:
                decisionTree[currentLabel][key] = {}
                createDecisionTreeC45(decisionTree[currentLabel][key], newDataSet, newLabels)


#測試資料分類
def classify(inputTree, featLabels, testVec):
    firstStr = list(inputTree.keys())#得到節點所代表的屬性eg：'flippers'
    firstStr = firstStr[0]
    secondDict = inputTree[firstStr]#得到該節點的子節點，是一個dict，eg：{0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}
    featIndex = featLabels.index(firstStr)#得到firstStr在所給的featLabels（屬性）中的位置，以便將testVec中的值與相應的屬性對應
    for key in secondDict.keys():#將testVec中的值放入決策樹中進行判斷
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__=='dict':#如果還有子節點則繼續判斷
                classLabel = classify(secondDict[key],featLabels,testVec)
            else: classLabel = secondDict[key]#否則返回該節點的值
    return classLabel

if __name__ == '__main__':
    dataSetID3, labelsID3 = createDataSet()
    testData1 = [1, 1, 1, 0]
    testData2 = [1,-1,0,0]
    bestFeatureID3 = chooseBestFeatureID3(dataSetID3, labelsID3)
    decisionTreeID3 = {}
    createDecisionTreeID3(decisionTreeID3, dataSetID3, labelsID3)
    print("ID3 decision tree: ", decisionTreeID3)
    # category1ID3 = classifyTestData(decisionTreeID3, testData1)
    # print(testData1 , ", classified as by ID3: " , category1ID3)
    # category2ID3 = classifyTestData(decisionTreeID3, testData2)
    # print(testData2 , ", classified as by ID3: " , category2ID3)

    for tmp in dataSetID3:
        category = classify(decisionTreeID3,labelsID3,tmp[0:4])
        print(tmp[0:4], ", classified as by ID3: " , category)

    dataSetC45, labelsC45 = createDataSet()
    bestFeatureC45 = chooseBestFeatureC45(dataSetC45, labelsC45)
    decisionTreeC45 = {}
    createDecisionTreeC45(decisionTreeC45, dataSetC45, labelsC45)
    print("C4.5 decision tree: ", decisionTreeC45)
    # category1C45 = classifyTestData(decisionTreeC45, testData1)
    # print(testData1 , ", classified as by C4.5: " , category1C45)
    # category2C45 = classifyTestData(decisionTreeC45, testData2)
    # print(testData2 , ", classified as by C4.5: " , category2C45)

    for tmp in dataSetC45:
        category = classify(decisionTreeC45,labelsC45,tmp[0:4])
        print(tmp[0:4], ", classified as by C4.5: " , category)

決策樹ID3演算法和C4.5演算法實戰

老師給的題目：程式碼實現【兩種演算法合在一個檔案裡】： from numpy import * def createDataSet(): dataSet = [[1, 1, 1, 0, 'no'], [1, 1, 1, 1, '

決策樹學習 -- ID3演算法和C4.5演算法（C++實現）

前言在學習西瓜書的時候，由於書本講的大多是概念，所以打算用C++實現它的演算法部分（至於python和matlab實現，實現簡單了很多，可以自己基於C++程式碼實現）。至於測試資料，採用了書中關於西瓜的資料集。什麼是決策樹首先，決策樹（也叫做分類

【轉】深入淺出理解決策樹演算法（二）-ID3演算法與C4.5演算法

從深入淺出理解決策樹演算法（一）-核心思想 - 知乎專欄文章中，我們已經知道了決策樹最基本也是最核心的思想。那就是其實決策樹就是可以看做一個if-then規則的集合。我們從決策樹的根結點到每一個都葉結點構建一條規則。並且我們將要預測的例項都可以被一條路徑或者一條規則所覆蓋。如下例：假設我

weka使用ID3和C4.5演算法分類實驗

使用weka做分類任務並建立相應決策樹（ID3演算法和C4.5演算法） weka安裝相關知識理論 2.1 決策樹 2.2 ID3演算法 2.3 C4.5演算法分類實驗 3.1 資料處理 3.2 使用ID3演算法 3

資料探勘領域十大經典演算法之—C4.5演算法（超詳細附程式碼）

資料探勘十大經典演算法如下：簡介 C4.5是決策樹演算法的一種。決策樹演算法作為一種分類演算法，目標就是將具有p維特徵的n個樣本分到c個類別中去。常見的決策樹演算法有ID3,C4.5,CART。基本思想下面以一個例子來詳細說明C4.5的基本思想上述

演算法-基於ID3和C4.5的決策樹演算法

目錄摘要構建過程 ID3演算法注意點： C4.5 參考文獻：摘要決策樹演算法是相對比較清晰簡單的有監督分類演算法，所謂有監督就是需要給出標準的已知分類的樣本資料集，根據資料集訓練或者說構建出一個模型，然後根據模型對新的資料進行預測分類。

ID3和C4.5決策樹演算法總結

1.決策樹的演算法流程決策樹的演算法流程主要是： 1.如果當前樣本集全部為同一類別，則返回這一類標籤 2.如果當前屬性集為空集或者D中樣本在屬性集中的取值全部相同，那麼採用多數表決法，返回樣本數最多的類標籤 3.如果不滿足上面三個條件，說明當前結點還可

機器學習總結（八）決策樹ID3，C4.5演算法，CART演算法

本文主要總結決策樹中的ID3,C4.5和CART演算法，各種演算法的特點，並對比了各種演算法的不同點。決策樹：是一種基本的分類和迴歸方法。在分類問題中，是基於特徵對例項進行分類。既可以認為是if-then規則的集合，也可以認為是定義在特徵空間和類空間上的條件概率分佈。決策樹模型：決策樹由結點和有向邊組

決策樹的構建演算法 -- ID3 與 C4.5 演算法

1. 概述上一篇日誌中，我們介紹了最簡單的分類迴歸演算法 – K 近鄰演算法。 k 近鄰演算法本篇日誌我們來介紹構建專家系統和資料探勘最常用的演算法 – 決策樹。 2. 決策樹在系統流程圖中，我們常

離散型與連續型資料決策樹構建及列印實現 R語言，ID3，C4.5演算法

本人的第一篇文章，趁著我們的資料探勘課設的時間，把實現的決策樹程式碼，拿出來分享下。有很多漏洞和缺陷，還有很多駭客思想的成分，但是總之，能實現，看網上的程式碼，能用的其實也沒幾個。廢話不多說，直接看程式碼特別鳴謝博主skyonefly的程式碼附上鍊接：R

R語言-決策樹演算法（C4.5和CART）的實現

決策樹演算法的實現：一、C4.5演算法的實現 a、需要的包：sampling、party library(sampling) library(party) sampling用於實現資料分層隨機抽樣，構造訓練集和測試集。 party用於實現決策樹演算法另外，還可以設定隨

ID3演算法改進的C4.5演算法決策樹演算法

最早的決策時演算法是由 Hunt 等人於 1966 年提出的 CLS 。當前最有影響的決策樹演算法是 Quinlan 於 1986 年提出的 ID3 和 1993 年提出的 C4.5 。 ID3 只能處理離散型描述屬性，它選擇資訊增益最大的屬性劃分訓練樣本，其目的是進行分枝時系統的熵最小，從而提高演算法

決策樹ID3、C4.5、CART演算法：資訊熵，區別，剪枝理論總結

決策樹演算法中的ID3、c4.5、CART演算法，記錄如下：決策樹演算法：顧名思義，以二分類問題為例，即利用自變數構造一顆二叉樹，將目標變數區分出來，所有決策樹演算法的關鍵點如下： 1.分裂屬性的選擇。即選擇哪個自變數作為樹叉，也就是在n個自變數中，優先選

機器學習演算法 --- 決策樹ID3，C4.5

一、決策樹基本概念及演算法優缺點 1.什麼是決策樹分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種型別：內部結點和葉結點。內部結點表示一個特徵或屬性，葉結點表示一個類。決策樹（Decision Tree），又稱判定

決策樹演算法：C4.5

前面我們講到了 I D 3 ID

決策樹ID3;C4.5詳解和python實現與R語言實現比較

本文網址：http://blog.csdn.net/crystal_tyan/article/details/42130851（請不要在採集站閱讀）把決策樹研究一下，找來了一些自己覺得還可以的資料：分類樹（決策樹）是一種十分常用的分類方法。他是一種監管學習，所謂監管

決策樹之 C4.5 演算法

前言由於 C4.5 演算法是建立在 ID3 演算法基礎之上的，所以在講解 C4.5 的時候，會有很多與 ID3 重合的內容，這裡就不過多冗餘地說明了。本文旨在闡明 ID3 存在的問題，以及 C4.5 的改進方案。如果你對於 ID3 中的相關數學公式及概念還有

李航統計學習採用C4.5演算法構建決策樹

from numpy import * from math import log import operator def calcShannonEnt(dataset): numdataset=len(dataset) labelCount={}

深入瞭解機器學習決策樹模型——C4.5演算法

本文始發於個人公眾號：**TechFlow**，原創不易，求個關注今天是機器學習專題的第22篇文章，我們繼續決策樹的話題。上一篇文章當中介紹了一種最簡單構造決策樹的方法——ID3演算法，也就是每次選擇一個特徵進行拆分資料。這個特徵有多少個取值那麼就劃分出多少個分叉，整個建樹的過程非常簡單。如果錯過了上篇

決策樹(ID3,C4.5,CART)原理以及實現

決策樹決策樹是一種基本的分類和迴歸方法.決策樹顧名思義,模型可以表示為樹型結構,可以認為是if-then的集合,也可以認為是定義在特徵空間與類空間上的條件概率分佈. [圖片上傳失敗...(image-2e6565-1543139272117)] 決策樹的中間節點可以看做是對一種特徵的判斷,也是符合上一

決策樹ID3演算法和C4.5演算法實戰

相關推薦