機器學習實戰-3決策樹

阿新 • • 發佈：2019-02-06

劃分依據
決策樹的主要依據為資訊熵計算，資訊熵最大的最為分類依據
流程
建立資料集 –> 計算資訊熵，最大值作為結點，劃分子資料集 –> 遞迴尋找
程式碼

from math import log
import operator
'''
機器學習實戰-第三章（決策樹）
'''

# 建立資料集
def createDataSet():
    dataset = [
        [1, 1, 'yes'],
        [1, 0, 'no'],
        [0, 1, 'no'],
        [0, 1, 'no']
    ]
    labels = ['good' 
, 'bad']
    return dataset, labels


# 計算夏農熵
def calcShannonEnt(dataset):
    numEntries = len(dataset)
    labelsCount = {}  # 字典相當於java中的map
    for featVec in dataset:
        currentLabel = featVec[-1]
        if currentLabel not in labelsCount.keys():
            labelsCount[currentLabel] = 1
        else 
:
            labelsCount[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelsCount:
        prop = labelsCount[key] / numEntries
        shannonEnt -= prop * log(prop, 2)
    return shannonEnt


# 劃分資料集
# 篩選出第axis個特徵的值為value的項，同時刪除次特徵列
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for 
 featureVec in dataSet:
        if featureVec[axis] == value:
            reducedFeatVec = featureVec[:axis]
            reducedFeatVec.extend(featureVec[axis + 1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet


# 補充：python中，可變的為引用，需要建立副本如列表；不可變的為值傳遞，如元組
# append和extend的區別，append是將後面一個作為整體一個加入，extend是將後面一個拆開，和之前的元組型別一樣的


# 計算每一個特徵值所對應的資訊熵，選出最大的資訊熵
def chooseBestFeatureToSplit(dataSet):
    numFeature = len(dataSet[0]) - 1  # 特徵數
    bestInfoGain = 0.0;
    bestFeatureIndex = -1;  # 最大的資訊增益和所在的特徵列，下標
    # 分別對每一列特徵進行熵計算（i）
    for i in range(numFeature):
        featureList = [feature[0] for feature in dataSet]
        featureSet = set(featureList)  # 將list轉化為set集合，提取出每一列的特徵項（不重複）
        for value in featureSet:
            subDataSet = splitDataSet(dataSet, i, value)
            prop = len(subDataSet) / float(len(dataSet))  # 百分比
            infoGain = 0.0 - prop * calcShannonEnt(subDataSet)
        if infoGain > bestFeatureIndex:
            bestFeatureIndex = infoGain
            bestFeatureIndex = i
    return bestFeatureIndex


# 構建決策樹
def createTree(dataSet, labels):
    classList = [oneData[-1] for oneData in dataSet]
    # 類別全部相同，就不用分（即label都相同）
    if classList.count(classList[0]) == len(dataSet):
        return classList[0]
    # 由於可能存在沒有屬性的情況，最後還有幾個不能分，此時，可以考慮將數量多的作為最終的結果。
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)

    bestFeatureIndex = chooseBestFeatureToSplit(dataSet)
    bestFeatureLabel = labels[bestFeatureIndex]
    myTree = {bestFeatureLabel: {}}  # 通過字典來構建決策樹

    featureList = [feature[0] for feature in dataSet]
    featureSet = set(featureList)  # 將list轉化為set集合，提取出每一列的特徵項（不重複）
    del(labels[bestFeatureIndex])
    for value in featureSet:
        sublabels = labels[:]
        myTree[bestFeatureLabel][value] = createTree(splitDataSet
                                (dataSet, bestFeatureIndex, value), sublabels)
    return myTree

# 找出最多的項
def majorityCnt(classList):
    countList = {}
    for oneData in classList:
        if oneData not in countList.keys():
            countList[oneData] = 0
        countList[oneData] += 1
    # 從大到小排序，並返回最大值
    sortedList = sorted(countList.iteritems(),key=operator.itemgetter(1),reverse=True)
    return sortedList[0][0]


dataSet,labels = createDataSet()
myTree = createTree(dataSet,labels)
print(myTree)

歡迎使用 {小書匠}(xiaoshujiang)編輯器，您可以通過==設定==裡的修改模板來改變新建文章的內容。

機器學習實戰——3決策樹

文章對應《機器學習實戰》第三章主要是對各個函式的功能進行了比較易懂的描述，可供python初學者參考。另外推薦機器學習實戰程式碼註釋，對在本書中入門python的同學應有很大幫助。 //計算給定資料集的夏農熵 def calcShannonEnt(dataSet):

機器學習實戰-3決策樹

劃分依據決策樹的主要依據為資訊熵計算，資訊熵最大的最為分類依據流程建立資料集 –> 計算資訊熵，最大值作為結點，劃分子資料集 –> 遞迴尋找程式碼 from math import log import operator '''

機器學習實戰精讀--------決策樹

決策樹機器學習 python感覺自己像個學走路的孩子，每一步都很吃力和認真！機器根據數據集創建規則，就是機器學習。決策樹：從數據集合中提取一系列規則，適用於探索式的知識發現。決策樹本質：通過一系列規則對數據進行分類的過程。決策樹算法核心：構建精度高，數據規模小的決策樹。ID3算法：此算法目的在於減少樹的深

機器學習實戰-簡單決策樹編寫

#!/user/bin/env python # !-*-coding:utf-8 -*- # !Time :2018/9/28 4:12 PM # !Author : hyCong # [email protected] : .py from ma

機器學習實戰之決策樹

學習《機器學習實戰》 1、決策樹的構造 1、決策樹理解決策樹是一種分類器，根據已知的特徵，做一個最純淨的劃分。例子：現在想構建一個郵件分類系統，第一步：先檢測傳送郵件的域名的地址，若地址是myEmployer.com，就把郵件放在無聊時需要閱讀的郵件，若域

《機器學習實戰》決策樹(ID3演算法)的分析與實現

決策樹是一個預測模型；他代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的物件的值。決策樹僅有單一輸出，若欲有複數輸出，可以建立獨立的決策樹以處理不同輸出。資料探勘中決策樹是一

機器學習實戰：決策樹-隱形眼鏡型別

程式碼及資料地址輸出結果 model: {‘tearRate’: {‘reduced’: ‘no lenses’, ‘normal’: {‘astigmatic’: {‘yes’: {‘prescript’: {‘hyper’: {‘age’: {‘presbyopic

機器學習實戰：決策樹-是否有魚

程式碼及資料地址輸出結果 model: {‘no surfacing’: {0: ‘no’, 1: {‘flippers’: {0: ‘no’, 1: ‘yes’}}}} predict: [1, 1] yes 程式碼 """ @

機器學習實戰筆記--決策樹

本文為《機器學習實戰》學習筆記 1. 決策樹簡介決策樹可以從資料集合彙總提取一系列的規則，建立規則的過程就是機器學習的過程。在構造決策樹的過程中，不斷選取特徵劃分資料集，直到具有相同型別的資料均在資料子集內。 1.1 劃分資料集由於不

《機器學習實戰》——決策樹的構造及案例

ID3演算法的決策樹的構造決策樹的理論部分，不再贅述，本篇博文主要是自己的學習筆記（《機器學習實戰》）先看下述決策樹，希望對理解決策樹有一定的幫助。 3.1.1資訊增益首先需要了解兩個公式：建立名為treesde.py檔案，將下述程式碼新增進去 from m

機器學習實戰——繪製決策樹（程式碼）

最近在學習Peter Harrington的《機器學習實戰》，程式碼與書中的略有不同，但可以順利執行。import matplotlib.pyplot as plt # 定義文字框和箭頭格式 decisionNode = dict(boxstyle='sawtooth',

Spark機器學習(6)：決策樹算法

projects 信息 txt .cn import n) .com util seq 1. 決策樹基本知識決策樹就是通過一系列規則對數據進行分類的一種算法，可以分為分類樹和回歸樹兩類，分類樹處理離散變量的，回歸樹是處理連續變量。樣本一般都有很多個特征，有的特征對分

機器學習入門之決策樹算法

所有最大的 id3 次數要去決策樹算法 4.5 獲取 ddl 1、什麽是決策樹（Decision Tree）決策樹是一個類似於流程圖的樹結構，其中每一個樹節點表示一個屬性上的測試，每一個分支代表一個屬性的輸出，每一個樹葉節點代表一個類或者類的分布

機器學習(十二) 決策樹

圖解通過 rop 監管運用一個系統分支對象屬性決策樹(Decision Tree）是在已知各種情況發生概率的基礎上，通過構成決策樹來求取凈現值的期望值大於等於零的概率，評價項目風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種圖解法。由於這種決策分支畫

機器學習之路--決策樹

eve 分析完成後保存 not lba 不同排序離散一,引言：上一章我們講的kNN算法，雖然可以完成很多分類任務，但它最大的缺點是無法給出數據的內在含義，而決策樹的主要優勢就在於數據形式非常容易理解。決策樹算法能夠讀取數據集合，決策樹的一個重要

HIT機器學習期末複習（1）——機器學習簡介及決策樹

劉楊的機器學習終於上完了惹，下週就要考試了，趕緊複習ing...... 趁機做個總結，就當是複習了惹...... 機器學習簡介 1、什麼是機器學習簡單來說，就是一個三元組<P, T, E> P——performance效能（對應著效能的評估函式，也就是常說的loss或者likeli

HIT機器學習期末復習（1）——機器學習簡介及決策樹

決策樹開始矩陣 improve 節點 policy heat red program 劉楊的機器學習終於上完了惹，下周就要考試了，趕緊復習ing...... 趁機做個總結，就當是復習了惹...... 機器學習簡介 1、什麽是機器學習簡單來說，就是一個三元組<P

機器學習篇：決策樹的理解

1、決策樹是一個樹結構（可以是二叉樹或非二叉樹）決策樹是一個樹結構（可以是二叉樹或非二叉樹)其每個非葉節點表示一個特徵屬性上的測試，每個分支代表這個特徵屬性在某個值域上的輸出，而每個葉節點存放一個類別。使用決策樹進行決策的過程就是從根節點開始，測試待分類項中相應的特徵屬性，並按照其值選擇輸出分

【機器學習】分類決策樹與迴歸決策樹案例

一、回顧什麼是決策樹，資訊熵構建決策樹的過程 ID3、C4.5和CRAT演算法上面三篇，主要介紹了相關的理論知識，其中構建決策樹的過程可以很好地幫助我們理解決策樹的分裂屬性的選擇。本篇所有原始碼：Github 二

機器學習之分類決策樹DecisionTreeClassifier

機器學習之分類決策樹DecisionTreeClassifier # -*- coding: utf-8 -*- """ Created on Fri Nov 23 21:06:54 2018 @author: muli """ import numpy as np

機器學習實戰-3決策樹

相關推薦