AlgorithmDeveloper 決策樹演算法實現.md

阿新 • • 發佈：2018-12-11

以相親為例子

建立資料集

def creatDataSet():
    dataSet= [[1,1,1,'見'],
               [1,0,1,'見'],
               [1,0,0,'不見'],
               [0,1,0,'見'],
               [0,0,1,'不見'],
               [0,1,1,'見']]
    labels=['富有','人品','外貌','見或不見']
    return dataSet,labels
dataSet,labels=creatDataSet()

import pandas as 
 pd
from math import log

train_set = pd.DataFrame(dataSet,columns=labels)
train_set

富有	人品	外貌	見或不見
0	1	1	1	見
1	1	0	1	見
2	1	0	0	不見
3	0	1	0	見
4	0	0	1	不見
5	0	1	1	見

計算資訊熵

計算資訊熵，咱們首先得知道Pi，而計算Pi，咱們首先得知道特徵類別的樣本個數，所以需要遍歷特徵所有類別值，並記錄下“1”或者“0”的個數，方便計算。

#計算夏農熵
def calcShannonEnt(dataSet):
    #樣本總個數
    totalNum = len(dataSet)
    # 類別集合 

    labelSet = {}
    #計算每個類別的樣本個數
    for dataVec in dataSet:
        label = dataVec[-1]
        if label not in labelSet.keys():###keys 返回所有鍵
            labelSet[label] = 0##這個操作會自動把字典中本沒有的標籤加入其中，比如字典中本來沒有’見’，那麼執行此次操作之後就自動添加了。
        labelSet[label]+=1
    shannonEnt = 0
    #計算熵值
    for key in labelSet:
        pi = float(labelSet[key])/totalNum
        shannonEnt = -pi*log(pi,2)
    return shannonEnt

print("樣本熵:%f"% calcShannonEnt(dataSet))

樣本熵:0.918296

len(dataSet)

選擇最好的特徵劃分資料集

在對每個節點進行劃分時，都需要從未選擇的特徵中選擇一個最好的進行資料集的劃分；ID3/C4.5演算法分別選擇資訊增益/資訊增益比最大的特徵對當前節點進行分類；這裡再回顧一下相關計算公式：

#按給定特徵劃分資料集:返回第featNum個特徵其值為value的樣本集合
#且返回的樣本資料中已經去除該特徵
def splitDataSet(dataSet,featNum,featvalue):
    reDataSet=[]#返回第featNum個特徵其值為value的樣本集合
    for dataVec in dataSet:
        if dataVec[featNum]==featvalue:
            splitData = dataVec[:featNum]
            splitData.extend(dataVec[featNum+1:])##extend後面新增一個列表，append後面新增一個元素
            reDataSet.append(splitData)
    return reDataSet

#選擇最好的特徵劃分資料集
def chooseBestFeatTopSplit(dataSet):
    featNum = len(dataSet[0])-1
    maxInfoGain = 0
    bestFeat = -1
    #計算樣本熵值，對應公式中：H（X）
    baseShanno = calcShannonEnt(dataSet)
    #以每一個特徵進行分類，找出使資訊增益最大的特徵
    for i in range(featNum):
        featList = [dataVec[i]for dataVec in dataSet]
        featList = set(featList)
        newShanno = 0
        #計算以第i個特徵進行分類後的熵值，對應公式中：H(X|Y)
        for featValue in featList:
            subDataSet = splitDataSet(dataSet,i,featValue)
            prob = len(subDataSet)/float(len(dataSet))
            newShanno += prob*calcShannonEnt(subDataSet)
        #ID3演算法：計算資訊增益,對應公式中：g(X,Y)=H(X)-H(X|Y)
        infoGain = baseShanno - newShanno
        #C4.5演算法：計算資訊增益比
        #infoGain = (baseShanno - newShanno)/baseShanno
        #找出最大的熵值以及其對應的特徵
        #C4.5目前還沒看呢
        if infoGain>maxInfoGain:
            maxInfoGain=infoGain
            bestFeat=1
    return bestFeat

比如：按第0個特徵（“財富”），值為1（“有錢”）劃分樣本資料，得到的資料集如下，其中已經將[財富=有錢]的特徵剔除；對根節點進行劃分時，選擇最好的劃分特徵是第一個，即"人品"：

print(splitDataSet(dataSet,0,1))

[[1, 1, '見'], [0, 1, '見'], [0, 0, '不見']]

print(chooseBestFeatTopSplit(dataSet))

5. 構建決策樹

這個明天再寫目前沒搞懂前面的也沒全搞懂

參考的微信公眾號：AlgorithmDeveloper裡面的例子

侵權聯絡我刪除

AlgorithmDeveloper 決策樹演算法實現.md

以相親為例子建立資料集 def creatDataSet(): dataSet= [[1,1,1,'見'], [1,0,1,'見'], [1,0,0,'不見'],

決策樹演算法實現要點

1.定義節點（節點的集合形成樹）；即定義一個結構體Point，而用Point tree[] 來表示樹。點Point裡面包括name（在該點進行分類的特徵），val（該點父輩的特徵的某個值），n_child（帶點子代的數量），*son（指向子代的指標），id（帶節點是否有必要存在） 2.全

Hadoop學習筆記三 -- 決策樹演算法實現使用者風險等級分類

前言剛剛過去的2016年被稱為人工智慧的元年，在AlphaGo大戰李世石取得里程碑式的勝利後，神經網路和深度學習的概念瞬間進入了人們的視野，各大商業巨頭也紛紛將自己的目標轉移到這個還沒有任何明確方向但所有人都知道它一旦出手將改變世界的人工智慧方向中。在這個過

R語言學習系列(資料探勘之決策樹演算法實現--ID3程式碼篇)

轉載自：http://blog.csdn.net/hawksoft/article/details/7760868 1、輔助類，用於計算過程和結果儲存 [csharp] view plaincopyprint? /// &

Pyhton實現決策樹演算法 MNIST資料集

Pyhton實現決策樹演算法 MNIST資料集決策樹是一種比較接近人類思維方式的演算法，將樣本通過每個特徵值的資訊增益進行劃分，從而保證每個劃分之後的結果資訊熵的消減量達到最大。具體的原理請大家自己查詢相關資料。 sklearn實現程式碼如下, 準確率可以達到90%左右。 fr

機器學習（七）決策樹演算法研究與實現

前言從決策樹這三個字中我們既可以看出來它的主要用途幫助決策某一類問題，樹是輔助我們來決策用的，如下圖一個簡單的判斷不同階段人年齡的圖： &

決策樹演算法及實現

在電腦科學中，樹是一種很重要的資料結構，比如我們最為熟悉的二叉查詢樹（Binary Search Tree），紅黑樹（Red-Black Tree）等，通過引入樹這種資料結構，我們可以很快地縮小問題規模，實現高效的查詢。在監督學習中，面對樣本中複雜多樣的特徵，選取什麼樣的策略可以實

決策樹演算法簡介及其MATLAB實現程式碼

目錄決策樹原理概述決策樹通過把樣本例項從根節點排列到某個葉子節點來對其進行分類。樹上的每個非葉子節點代表對一個屬性取值的測試，其分支就代表測試的每個結果（yes no表示正類、負類）;而樹上的每個葉子節點均代表一個分類的類別，樹的最高層節點是

python實現決策樹演算法

1. #!/usr/bin/python3 import numpy as np from sklearn import tree from sklearn.metrics import precision_recall_curve from sklearn.metrics

【機器學習】決策樹演算法（二）— 程式碼實現

#coding=utf8 ‘’’ Created on 2018年11月4日 @author: xiaofengyang 決策樹演算法：ID3演算法 ‘’’ from sklearn.feature_extraction import DictVectorize

決策樹演算法原理及JAVA實現(ID3)

package sequence.machinelearning.decisiontree.myid3; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.FileWri

資料探勘十大演算法（一）：決策樹演算法 python和sklearn實現

學完到第三章——決策樹，python程式碼實現的僅是ID3演算法，sklearn為優化過的C4.5，這裡做一個詳細的總結包括（原理、程式碼、視覺化、scikit-learn實現），皆為親自實踐後的感悟。以下進入正文。早前簡單瞭解了決策樹的原理，然後為了儘快使用便沒有深究直

MLlib中決策樹演算法的實現原理解析

決策樹作為一種分類迴歸演算法，在處理非線性、特徵值缺少的資料方面有很多的優勢，能夠處理不相干的特徵，並且對分類的結果通過樹的方式有比較清晰的結構解釋，但是容易過擬合，針對這個問題，可以採取對樹進行剪枝的方式，還有一些融合整合的解決方案，比如隨機森林RandomForest

決策樹演算法原理與 Python實現

轉自： https://blog.csdn.net/huahuazhu/article/details/73167610?locationNum=2&fps=1 ###########################################

資料探勘學習筆記-決策樹演算法淺析(含Java實現)

目錄一、通俗理解決策樹演算法原理二、舉例說明演算法執行過程三、Java實現本文基於書籍《資料探勘概念與技術》，由於剛接觸Data Mining，所以可能有理解不到位的情況，記錄學習筆記，提升自己對演算法的理解。程式碼下方有，如果有金幣的童鞋可以貢獻一下給無恥的

決策樹演算法的Python實現—基於金融場景實操

決策樹是最經常使用的資料探勘演算法，本次分享jacky帶你深入淺出，走進決策樹的世界基本概念決策樹（Decision Tree）它通過對訓練樣本的學習，並建立分類規則，然後依據分類規則，對新樣本資料進行分類預測，屬於有監督學習。優點

機器學習（三）決策樹演算法ID3的實現

上一篇機器學習的部落格我詳細說了機器學習中決策樹演算法的原理，這篇部落格我就以一個小例子來說明機器學習中決策樹演算法的實現。用Python實現機器學習中的決策樹演算法需要用到機器學習的庫，sklearn，我的部落格有詳細講解怎麼安裝機器學習中用到的sklearn庫

R語言-決策樹演算法（C4.5和CART）的實現

決策樹演算法的實現：一、C4.5演算法的實現 a、需要的包：sampling、party library(sampling) library(party) sampling用於實現資料分層隨機抽樣，構造訓練集和測試集。 party用於實現決策樹演算法另外，還可以設定隨

C4.5決策樹演算法（Python實現）

C4.5演算法使用資訊增益率來代替ID3的資訊增益進行特徵的選擇，克服了資訊增益選擇特徵時偏向於特徵值個數較多的不足。資訊增益率的定義如下： # -*- coding: utf-8 -*- from numpy import * import ma

決策樹演算法原理及實現

歡迎大家檢視實現的完整程式碼。。。決策樹模型分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種型別：內部節點和葉節點，內部節點表示一個特徵或屬性，葉節點表示一個分類類別。分類的時候，從根節點開始，按照某種策略對

AlgorithmDeveloper 決策樹演算法實現.md

以相親為例子

建立資料集

計算資訊熵

選擇最好的特徵劃分資料集

5. 構建決策樹

相關推薦