【決策樹】ID3演算法理解與R語言實現

阿新 • • 發佈：2019-01-02

一、演算法理解

想來想去，還是決定用各大暢銷書中的相親例子來解釋什麼叫決策樹。

簡單來說，決策樹就是根據各種變數，作為輸入條件，最終輸出決策的過程。比如上圖中女方在相親過程中，影響是否見男方的變數有年齡、長相、收入、是否是公務員等。

最終在各種變數組合下，最終輸出見或不見的決策。

下邊是決策樹的一種定義：

決策樹（decision tree）是一個樹結構（可以是二叉樹或非二叉樹）。其每個非葉節點表示一個特徵屬性上的測試，每個分支代表這個特徵屬性在某個值域上的輸出，而每個葉節點存放一個類別。使用決策樹進行決策的過程就是從根節點開始，測試待分類項中相應的特徵屬性，並按照其值選擇輸出分支，直到到達葉子節點，將葉子節點存放的類別作為決策結果。

二、數學公式

對於決策樹有大體認識後，我們來討論其背後的包含的數學理論支撐，主要是資訊理論中的資訊。為了理解，我們需要了解兩個數學概念。

資訊熵：熵是無序性（或不確定性）的度量指標。假如事件A的全概率劃分是（A1,A2,...,An），每部分發生的概率是(p1,p2,...,pn)，那資訊熵的公式如下：

資訊增益：

簡單來說，就是在某種變數算出其相應的資訊熵後，用總體資訊熵減去，即為該變數的資訊增益。比如，我們算出見與不見總體的資訊熵，減去年齡變數的資訊熵，即為資訊增益,Gain（x）。

一般我們選擇資訊增益最大的變數進行節點劃分，這樣能快速對決策樹進行分叉，並且保證決策樹的高度最小。

舉例說明：

在某社群中，我們根據某使用者的使用者部落格密度，好友密度、是否使用真實頭像來判斷該使用者是真人還是機器人。

具體的資料如下：

日誌密度	好友密度	是否真實頭像	賬號是否是真實的
s	s	no	no
s	l	yes	yes
l	m	yes	yes
m	m	yes	yes
l	m	yes	yes
m	l	no	yes
m	s	no	no
l	m	no	yes
m	s	no	yes
s	s	yes	no

很明顯，我們需要判別的分類變數為賬號是否是真實的。於是，我們計算該變數的資訊熵為：

0.7代表上述訓練集中，賬號為真的概率為0.7，賬號為假的概率為0.3

下面，我們再計算一下日誌密度（簡稱L）變數的資訊熵：

第一個0.3代表日誌密度為L的概率為0.3，括號中0/3 代表在日誌密度為L的情況下，賬號為假的概率為0/3 ,後邊的3/3代表在日誌密度為L的情況下，賬號為真的概率為3/3.

0.4代表日誌密度為M的概率為0.4，括號中1/4 代表在日誌密度為M的情況下，賬號為假的概率為1/4 ,後邊的3/4代表在日誌密度為L的情況下，賬號為真的概率為3/4.

0.3代表日誌密度為S的概率為0.3，括號中2/3代表在日誌密度為S的情況下，賬號為假的概率為2/3 ,後邊的1/3代表在日誌密度為L的情況下，賬號為真的概率為1/3.

在計算其它變數的資訊熵時，也是這個邏輯，這裡不再贅述，最終算得：

總體的資訊熵為：0.879

日誌密度L的資訊熵為：0.603 ，資訊增益Gain(L) = 0.879-0.603=0.276。

同理，好友密度的資訊增益為0.553。真實頭像的資訊增益為0.033。

我們以資訊增益最大的變數作為初始的分支判斷條件。

------------------

其實，不管算哪個變數的熵值，都是在以決策結果變數為維度算，只不過限制在了某個變數等於特定值的子集中去算了。

如果一個變數在某種取值下，決策變數的取值也唯一（在上例子中，好友密度為M的情況下，是真實賬號的情況權威yes），這時候該變數在該取值下的資訊熵為0，

我們稱該節點的純度較高。

我們選擇純度高、資訊熵高的變數，因為拿這種變數進行劃分，最能直接將樹節點分分開。

可以通過下邊的R語言自定義函式中的熵值計算函式以及決定用哪個變數拆分函式來理解這個道理。

三、用R語言自帶包實現演算法

用R中的Rpart包實現iris資料集分類的程式碼：

SNS<-read.csv("./DataSource/SNS.data.csv")

library(rpart)

#使用rpart包並傳引數
iris.rp<-rpart(class~.,data = iris,method = "class") 

#畫圖
plot(iris.rp,uniform = T,branch = 0,margin = 0.1,main="iris ID3")#http://f.dataguru.cn/thread-121228-1-1.html
text(iris.rp,use.n = T,col="blue",cex=1.2) #use.n 是控制下邊50/0/0樣本分類概況，col字型顏色、cex 字型大小


#用fancyRpartPlot畫圖,但是rattle包總是安裝失敗

以下是輸出結果：

四、用R語言自定義函式實現演算法

#用R語言實現決策樹ID3演算法，以iris資料集為例

#計算總體資訊值的函式,這裡只允許最後一列作為決策結果列
info<-function(dataSet){
  rowCount=nrow(dataSet) #計算資料集中有幾行，也即有幾個樣本點
  colCount=ncol(dataSet)
  resultClass=NULL
  resultClass=levels(factor(dataSet[,colCount]))  #此程式碼取得判別列中有個可能的值，輸出  "Iris-setosa"     "Iris-versicolor" "Iris-virginica" 
  classCount=NULL
  classCount[resultClass]=rep(0,length(resultClass)) #以決策變數的值為下標構建計數陣列，用於計算和儲存樣本中出現相應變數的個數
  
  for(i in 1:rowCount){ #該for迴圈的作用是計算決策變數中每個值出現的個數，為計算資訊值公式做準備
    if(dataSet[i,colCount] %in% resultClass){
      temp=dataSet[i,colCount]
      classCount[temp]=classCount[temp]+1
    }
  }
  
  #計算總體的資訊值
  t=NULL
  info=0
  for (i in 1:length(resultClass)) {
    t[i]=classCount[i]/rowCount
    info=-t[i]*log2(t[i])+info
  }
  return(info)
}


#拆分資料集,此函式的作用在於對於每列自變數，按照其包含的類別值將原始資料集按行拆分，以便在這個子集中計算特定自變數的熵值
splitDataSet<-function(originDataSet,axis,value){#含義即從originDataSet資料集中拆分出第axis個變數等於value的所有行，合併成子集
  retDataSet=NULL
  for (i in 1:nrow(originDataSet)) { #迴圈原始資料集所有行
    if(originDataSet[i,axis]==value){ #限制特定自變數，遇到目標值則記錄下原始資料集整行，然後rbind行連線
      tempDataSet=originDataSet[i,]
      retDataSet=rbind(tempDataSet,retDataSet)
    }
  }
  rownames(retDataSet)=NULL
  return(retDataSet) #返回針對某個自變數的值篩選後的子集
}

#選擇最佳拆分變數
chooseBestFeatureToSplita<-function(dataSet){
  bestGain=0.0
  bestFeature=-1
  baseInfo=info(dataSet) #計算總的資訊熵
  numFeature<-ncol(dataSet)-1 #計算除決策變數之外的所有列，即為自變數個數 
  for (i in 1:numFeature) {#對於每個自變數計算資訊熵
    featureInfo=0.0
    Feature=dataSet[,i]#定位到第i列
    classCount=levels(factor(Feature)) #計算第i列中變數類別，即有幾種值
    for (j in 1:classCount) { 
    subDataSet=splitDataSet(dataSet,i,Feature[j]) #將dataSet中第i個變數等於Feature[j]的行拆分出來
    newInfo=info(subDataSet) #計算該子集的資訊熵，也就是計算該變數在該取值下的資訊熵部分
    prob=length(subDataSet[,1]*1.0)/nrow(dataSet)# 這裡計算該變數等於Feature[j]的情況在總資料集中出現的概率
    featureInfo=featureInfo+prob*newInfo #不不斷將該變數下各部分資訊熵加總
    } #第第i個變數的資訊熵計算結束
    
    infoGain=baseInfo-featureInfo 
    if(infoGain>bestGain){ #
      bestGain=infoGain
      bestFeature=i
    }
    
  }# 所有所有變數資訊熵計算結束，並且得出了最佳拆分變數
  return(bestFeature) #返回最佳變數值
}


#最終判斷屬於哪一類的條件  
majorityCnt <- function(classList){  
  classCount = NULL  
  count = as.numeric(table(classList))  
  majorityList = levels(as.factor(classList))  
  if(length(count) == 1){  
    return (majorityList[1])  
  }else{  
    f = max(count)  
    return (majorityList[which(count == f)][1])  
  }  
}  

#判斷剩餘的值是否屬於同一類，是否已經純淨了
trick <- function(classList){  
  count = as.numeric(table(classList))  
  if(length(count) == 1){  
    return (TRUE)  
  }else  
    return (FALSE)  
} 

#遞迴生成樹
createTree<-function(dataSet){
  decision_tree = list()  
  classList = dataSet[,length(dataSet)]  
  #判斷是否屬於同一類  
  if(trick(classList))  
    return (rbind(decision_tree,classList[1]))  
  #是否在矩陣中只剩Label標籤了，若只剩最後一列，則都分完了  
  if(ncol(dataSet) == 1){  
    decision_tree = rbind(decision_tree,majorityCnt(classList))  
    return (decision_tree)  
  } 
  
  #選擇最佳屬性進行分割
  bestFeature=chooseBestFeatureToSplita(dataSet)
  labelFeature=colnames(dataSet)[bestFeature] #獲取最佳劃分屬性的變數名
  decision_tree=rbind(decision_tree,labelFeature) #這裡rbind方法，如果有一個變數列數不足，會自動重複補齊
  t=dataSet[,bestFeature]
  temp_tree=data.frame()
  for(j in 1:length(levels(as.factor(t)))){  
    #這個標籤的兩個屬性，比如“yes”，“no”，所屬的資料集  
    dataSet = splitDataSet(dataSet,bestFeature,levels(as.factor(t))[j])  
    dataSet=dataSet[,-bestFeature]  
    #遞迴呼叫這個函式  
    temp_tree = createTree(dataSet)  
    decision_tree = rbind(decision_tree,temp_tree)  
  } 
  return (decision_tree)
}

t<-createTree(iris)

以上程式碼及問題說明請訪問我的github：https://github.com/HelloMrChen/AlgorithmPractise-R

【決策樹】ID3演算法理解與R語言實現

一、演算法理解想來想去，還是決定用各大暢銷書中的相親例子來解釋什麼叫決策樹。簡單來說，決策樹就是根據各種變數，作為輸入條件，最終輸出決策的過程。比如上圖中女方在相親過程中，影響是否見男方的變數有年齡、長相、收入、是否是公務員等。最終在各種變數組合下，最終輸出見或不

【決策樹】熵及ID3演算法Python示例

1、決策樹學習有如下資料集：序號天氣是否週末是否有促銷銷量 1 壞是是高 2 壞是是高 3 壞是是高 4 壞否是高 5 壞是是高 6 壞否是高 7 壞

【Machine Learning·機器學習】決策樹之ID3演算法(Iterative Dichotomiser 3)

目錄 1、什麼是決策樹 2、如何構造一棵決策樹？ 2.1、基本方法 2.2、評價標準是什麼/如何量化評價一個特徵的好壞？ 2.3、資訊熵、資訊增益的計算 2.4、決策樹構建方法

決策樹之ID3演算法實現(python) [置頂] 怒寫一個digit classification(不斷更新中)

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

決策樹之ID3演算法

今天，我來講解的是決策樹。對於決策樹來說，主要有兩種演算法：ID3演算法和C4.5演算法。C4.5演算法是對ID3演算法的改進。今天主要先講ID3演算法，之後會講C4.5演算法和隨機森林等。 Contents 1. 決策樹的基本認識 2. ID3演算法介紹

第3章決策樹（ID3演算法、建立繪製決策樹、分類器、儲存、預測隱性眼鏡型別）

ID3演算法 ID3演算法的核心是在決策樹各個結點上對應資訊增益準則選擇特徵，遞迴地構建決策樹。具體方法是：從根結點(root node)開始，對結點計算所有可能的特徵的資訊增益，選擇資訊增益最大的特徵作為結點的特徵，由該特徵的不同取值建立子節點；再對子結點遞迴地呼叫以上方法，構建決策樹

決策樹ID3;C4.5詳解和python實現與R語言實現比較

本文網址：http://blog.csdn.net/crystal_tyan/article/details/42130851（請不要在採集站閱讀）把決策樹研究一下，找來了一些自己覺得還可以的資料：分類樹（決策樹）是一種十分常用的分類方法。他是一種監管學習，所謂監管

【特徵匹配】RANSAC演算法原理與原始碼解析

轉載請註明出處：http://blog.csdn.net/luoshixian099/article/details/50217655 勿在浮沙築高臺隨機抽樣一致性（RANSAC）演算法，可以在一組包含“外點”的資料集中，採用不斷迭代的方法，尋找最優引數模型，不符合最

【機器學習】【決策樹】有了決策樹的字典結構後，如何用python繪製決策樹？

1.需求說明求出決策樹的字典儲存形式資料後，繪製出決策樹的圖形，則會更形象認識和了解其決策樹。比如，有決策樹的字典結構如下所示：tree_dict = {'house?': {'hourse_no': {'working?': {'work_no': 'refuse', 'w

決策樹學習 -- ID3演算法和C4.5演算法（C++實現）

前言在學習西瓜書的時候，由於書本講的大多是概念，所以打算用C++實現它的演算法部分（至於python和matlab實現，實現簡單了很多，可以自己基於C++程式碼實現）。至於測試資料，採用了書中關於西瓜的資料集。什麼是決策樹首先，決策樹（也叫做分類

讀書筆記：機器學習實戰(2)——章3的決策樹程式碼和個人理解與註釋

首先是對於決策樹的個人理解：通過尋找最大資訊增益（或最小資訊熵）的分類特徵，從部分已知類別的資料中提取分類規則的一種分類方法。資訊熵：其中，log底數為2，額，好吧，圖片我從百度截的。。這裡只解釋到它是一種資訊的期望值，深入的請看維基百科

決策樹之ID3演算法實現(python)

最近開始學習machine learning方面的內容，大致瀏覽了一遍《machine learning in action》一書，大概瞭解了一些常用的演算法如knn,svm等具體式幹啥的。在kaggle上看到一個練手的專案：digit classification,又有良好的資料，於是打算用這個

【決策樹】泰坦尼克號倖存者預測專案

專案目標泰坦尼克號的沉沒是歷史上最著名的還難事件之一，在船上的2224名乘客和機組人員中，共造成1502人死亡。本次專案的目標是運用機器學習工具來預測哪些乘客能夠倖免於難。專案過程匯入並探索資料處理缺失值，刪除與預測無關的特徵將分類變數轉換為數值型變數例項化模型並進行交叉驗證模型預

應用統計學與R語言實現學習筆記（五）——引數估計

Chapter 5 Estimation 本篇是第五章，內容是引數估計。 1.引數估計的一般問題正如前面介紹的，統計學的兩大分支，分別是描述統計和推斷統計。所以今天來談談推斷統計的第一大問題——引數估計。當然一般叫統計推斷的會更多些，二者是一樣

應用統計學與R語言實現學習筆記（二）——資料收集

Chapter 2 Data Collection 本篇是第二章，內容是資料收集。 1.資料來源做科學研究離不開資料，而資料的來源有哪些呢？這裡比較簡單地將資料來源分為兩類：直接（一手）資料和間接（二手）資料。直接資料的資料獲取來源包括

應用統計學與R語言實現學習筆記後記

1 後記應用統計學與R語言實現學習筆記這一系列部落格斷斷續續寫了5個月左右。現在終於算是基本完成了。我個人比較強迫症，比較喜歡一個系列更完再更其他的。所以中間有一些不錯的內容想寫到部落格裡都沒動筆。後面會繼續填坑。另外之後遇到的跟應用統計學與R語言實現相關的

應用統計學與R語言實現學習筆記（十一）——判別分析

Chapter 11 Discriminant Analysis 筆者最近任務繁重，斷更了一頓時間，最近會開始慢慢把這個系列寫完。本篇是第十一章，內容是判別分析。 1 判別分析應用判別分析（Discriminant Analysis）——判別分

應用統計學與R語言實現學習筆記（六）——假設檢驗

Chapter 6 Hypothesis Test 本篇是第6章，內容是假設檢驗。 1.基本思想我們還是從問題開始討論。這回提個接地氣的問題——雄安新區批覆前後對該地區房價是否有差異？嗯，假設檢驗其實就是為了解決這類問題。假設檢驗的基本

應用統計學與R語言實現學習筆記（十四）——案例與實踐

Chapter 14 Case and Practice 本篇是第十四章，內容是案例與實踐。這裡其實是對我公選課的作業做了個彙總。 1 描述性統計與抽樣分佈 1.一種袋裝食品用生產線自動裝填，每袋重量大約為50g，但由於某些原因，每袋重量不會恰好

決策樹的構建演算法 -- ID3 與 C4.5 演算法

1. 概述上一篇日誌中，我們介紹了最簡單的分類迴歸演算法 – K 近鄰演算法。 k 近鄰演算法本篇日誌我們來介紹構建專家系統和資料探勘最常用的演算法 – 決策樹。 2. 決策樹在系統流程圖中，我們常

【決策樹】ID3演算法理解與R語言實現

相關推薦