1. 程式人生 > >五、決策樹--統計學習方法總結

五、決策樹--統計學習方法總結

五、決策樹

決策樹(decision tree)是一種基本的分類與迴歸方法,這裡主要討論用於分類的決策樹。它可以認為是if-then規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分佈。其主要的有點是模型具有可讀性,分類速度快,學習時利用訓練資料,根據損失函式最小化的原則簡歷決策樹模型。決策樹的學習通常包括三個步驟:特徵選擇,決策樹的生成和決策樹的修剪

5.1決策樹模型與學習

5.1.1決策樹模型

分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點(node)和有向邊(directed edge)組成。結點有兩種型別:內結點(internal node)和葉結點(leaf node)。內部結點表示一個特徵或者屬性,葉結點表示一個類

5.1.2決策樹與if-then規則

可以將決策樹看成是一個if-then規則的集合。將決策樹轉化成if-then規則的過程是這樣的:由決策樹的根結點到葉結點的每一條路徑構建一條規則;路徑上內部結點的特徵對應著規則的條件,而葉結點的類對應著規則的結論。

5.1.3決策樹與條件概率分佈

決策樹還表示給定特徵條件下的類的條件概率分佈。這一條件概率分佈定義在特徵空間的一個劃分(partition)上。將特徵空間劃分為互不相交的單元(cell)或者區域(region),並在每個單元定義一個類的概率分佈就構成了一個條件概率分佈。
Alt text

5.1.4決策樹學習

決策樹學習,假設給定訓練資料集

D={(x1,y1),(x2,y2),,(xN,yN)}
其中,xi為輸入例項(特徵向量)yi為類標記,N為樣本容量。學習的目標是根據給定的訓練資料集構建一個決策樹模型,使它能夠對例項進行正確的分類。
決策樹學習本質上是從訓練資料集中歸納出一組分類規則。我們需要的是一個與訓練資料矛盾較小的決策樹,同時具有很好的泛化能力。另一個角度看,決策樹學習是由訓練資料集估計條件概率模型。我們選擇的條件概率模型應該不僅對訓練資料有很好的擬合,而且對未知資料有很好的預測。
決策樹學習用損失函式表示這一目標。如下所述,決策樹學習的損失函式通常是正則化的極大似然函式。決策樹學習的策略是以損失函式為目標函式的最小化。

當損失函式確定以後,學習問題就變為在損失函式意義下選擇最優決策樹的問題。因為從所有可能的決策樹中選取最優決策樹是NP完全問題(NP的英文全稱是Non-deterministic Polynomial的問題,即多項式複雜程度的非確定性問題),所以現實中決策樹學習演算法通常採用啟發式方法,近似求解這一最優化問題。這樣得到的決策樹是次最優(sub-optimal)的。
決策樹學習的演算法通常是一個遞迴地選擇最優特徵,並根據該特徵對訓練資料進行分割,使得對各個子資料集有一個最好的分類的過程。

5.2特徵選擇

5.2.1特徵選擇問題

特徵選擇在於選取對訓練資料具有分類能力的特徵。這樣可以提高決策樹學習的效率。如果利用一個特徵進行分類的結果與隨機分類的結果沒有很大差別,則稱這個特徵是沒有分類能力的。經驗上扔掉這樣的特徵對決策樹學習的精度影響不大。通常特徵選擇的準則資訊增益或資訊增益比

5.2.2資訊增益

在資訊理論與概率統計中,熵(entropy)是表示隨機變數不確定性的度量。設X是一個取有限個值的離散隨機變數,其概率分佈為

P(X=xi)=pi,i=1,2,,n
則隨機變數X定義為H(X)=i=1npilogpi
通常上式中的對數以2為底或者以自然對數e為底,這時熵的單位分別稱作位元(bit)或納特(nat)。由定義可知,熵只依賴於X分佈,而與X的取值無關,所以也可以將X的熵記作H(p),
H(p)=i=1npilogpi
熵越大,隨機變數的不確定性就越大。從定義可以驗證
0H(p)logn
當隨機變數只取兩個值,例如1,0時,即X的分佈為
P(X=1)=p,P(X=0)=1p,0p1
熵為H(p)=plog2p(1p)log2(1p)
這時,熵H(p)隨概率p變化的曲線如圖
Alt text
p=0p=1時,隨機變數沒有不確定性,當p=0.5時,H(p)=1,熵取值最大,隨機變數不確定性最大。
設有隨機變數(X,Y),其聯合概率分佈為
P(X=xi,Y=yj)=pij
條件熵H(Y|X)表示在已知隨機變數X的條件下隨機變數Y的不確定性,隨機變數X給定的條件下隨機變數Y條件熵(conditional entropy),定義為X給定條件下Y的條件概率分佈的熵對X的數學期望
H(Y|X)=i=1npiH(Y|X=xi)
當熵和條件熵中的概率由數理統計(特別是極大似然估計)得到時,所對應的熵與條件熵分別稱為經驗熵(empirical entropy)和經驗條件熵(empirical conditional entropy)。此時若有0概率,則令0log0=0
資訊增益(information gain)表示得知特徵X的資訊而使得類Y的資訊的不確定性減少的程度。
特徵A對訓練資料集D的資訊增益g(D,A),定義為集合D的經驗熵H(D)與特徵A給定條件下D的經驗條件熵H(D|A)之差,即
g(D,A)=H(D)H(

相關推薦

決策--統計學習方法總結

五、決策樹 決策樹(decision tree)是一種基本的分類與迴歸方法,這裡主要討論用於分類的決策樹。它可以認為是if-then規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分佈。其主要的有點是模型具有可讀性,分類速度快,學習時利用訓練資

統計學習方法-李航-筆記總結決策

本文是李航老師《統計學習方法》第五章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: https://blog.csdn.net/u014248127/article/details/78971875 https://www.cnblogs.com/YongSun/p/4767085.ht

統計學習方法總結應用對比

下面主要從模型、策略、演算法、應用四方面來對10種統計學習方法,進行歸類總結。 方法 模型 策略 演算法 應用 感知機 超平面模型 極小化誤分點距離 隨

統計學習方法 決策分類

回歸 element row tps 樣本 pan 類別 表示 splay 決策樹分類 1,概念           2,決策樹算法 2.1,特征選擇:   熵:值越大,不確定性因素越大;條件熵:條件對結果的影響不確定性;信息增益;信息增益比                

統計學習方法學習筆記《》——決策

引言 預測問題:分類和迴歸         資料分類是大資料分析的一種重要手段,在已有的資料集上學習到一個預測模型,用於對未知資料進行分類。當該模型預測結果是離散且無序的話,可以看成是某個特定類別的資料集(class label), 反之,當該模型預測結果是實數或者有序的話

李航《統計學習方法》——第決策模型

由於網上資料很多,這裡就不再對演算法原理進行推導,僅給出博主用Python實現的程式碼,供大家參考 適用問題:多類分類 三個步驟:特徵選擇、決策樹的生成和決策樹的剪枝 常見的決策樹演算法有: ID3:特徵劃分基於資訊增益 C4.5:特徵劃分基於資訊增益

李航 統計學習方法決策 課後 習題 答案

決策樹是一種基本的分類和迴歸方法。決策樹呈樹形結構,在分類問題中,表示基於特徵對例項進行分類的過程。它可以認為是if-then規則的集合,也可以認為是定義在特徵空間和類空間上的條件概率分佈。學習時,利用訓練資料,根據損失函式最小化的原則建立決策樹模型。預測時,對

統計學習方法(李航)》講義 第05章 決策

lan 定義 if-then 利用 建立 then 統計 來源 根據 決策樹(decision tree) 是一種基本的分類與回歸方法。本章主要討論用於分類的決策樹。決策樹模型呈樹形結構,在分類問題中,表示基於特征對實例進行分類的過程。它可以認為是if-then

統計學習方法-李航-筆記總結】十一條件隨機場

本文是李航老師《統計學習方法》第十一章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: https://www.cnblogs.com/YongSun/p/4767734.html   主要內容: 1. 概率無向圖模型 2. 條件隨機場的定義與形式 3. 條件隨機

統計學習方法-李航-筆記總結】十隱馬爾可夫模型

本文是李航老師《統計學習方法》第十章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: https://www.cnblogs.com/YongSun/p/4767667.html https://www.cnblogs.com/naonaoling/p/5701634.html htt

統計學習方法-李航-筆記總結】九EM(Expectation Maximization期望極大演算法)演算法及其推廣

本文是李航老師《統計學習方法》第九章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: https://www.cnblogs.com/YongSun/p/4767517.html https://blog.csdn.net/u010626937/article/details/751160

統計學習方法-李航-筆記總結】八提升方法

本文是李航老師《統計學習方法》第八章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: https://www.cnblogs.com/YongSun/p/4767513.html 主要內容包括: 1. 提升方法AdaBoost演算法 2. AdaBoost演算法的訓練誤差分析

統計學習方法-李航-筆記總結】七支援向量機

本文是李航老師《統計學習方法》第七章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: https://www.cnblogs.com/YongSun/p/4767130.html https://blog.csdn.net/wjlucc/article/details/69376003

統計學習方法-李航-筆記總結】六邏輯斯諦迴歸和最大熵模型

本文是李航老師《統計學習方法》第六章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: http://www.cnblogs.com/YongSun/p/4767100.html https://blog.csdn.net/tina_ttl/article/details/53519391

統計學習方法-李航-筆記總結】四樸素貝葉斯法

本文是李航老師《統計學習方法》第四章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: https://blog.csdn.net/zcg1942/article/details/81205770 https://blog.csdn.net/wds2006sdo/article/detail

統計學習方法-李航-筆記總結】三k近鄰法

本文是李航老師《統計學習方法》第三章的筆記,歡迎大佬巨佬們交流。 主要參考部落格:https://blog.csdn.net/u013358387/article/details/53327110 主要包括以下幾部分: 1. k近鄰演算法 2. k近鄰模型 3. kd樹 1.

統計學習方法 | 決策

01 決策樹定義 今天我們來學習另一種分類方法——決策樹 在開始學習之前,先提出一個問題: 這三種分類方法的區別是什麼呢?分別適用什麼場景呢? 好了,帶著疑問,我們開始學習決策樹~ 決策樹是什麼? 它是一種基本的分類與迴歸的方法,可以認為是if-then

統計學習方法 李航 決策

決策樹 一.決策樹基本描述 決策樹是一種基本的分類與迴歸方法,呈樹形結構,在分類問題中,表示基於特徵對例項進行分類的過程.學習時,利用訓練資料根據損失函式最小化的原則建立決策樹模型.預測時,對新的資料,利用決策樹模型進行分類.而學習又通常包括三個步驟:特徵選擇,決策樹生成,決策樹修剪. 二.決策樹模

統計學習方法(李航)》決策學習方法

作者:jliang https://blog.csdn.net/jliang3   1.重點歸納 1)特徵選擇依據 ID3:資訊增益最大: C4.5:資訊增益比最大: ,n為特徵A的取值個數,Di為特徵A第i個取值的集合 CART

統計學習方法 李航---第5章 決策

第5章 決策樹 決策樹(decision tree)是一種基本的分類與迴歸方法。本章主要討論用於分類的決策樹。決策樹模型呈樹形結構,在分類問題中,表示基於特徵對例項進行分類的過程。它可以認為是if-then規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分佈。其主要