1. 程式人生 > >AI機器學習-決策樹算法-概念和學習過程

AI機器學習-決策樹算法-概念和學習過程

人工智能 其他

1. 概念

決策樹是通過一系列規則對數據進行分類的過程,它提供一種在什麽條件下會得到什麽值的類似規則的方法。決策樹分為分類樹回歸樹兩種,分類樹對離散變量做決策樹,回歸樹對連續變量做決策樹。

分類決策樹模型是一種描述對實例進行分類樹形結構。決策樹由結點和有向邊組成。結點有兩種類型:內部節點和葉節點,內部節點表示一個特征或屬性,葉節點表示一個類。

直觀看上去,決策樹分類器就像判斷模塊和終止塊組成的流程圖,終止塊表示分類結果(也就是樹的葉子)。判斷模塊表示對一個特征取值的判斷(該特征有幾個值,判斷模塊就有幾個分支)。

引用網上的一個栗子:

母親:給你介紹個對象。

女兒:年紀多大了?

母親:26。

女兒:長的帥不帥?

母親:挺帥的。

女兒:收入高不?

母親:不算很高,中等情況。

女兒:是公務員不?

母親:是,在稅務局上班呢。

女兒:那好,我去見見。

用決策樹來表示:

技術分享圖片

作為一個碼農經常會不停的敲if, else if, else,其實就已經在用到決策樹的思想了。只是你有沒有想過,有這麽多條件,用哪個條件特征先做if,哪個條件特征後做if比較優呢?怎麽準確的定量選擇這個標準就是決策樹機器學習算法的關鍵了。


2. 決策樹的學習過程


一棵決策樹的生成過程主要分為以下3個部分:

特征選擇

特征選擇是指從訓練數據中眾多的特征中選擇一個特征作為當前節點的分裂標準,如何選擇特征有著很多不同量化評估標準標準,從而衍生出不同的決策樹算法。

1、 為什麽要做特征選擇

在有限的樣本數目下,用大量的特征來設計分類器計算開銷太大而且分類性能差。

2、 特征選擇的確切含義

將高維空間的樣本通過映射或者是變換的方式轉換到低維空間,達到降維的目的,然後通過特征選取刪選掉冗余和不相關的特征來進一步降維。

3、 特征選取的原則

獲取盡可能小的特征子集,不顯著降低分類精度、不影響類分布以及特征子集應具有穩定適應性強等特點

決策樹生成

根據選擇的特征評估標準,從上至下遞歸地生成子節點,直到數據集不可分則停止決策樹停止生長。 樹結構來說,遞歸結構是最容易理解的方式。

剪枝

由於決策樹算法的特性,容易使得對特征的學習過度細分,從而出現分類不準的情況,比如,把某一個特殊特特征當做類別的判斷標準,從而把不具有某特殊屬性的數據劃分到此類別之外。這種情況叫過擬合,英文叫overfitting直譯就是過度匹配,也就是匹配太細化,有點過了。要解決這個問題,就要把決策樹進行簡化,把一些太細化的特性去掉,反應在樹形結構上就是去掉一些分支,術語叫剪枝。剪枝技術有預剪枝和後剪枝兩種。


更多文章關註微信公眾號“挨踢學霸”

技術分享圖片

AI機器學習-決策樹算法-概念和學習過程