哈工大機器學習複習總結

阿新 • • 發佈：2018-12-21

決策樹

例子：稅務欺詐檢測問題

決策樹可以表示輸入屬性的任何函式

注意決策樹的泛化能力

同一個訓練資料集，可以有多棵決策樹與其一致

下面介紹如何構造最優的決策樹：Top-Down的決策樹歸納演算法

每一個內結點可以看成用來分離資料集的屬性，我們需要找到分離效果最好的屬性並且作為決策屬性賦值給當前結點
為每一個取值建立一個兒子結點，把相應的訓練樣本分到葉結點
如果訓練樣本被很好的分類，則停止，否則在新的葉結點上重複上述過程

（這裡是我自己的理解，大家想看具體的可以看老師的ppt或者參考資料，如果有問題也歡迎指出）

決策樹的歸納其實是基於貪心策略，基於一個可以最優化某項準則的屬性來切分資料集，後面會看到這個準則是什麼

問題來了，如何確定最好的切分？

Idea：好的屬性切分是將示例集合分成若干子集，最理想情況是將“正例”和“反例”完全分開到不同的集合裡。

作為貪心搜尋的思想，我們更傾向節點上的資料具有同質（homogeneous）類別分佈

上圖中左圖就是具有同質性，低混雜度的切分，右圖則相反。

為了確定最好的切分方式，我們需要對結點混雜度進行測量，引出熵（Entropy）的概念：

對於一個隨機變數X的熵H(X)
H(X)是對從X隨機取樣值在最短編碼情況下的每個值平均（期望）長度（以2為底就是0、1編碼）
公式為： ${\color{DarkBlue} H(X)=-\sum _{i=1}^{N}P(x=i)\log _{2}P(x=i)}$
在資訊理論中，最短編碼情況下，對訊息X=i分配 $-\log _{2}P(x=i)$ 位，所以其編碼一個隨機變數X的期望位數是 ${\color{DarkBlue} H(X)=-\sum _{i=1}^{N}P(x=i)\log _{2}P(x=i)}$

關於資訊理論中的具體解釋，大家請自行查閱資料

有了“熵”的定義之後，如何衡量屬性的“好”與“壞”？下面引出條件熵：

X在給定Y=v特定條件熵 $H(X|Y=v)$ : $H(X|y=j)=-\sum _{i=1}^{N}P(x=i|y=j)\log _{2}P(x=i|y=j)$
X在給定Y條件熵 $H(X|Y)$ : $H(X|Y)=\sum _{j\in Val(y)}P(y=j)H(X|y=j)$ [本質就是對特定條件熵的加權平均]
X和Y的互資訊： $I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(X)+H(Y)-H(X,Y)$

上述關於熵的幾個公式直接記憶會比較複雜，自己動手動腦搞懂它們之間的關係記起來會比較容易

定義樣本熵，也就是樣本資料集S的熵H(S)， $H(S)\equiv -p_{+}\log _{2}p_{+}-p_{-}\log _{2}p_{-}$ ， $P_{+}$ 是S中的正例比例， $P_{-}$ 是S中的反例比例

熵H(S)就可以用來測量表示S的混雜度，H(S)的函式圖如下：

定義資訊增益 $GAIN_{split}=Entropy(p)-\left ( \sum _{i=1}^{k} \frac{n_{i}}{n}Entropy(i)\right )$

父結點P被切分成k部分； $n_{i}$ 是每一切分的樣本數，即目標類變數與屬性A變數在S（樣本集）上的互資訊
資訊增益測量由於切分帶來的熵減少量，選擇具有最大減少量的切分（最大增益）
缺點：可能會傾向於選擇具有切分分支多的屬性，每份分得很少很純的樣本

決策樹歸納構造的停止準則：

當一個結點上所有樣本屬於同一個類別，停止擴充套件
當一個結點上所有樣本具有相似的屬性值，停止擴充套件

基於決策樹的分類有很多優點：

構建過程計算資源開銷小
分類未知樣本速度極快
對於小規模的樹比較容易解釋
在許多小的簡單資料集合上效能與其它方法相近

注意Occam's剃刀：選擇適合訓練集合資料的最簡單假設

我的理解是在可接受的範圍內，越小的決策樹對於測試資料的泛化能力越好，可避免過擬合問題。

對於模型的評估，定義MDL（最小描述長度）

$Cost(Model,Data)=Cost(Data|Model)+Cost(Model)$

cost是編碼所需的位數，尋找cost最小的模型
$Cost(Data|Model)編碼誤分類的errors$ 編碼誤分類的errors
$Cost(Model)$ 使用結點編碼（子結點數目）加分離條件編碼

為了避免過擬合問題，我們有兩種策略：

第一種為Pre-Pruning，即在決策樹成為完全樹之前就停止演算法，除了之前的兩條停止準則，還可有其他的條件，比如當擴充套件當前結點時，資訊增益不再增加，就可以停止擴充套件。

第二種為Post-Pruning，即等決策樹成長為完全樹之後再以自下而上的方式進行剪枝，在Post-Pruning中可以使用MDL

處理屬性值缺失的問題

缺失值以三種不同的方式影響決策樹的構建：

影響如何計算混雜度測量值
影響如何將缺少值的例項分發到子節點
影響具有缺失值的測試例項的分類方式

上圖是在Refund有一個缺失值的情況下對於混雜度量的計算，注意對於根據Refund切分時的計算，只考慮有資料的情況，對於缺失的情況直接忽略，不予計算。資訊增益也要乘以0.9，表示不計算缺失的值。

上圖是分發例項的過程，將缺失值按照權重分別分發給不同的分支。

上圖是對於新例項有缺失值的情況下如何分類，可以看到也要利用概率來看。

關於曲線擬合的例子，實驗已經做過，不再贅述，只是需要注意公式的矩陣化和向量化，掌握矩陣求導，能自己推匯出實驗中用到的公式，求出W的解析解，以及懲罰項的使用和意義。

哈工大機器學習複習總結

決策樹例子：稅務欺詐檢測問題決策樹可以表示輸入屬性的任何函式注意決策樹的泛化能力同一個訓練資料集，可以有多棵決策樹與其一致下面介紹如何構造最優的決策樹：Top-Down的決策樹歸納演算法每一個內結點可以看成用來分離資料集的屬性，我們需要找到分離效果

機器學習經典總結---入門必讀----心血總結

轉自飛鳥各投林史上最強----機器學習經典總結---入門必讀----心血總結-----回味無窮讓我們從機器學習談起導讀：在本篇文章中，將對機器學習做個概要的介紹。本文的目的是能讓

機器學習流程總結概括

在這裡插入圖片描述如下程式碼是參考部落格：https://blog.csdn.net/han_xiaoyang/article/details/49797143#commentsedit中的例子實現的，具體包括 1、資料檢視 ''' 該部分用於分析各類屬性獲救情況 ''' i

系統學習機器學習之總結（二）--機器學習演算法比較

轉自：https://blog.csdn.net/bryan__/article/details/52026214 其實這篇文章真正出處來自：csuldw 本文主要回顧下幾個常用演算法的適應場景及其優缺點！機器學習演算法太多了，分類、迴歸、聚類、推薦、影象識別領域等等，要想找到一個合適演算

系統學習機器學習之總結（一）--常見分類演算法優缺點

主要是參考網上各種資源，做了整理。其實，這裡更多的是從基礎版本對比，真正使用的時候，看資料，看改進後的演算法。 1. 五大流派 ①符號主義：使用符號、規則和邏輯來表徵知識和進行邏輯推理，最喜歡的演算法是：規則和決策樹 ②貝葉斯派：獲取發生的可能性來進行概率推理，最喜歡的演算法是：樸素貝葉

史上最強----機器學習經典總結---入門必讀----心血總結-----回味無窮

在本篇文章中，我將對機器學習做個概要的介紹。本文的目的是能讓即便完全不瞭解機器學習的人也能瞭解機器學習，並且上手相關的實踐。這篇文件也算是EasyPR開發的番外篇，從這裡開始，必須對機器學習瞭解才能進一步介紹EasyPR的核心。當然，本文也面對一般讀者，不會對閱讀有相關的前提要求。　　在進入正

系統學習機器學習之總結

機器學習無疑是當前資料分析領域的一個熱點內容。很多人在平時的工作中都或多或少會用到機器學習的演算法。本文為您總結一下常見的機器學習演算法，以供您在工作和學習中參考。機器學習的演算法很多。很多時候困惑人們都是，很多演算法是一類演算法，而有些演算法又是從其他演算法中延伸出來的。

【機器學習演算法總結】線性迴歸

文章目錄 1 機器學習概念 2 線性迴歸 3 代價函式 4 代價函式求解 4.1 正規方程求解 4.2 梯度下降法 4.2.1 批量梯度下降(BGD) 4.2.2 隨機梯

機器學習面試總結（第三篇）

9、整合學習大致分類？通俗理解怎樣才能提高整合學習的效能？ 10、Booststrap sampling需要解決的問題？Booststrap sampling的思想？Bagging的基本思想？從偏差方差角度解釋bagging？ 11、隨機森林RandomForest的思想？RF與bagg

機器學習-----演算法總結

說明: 根據日常專案經驗整理, 有些本人不常用的資訊可能不是很全. 歡迎補充一.監督學習演算法 K-近鄰線性模型樸素貝葉斯說明即鄰居個數,一般用較小的鄰居得

機器學習演算法總結之XGBoost（下）實戰與調參

寫在前面當時想學習XGBoost這個演算法就是因為研究生課題需要，現在終於可以試一試啦，希望真的像大家說的那麼強（據說是很多資料科學家的ultimate weapon）。XGBoost原理已在前一篇有過說明：機器學習演算法總結之XGBoost（上） 1.

系統學習機器學習之總結（二）--離散型特徵編碼方式：one-hot與啞變數*

在機器學習問題中，我們通過訓練資料集學習得到的其實就是一組模型的引數，然後通過學習得到的引數確定模型的表示，最後用這個模型再去進行我們後續的預測分類等工作。在模型訓練過程中，我們會對訓練資料集進行抽象、抽取大量特徵，這些特徵中有離散型特徵也有連續型特徵。若此時你使用的模型

機器學習年鑑總結之偏差與方差

偏差、方差演算法在開發樣本集上的錯誤率為 16%，我們可以把這 16%分成兩部分： 1.演算法在訓練樣本集上的錯誤率，本例中為 15%，這通常稱作演算法的偏差。 2.演算法在開發/測試樣本集上相對訓練樣本集上高出的錯誤率部分，本例中，演算法那在開發樣本集上

哈工大-機器學習之GMM-EM

function [data, mu, var, weight] = CreateSample(M, dim, N) % 生成實驗樣本集，由M組正態分佈的資料構成 % % GMM模型的原理就是僅根據資料估計引數：每組正態分佈的均值、方差， % 以及每個正態分

機器學習演算法總結（二）調參技巧

偏差和方差在統計學習框架下，Error = Bias + Variance。Error指的模型的預測錯誤率，由兩部分組成，一部分是由於模型太簡單而帶來的估計不準確的部分（Bias），另一部分是由於模型太複雜而帶來的更大的變化空間和不確定性（Variance）。如果要降低模型的Bi

Coursera吳恩達機器學習課程總結筆記及作業程式碼——第5周神經網路續

Neural Networks:Learning 上週的課程學習了神經網路正向傳播演算法，這周的課程主要在於神經網路的反向更新過程。 1.1 Cost function 我們先回憶一下邏輯迴歸的價值函式 J(θ)=1m[∑mi=1y(i)log(hθ

學習理論、模型選擇、特徵選擇——斯坦福CS229機器學習個人總結（四）

這一份總結裡的主要內容不是演算法，是關於如何對偏差和方差進行權衡、如何選擇模型、如何選擇特徵的內容，通過這些可以在實際中對問題進行更好地選擇與修改模型。 1、學習理論（Learning theory） 1.1、偏差/方差（Bias/variance）

機器學習演算法總結--線性迴歸和邏輯迴歸

1. 線性迴歸簡述在統計學中，線性迴歸（Linear Regression）是利用稱為線性迴歸方程的最小平方函式對一個或多個自變數和因變數之間關係進行建模的一種迴歸分析。這種函式是一個或多個稱為迴歸係數的模型引數的線性組合（自變數都是一次方）。只有一

機器學習演算法總結

機器學習(Machine Learning, ML)是一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的效能。嚴格的定義：機器學習是一

機器學習演算法總結（三）

1、決策樹決策樹是通過一系列規則對資料進行分類的過程。它提供一種在什麼條件下會得到什麼值的類似規則的方法。決策樹分為分類樹和迴歸樹兩種，分類樹對離散變數做決策樹，迴歸樹對連續變數做決策樹。 1.2 決策樹的學習過程一棵決策樹的生成過程主要分為以下3個部

哈工大 機器學習 複習總結

決策樹

相關推薦

哈工大機器學習複習總結