【機器學習】資訊、資訊熵、資訊增益、增益率及基尼係數的概念總結

阿新 • • 發佈：2018-12-13

資訊、資訊熵、資訊增益、增益率及基尼係數的概念總結

資訊

資訊是用來消除隨機不確定性的東西。對於機器學習中的決策樹而言，如果待分類的事物集合可以劃分為多個類別當中，則第k類的資訊可以定義如下：

$I(k)=-log_2({p_k})$

資訊熵

資訊熵是用來度量不確定性，當熵越大，k的不確定性越大，反之越小

假定當前樣本集合D中第k類樣本所佔的比例為 $p_k (k=1,2,...,|y|)$ ，則D的資訊熵定義為：

$Ent(D)=-\sum_{k=1}^{|y|}{p_klog_2 {p_k}}$

資訊增益

資訊增益在決策樹演算法中是用來選擇特徵的指標，資訊增益越大，則這個特徵的選擇性越好。

同上，計算特徵a對樣本集D進行劃分所獲得的資訊增益為：

$Gain(D,a)=Ent(D)-\sum_{v=1}^{V}{\frac{|D^v|}{|D|}}Ent(D^v)$

事實上，資訊增益準則對可取值數目較多的特徵有所偏好，為了減少這種偏好可能帶來的不利影響，C4.5決策樹演算法使用了“增益率”：

$Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$

其中IV(a)稱為屬性a的“固有值”：

$IV(a)=-\sum_{v=1}^{V}{\frac{|D^v|}{|D|}}log_2{\frac{|D^v|}{|D|}}$

需要注意的是，增益率準則對可取值數目較少的屬性所有偏好，因此，C4.5演算法並不是直接選擇增益率最大的候選劃分屬性，而是使用了一個啟發式：先從候選劃分屬性中找出資訊增益高於平均水平的屬性，再從中選擇增益率最高的。

基尼係數

CART據冊數使用了“基尼係數”來選擇劃分屬性，它反映了從資料集D中隨機抽取兩個樣本，與其類別標記不一致的概率。因此在候選屬性集合A中，選擇基尼係數最小的屬性作為最優劃分屬性：

$Gini\_index(D,a)=\sum_{v=1}^{V}{\frac{|D^v|}{|D|}}Gini(D^v)$

參考內容：周志華《機器學習》

【機器學習】資訊、資訊熵、資訊增益、增益率及基尼係數的概念總結

資訊、資訊熵、資訊增益、增益率及基尼係數的概念總結資訊資訊是用來消除隨機不確定性的東西。對於機器學習中的決策樹而言，如果待分類的事物集合可以劃分為多個類別當中，則第k類的資訊可以定義如下：資訊熵資訊熵是用來度量不確定性，當熵越大，k的不確定性越大，反之越小

【機器學習】聚類演算法：層次聚類、K-means聚類

所謂聚類，就是將相似的事物聚集在一起，而將不相似的事物劃分到不同的類別的過程，是資料分析之中十分重要的一種手段。比如古典生物學之中，人們通過物種的形貌特徵將其分門別類，可以說就是一種樸素的人工聚類。如此，我們就可以將世界上紛繁複雜的資訊，簡化為少數方便人們理解的類別，可以說是人類認知這個

【機器學習】最容易實現的基於OpenCV的人臉檢測程式碼、檢測器及檢測效果

基於opencv自帶的人臉檢測模型，實現簡單的人臉檢測功能，可作為機器學習初學者練手使用。簡單易學，具體的方法及程式碼如下。 1、執行結果輸入原圖輸出結果 2、工程需要載入的opencv庫如下： 3、用到的人臉檢測器 4、具體實現程式碼 #

【機器學習】交叉熵函式的使用及推導

前言說明：本文只討論Logistic迴歸的交叉熵，對Softmax迴歸的交叉熵類似。 minist手寫數字識別就是用交叉熵作為代價函式。 1.從方差代價函式說起代價函式經常用方差代價函式（即採用均方誤差MSE），比如對於一個神經元（單輸入單輸出，s

【機器學習】最大熵模型原理小結

最大熵模型(maximum entropy model， MaxEnt)也是很典型的分類演算法了，它和邏輯迴歸類似，都是屬於對數線性分類模型。在損失函式優化的過程中，使用了和支援向量機類似的凸優化技術。而對熵的使用，讓我們想起了決策樹演算法中的ID3和C4.5演算法。理解了最

【機器學習】先驗概率、似然函式、後驗概率、對數似然函式等概念的理解

1）先驗：統計歷史上的經驗而知當下發生的概率； 2）後驗：當下由因及果的概率； 2、網上有個例子說的透徹： 1）先驗——根據若干年的統計（經驗）或者氣候（常識），某地方下雨的概率； 2）似然——看到了某種結果，對產生結果的原因作出假設：是颳風了？還是有烏雲？還是

【機器學習】【線性代數】正交基、標準正交基、正交矩陣，正交變換等數學知識點

1.正交向量組直接給定義：歐式空間V的一組非零向量，如果他們倆倆向量正交，則稱是一個正交向量組。（1）正交向量組是線性無關的（2）n維歐式空間中倆倆正交的非零向量不會超過n個，即n維歐式空間中一個正交向量組最多n個向量2.正交基在n維歐式空間中，由n個非零向量組成的正交向

【機器學習】過擬合、欠擬合與正則化

過擬合（over-fitting）在演算法對模型引數的學習過程中，如果模型過於強大，比如說，樣本空間分佈在一條直線的附近，那麼我們的模型最好是一條直線， h

【機器學習】演算法模型效能中的偏差、方差概念

什麼時候模型的複雜程度該停止？模型越複雜，單次預測出的結果與真實結果的偏差（bias）就越小。但很容易引發過擬合。模型越簡單，預測不同資料，預測的準確性差別越小。預測不同資料，所得到的準確性構成序列，序列的方差（variance）也就越小。

【機器學習】決策樹（下)CART演算法分類樹、迴歸樹

CART同樣由特徵選擇、樹的生成、剪枝組成。既可以用於迴歸，又可以用於分類。 CART是在給定輸入隨機變數X條件下輸出隨機變數Y的條件概率分佈的學習方法。 CART假設決策樹是二叉樹，內部節點特徵的取值為“是“和“否“，左分支是取值為“是“的分支，右分支是取值為“否“的分支。這樣的決策樹

【機器學習】C++與OpenCV、Tensorflow-python聯合呼叫

　　上一篇我介紹了C++呼叫Python的入門方法。這一篇我講述C++與OpenCV、Tensorflow-python聯合呼叫的一次成功的實驗過程。　　C++通過python呼叫tensorflow，比呼叫C++版本的tensorflow的優勢在於：ten

【機器學習】AIC、BIC準則

選擇最優模型的指導思想是從兩個方面去考察：一個是似然函式最大化，另一個是模型中的未知引數個數最小化。似然函式值越大說明模型擬合的效果越好，但是我們不能單純地以擬合精度來衡量模型的優劣，這樣回導致模型中未知引數越來越多，模型變得越來越複雜，會造成過擬合。所以一個好的模型應該

【機器學習】機器學習（十二、十三）：K-means演算法、高斯混合模型

簡介：本節介紹STANFORD機器學習公開課中的第12、13集視訊中的演算法：K-means演算法、高斯混合模型（GMM）。（9、10、11集不進行介紹，略過了哈）一、K-means演算法屬於無監督學習的聚類演算法，給定一組未標定的資料

【機器學習】兩分佈間距離的度量：MMD、KL散度、Wasserstein 對比

MMD：最大均值差異 Wasserstein距離[1] 實驗資料來源 Amazon review benchmark dataset. The Amazon review dataset is one of the most widely used b

【機器學習】分類效能度量指標 : ROC曲線、AUC值、正確率、召回率、敏感度、特異度

在分類任務中，人們總是喜歡基於錯誤率來衡量分類器任務的成功程度。錯誤率指的是在所有測試樣例中錯分的樣例比例。實際上，這樣的度量錯誤掩蓋了樣例如何被分錯的事實。在機器學習中，有一個普遍適用的稱為混淆矩陣(confusion matrix)的工具，它可以幫助人們

【機器學習】先驗概率、後驗概率、貝葉斯公式、似然函式

Original url: http://m.blog.csdn.net/article/details?id=49130173 一、先驗概率、後驗概率、貝葉斯公式、似然函式在機器學習中，這些概念總會涉及到，但從來沒有真正理解透徹他們之間的聯絡。下面打算好好從

【機器學習】決策樹（三）——生成演算法（ID3、C4.5與CRAT）

回顧前面我們介紹了決策樹的特徵選擇，以及根據資訊增益構建決策樹。那麼決策樹的生成又有哪些經典演算法呢？本篇將主要介紹ID3的生成演算法，然後介紹C4.5中的生成演算法。最後簡單介紹CRAT演算法。 ID3演算法前面我們提到，一般而言，資訊增

【機器學習】關於t-sne：降維、視覺化

關於t-sne：降維、視覺化機器學習中，我們的使用的資料基本都是高維的，所以我們很難直接從資料中觀察分佈和特徵。因此出現了很多資料降維的手段幫助我們提取特徵和視覺化資料。這就是流行學習方法(Manifold Learning):假設資料是均勻取樣於一個高維歐

【機器學習】交叉驗證、正則化例項Python程式碼實現

前言機器學習常用的資料集網址：資料集執行環境：python3.6（這裡我用的anaconda的jupyter notebook） 1. 對比不同模型的交叉驗證的結果資料集來源：紅酒資料集這份資料集包含來自3種不同起源的葡萄酒的共178條記錄

【機器學習】最近鄰演算法KNN原理、流程框圖、程式碼實現及優缺點

通過機器學習教學視訊，初識KNN演算法，對原理和演算法流程通過小應用進行Python實現，有了自己的一些理解。因此在此整理一下，既是對自己學習的階段性總結，也希望能和更多的朋友們共同交流學習相關演算法，如有不完善的地方歡迎批評指正。1、KNN演算法原理KNN，全稱k-Near

【機器學習】資訊、資訊熵、資訊增益、增益率及基尼係數的概念總結

資訊、資訊熵、資訊增益、增益率及基尼係數的概念總結

資訊

資訊熵

資訊增益

基尼係數

相關推薦