機器學習：資訊熵，基尼係數，條件熵，條件基尼係數，資訊增益，資訊增益比，基尼增益，決策樹程式碼實現（一）

阿新 • • 發佈：2018-12-31

文章目錄

初始化，涉及到使用的變數：
資訊熵

定義公式，經驗公式
程式碼：

基尼係數

定義公式，經驗公式
程式碼：

條件熵，條件基尼係數

條件熵定義公式，經驗公式
條件基尼係數定義公式，經驗公式
程式碼：

資訊增益，資訊增益比，基尼增益

資訊增益
資訊增益比
基尼增益
程式碼：

初始化，涉及到使用的變數：

# ============================================================================= 

# 計算資訊量的相關演算法
# =============================================================================
import math
import numpy as np

class Cluster:
    def __init__(self,x,y,sample_weight=None,base=2):
        # 記錄資料集的變數為numpy陣列
        self._x,self._y = x.T,y
        # 利用樣本權重對類別向量計數,self._counters樣本各個類別的計數 

        if sample_weight is None:
            self._counters = np.bincount(self._y)
        else:
            self._counters = np.bincount(self._y,weights = sample_weight*len(sample_weight))
        # 記錄樣本權重的屬性
        self._sample_weight = sample_weight
        # 記錄中間結果的屬性
        self._con_chaos_cache = 
 self._ent_cache = self._gini_cache = None
        # 記錄對數的底的屬性
        self._base = base

資訊熵

定義公式，經驗公式

在這裡插入圖片描述

程式碼：

    # 定義計算資訊熵的函式，預設計算整個樣本資訊熵，self._ent_cache就是樣本資訊熵
    # 子樣本資訊熵需要給出每個類別的數量
    def ent(self,ent=None,eps = 1e-12):
        # 如果已經計算過，且呼叫時沒有額外給各類別樣本的個數，就直接返回呼叫結果
        if self._ent_cache is not None and ent is None:
            return self._ent_cache
        
        _len = len(self._y)
        # 如果沒有給出各類別樣本的個數，就是用結構本身的計數器來獲取相應的個數
        if ent is None:
            ent = self._counters
        
        # eps使演算法的穩定性更好
        _ent_cache = max(eps,-sum(
                [_c / _len*math.log(_c / _len,self._base) if _c !=0 else 0 for _c in ent]))
        
        # 如果呼叫時沒有給出各個類別樣本數量，就將計算的資訊熵儲存下來
        if ent is None:
            self._ent_cache = _ent_cache
        return _ent_cache

基尼係數

定義公式，經驗公式

在這裡插入圖片描述

程式碼：

    # 計算基尼係數,p為各個分類數量
    def gini(self,p=None):
        if self._gini_cache is not None and p is None:
            return self._gini_cache
        _len = len(self._y)
        # 如果沒有給出各類別樣本的個數，就是用結構本身的計數器來獲取相應的個數
        if p is None:
            p = self._counters
        _gini_cache = 1-np.sum((p/_len)**2)
        
        if p is None:
            self._gini_cache = _gini_cache
        
        return _gini_cache

條件熵，條件基尼係數

條件熵定義公式，經驗公式

在這裡插入圖片描述

條件基尼係數定義公式，經驗公式

在這裡插入圖片描述

程式碼：

# =============================================================================
#     定義計算H(y|A)和 Gini(y|A)
# =============================================================================
    def con_chaos(self,idx,criterion="ent",features=None):
        # 根據不同的準則呼叫不同的方法, lambda input:output
        if criterion == "ent":
            _meghod = lambda Cluster: Cluster.ent()
        elif criterion == "gini":
            _meghod = lambda Cluster: Cluster.gini()
        
        # 獲取相應緯度的向量，也就是feathure A ,是一個[N]的行向量
        # data為feature = idx的N個數據的feathureValue
        data = self._x[idx]
        # 如果沒有給出該feathure的取值空間，就呼叫set函式自己算出來
        # 呼叫set比較耗時，決策實現儘量傳入features
        # features為該feature的取值空間
        if features is None:
            features = set(data)
            
        # 獲取這個feature下的各個featureValue在data中的位置
        # 返回的是[featureValue,對應的mask]
        tmp_labels = [data == feature for feature in features]
        # 在這個函式裡沒有使用，記錄下來後面會用
        # [featureValue,對應的它的樣本數量]
        self._con_chaos_cache =[np.sum(_label) for _label in tmp_labels]
        # 利用mask獲取每個featureValue對應的y樣本
        # [featureValue,對應他的y樣本]
        label_lst = [self._y[label] for label in tmp_labels]
        
        # 上面的操作就是為了獲取mask,從而獲取:在feature=idx,取m個不同featureValue
        # 時，這個時候的x樣本和y樣本，利用這些樣本求資訊增益的後半部分
        
        # 記錄H(y|A)最後計算結果
        rs =0
        # 記錄每一個featureValue對應的資訊增益的後半部分，
        # 也就是條件不確定度，後面決策樹生成會用到
        chaos_lst =[]
        
        for data_label,tar_label in zip(tmp_labels,label_lst):
            # 獲取對應的x樣本,mask使用條件row=column,所以需要轉置，
            # 匹配的y樣本就是tar_label，名字取得有點問題，應該叫tar_data
            tmp_data = self._x.T[data_label]
            
            if self._sample_weight is None:
                # 恕我直言這個地方沒必要用_meghod，有點炫耀技術，應該可以直接呼叫吧
                _chaos = _meghod(Cluster(tmp_data,tar_label,base=self._base))
            else:
                _new_weights = self._sample_weight[data_label]
                _chaos = _meghod(Cluster(tmp_data,tar_label,_new_weights/np.sum(
                        _new_weights),base=self._base))
            # 計算資訊增益外面的那個求和，注意負號在裡面計算互資訊裡計算過了
            # 把m個featureValue遍歷完畢，就計算出了H(y|A)
            rs +=len(tmp_data)/len(data)*_chaos
            # 記錄各部分條件不確定度，後面決策樹生成會用到
            chaos_lst.append(_chaos)
            
        return rs,chaos_lst

資訊增益，資訊增益比，基尼增益

資訊增益

在這裡插入圖片描述

資訊增益比

在這裡插入圖片描述
$H_A(y)$ 的定義和經驗求法：

可以看出也可以使用熵的函式求解。

基尼增益

在這裡插入圖片描述

程式碼：

# =============================================================================
#     計算資訊增益
# =============================================================================
    # get_chaos_lst用於控制輸出
    def info_gain(self,idx,criterion="ent",get_chaos_lst=False,features=None):
        # 依據不同的準則，獲取相應的條件不確定度
        if criterion in ("ent","ratio"):
            _con_chaos,_chaos_lst =self.con_chaos(idx,"ent",features)
            _gain = self.ent() - _con_chaos
            
            # 我們知道g_ratio(y,A) = g(y,A)/H_A(y)
            # self._con_chaos_cache :[featureValue,對應的它的樣本數量]
            # H_A(y)如何求？根據他的經驗熵公式，只要把[featureValue,對應的它的樣本數量]
            # 帶入計算就可以了
            if criterion == "ratio":
                _gain /= self.ent(self._con_chaos_cache)
                
        elif criterion == "gini":
            _con_chaos,_chaos_lst =self.con_chaos(idx,"gini",features)
            _gain = self.gini() - _con_chaos
        
        return (_gain,_chaos_lst) if get_chaos_lst else _gain

機器學習：資訊熵，基尼係數，條件熵，條件基尼係數，資訊增益，資訊增益比，基尼增益，決策樹程式碼實現（一）

文章目錄初始化，涉及到使用的變數：資訊熵定義公式，經驗公式程式碼：基尼係數定義公式，經驗公式程式碼：條件熵，條件基尼係數條件熵定義公式，經驗公式

機器學習：決策樹過擬合與剪枝，決策樹程式碼實現（三）

文章目錄楔子變數方法資料預處理剪枝獲取待剪集：針對ID3，C4.5的剪枝損失函式的設計基於該損失函式的演算法描述基於該損失函式的程式碼實

機器學習：結點的實現，決策樹程式碼實現（二）

文章目錄楔子定義變數：定義方法獲得劃分的feature 生成結點停止條件及其處理 fit() 生成樹剪枝楔子前面已經實現了各種資訊量的計算，那麼我們劃分的基本有了，那

Java常用的八種排序演算法與程式碼實現（一）：氣泡排序法、插入排序法、選擇排序法

這三種排序演算法適合小規模資料排序－－－　　共同點：基於比較，時間複雜度均為O(n2)，空間複雜度均為O(1)（原地排序演算法）　　不同點：插入排序和氣泡排序是穩定的排序演算法，選擇排序不是－－－　　穩定排序演算法：可以保持數值相等的兩個物件，在排序之

TensorFlow程式碼實現（一）[MNIST手寫數字識別]

最簡單的神經網路結構：資料來源準備：資料在之前的文章中分析過了在這裡我們就構造一層神經網路：前提準備：引數： train images：因為圖片是28*28的個數，換算成一維陣列就是784，因此我們定義x = tf.placeholder(tf

搶紅包案例分析以及程式碼實現（一）侵立刪

轉自：https://mp.weixin.qq.com/s/d3HyAtWua38TSpelF-v6nQ 概述電商的秒殺、搶購，春運搶票，微信QQ搶紅包，從技術的角度來說，這對於Web 系統是一個很大的考驗. 高併發場景下，系統的優化和穩定是至關重要的. 網際網路的開

HBase基本程式碼實現（一）

Step 1: 載入設定 HConnection hTablePool = null; static Configuration conf =null; public HB

ActiveMQ解決分散式事務方案以及程式碼實現（一）

1.場景描述可以設想一個比較常見的分散式事務場景，商品上架操作，該操作涉及到商品模組的Service服務中的上架操作，同時必須要滿足在solr中建立商品的索引方便前臺搜尋以及生成商品的靜態化頁面，在上架操作中傳送了一條訊息，訊息接收方搜尋工程以及靜態化工程分

輸出一個集合的所有子集合-Java程式碼實現（一）

找出一個集合的所有子集合，用排列組合的方式來解答此問題的話，假設集合裡面有n個元素，那個子集合的數目為2^n. 具體思路為：對於集合裡面的任何一個元素，有兩種可能，一種是在子集合裡，另一種是不在子集合裡。假如我們已經得到n-1個元素的子集合，那麼n個元素的子集合是：n-1個

zookeeper分散式鎖程式碼實現（一）

利用zookeeper的臨時節點實現分散式鎖，這種方法簡單，斷開連線後能自動刪除臨時節點，相當於已獲得鎖的呼叫者掛掉後自動釋放鎖，但當呼叫者太多，會出現“驚群”現象。 /** * zookeeper鎖實現 * @author skymr * */ public cl

基於樹莓派（Raspberry Pi）平臺的智能家居實現（一）----繼電器模塊，DHT11模塊

Raspberry 繼電器模塊 DHT11溫濕度模塊智能家居前言： ??其實做這個智能家居系統我還是因為學校的畢業設計，距離上篇文章發布已經過去了20多天了，之前想著只是做一個煙霧報警，然後通過Zabbix進行報警，但是通過這20多天的設計，我發現實現報警的功能其

基於CANoe的OSEK_TP封裝的診斷刷寫，FOTA自動化模擬測試實現（一）

　　原創內容，如若喜歡，轉載時請在開篇處註明出處　　車輛網領域有個關鍵ECU——TBOX，本文圍繞TBOX的FOTA升級業務展開。主要講如何通過CANoe的模擬程式實現自動化測試，驗證TBOX在FOTA業務過程中作為一個診斷儀刷寫整車其它ECU的流程以及業務邏輯處理的正確性。通常情況下，主機廠

Shader學習筆記，通過GLSL實現（一）

最近一直在專心研究利用GLSL編寫Shader，寫點東西將自己學的總結一下，把自己學習shader的經歷分享一下，希望能對有興趣學習shader的同學有些幫助，但這些玩意還算不上教程，很多都是我自己在學習中的問題以及如何解決的，有什麼不足還請各位指出，想要系統的學習GLSL的話還是推薦大家看《OpenGL

最簡單的區塊鏈實現，不到50行程式碼！（一）

什麼是區塊鏈（Blockchain）？一個電子記賬本，以比特幣和其他密碼加密貨幣進行的交易公開地、按照日期順序記錄其中。總的來說，它是一個公開的資料庫，新的資料儲存在一個稱為區塊的容器中，並且附加到一個“不可變”的鏈條（即區塊鏈）上，鏈條上還有以前附加的資料。這裡的“不

c語言:順序表的實現（一）建立，插入，刪除，查詢，輸出等基本操作實現

#include<iostream> #include<stdio.h> #define LIST_INIT_SIZE 100 #define LIST_INCREMENT 10 using namespace std; struct Sqlist{

Android開發，MapBox的使用及部分功能實現（一）----- 初始化、標記、定位、styleurl

近期，應公司要求，開始接觸MapBox For Android的開發。經過初步的接觸，發現MapBox與我之前使用的Arcgis有很多不同，相比起來，MapBox更清潔，更輕便，也更容易使用，但是相對的，MapBox相對於Arcgis缺少了很多的功能實現，許多的東西都需要

Shiro實現（一）： SSM整合筆記實現登入，授權功能

開篇本專案已經上傳github，建議對照程式碼理解本篇主要講Shiro框架與SSM框架結合，實現登入和授權功能利用spring 的aop切面思想，很簡單得融合Shiro許可權框架程式碼需要明白兩個點：通過Subject.login() 登入成

異步線程池的實現（一）-------具體實現方法

fun format 測試路徑線程池。用戶體驗 deb tar clas 本篇是這個內容的第一篇，主要是寫:遇到的問題，和自己摸索實現的方法。後面還會有一篇是總結性地寫線程池的相關內容（偏理論的）。一、背景介紹朋友的項目開發到一定程度之後，又遇到

多種排序算法的思路和簡單代碼的實現（一）

insert i++ 前後端分享 size quicksort 執行判斷 clas 就自己簡單的理解了一些排序算法（JAVA）思路和代碼分享給大家：歡迎大家進行交流。直接插入排序，折半插入排序，冒泡排序，快速排序 1 public class Sort { 2

Dji Mobile SDK 基礎實現（一）

n-1 app lba ger print ttl touch事件釋放 bsp Dji Mobile SDK 基礎實現（一）本文簡要介紹如何通過調用DJI Mobile SDK，實現獲取和釋放無人機的控制權限、模擬遙控器按鈕控制無人機的飛行、獲取無人機的回傳視頻、獲取無

機器學習：資訊熵，基尼係數，條件熵，條件基尼係數，資訊增益，資訊增益比，基尼增益，決策樹程式碼實現（一）

文章目錄

初始化，涉及到使用的變數：

資訊熵

定義公式，經驗公式

程式碼：

基尼係數

定義公式，經驗公式

程式碼：

條件熵，條件基尼係數

條件熵定義公式，經驗公式

條件基尼係數定義公式，經驗公式

程式碼：

資訊增益，資訊增益比，基尼增益

資訊增益

資訊增益比

基尼增益

程式碼：

相關推薦