機器學習：決策樹（基尼系數）

阿新 • • 發佈：2018-08-15

try matplot 代碼實現 sci bubuko div tro 兩種 ()

一、基礎理解

　1）公式

k：數據集中樣本類型數量；
P_i：第 i 類樣本的數量占總樣本數量的比例

　2）實例計算基尼系數

3 種情況計算基尼系數：
基尼系數的性質與信息熵一樣：度量隨機變量的不確定度的大小；

G 越大，數據的不確定性越高；
G 越小，數據的不確定性越低；
G = 0，數據集中的所有樣本都是同一類別；

　3）只有兩種類別的數據集

x：兩類樣本中，其中一類樣本數量所占全部樣本的比例；
當 x = 0.5，兩類樣本數量相等時，數據集的確定性最低；

二、使用基尼系數劃分節點數據集

　1）格式

from sklearn.tree import 
 DecisionTreeClassifier

dt_clf = DecisionTreeClassifier(max_depth=2, criterion=‘gini‘)
dt_clf.fit(X, y)

criterion=‘gini‘：使用 “基尼系數” 方式劃分節點數據集；
criterion=‘entropy‘：使用 “信息熵” 方式劃分節點數據集；

　2）代碼實現

導入數據集

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

iris = datasets.load_iris()
X  
= iris.data
y = iris.target

封裝函數：

split()：劃分數據集；
gini()：計算數據集的基尼系數；

try_split()：尋找最佳的特征、特征值、基尼系數；

from collections import Counter
from math import log

def split(X, y, d, value):
    index_a = (X[:, d] <= value)
    index_b = (X[:, d] > value)
    return X[index_a], X[index_b], y[index_a], y[index_b]

 
def gini(y):
    counter = Counter(y)
    res = 1.0
    for num in counter.values():
        p = num / len(y)
        res += -p**2
    return res

def try_split(X, y):
    
    best_g = float(‘inf‘)
    best_d, best_v = -1, -1
    for d in range(X.shape[1]):
        sorted_index = np.argsort(X[:,d])
        for i in range(1, len(X)):
            if X[sorted_index[i-1], d] != X[sorted_index[i], d]:
                v = (X[sorted_index[i-1], d] + X[sorted_index[i], d]) / 2
                x_l, x_r, y_l, y_r = split(X, y, d, v)
                g = gini(y_l) + gini(y_r)
                if g < best_g:
                    best_g, best_d, best_v = g, d, v
                    
    return best_g, best_d, best_v

第一次劃分

best_g, best_d, best_v = try_split(X, y)
X1_l, X1_r, y1_l, y1_r = split(X, y, best_d, best_v)

gini(y1_l)
# 數據集 X1_l 的基尼系數：0.0

gini(y1_r)
# 數據集 X1_r 的基尼系數：0.5

# 判斷：數據集 X1_l 的基尼系數等於 0，不需要再進行劃分,；數據集 X1_r 需要再次進行劃分；

第二次劃分

best_g2, best_d2, best_v2 = try_split(X1_r, y1_r)
X2_l, X2_r, y2_l, y2_r = split(X1_r, y1_r, best_d2, best_v2)

gini(y2_l)
# 數據集 X2_l 的基尼系數：0.1680384087791495

gini(y2_r)
# 數據集 X2_l 的基尼系數：0.04253308128544431

# 判斷：數據集 X2_l 和 X2_r 的基尼系數不為 0，都需要再次進行劃分；

三、信息熵 VS 基尼系數

信息熵的計算比基尼系數慢

原因：計算信息熵 H 時，需要計算一個 log(P)，而基尼系數只需要計算 P²；
因此，scikit-learn 中的 DecisionTreeClassifier() 類中，參數 criterion = ‘gini‘，默認選擇基尼系數的方式進行劃分節點數據集；

大多數時候，二者沒有特別的效果優劣；

機器學習：決策樹（基尼系數）

try matplot 代碼實現 sci bubuko div tro 兩種 () 一、基礎理解　1）公式 k：數據集中樣本類型數量； Pi：第 i 類樣本的數量占總樣本數量的比例　2）實例計算基尼系數 3 種情況計算基尼系數：基尼系數的性質與信息熵

機器學習：決策樹（Decision Tree）

1. 理論概述：決策樹的內部節點表示一個特徵或屬性，葉子節點表示一個類別。輸入一個新樣本，從根節點開始按照節點說示的特徵劃分，直到劃分到葉子節點，該葉子節點即為類別。關於熵的基礎知識熵：

機器學習：決策樹（Decision Tree）

本部落格參考鄒博機器學習課件以及李航的《統計學習方法》，僅用於督促自己學習使用，如有錯誤，歡迎大家提出更正決策樹（decision tree）是一種基本的分類與迴歸方法。在分類問題中，它可以認為是if-then規則的集合，也可以認為是定義在特徵空間與

機器學習：資訊熵，基尼係數，條件熵，條件基尼係數，資訊增益，資訊增益比，基尼增益，決策樹程式碼實現（一）

文章目錄初始化，涉及到使用的變數：資訊熵定義公式，經驗公式程式碼：基尼係數定義公式，經驗公式程式碼：條件熵，條件基尼係數條件熵定義公式，經驗公式

機器學習：決策樹過擬合與剪枝，決策樹程式碼實現（三）

文章目錄楔子變數方法資料預處理剪枝獲取待剪集：針對ID3，C4.5的剪枝損失函式的設計基於該損失函式的演算法描述基於該損失函式的程式碼實

機器學習筆記：決策樹（ID3,C4.5,CART）

學習資料：《統計學習方法》，《機器學習》(周志華)，韓小陽ppt，鄒博ppt。決策樹是一種樹形結構，對例項進行分類和迴歸的，下面主要說的是用來進行分類，最後說道CART的時候也會說到決策樹用到迴歸問題上。 1、決策樹模型與學習先給出分類決策樹模型定義：是一種對例項資料進行

機器學習：決策樹cart演算法在分類與迴歸的應用（上）

#include #include #include #include #include #include #include #include #include #include #include using namespace std; //置信水平取0.95時的卡方表 const double CHI

機器學習之決策樹（二）

天氣次數 format 定義表示葉子節點 ast 代碼 wid 一、復習信息熵　　為了解決特征選擇問題，找出最優特征，先要介紹一些信息論裏面的概念。　　1、熵（entropy）　　　　　　　　python3代碼實現： def calcShannonEnt(

機器學習實戰--決策樹（一）

決策樹是一種通過推斷分解，逐步縮小待推測事物範圍的演算法結構，重要任務就是理解資料中所蘊含的知識資訊，可以使用不熟悉的資料集合，並從中提取出一系列規則，根據資料集建立規則的過程就是機器學習的過程。優點：計算複雜度不高，輸出結果易於理解，對中間值的缺失不敏感，可以處理不相關特

機器學習實戰決策樹（一）——資訊增益與劃分資料集

from math import log #計算給定的熵 def calcsahnnonent(dataset): numentries = len(dataset) #計算例項的總數 labelcounts ={} #

【機器學習】決策樹（基於ID3,C4.5,CART分類迴歸樹演算法）—— python3 實現方案

內含3種演算法的核心部分. 沒有找到很好的測試資料. 但就理清演算法思路來說問題不大剪枝演算法目前只實現了CART迴歸樹的後剪枝. import numpy as np from collections import Counter from sklearn imp

機器學習：決策樹及ID3,C4.5,CART演算法描述

文章目錄概念理解熵: 條件熵: 資訊增益，互資訊: 資訊增益比基尼指數 ID3演算法描述 C4.5演算法描述 CART (Classification and Regression Tree

【機器學習】決策樹（下)CART演算法分類樹、迴歸樹

CART同樣由特徵選擇、樹的生成、剪枝組成。既可以用於迴歸，又可以用於分類。 CART是在給定輸入隨機變數X條件下輸出隨機變數Y的條件概率分佈的學習方法。 CART假設決策樹是二叉樹，內部節點特徵的取值為“是“和“否“，左分支是取值為“是“的分支，右分支是取值為“否“的分支。這樣的決策樹

【機器學習】決策樹（上）

前言：決策樹是一種基本的分類與迴歸演算法。可以認為是if-then規則的集合，也可以認為是定義在特徵空間與類空間上的條件概率分佈。學習時，利用訓練資料，根據損失函式最小化原則建立決策樹模型。學習包括3個步驟：特徵選擇、決策樹的生成、決策樹的修建一、決策樹模型更多參照博文

【機器學習】決策樹（上）——從原理到演算法實現

前言：決策樹（Decision Tree）是一種基本的分類與迴歸方法，本文主要討論分類決策樹。決策樹模型呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。它可以認為是if-then規則的集合，也可以認為是定義在特徵空間與類空間上的條件概率分佈。相比樸素

機器學習之決策樹（Decision Tree）文字演算法的精確率

目錄背景效果圖整體流程這裡用詞向量，而不是TF-IDF預處理後的向量原始碼背景最近的專案中，用到了很多機器學習的演算法，每個機器學習的演算法在不同的樣本下的精準率是不同的。為了驗證每個演算法在每種不同樣本數

機器學習之決策樹（一）

1、演算法介紹決策樹是一種基本的分類和迴歸方法，決策樹模型呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。決策樹學習通常包括三個步驟：特徵選擇、決策樹的生成和決策樹的修剪。決策樹的本質是從訓練資料集中歸納出一組分類規則。本文主要是對決策樹的ID3演算法的介紹，後文會介紹C4.5和CART演算

優達機器學習：決策樹練習題

12 練習：決策樹準確性這裡優達的執行環境有個坑，就是他時而準確時而錯誤，所以測試的時候就一會兒是對的，一會兒是錯的，同樣的一個程式碼，感覺變數會混淆似的 import sys from class_vis import prettyPicture f

【機器學習】決策樹（三）——生成演算法（ID3、C4.5與CRAT）

回顧前面我們介紹了決策樹的特徵選擇，以及根據資訊增益構建決策樹。那麼決策樹的生成又有哪些經典演算法呢？本篇將主要介紹ID3的生成演算法，然後介紹C4.5中的生成演算法。最後簡單介紹CRAT演算法。 ID3演算法前面我們提到，一般而言，資訊增

機器學習入門-決策樹（二）

這篇文章主要是帶來機器學習西瓜書決策書這一章的程式設計習題。相比機器學習實戰中的對應章節有了一定的難度上的提升，主要體現在資料集中加入了連續值，對於連續值的處理不能夠和離散值同等對待，否則其不同值各自分為一類顯然資訊增益最大，但這樣在實際的應用中並沒有意義甚至適

機器學習：決策樹（基尼系數）

一、基礎理解

1）公式

2）實例計算基尼系數

3）只有兩種類別的數據集

二、使用基尼系數劃分節點數據集

1）格式

2）代碼實現

封裝函數：

第一次劃分

第二次劃分

三、信息熵 VS 基尼系數

相關推薦

　1）公式

　2）實例計算基尼系數

　3）只有兩種類別的數據集

　1）格式

　2）代碼實現