skiti-learn決策樹演算法庫

阿新 • • 發佈：2018-11-12

skiti-learn內部實現的是調優過的CART決策樹。既可以做分類，也可以做迴歸。分類決策樹採用的類是DecisionTreeClassifier,迴歸則是DecisionTreeRegressor。

DecisionTreeClassifier and DecisionTreeRegressor重要引數調參
1）.特徵選擇標準criterion:
DecisionTreeClassifier:可以使用‘gini’（基尼指數），或者‘entropy’（資訊增益），一般使用預設的基尼指數‘gini’，（CART演算法）。
DecisionTreeRegressor:可以使用‘mse’（均方差），或者‘mae’（和均值之差的絕對值之和），推薦使用預設的‘mse’。一般來說‘mse’比‘mae’更精確。
2）.特徵劃分點選擇標準splitter:
可以使用‘best’（在所有劃分點中找出最優劃分點），或者‘random’（隨機部分劃分點中找到區域性最優劃分點）。預設的‘best’適合樣本量不大時，樣本量非常大時，推薦‘random’
3）.劃分時考慮的最大特徵數max_features:
預設的‘None’，意味著劃分時考慮所有特徵數；‘log2’意味劃分最多考慮log2N個特徵；‘sqrt’或者‘auto’劃分時最多考慮√N個特徵；如果是整數，代表考慮特徵的絕對數；如果是浮點數，代表考慮特徵的百分比，即考慮百分比*N取整後的特徵值。特徵數不多，比如小於50，可以採用預設的‘None’，如果特徵數特別多，可以靈活採用其他引數來控制劃分時考慮最大特徵數，以控制決策樹生成的時間。
4）.決策樹最大深max_depth:
決策樹的最大深度，預設可以不輸入。資料少或者特徵少的情況下，不去管這個值。如果樣本和特徵數量都多的情況下，推薦限制這個深度，具體取值取決於資料的分佈，常用取值10-100之間。
5）.內部結點再劃分所需的最小樣本數min_simples_split:
這個值限制了子樹繼續劃分的條件，如果某結點的樣本數少於min_simples_split則不會繼續選擇最優特徵進行劃分。預設為2，如果樣本量不大，不需管這個值。樣本數量非常大則推薦增大這個值。
6）.葉子節點最少的樣本數min_simples_leaf:
這個值限制了葉子節點最少的樣本數，如果葉子節點數目小於樣本數，則會和兄弟節點一起被剪枝。預設是1,可以輸入最少的樣本數的整數，或者最少樣本數佔樣本總數的百分比。如果樣本量不大，不需要管這個值。如果樣本量數量級非常大，則推薦增大這個值。
7）.葉子節點最小的樣本權重和min_weight_fraction_leaf：
這個值限制了葉子節點所有樣本權重和的最小值，如果小於這個值，則會和兄弟節點一起被剪枝。預設是0，就是不考慮權重問題。一般來說，如果我們有較多樣本有缺失值，或者分類樹樣本的分佈類別偏差很大，就會引入樣本權重，這時我們就要注意這個值了。
8）.最大葉子節點數max_leaf_nodes:
通過限制最大葉子節點數，可以防止過擬合，預設是"None”，即不限制最大的葉子節點數。如果加了限制，演算法會建立在最大葉子節點數內最優的決策樹。如果特徵不多，可以不考慮這個值，但是如果特徵分成多的話，可以加以限制，具體的值可以通過交叉驗證得到。
9）.型別權重class_weight：
DecisionTreeClassifier:指定樣本各類別的權重，防止訓練集某些樣本過多，導致訓練的決策樹過於偏向於這些類別。我們可以指定類別的權重，或者用‘balance’（自動計算樣本的權重，樣本少的權重會高），如果樣本沒有明顯的偏倚，可以不管這個引數，選擇預設的‘None’。
DecisionTreeRegressor:不適用於迴歸樹。
10）.節點劃分最小不純度 min_impurity_split:
這個值限制了決策樹的增長，當某節點的不純度（基尼指數，資訊增益，均方差，絕對差）小於某個閾值，則不再生成子節點。
11）.資料是否預排序presort：
這個值是布林值，預設是False不排序。一般來說，如果樣本量少或者限制了一個深度很小的決策樹，設定為true可以讓劃分點選擇更加快，決策樹建立的更加快。如果樣本量太大的話，反而沒有什麼好處。問題是樣本量少的時候，速度本來就不慢。

調參注意點：
1）當樣本少數量但是樣本特徵非常多的時候，決策樹很容易過擬合，一般來說，樣本數比特徵數多一些會比較容易建立健壯的模型
2）如果樣本數量少但是樣本特徵非常多，在擬合決策樹模型前，推薦先做維度規約，比如主成分分析（PCA），特徵選擇（Losso）或者獨立成分分析（ICA）。這樣特徵的維度會大大減小。再來擬合決策樹模型效果會好。
3）推薦多用決策樹的視覺化，同時先限制決策樹的深度（比如最多3層），這樣可以先觀察下生成的決策樹裡資料的初步擬合情況，然後再決定是否要增加深度。
4）在訓練模型先，注意觀察樣本的類別情況（主要指分類樹），如果類別分佈非常不均勻，就要考慮用class_weight來限制模型過於偏向樣本多的類別。
5）決策樹的陣列使用的是numpy的float32型別，如果訓練資料不是這樣的格式，演算法會先做copy再執行。
6）如果輸入的樣本矩陣是稀疏的，推薦在擬合前呼叫csc_matrix稀疏化，在預測前呼叫csr_matrix稀疏化。

決策樹結果的視覺化
skiti-learn決策樹的視覺化一般需要安裝graphviz。
視覺化的三種方法：
第一種是用graphviz的dot命令生成決策樹的視覺化檔案，敲完這個命令後當前目錄就可以看到決策樹的視覺化檔案iris.pdf.開啟可以看到決策樹的模型圖。

from sklearn.datasets import load_iris
from sklearn import tree
import sys
import os
os.environ["PATH"]+=os.pathsep+'C:/Program Files (x86)/Graphviz2.38/bin/'


iris=load_iris()
clf=tree.DecisionTreeClassifier()
clf=clf.fit(iris.data,iris.target)

with open("iris.dot",'w') as f:
	f=tree.export_graphviz(clf,out_file=f)


#注意，這個命令在命令列執行
dot -Tpdf iris.dot -o iris.pdf

第二種方法是用pydotplus生成iris.pdf

import pydotplus
dot_data=tree.export_graphviz(clf,out_file-None)
graph=pydotplus.graph_from_dot_data(dot_data)
graph.write_pdf("iris.pdf")

第三種辦法是個人比較推薦的做法，因為這樣可以直接把圖產生在ipython的notebook。

from  Ipython.display import Image
dot_data=tree.export_graphviz(clf, out_file=None，
				feature_names=iris.feature_names,
				class_name=iris.target_names,
				filled=True,rounded=True,
				special_characters=True)
graph=pydotplus.graph_from_dot_data(dot_data)
Image(graph.create_png())

DecisionTreeClassifier例項

from itertools import product

import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier


# 仍然使用自帶的iris資料
iris = datasets.load_iris()
X = iris.data[:, [0, 2]]
y = iris.target

# 訓練模型，限制樹的最大深度4
clf = DecisionTreeClassifier(max_depth=4)
#擬合模型
clf.fit(X, y)


# 畫圖
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1),
                     np.arange(y_min, y_max, 0.1))

Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.4)
plt.scatter(X[:, 0], X[:, 1], c=y, alpha=0.8)
plt.show()



#視覺化我們的決策樹，使用了第三種方法
from IPython.display import Image  
from sklearn import tree
import pydotplus 
dot_data = tree.export_graphviz(clf, out_file=None, 
                         feature_names=iris.feature_names,  
                         class_names=iris.target_names,  
                         filled=True, rounded=True,  
                         special_characters=True)  
graph = pydotplus.graph_from_dot_data(dot_data)  
Image(graph.create_png())

skiti-learn決策樹演算法庫

skiti-learn內部實現的是調優過的CART決策樹。既可以做分類，也可以做迴歸。分類決策樹採用的類是DecisionTreeClassifier,迴歸則是DecisionTreeRegressor。 DecisionTreeClassifier and DecisionTr

scikit-learn決策樹演算法庫使用小結

1. scikit-learn決策樹演算法庫類庫介紹 scikit-learn決策樹演算法類庫內部實現是使用了調優過的CART樹演算法，既可以做分類，又可以做迴歸。分類決策樹的類對應的是DecisionTreeClassifier，而回歸決策樹的類對應的是De

scikit-learn決策樹演算法類庫使用小結

　　　　之前對決策樹的演算法原理做了總結，包括決策樹演算法原理(上)和決策樹演算法原理(下)。今天就從實踐的角度來介紹決策樹演算法，主要是講解使用scikit-learn來跑決策樹演算法，結果的視覺化以及一些引數調參的關鍵點。 1. scikit-learn決策樹演算法類庫介紹　　　　scikit-lear

skiti-learn邏輯迴歸演算法庫

skiti-learn中，與邏輯迴歸相關的3個類：LogisticRegression, LogisticRegressionCV,logistic_regression_path。LogisticRegressionCV使用交叉驗證選擇正則化係數C。logistic_regression_

skiti-learn線性迴歸演算法庫

線性迴歸的目的是要得到輸出向量Y和輸入特徵X之間的線性關係，求出線性迴歸係數θ,也就是 Y=Xθ。其中Y的維度為mx1，X的維度為mxn，而θ的維度為nx1 LinearRegression 最常見的普通線性迴歸，損失函式如下： J(θ)=1/2 (Xθ−Y)T (Xθ−Y)

scikit-learn學習之決策樹演算法

======================================================================本系列部落格主要參考 Scikit-Learn 官方網站上的每

決策樹演算法（ID3，C4.5，CART）

ID3，C4.5，CART是是決策樹的核心演算法。它們都由特徵選擇，樹的生成，剪枝組成。但ID3和C4.5用於分類，CART可用於分類與迴歸。 1.ID3演算法 ID3演算法遞迴地構建決策樹，從根節點開始，對所有特徵計算資訊增益，選擇資訊增益最大的特徵作為節點的特徵，由該特徵的不同取值建

決策樹演算法--ID3

原創：袁恆 Refinitiv創新實驗室ARGO 9月17日稽核：施天璐單華傅佳編輯：張翔一什麼是決策樹決策樹是機器學習方法中的一種監督學習演算法，表示根據特徵對樣本進行分類的樹形結構，可以用於分類和迴歸。它的思路大概是這樣

R_Studio(決策樹演算法)鳶尾花卉資料集Iris是一類多重變數分析的資料集

　　　鳶尾花卉資料集Iris是一類多重變數分析的資料集。通過花萼長度，花萼寬度，花瓣長度，花瓣寬度4個屬性預測鳶尾花卉屬於（Setosa，Versicolour，Virginica）三個種類中的哪一類　　針對iris資料集實踐決策樹演算法(C4.5、C5.0

學習筆記（五）：使用決策樹演算法檢測POP3暴力破解

1.資料蒐集載入KDD 99中的資料： def load_kdd99(filename): x=[] with open(filename) asf: for line in f: line=line.st

基於sklearn的決策樹演算法

1、決策樹介紹決策樹簡單的理解為if-then的集合，其優點主要有分類速度快、可讀性等。決策樹的生成主要可分為三個步驟：特徵的選擇、決策樹的生成、決策樹的剪枝。 1.1特徵選擇對於結點的選擇，總得需要一個計算方法來實現，這個方法的目標是優先選擇分類能力強的特徵，這樣才提高

小白自學機器學習之一文讀懂決策樹演算法詳解

1.概念準備 1.1 遞迴與迭代迭代是人，遞迴是神。區別定義優缺點遞迴（recursion）程式呼叫自身

機器學習_8.決策樹演算法

1.ID3演算法預備知識 1.資訊熵： 2.資訊增益演算法內容引入了資訊理論中的互資訊（資訊增益）作為選擇判別因素的度量，即：以資訊增益的下降速度作為選取分類屬性的標準，所選的測試屬性是從根節點到當前節點的路徑上從沒有

Pyhton實現決策樹演算法 MNIST資料集

Pyhton實現決策樹演算法 MNIST資料集決策樹是一種比較接近人類思維方式的演算法，將樣本通過每個特徵值的資訊增益進行劃分，從而保證每個劃分之後的結果資訊熵的消減量達到最大。具體的原理請大家自己查詢相關資料。 sklearn實現程式碼如下, 準確率可以達到90%左右。 fr

決策樹演算法實現要點

1.定義節點（節點的集合形成樹）；即定義一個結構體Point，而用Point tree[] 來表示樹。點Point裡面包括name（在該點進行分類的特徵），val（該點父輩的特徵的某個值），n_child（帶點子代的數量），*son（指向子代的指標），id（帶節點是否有必要存在） 2.全

機器學習（七）決策樹演算法研究與實現

前言從決策樹這三個字中我們既可以看出來它的主要用途幫助決策某一類問題，樹是輔助我們來決策用的，如下圖一個簡單的判斷不同階段人年齡的圖： &

機器學習-決策樹演算法

機器學習中分類和預測演算法的評估： 1.準確率 2.速度 3.強壯性 4.可規模性 5.可解釋性 1.什麼是決策樹/判定樹判定樹是一個類似於流程圖的樹結構：其中，每個內部結點表示在一個屬性上的測試，每個分支代表一個屬性輸出，而每個樹葉結點代表類或類分佈。樹

決策樹演算法及實現

在電腦科學中，樹是一種很重要的資料結構，比如我們最為熟悉的二叉查詢樹（Binary Search Tree），紅黑樹（Red-Black Tree）等，通過引入樹這種資料結構，我們可以很快地縮小問題規模，實現高效的查詢。在監督學習中，面對樣本中複雜多樣的特徵，選取什麼樣的策略可以實

機器學習--決策樹演算法學習筆記

一、演算法表述決策樹學習的目的是為了產生一顆泛化能力強的數。一般來說，一顆決策樹包含一個根節點，若干個內部節點和若干個葉節點。葉節點對應決策結果，其他每個節點對應一個屬性測試。每個節點包含的樣本集合根據屬性測試的結果被劃分到子節點中，根節點包含樣本全集。從

第4章決策樹演算法【分類】（五決策樹sklearn總結和視覺化總結）

4.7 決策樹sklearn總結參考文件：中文連結英文連結 API: 中文連結英文連結 scikit-learn決策樹演算法類庫內部實現是使用了調優過的CART樹演算法，既可以做分類，又可以做迴歸。分類決策樹的類對應的是DecisionTreeClass

skiti-learn決策樹演算法庫

相關推薦