用決策樹(CART)解決iris分類問題

阿新 • • 發佈：2018-06-10

datasets oba 可能 rom art PE 子集花卉調用

首先先看Iris數據集

Sepal.Length——花萼長度 Sepal.Width——花萼寬度

Petal.Length——花瓣長度 Petal.Width——花瓣寬度

通過上述4中屬性可以預測花卉屬於Setosa，Versicolour，Virginica 三個種類中的哪一類

決策樹 by CART

決策樹有挺多種，這裏講下CART

CART的執行過程是這樣的：

用特征值k和下限tk二分子集
不斷二分，直到到達最大深度或者劃分不能再減少不純度為止

這一下sklearn都會自動幫我們完成，我們調用就行了

如何避免過擬合問題

減小最大深度等等

一個tip：

? min_* 的調大

? max_*的調小

? 就是DecisionTreeClassifier裏面的參數，具體看文檔_(:з」∠)_

損失函數的比較

sklearn提供了兩種損失函數gini和entropy

gini是通過計算每個節點的不純度，具體公式如下↓

\(J(k,t_k) = \frac{m_{left}}{m}G_{left} + \frac{m_{right}}{m}G_{right}\)

entropy在這裏就不再贅述了

sklearn默認的是調用gini，因為gini的速度會快點，而且兩者最後的效果是差不多的，真要比的話entropy產生的決策樹會更平衡點

接下來我們來看代碼

from sklearn.datasets import 
 load_iris
from sklearn.tree import DecisionTreeClassifier
import numpy as np

iris = load_iris()
X = iris.data[:, 2:] # petal length and width
y = iris.target     #目標值

tree_clf = DecisionTreeClassifier(max_depth=2, random_state=42) #定義最大深度和確定隨機種子
tree_clf.fit(X, y)  #訓練
print(tree_clf.predict_proba([[5 
, 1.5]]))   #預測返回的是可能性

#以上代碼運行後將會產生如下輸出 [[ 0.          0.90740741  0.09259259]]
#分別代表屬於每一種類別可能的概率
#也可以用如下代碼
print(tree_clf.predict[[5,1.5]])    #直接輸出屬於哪一類

看下上面生成的決策樹的樣子

技術分享圖片

註：

? valuse是它劃分到各個類的數量

? samples 指的是當前節點的數據個數

? 從左表橙色的點可以看出，gini=0意味著劃分到了相同的類別裏面

ps.以上代碼及圖片來自《Hands-On Machine Learning with Scikit-Learn》一書

如需轉載請註明出處

**喜歡要不支持下_(:з」∠)_**

用決策樹(CART)解決iris分類問題

datasets oba 可能 rom art PE 子集花卉調用首先先看Iris數據集 Sepal.Length——花萼長度 Sepal.Width——花萼寬度 Petal.Length——花瓣長度 Petal.Width——花瓣寬度通過上述4中屬性可以預測花卉屬

機器學習：決策樹cart演算法在分類與迴歸的應用（上）

#include #include #include #include #include #include #include #include #include #include #include using namespace std; //置信水平取0.95時的卡方表 const double CHI

[Java][機器學習]用決策樹分類演算法對Iris花資料集進行處理

Iris Data Set是很經典的一個數據集，在很多地方都能看到，一般用於教學分類演算法。這個資料集在UCI Machine Learning Repository裡可以找到（還是下載量排第一的資料喲）。這個資料集裡面，每個資料都包含4個值(sepal len

基於決策樹模型對 IRIS 資料集分類

基於決策樹模型對 IRIS 資料集分類文章目錄基於決策樹模型對 IRIS 資料集分類 1 python 實現載入資料集視覺化資料集分類和預測計算準確率 2 基於MATLA

用DecisionTree決策樹來求取分類閾值

在二分類任務中，我們經常需要根據概率值來確定類別。通常的方法是設定0.5的中間閾值，但是在一些不平衡的任務中，我們並不知道閾值應該設定為多少，這時可以簡單的利用決策樹的方法，視覺化的來求得最優閾值。當然你也可以用一個簡單的神經網路來擬合這個閾值。下面就是py

模式識別：分類迴歸決策樹CART的研究與實現

摘要：本實驗的目的是學習和掌握分類迴歸樹演算法。CART提供一種通用的樹生長框架，它可以例項化為各種各樣不同的判定樹。CART演算法採用一種二分遞迴分割的技術，將當前的樣本集分為兩個子樣本集，使得生成的決策樹的每個非葉子節點都有兩個分支。因此，CART演

決策樹（三）分類算法小結

最大的可靠 dot 記錄依賴基礎判定樹每一個循環調用引言　　本文主要是對分類型決策樹的一個總結。在分類問題中，決策樹可以被看做是if-then規則的結合，也可以認為是在特定特征空間與類空間上的條件概率分布。決策樹學習主要分為三個步驟：特征選擇、決策樹的生成與

決策樹—CART演算法及剪枝處理

前言：上篇博文已經介紹了ID3、C4.5生成決策樹的演算法。由於上文使用的測試資料以及建立的模型都比較簡單，所以其泛化能力很好。但是，當訓練資料量很大的時候，建立的決策樹模型往往非常複雜，樹的深度很大。此時雖然對訓練資料擬合得很好，但是其泛化能力即預測新資料的能力並不一定很好，也就是出現了過擬合現象

利用Python sklearn庫裡的決策樹模型生成決策樹圖片以及測試分類的準確度

本案例利用sklearn自帶的資料集，選取房子經緯度作為特徵引數來對標籤進行分類。也用切分的資料訓練模型來進行特徵引數的選擇得到最好的測試準確度。 Python原始碼： #!/usr/bin/env python # encoding: utf-8 """ @Company：華中科技大

決策樹（三）分類演算法小結

引言　　本文主要是對分型別決策樹的一個總結。在分類問題中，決策樹可以被看做是if-then規則的結合，也可以認為是在特定特徵空間與類空間上的條件概率分佈。決策樹學習主要分為三個步驟：特徵選擇、決策樹的生成與剪枝操作。本文簡單總結ID3和C4.5演算法，之後是決策樹的修剪。 ID3演算法　　ID3演算法和核

決策樹-CART迴歸樹

1、什麼是CART？ CART，又名分類迴歸樹，是在ID3的基礎上進行優化的決策樹，學習CART記住以下幾個關鍵點：（1）CART既能是分類樹，又能是分類樹；（2）當CART是分類樹時，採用GINI值作為節點分裂的依據；當CART是迴歸樹時，採用樣本的最小方差作為節

機器學習決策樹：提煉出分類器演算法

，用到決策樹一般都會出現過擬合問題，因此需要對決策樹進行剪枝，闡述了常用的幾種剪枝的方法（這些方法都出現在了sklearn的決策樹建構函式的引數中），後面總結了sklearn調包分析用決策樹做分類和迴歸的幾個例子，下面通過一個簡單的例子，提煉出構建一棵分類決策樹的演算法思想，進一步體會下決策樹的分類原

Python實現決策樹對西瓜進行分類

使用的周志華老師書上的例子，因為習主席講過一切不給資料集的演算法都是耍流氓，所以我這裡先給出資料集： 0,色澤,根蒂,敲聲,紋理,臍部,觸感,密度,含糖率,好瓜 1,青綠,蜷縮,濁響,清晰,凹陷,硬滑,0.697,0.46,是 2,烏黑,蜷縮,沉悶,清晰,凹陷,硬滑

Python資料探勘入門與實踐---用決策樹預測獲勝球隊

參考書籍：《Python資料探勘入門與實踐》 1.載入資料集：使用pandas載入資料集，有1319行資料， 8個特徵，檢視前5項資料集，並查詢是否有重複資料 #coding=gbk #使用決策樹來預測獲勝球隊 import time start =

Matlab自帶的分類學習工具箱（SVM、決策樹、Knn等分類器）

在matlab中，既有各種分類器的訓練函式，比如“fitcsvm”，也有圖形介面的分類學習工具箱，裡面包含SVM、決策樹、Knn等各類分類器，使用非常方便。接下來講講如何使用。啟動：點選“應用程式”，在面板中找到“Classification Lea

決策樹——CART——之R語言rpart包

R是一種用於統計計算與作圖的開源軟體，同時也是一種程式語言，它廣泛應用於企業和學術界的資料分析領域，正在成為最通用的語言之一。由於近幾年資料探勘、大資料等概念的走紅，R也越來越多的被人關注。一、環境準備作業系統windows 下載安裝R 地址：http://mirror

決策樹實戰專案-鳶尾花分類

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

機器學習系列：（五）決策樹——非線性迴歸與分類

和猜猜看一樣，決策樹也是通過對解釋變數序列的逐條測試獲取響應變數結果的。那麼，哪個解釋變數應該先測試？直覺觀察會發現，解釋變數集合包含所有貓或者所有狗的測試，比既包含貓又包含狗的解釋變數集合的測試要好。如果子整合員種類不同，我們還是不能確定種類。我們還需要避免建立那種測試，把單獨的一隻貓或一條狗分離出

Spark 2.x 決策樹示例程式碼-IRIS資料集

資料集下載下載連結程式碼 package Iris; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import o

決策樹CART與ID3,C4.5聯絡與區別

CART與ID3和C4.5相同都由特徵選擇，樹的生成，剪枝組成。但ID3和C4.5用於分類，CART可用於分類與迴歸。 CART是在給定輸入隨機變數X條件下輸出隨機變數Y的條件概率分佈，與ID3和C4.5的決策樹所不同的是，ID3和C4.5生成的決策樹可以是多

用決策樹(CART)解決iris分類問題

首先先看Iris數據集

決策樹 by CART

如何避免過擬合問題

損失函數的比較

接下來我們來看代碼

看下上面生成的決策樹的樣子

相關推薦