機器學習之決策樹----python實現

阿新 • • 發佈：2018-12-17

# -*- coding: utf-8 -*-
import numpy as np
import scipy as sp
import matplotlib.pyplot as plt
from sklearn import tree
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import classification_report
from sklearn.cross_validation import train_test_split 
plt.switch_backend('agg') 

# 資料讀入 
data = []
labels = []
with open("file_fac_abe.txt") as ifile:
	for line in ifile:
		tokens = line.strip().split(',')
		#print('tokens:',tokens)
		data.append([int(tk) for tk in tokens[:-1]])
		labels.append(tokens[-1])

x = np.array(data)
labels = np.array(labels)
y = np.zeros(labels.shape)
print('x:',x)
print(len(x))

print('labels:',labels)
print(len(labels))

print('y:',y)
print(len(y))
 
#標籤轉換為0/1
y[labels=='LCS']=1
print('y:',y)
 
#拆分訓練資料與測試資料
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2,random_state=0)

'''
print('x_train:',x_train)
print(len(x_train))
print('x_test:',x_test)
print(len(x_test))
print('y_train:',y_train)
print(len(y_train))
print('y_test:',y_test)
print(len(y_test))
'''

# 使用資訊熵作為劃分標準，對決策樹進行訓練 
clf = tree.DecisionTreeClassifier(criterion='entropy')
#print('clf:',clf)
clf.fit(x_train, y_train)
print('clf:',clf)

# 把決策樹結構寫入檔案 '''
with open("DT_fac_abe_tree.dot", 'w') as f:
	f = tree.export_graphviz(clf, out_file=f)

# 係數反映每個特徵的影響力。越大表示該特徵在分類中起到的作用越大 '''
print('clf.feature_importances_:',clf.feature_importances_)

#測試結果的列印
answer = clf.predict(x_test)

print('x_test:',x_test)
print('answer:',answer)
print('y_test:',y_test)

print('np.mean(answer==y_test):',np.mean( answer == y_test))

#準確率與召回率
precision, recall, thresholds = precision_recall_curve(y_test, clf.predict(x_test))
answer = clf.predict_proba(x_test)[:,1]
print(classification_report(y_test, answer, target_names = ['Non_LCS','LCS']))

檔案為“file_fac_abe.txt”，其格式為：

得到結果如下：

（train_set_model）

(test_results) :

機器學習之決策樹----python實現

# -*- coding: utf-8 -*- import numpy as np import scipy as sp import matplotlib.pyplot as plt from sklearn import tree from sklearn.metric

機器學習實戰——決策樹Python實現問題記錄

問題：NameError: name 'reload' is not defined import imp import trees imp.reload(trees) 結論：已經匯入過的模組才能用reload, reload的引數應該是模組名，而不是檔名。在pyhton3.x中要先匯入檔案

機器學習之決策樹（Decision Tree）及其Python程式碼實現

　　決策樹是一個預測模型；他代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的物

機器學習之決策樹演算法python實現

一. 理論基礎 1. 特徵選擇 a. 資訊熵 H(D)=−∑i=0kpilogpi b. 條件熵 H(Y|X)=∑i=0npiH(Y|X=xi) c. 資訊增益 I(D,A)=H(D)−H(D|A) d. 資訊增益比

Python機器學習之決策樹案例

# -*- coding: utf-8 -*- __author__ = 'gerry' # 先匯入所有的class import xgboost from numpy import * from s

機器學習之--決策樹遞歸算法實現

決策 def 產生直接 asi split classlist 好的 EDA import numpy as np import math #產生數據的函數 def createdatabase(): dataSet = [[1,1,‘yes‘],

機器學習之決策樹與隨機森林模型

會有 strong pytho red -s 很多 4.5 是我機器歡迎大家前往騰訊雲技術社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：汪毅雄導語本文用容易理解的語言和例子來解釋了決策樹三種常見的算法及其優劣、隨機森林的含義，相信能幫助初學者真正地理解相關知識

機器學習_決策樹Python代碼詳解

機器 one math n) sco atl return 復雜度重復決策樹優點：計算復雜度不高，輸出結果易於理解，對中間值的缺失不敏感，可以處理不相關特征數據；決策樹缺點：可能會產生過度匹配問題。決策樹的一般步驟：（1）代碼中def 1，計算給定數據集的香農熵：

機器學習之決策樹（二）

天氣次數 format 定義表示葉子節點 ast 代碼 wid 一、復習信息熵　　為了解決特征選擇問題，找出最優特征，先要介紹一些信息論裏面的概念。　　1、熵（entropy）　　　　　　　　python3代碼實現： def calcShannonEnt(

[三]機器學習之決策樹與隨機森林

3.1 目標任務 1.學習決策樹和隨機森林的原理、特性 2.學習編寫構造決策樹的python程式碼 3.學習使用sklearn訓練決策樹和隨機森林，並使用工具進行決策樹視覺化 3.2 實驗資料資料集：鳶尾花資料集，詳情見[機器學習之迴歸]的Logistic迴歸實驗 3.3

機器學習之決策樹

決策樹簡介決策樹是一種基本的分類方法，當然也可以用於迴歸。我們一般只討論用於分類的決策樹。決策樹模型呈樹形結構。在分類問題中，表示基於特徵對例項進行分類的過程，它可以認為是if-then規則的集合。在決策樹的結構中，每一個例項都被一條路徑或者一條規則所覆蓋。

機器學習之決策樹機器學習之K-近鄰演算法

　　都說萬事開頭難，可一旦開頭，就是全新的狀態，就有可能收穫自己未曾預料到的成果。從2018.12.28開始，決定跟隨《機器學習實戰》的腳步開始其征程，記錄是為了更好的監督、理解和推進，學習過程中用到的資料集和程式碼都將上傳到github 　　機器學習系列部落格：（1）機器學習之K-近鄰演算法

系統學習機器學習之決策樹

決策樹是一種實現分治策略的層次資料結構，它是一種有效的非引數學習方法，可以用於分類和迴歸。本節我們來簡單介紹決策樹的相關知識。什麼是決策樹單變數樹單變數分類樹剪枝由決策樹提取規則一、什麼是決策樹決策樹（decision tree）是一種用於監督學習的層次模型，通過這種

機器學習之決策樹演算法詳解

1-1 基本流程決策樹是一個有監督分類與迴歸演算法。決策樹的生成只考慮區域性最優，相對的，決策樹剪枝則考慮全域性最優。一、概念：決策樹：是一種樹形結構，其中每個內部節點表示一個屬性上的判斷，每個分支代表一個判斷結果的輸出，最後每個葉節點代表一

機器學習之決策樹 Decision Tree（三）scikit-learn演算法庫

1、scikit-learn決策樹演算法類庫介紹 scikit-learn決策樹演算法類庫內部實現是使用了調優過的CART樹演算法，既可以做分類，又可以做迴歸。分類決策樹的類對應的是DecisionTreeClassifier，而回歸決策樹的類對應的是D

機器學習之決策樹(ID3)

決策樹我們直觀的通關這個樹狀圖去了解一下決策樹的概念,下面這個例子是姑娘相親見不見的問題通過上面的圖我們可以看到首先這個姑娘是看相親物件的年齡問題,當年齡大於30歲就不見,小於三十歲就見以此類推形成這個深度為5的樹接下來讓我們一起復習一下我們以前學過的資料結構關於樹的基礎知識: 結點

機器學習之決策樹（Decision Tree）文字演算法的精確率

目錄背景效果圖整體流程這裡用詞向量，而不是TF-IDF預處理後的向量原始碼背景最近的專案中，用到了很多機器學習的演算法，每個機器學習的演算法在不同的樣本下的精準率是不同的。為了驗證每個演算法在每種不同樣本數

機器學習之決策樹（一）

1、演算法介紹決策樹是一種基本的分類和迴歸方法，決策樹模型呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。決策樹學習通常包括三個步驟：特徵選擇、決策樹的生成和決策樹的修剪。決策樹的本質是從訓練資料集中歸納出一組分類規則。本文主要是對決策樹的ID3演算法的介紹，後文會介紹C4.5和CART演算

筆記：機器學習之決策樹

目錄決策樹概述特徵選擇生成決策樹剪枝特徵選擇生成決策樹剪枝決策樹概述決策樹（decision tree）是功能強大的且非常好用的的分類和預測方法，它是一種有監督的學習演算法。以樹狀圖為基礎，故稱為決策樹。這裡以分類為主題。對於離

機器學習之決策樹——學習總結

決策樹學習總結機器學習的應用越來越廣泛，特別是在資料分析領域。本文是我學習決策樹演算法的一些總結。機器學習簡介機器學習 (Machine Learning) 是近 20 多年興起的一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、演

機器學習之決策樹----python實現

相關推薦