python實現隨機森林（RF）的引數尋優

阿新 • • 發佈：2019-01-01

# -*- coding: utf-8 -*-
#RandomForestClassifier
import math
import matplotlib as mpl
import warnings
import numpy as np
from sklearn import tree
from sklearn import ensemble
from sklearn import metrics
from sklearn.metrics import auc 
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import classification_report
from sklearn.cross_validation import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.externals import joblib
import matplotlib.pyplot as plt
plt.switch_backend('agg') 
warnings.filterwarnings('ignore')


# 資料讀入,劃分訓練與驗證 
def split_data(file_name,N):  #uniprot_10_1_1_lst.txt
	data = []
	labels = []
	with open(file_name,'r') as ifile:   #-*-# file's name #-*-#
		for line in ifile:
			tokens = line.strip().split(',')
			#print('tokens:',tokens)
			data.append([int(tk) for tk in tokens[:-1]])
			labels.append(tokens[-1])

	x = np.array(data)
	labels = np.array(labels)
	y = np.zeros(labels.shape)
	y[labels=='disorder']=1  #label is 'non-disorder' and 'disorder'
	#拆分Train-Valid , # test_size = N
	x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = N,random_state=0) 
	return x_train,x_test,y_train,y_test


# 引數(n_estimators and  max_features) 尋優
with open('10-1000-2-20-scores.csv','w') as f_scores:
	scores = []
	for n in range(10,1000,10):
		for m in range(2,20): 
			list_empty = []
			clf2 = RandomForestClassifier(n_estimators = n, max_features = m,
					max_depth=None,min_samples_split=2, random_state=0)
			scores2 = cross_val_score(clf2,x_train,y_train,cv=5,scoring='accuracy')
			str_w = str(n)+','+str(m)+','+str(scores2.mean())
			print(str_w)
			f_scores.write(str_w)
			f_scores.write('\n')

1.首先對原始資料進行資料集劃分，分別得到訓練與驗證資料集（及其標籤）

2.建立RF，通過爬網格，，以ACC為標準，進行引數尋優

# for example #

資料格式：

執行結果如下：

python實現隨機森林（RF）的引數尋優

# -*- coding: utf-8 -*- #RandomForestClassifier import math import matplotlib as mpl import warnings import numpy as np from sklearn import tree from

【尋優演算法】量子粒子群演算法（QPSO）引數尋優的python實現

【尋優演算法】量子粒子群演算法（QPSO）引數尋優的python實現一、粒子群演算法的缺點二、量子粒子群演算法三、QPSO演算法的python實現參考資料一、粒子群演算法的缺點本人之前的博文（參考資料【1】）已經詳細

【尋優演算法】粒子群演算法（PSO）引數尋優的python實現

【尋優演算法】粒子群演算法（PSO）引數尋優的python實現一、演算法原理 1、粒子群演算法的名詞解釋 2、粒子更新二、PSO演算法引數尋優的python實現參考資料粒子群優化演算法（Particle

【尋優演算法】量子遺傳演算法（QGA）引數尋優的python實現

【尋優演算法】量子遺傳演算法（QGA）引數尋優的python實現一、量子編碼 1、染色體量子編碼 2、量子編碼轉換為二進位制編碼二、量子進化 1、全乾擾交叉 2、量子變異三、QGA多引數

淺談隨機森林（RF）

在介紹隨機森林以前，須有決策樹（DT）的背景，決策樹在此不做介紹，這篇文章簡單介紹一下隨機森林以及優缺點。整合學習通過構建並結合多個分類器來完成學習任務。將多個學習器進行結合，常比獲得單一學習器更好的泛化效能。目前整合學習方法大致可分為兩類，即個體學習器之間存在強依賴關係，必須序列生成

【ML筆記】梯度提升決策樹（GBDT）和隨機森林（RF）的異同

GBDT和RF簡介 GBDT（Gradient Boosting Decision Tree） DT + Boosting = GBDT GBDT是一種boosting演算法。boosting工作機制：先從初始訓練集訓練處一個基學習器，然後在根據基學習器的表現對訓練樣本分佈

【尋優演算法】遺傳演算法（Genetic Algorithm）引數尋優的python實現

【尋優演算法】遺傳演算法（Genetic Algorithm）引數尋優的python實現一、遺傳演算法簡介 1、遺傳演算法由來 2、遺傳演算法名詞概念 3、遺傳演算法中對染色體的操作 3.1、選擇 3.2

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：多引數尋優

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：多引數尋優一、網格搜尋原理二、網格搜尋+交叉驗證用於多引數尋優的python實現 1、訓練模型及待尋優引數 2、直接迴圈巢狀實現網格搜尋 + cros

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：單一引數尋優

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：單一引數尋優一、交叉驗證的意義二、常用的交叉驗證方法 1、Hold one method 2、K-flod CV 3、Leave-One-Ou

機器學習演算法之隨機森林（1）pyspark.mllib中的RF

spark的persist操作可以使得資料常駐記憶體，而機器學習最主要的工作——迭代，需要頻繁地存取資料，這樣相比hadoop來說，天然地有利於機器學習。 ———- 單機版。至於叢集的搭建——現在手頭最多兩臺電腦，後面再折騰。 1、安裝pysaprk

機器學習(十三) 集成學習和隨機森林（上）

討論隨機分享圖片 inf nbsp 集成學習 bsp image mage 一、什麽是集成學習二、Soft Voting Classifier 更合理的投票，應該有的權值三、

機器學習(十三) 集成學習和隨機森林（下）

img over 是你 trees https info 入門級一點競賽五、隨機森林和 Extra-Trees 六、Ada Boosting 和 Gradient Boosting 七、Stacking

Python實現的棧（Stack）

棧是一種只能在一端進行插入和刪除操作的資料結構。前言 python本身已有順序表（List、Tupple）的實現，所以這裡從棧開始什麼是棧想象在桌子上放一摞書，這就是棧。這堆書的特點就是，最後被堆進去的，永遠在最上面。從這堆書中取出一本書，哪本最方便？還是最上面的那本。

【機器學習】決策樹與隨機森林（轉）

文章轉自： https://www.cnblogs.com/fionacai/p/5894142.html 首先，在瞭解樹模型之前，自然想到樹模型和線性模型有什麼區別呢？其中最重要的是，樹形模型是一個一個特徵進行處理，之前線性模型是所有特徵給予權重相加得到一個新的值。決

python實現隨機森林、邏輯回歸和樸素貝葉斯的新聞文本分類

ati int ces 平滑讀取 inf dict http tor 實現本文的文本數據可以在THUCTC下載也可以自己手動爬蟲生成，本文主要參考：https://blog.csdn.net/hao5335156/article/details/82716923 nb表

實戰：用Python實現隨機森林

因為有Scikit-Learn這樣的庫，現在用Python實現任何機器學習演算法都非常容易。實際上，我們現在不需要任何潛在的知識來了解模型如何工作。雖然不需要了解所有細節，但瞭解模型如何訓練和預測對工作仍有幫助。比如：如果效能不如預期，我們可以診斷模型或當我們想要說服其他人使用我們的模型時，我們可以向他們解

卡爾曼濾波器的兩種python實現方法：（1）opencv自帶的cv2.KalmanFilter （2）pykalman演算法庫

預備知識：卡爾曼濾波的理論知識：具體的理論知識可參考以下博文，非常感謝相關博主的貢獻：以一個滑鼠追蹤的任務分析兩種卡爾曼濾波的實現方式：（一）opencv自帶的cv2.KalmanFilter 該卡爾曼濾波器演算法分為兩個階段：預測

實戰：用Python實現隨機森林！

因為有 Scikit-Learn 這樣的庫，現在用Python實現任何機器學習演算法都非常容易。實際上，我們現在不需要任何潛在的知識來了解模型如何工作。雖然不需要了解所有細節，但瞭解模型如何訓練和預測對工作仍有幫助。比如：如果效能不如預期，我們可以診斷模型或當我們想要說服其他人使用我們的模型時，我們

應用統計學與R語言實現學習筆記（五）——引數估計

Chapter 5 Estimation 本篇是第五章，內容是引數估計。 1.引數估計的一般問題正如前面介紹的，統計學的兩大分支，分別是描述統計和推斷統計。所以今天來談談推斷統計的第一大問題——引數估計。當然一般叫統計推斷的會更多些，二者是一樣

python實現隨機森林

定義：隨機森林指的是利用多棵決策樹對樣本進行訓練並預測的一種分類器。可迴歸可分類。所以隨機森林是基於多顆決策樹的一種整合學習演算法，常見的決策樹演算法主要有以下幾種： 1. ID3：使用資訊增益g(D,A)進行特徵選擇 2. C4.5：資訊增益率

python實現 隨機森林（RF）的引數尋優

相關推薦

python實現隨機森林（RF）的引數尋優