【機器學習】Python sklearn包的使用示例以及引數調優示例

阿新 • • 發佈：2019-01-07

# coding=utf-8
# !/usr/bin/env python
'''''
【說明】
1.當前sklearn版本0.18
2.sklearn自帶的鳶尾花資料集樣例：
（1）樣本特徵矩陣（型別：numpy.ndarray）
 [[ 6.7  3.   5.2  2.3]
 [ 6.3  2.5  5.   1.9]
 [ 6.5  3.   5.2  2. ]
 [ 6.2  3.4  5.4  2.3]
 [ 5.9  3.   5.1  1.8]]
 每行是一個樣本，矩陣行數=樣本總數，矩陣列數=每個樣本特徵數
 （2）樣本類別矩陣（型別：numpy.ndarray）
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
 每個元素對應一個樣本的類標
 3.本地excel表的資料集樣例：
class0  p1  p2  p3  p4  p5  p6  p7
0   0   0   0   1   0   0   0
0   5   9   10  10  0   1   1
0   0   1   1   0   0   1   0
0   0   1   1   0   0   1   0
每行是一個樣本，每行第一個元素是樣本所屬類別，後續元素是樣本的特徵
'''
import os
import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn import preprocessing
from sklearn import neighbors
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn import svm
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedKFold
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from time import time
from sklearn.naive_bayes import MultinomialNB
from sklearn import tree
from sklearn.ensemble import GradientBoostingClassifier

#讀取sklearn自帶的資料集（鳶尾花）
def getData_1():
    iris = datasets.load_iris()
    X = iris.data   #樣本特徵矩陣，150*4矩陣，每行一個樣本，每個樣本維度是4
    y = iris.target #樣本類別矩陣，150維行向量，每個元素代表一個樣本的類別

#讀取本地excel表格內的資料集（抽取每類60%樣本組成訓練集，剩餘樣本組成測試集）
#返回一個元祖，其內有4個元素（型別均為numpy.ndarray）：
#（1）歸一化後的訓練集矩陣，每行為一個訓練樣本，矩陣行數=訓練樣本總數，矩陣列數=每個訓練樣本的特徵數
#（2）每個訓練樣本的類標
#（3）歸一化後的測試集矩陣，每行為一個測試樣本，矩陣行數=測試樣本總數，矩陣列數=每個測試樣本的特徵數
#（4）每個測試樣本的類標
#【注】歸一化採用“最大最小值”方法。
def getData_2():
    fPath = 'F:/cleanData_dropSJS.csv'
    if os.path.exists(fPath):
        data = pd.read_csv(fPath,header=None,skiprows=1,names=['class0','pixel0','pixel1','pixel2','pixel3','pixel4','pixel5', 'pixel6'])
        X_train1, X_test1, y_train1, y_test1 = train_test_split(data, data['class0'], test_size = 0.4, random_state = 0)
        min_max_scaler = preprocessing.MinMaxScaler()   #歸一化
        X_train_minmax = min_max_scaler.fit_transform(np.array(X_train1))
        X_test_minmax = min_max_scaler.fit_transform(np.array(X_test1))
        return (X_train_minmax, np.array(y_train1), X_test_minmax, np.array(y_test1))
    else:
        print 'No such file or directory!'

#讀取本地excel表格內的資料集（每類隨機生成K個訓練集和測試集的組合）
#【K的含義】假設一共有1000個樣本，K取10，那麼就將這1000個樣本切分10份（一份100個），那麼就產生了10個測試集
#對於每一份的測試集，剩餘900個樣本即作為訓練集
#結果返回一個字典：鍵為集合編號（1train, 1trainclass, 1test, 1testclass, 2train, 2trainclass, 2test, 2testclass...），值為資料
#其中1train和1test為隨機生成的第一組訓練集和測試集（1trainclass和1testclass為訓練樣本類別和測試樣本類別），其他以此類推
def getData_3():
    fPath = 'F:/cleanData_dropSJS.csv'
    if os.path.exists(fPath):
        #讀取csv檔案內的資料，
        dataMatrix = np.array(pd.read_csv(fPath,header=None,skiprows=1,names=['class0','pixel0','pixel1','pixel2','pixel3','pixel4','pixel5', 'pixel6']))
        #獲取每個樣本的特徵以及類標
        rowNum, colNum = dataMatrix.shape[0], dataMatrix.shape[1]
        sampleData = []
        sampleClass = []
        for i in range(0, rowNum):
            tempList = list(dataMatrix[i,:])
            sampleClass.append(tempList[0])
            sampleData.append(tempList[1:])
        sampleM = np.array(sampleData)  #二維矩陣，一行是一個樣本，行數=樣本總數，列數=樣本特徵數
        classM = np.array(sampleClass)  #一維列向量，每個元素對應每個樣本所屬類別
        #呼叫StratifiedKFold方法生成訓練集和測試集
        skf = StratifiedKFold(n_splits = 10)
        setDict = {}    #建立字典，用於儲存生成的訓練集和測試集
        count = 1
        for trainI, testI in skf.split(sampleM, classM):
            trainSTemp = [] #用於儲存當前迴圈抽取出的訓練樣本資料
            trainCTemp = [] #用於儲存當前迴圈抽取出的訓練樣本類標
            testSTemp = []  #用於儲存當前迴圈抽取出的測試樣本資料
            testCTemp = []  #用於儲存當前迴圈抽取出的測試樣本類標
            #生成訓練集
            trainIndex = list(trainI)
            for t1 in range(0, len(trainIndex)):
                trainNum = trainIndex[t1]
                trainSTemp.append(list(sampleM[trainNum, :]))
                trainCTemp.append(list(classM)[trainNum])
            setDict[str(count) + 'train'] = np.array(trainSTemp)
            setDict[str(count) + 'trainclass'] = np.array(trainCTemp)
            #生成測試集
            testIndex = list(testI)
            for t2 in range(0, len(testIndex)):
                testNum = testIndex[t2]
                testSTemp.append(list(sampleM[testNum, :]))
                testCTemp.append(list(classM)[testNum])
            setDict[str(count) + 'test'] = np.array(testSTemp)
            setDict[str(count) + 'testclass'] = np.array(testCTemp)
            count += 1
        return setDict
    else:
        print 'No such file or directory!'

#K近鄰（K Nearest Neighbor）
def KNN():
    clf = neighbors.KNeighborsClassifier()
    return clf

#線性鑑別分析（Linear Discriminant Analysis）
def LDA():
    clf = LinearDiscriminantAnalysis()
    return clf

#支援向量機（Support Vector Machine）
def SVM():
    clf = svm.SVC()
    return clf

#邏輯迴歸（Logistic Regression）
def LR():
    clf = LogisticRegression()
    return clf

#隨機森林決策樹（Random Forest）
def RF():
    clf = RandomForestClassifier()
    return clf

#多項式樸素貝葉斯分類器
def native_bayes_classifier():
    clf = MultinomialNB(alpha = 0.01)
    return clf

#決策樹
def decision_tree_classifier():
    clf = tree.DecisionTreeClassifier()
    return clf

#GBDT
def gradient_boosting_classifier():
    clf = GradientBoostingClassifier(n_estimators = 200)
    return clf

#計算識別率
def getRecognitionRate(testPre, testClass):
    testNum = len(testPre)
    rightNum = 0
    for i in range(0, testNum):
        if testClass[i] == testPre[i]:
            rightNum += 1
    return float(rightNum) / float(testNum)

#report函式，將調參的詳細結果儲存到本地F盤（路徑可自行修改，其中n_top是指定輸出前多少個最優引數組合以及該組合的模型得分）
def report(results, n_top=5488):
    f = open('F:/grid_search_rf.txt', 'w')
    for i in range(1, n_top + 1):
        candidates = np.flatnonzero(results['rank_test_score'] == i)
        for candidate in candidates:
            f.write("Model with rank: {0}".format(i) + '\n')
            f.write("Mean validation score: {0:.3f} (std: {1:.3f})".format(
                  results['mean_test_score'][candidate],
                  results['std_test_score'][candidate]) + '\n')
            f.write("Parameters: {0}".format(results['params'][candidate]) + '\n')
            f.write("\n")
    f.close()

#自動調參（以隨機森林為例）
def selectRFParam():
    clf_RF = RF()
    param_grid = {"max_depth": [3,15],
                  "min_samples_split": [3, 5, 10],
                  "min_samples_leaf": [3, 5, 10],
                  "bootstrap": [True, False],
                  "criterion": ["gini", "entropy"],
                  "n_estimators": range(10,50,10)}
                  # "class_weight": [{0:1,1:13.24503311,2:1.315789474,3:12.42236025,4:8.163265306,5:31.25,6:4.77326969,7:19.41747573}],
                  # "max_features": range(3,10),
                  # "warm_start": [True, False],
                  # "oob_score": [True, False],
                  # "verbose": [True, False]}
    grid_search = GridSearchCV(clf_RF, param_grid=param_grid, n_jobs=4)
    start = time()
    T = getData_2()    #獲取資料集
    grid_search.fit(T[0], T[1]) #傳入訓練集矩陣和訓練樣本類標
    print("GridSearchCV took %.2f seconds for %d candidate parameter settings."
          % (time() - start, len(grid_search.cv_results_['params'])))
    report(grid_search.cv_results_)

#“主”函式1（KFold方法生成K個訓練集和測試集，即資料集採用getData_3()函式獲取，計算這K個組合的平均識別率）
def totalAlgorithm_1():
    #獲取各個分類器
    clf_KNN = KNN()
    clf_LDA = LDA()
    clf_SVM = SVM()
    clf_LR = LR()
    clf_RF = RF()
    clf_NBC = native_bayes_classifier()
    clf_DTC = decision_tree_classifier()
    clf_GBDT = gradient_boosting_classifier()
    #獲取訓練集和測試集
    setDict = getData_3()
    setNums = len(setDict.keys()) / 4  #一共生成了setNums個訓練集和setNums個測試集，它們之間是一一對應關係
    #定義變數，用於將每個分類器的所有識別率累加
    KNN_rate = 0.0
    LDA_rate = 0.0
    SVM_rate = 0.0
    LR_rate = 0.0
    RF_rate = 0.0
    NBC_rate = 0.0
    DTC_rate = 0.0
    GBDT_rate = 0.0
    for i in range(1, setNums + 1):
        trainMatrix = setDict[str(i) + 'train']
        trainClass = setDict[str(i) + 'trainclass']
        testMatrix = setDict[str(i) + 'test']
        testClass = setDict[str(i) + 'testclass']
        #輸入訓練樣本
        clf_KNN.fit(trainMatrix, trainClass)
        clf_LDA.fit(trainMatrix, trainClass)
        clf_SVM.fit(trainMatrix, trainClass)
        clf_LR.fit(trainMatrix, trainClass)
        clf_RF.fit(trainMatrix, trainClass)
        clf_NBC.fit(trainMatrix, trainClass)
        clf_DTC.fit(trainMatrix, trainClass)
        clf_GBDT.fit(trainMatrix, trainClass)
        #計算識別率
        KNN_rate += getRecognitionRate(clf_KNN.predict(testMatrix), testClass)
        LDA_rate += getRecognitionRate(clf_LDA.predict(testMatrix), testClass)
        SVM_rate += getRecognitionRate(clf_SVM.predict(testMatrix), testClass)
        LR_rate += getRecognitionRate(clf_LR.predict(testMatrix), testClass)
        RF_rate += getRecognitionRate(clf_RF.predict(testMatrix), testClass)
        NBC_rate += getRecognitionRate(clf_NBC.predict(testMatrix), testClass)
        DTC_rate += getRecognitionRate(clf_DTC.predict(testMatrix), testClass)
        GBDT_rate += getRecognitionRate(clf_GBDT.predict(testMatrix), testClass)
    #輸出各個分類器的平均識別率（K個訓練集測試集，計算平均）
    print
    print
    print
    print('K Nearest Neighbor mean recognition rate: ', KNN_rate / float(setNums))
    print('Linear Discriminant Analysis mean recognition rate: ', LDA_rate / float(setNums))
    print('Support Vector Machine mean recognition rate: ', SVM_rate / float(setNums))
    print('Logistic Regression mean recognition rate: ', LR_rate / float(setNums))
    print('Random Forest mean recognition rate: ', RF_rate / float(setNums))
    print('Native Bayes Classifier mean recognition rate: ', NBC_rate / float(setNums))
    print('Decision Tree Classifier mean recognition rate: ', DTC_rate / float(setNums))
    print('Gradient Boosting Decision Tree mean recognition rate: ', GBDT_rate / float(setNums))

#“主”函式2（每類前x%作為訓練集，剩餘作為測試集，即資料集用getData_2()方法獲取，計算識別率）
def totalAlgorithm_2():
    #獲取各個分類器
    clf_KNN = KNN()
    clf_LDA = LDA()
    clf_SVM = SVM()
    clf_LR = LR()
    clf_RF = RF()
    clf_NBC = native_bayes_classifier()
    clf_DTC = decision_tree_classifier()
    clf_GBDT = gradient_boosting_classifier()
    #獲取訓練集和測試集
    T = getData_2()
    trainMatrix, trainClass, testMatrix, testClass = T[0], T[1], T[2], T[3]
    #輸入訓練樣本
    clf_KNN.fit(trainMatrix, trainClass)
    clf_LDA.fit(trainMatrix, trainClass)
    clf_SVM.fit(trainMatrix, trainClass)
    clf_LR.fit(trainMatrix, trainClass)
    clf_RF.fit(trainMatrix, trainClass)
    clf_NBC.fit(trainMatrix, trainClass)
    clf_DTC.fit(trainMatrix, trainClass)
    clf_GBDT.fit(trainMatrix, trainClass)
    #輸出各個分類器的識別率
    print('K Nearest Neighbor recognition rate: ', getRecognitionRate(clf_KNN.predict(testMatrix), testClass))
    print('Linear Discriminant Analysis recognition rate: ', getRecognitionRate(clf_LDA.predict(testMatrix), testClass))
    print('Support Vector Machine recognition rate: ', getRecognitionRate(clf_SVM.predict(testMatrix), testClass))
    print('Logistic Regression recognition rate: ', getRecognitionRate(clf_LR.predict(testMatrix), testClass))
    print('Random Forest recognition rate: ', getRecognitionRate(clf_RF.predict(testMatrix), testClass))
    print('Native Bayes Classifier recognition rate: ', getRecognitionRate(clf_NBC.predict(testMatrix), testClass))
    print('Decision Tree Classifier recognition rate: ', getRecognitionRate(clf_DTC.predict(testMatrix), testClass))
    print('Gradient Boosting Decision Tree recognition rate: ', getRecognitionRate(clf_GBDT.predict(testMatrix), testClass))

if __name__ == '__main__':
    print('K個訓練集和測試集的平均識別率')
    totalAlgorithm_1()
    print('每類前x%訓練，剩餘測試，各個模型的識別率')
    totalAlgorithm_2()
    selectRFParam()
    print('隨機森林引數調優完成！')

'''
【輸出結果】
K個訓練集和測試集的平均識別率
('K Nearest Neighbor mean recognition rate: ', 0.48914314291650945)
('Linear Discriminant Analysis mean recognition rate: ', 0.5284076063968655)
('Support Vector Machine mean recognition rate: ', 0.5271199740575014)
('Logistic Regression mean recognition rate: ', 0.5620828985391165)
('Random Forest mean recognition rate: ', 0.512993404168108)
('Native Bayes Classifier mean recognition rate: ', 0.4467074333715003)
('Decision Tree Classifier mean recognition rate: ', 0.47351209424438706)
('Gradient Boosting Decision Tree mean recognition rate: ', 0.5603633086892212)
每類前x%訓練，剩餘測試，各個模型的識別率
('K Nearest Neighbor recognition rate: ', 0.9892818863879957)
('Linear Discriminant Analysis recognition rate: ', 1.0)
('Support Vector Machine recognition rate: ', 0.8928188638799571)
('Logistic Regression recognition rate: ', 0.8494105037513398)
('Random Forest recognition rate: ', 0.9801714898177921)
('Native Bayes Classifier recognition rate: ', 0.7604501607717041)
('Decision Tree Classifier recognition rate: ', 1.0)
('Gradient Boosting Decision Tree recognition rate: ', 1.0)
GridSearchCV took 69.51 seconds for 288 candidate parameter settings.
隨機森林引數調優完成！
'''

【總結】如果你直接跑我的程式碼需要修改的地方：
（1）程式碼最前面各種匯入的模組你是否已經正確安裝？
（2）getData_2()和getData_3()函式內的fPath變數，即資料來源檔案路徑
（3）如果需要引數調優，設定儲存結果的檔案路徑，程式碼中在report()函式的第一行

【機器學習】Python sklearn包的使用示例以及引數調優示例

# coding=utf-8 # !/usr/bin/env python ''''' 【說明】 1.當前sklearn版本0.18 2.sklearn自帶的鳶尾花資料集樣例：（1）樣本特徵矩陣（型別：numpy.ndarray） [[ 6.7 3. 5.2 2

Python sklearn包的使用示例以及引數調優示例

coding=utf-8 !/usr/bin/env python ””’ 【說明】 1.當前sklearn版本0.18 2.sklearn自帶的鳶尾花資料集樣例：（1）樣本特徵矩陣（型別：numpy.ndarray） [[ 6.7 3. 5.2 2.3] [ 6.3

【機器學習】python第三方模組lda包呼叫程式碼

# coding=utf-8 # !/usr/bin/env python ''' 【資料來源樣例】詞語1 詞語2 詞語3 詞語4 詞語5 詞語6 詞語7 詞語8 詞語9 詞語1 詞語2 詞語3 詞語4 詞語5 詞語1 詞語2 詞語3 詞語4 詞語5 詞語6 詞語7 ……

【機器學習】Python 快速入門筆記

python 筆記基礎 Python 快速入門筆記Xu An 2018-3-7 1、Python print#在Python3.X中使用print（）進行輸出，而2.x中使用（）會報錯 print("hello world") print('I\'m a

【機器學習】基於sklearn-MLP多層感知機例項

在之前的【【深度學習】DNN神經網路模型】一文中弄清楚MLP基礎由來，本次進一步基於sklearn機器學習庫來實現該過程。首先看一下簡單的MLP例項：下面同樣基於手寫MNIST資料集來進行MLP例項： MLP引數眾多，以下一一說明： hidden_layer_sizes :元祖格式，長度

【機器學習】Bregman迭代演算法以及證明

Bregman系列演算法是近幾年在影象處理和壓縮感知領域異軍突起的演算法，能夠更好地從現有資料中還原真實目標結果。我們可以構造優化模型argminH(u)+J(u)來還原真實目標資料，一般理解為H(u)是我們的目標最小化模型，常用的有H(u)=1/2(Au−Y)

【機器學習】使用Python的自然語言工具包（NLTK）對Reddit新聞標題進行情感分析

讓我們使用Reddit API獲取新聞標題並執行情感分析在我上一篇文章中，使用Python進行K-Means聚類，我們只是抓取了一些預編譯資料，但是對於這篇文章，我想更深入地瞭解一些實時資料。使用Reddit API，我們可以從各種新聞subreddit獲得成千上萬的

【機器學習】Weighted LSSVM原理與Python實現：LSSVM的稀疏化改進

【機器學習】Weighted LSSVM原理與Python實現：LSSVM的稀疏化改進一、LSSVM 1、LSSVM用於迴歸 2、LSSVM模型的缺點二、WLSSVM的數學原理三、WLSSVM的python實現參

【機器學習】最小二乘法支援向量機LSSVM的數學原理與Python實現

【機器學習】最小二乘法支援向量機LSSVM的數學原理與Python實現一、LSSVM數學原理 1. 感知機 2. SVM 3. LSSVM 4. LSSVM與SVM的區別二、LSSVM的py

【機器學習】Apriori演算法——原理及程式碼實現（Python版）

Apriopri演算法 Apriori演算法在資料探勘中應用較為廣泛，常用來挖掘屬性與結果之間的相關程度。對於這種尋找資料內部關聯關係的做法，我們稱之為：關聯分析或者關聯規則學習。而Apriori演算法就是其中非常著名的演算法之一。關聯分析，主要是通過演算法在大規模資料集中尋找頻繁項集和關聯規則。

【機器學習】使用Python中的區域性敏感雜湊（LSH）構建推薦引擎

學習如何使用LSH在Python中構建推薦引擎; 一種可以處理數十億行的演算法你會學到：在本教程結束時，讀者可以學習如何：通過建立帶狀皰疹來檢查和準備LSH的資料選擇LSH的引數為LSH建立Minhash 使用LSH Query推薦會議論文使用LSH

【機器學習】基於python對大資料量CSV進行操作

在我們日常學習之中，往往會遇到各種各樣的資料。但有時候其龐大的資料量，使得我們無法使用一般的辦公軟體進行操作，與此同時直接將所有資料取到記憶體之中，也有存在溢位的風險。所以，在這種情況下，採用逐行存取的方式對資料進行操作是十分必要的。本文簡單的使用python最為基礎的函式實

【機器學習演算法-python實現】決策樹-Decision tree（1）資訊熵劃分資料集

1.背景決策書演算法是一種逼近離散數值的分類演算法，思路比較簡單，而且準確率較高。國際權威的學術組織，資料探勘國際會議ICDM （the IEEE International Con

【機器學習】C++與OpenCV、Tensorflow-python聯合呼叫

　　上一篇我介紹了C++呼叫Python的入門方法。這一篇我講述C++與OpenCV、Tensorflow-python聯合呼叫的一次成功的實驗過程。　　C++通過python呼叫tensorflow，比呼叫C++版本的tensorflow的優勢在於：ten

【機器學習】【層次聚類演算法-1】HCA(Hierarchical Clustering Alg)的原理講解 + 示例展示數學求解過程

層次聚類(Hierarchical Clustering)是聚類演算法的一種，通過計算不同類別資料點間的相似度來建立一棵有層次的巢狀聚類樹。在聚類樹中，不同類別的原始資料點是樹的最低層，樹的頂層是一個聚類的根節點。建立聚類樹有自下而上合併和自上而下分裂兩種方法，本篇文章介紹合併方法。層次聚類的合併演算法層次聚

【機器學習】5種距離度量方法詳解+Python實現([]+lambda+np.frompyfunc+向量法等多種方法實現)

介紹的五種距離度量方法是：歐氏距離(Euclidean Distance)，曼哈頓距離(Manhattan Distance)，夾角餘弦(Angle Cosine)，切比雪夫距離(Chebyshev Distance)，漢明距離(Hamming Distance)。1.歐式距

【機器學習演算法-python實現】KNN-k近鄰演算法的實現（附原始碼）

下載地址 kNN演算法及例項原始碼實現#coding=utf-8 ''' Created on Sep 16, 2010 kNN: k Nearest Neighbors Input: inX: vector to compare to existing dataset (1xN)

【機器學習演算法-python實現】邏輯迴歸的實現(LogicalRegression)

1.背景知識在剛剛結束的天貓大資料s1比賽中，邏輯迴歸是大家都普遍使用且效果不錯的一種演算法。（1）迴歸先來說說什麼是迴歸，比如說我們有兩類資料，各有50十個點組成，當我門把這些點畫出

【機器學習演算法-python實現】svm支援向量機(3)—核函式

1.背景知識前面我們提到的資料集都是線性可分的，這樣我們可以用SMO等方法找到支援向量的集合。然而當我們遇到線性不可分的資料集時候，是不是svm就不起作用了呢？這裡用到了一種方法叫做核函式，它將低

【機器學習演算法-python實現】K-means無監督學習實現分類

''' @author: hakuri ''' from numpy import * import matplotlib.pyplot as plt def loadDataSet(fileName): #general function to parse tab -delimited float

【機器學習】Python sklearn包的使用示例以及引數調優示例

相關推薦