機器學習之XGBoost分類器XGBClassifier-- xgb使用sklearn介面

阿新 • • 發佈：2018-12-23

機器學習之XGBoost分類器XGBClassifier

# -*- coding: utf-8 -*-
"""
Created on Tue Dec  4 20:48:14 2018

@author: muli
"""

'''
    xgb使用sklearn介面(推薦)--官方:
    會改變的函式名是：
    eta -> learning_rate
    lambda -> reg_lambda
    alpha -> reg_alpha
    
    #引數
    
    params = { 'booster': 'gbtree', 
               'objective': 'multi:softmax', # 多分類的問題 
               'num_class': 10, # 類別數，與 multisoftmax 並用 
               'gamma': 0.1, # 用於控制是否後剪枝的引數,越大越保守，一般0.1、0.2這樣子。 
               'max_depth': 12, # 構建樹的深度，越大越容易過擬合 
               'reg_lambda': 2, # 控制模型複雜度的權重值的L2正則化項引數，引數越大，模型越不容易過擬合。 
               'subsample': 0.7, # 隨機取樣訓練樣本 
               'colsample_bytree': 0.7, # 生成樹時進行的列取樣 
               'min_child_weight': 3, 
               'silent': 1, # 設定成1則沒有執行資訊輸出，最好是設定為0. 
               'learning_rate': 0.007, # 如同學習率 
               'reg_alpha':0, # L1 正則項引數
               'seed': 1000, 
               'nthread': 4, # cpu 執行緒數 
              }
    
    # 迴歸
    # m_regress = xgb.XGBRegressor(n_estimators=1000,seed=0)
'''


from sklearn.model_selection import train_test_split
from sklearn import metrics
from  sklearn.datasets  import  make_hastie_10_2
from xgboost.sklearn import XGBClassifier

# make_hastie_10_2:
#    產生一個相似的二元分類器資料集，有10個維度
X, y = make_hastie_10_2(random_state=0)
# X：(12000, 10)
# y：(12000,)

# test_size測試集合所佔比例
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
clf = XGBClassifier(
        #樹的個數
        n_estimators=100,
        # 如同學習率
        learning_rate= 0.3, 
        # 構建樹的深度，越大越容易過擬合    
        max_depth=6, 
        # 隨機取樣訓練樣本 訓練例項的子取樣比
        subsample=1, 
        # 用於控制是否後剪枝的引數,越大越保守，一般0.1、0.2這樣子
        gamma=0, 
        # 控制模型複雜度的權重值的L2正則化項引數，引數越大，模型越不容易過擬合。
        reg_lambda=1,  
        
        #最大增量步長，我們允許每個樹的權重估計。
        max_delta_step=0,
        # 生成樹時進行的列取樣 
        colsample_bytree=1, 

        # 這個引數預設是 1，是每個葉子裡面 h 的和至少是多少，對正負樣本不均衡時的 0-1 分類而言
        # 假設 h 在 0.01 附近，min_child_weight 為 1 意味著葉子節點中最少需要包含 100 個樣本。
        #這個引數非常影響結果，控制葉子節點中二階導的和的最小值，該引數值越小，越容易 overfitting。
        min_child_weight=1, 

        #隨機種子
        seed=1000 
        
        # L1 正則項引數
#        reg_alpha=0,
        
        #如果取值大於0的話，在類別樣本不平衡的情況下有助於快速收斂。平衡正負權重
        #scale_pos_weight=1,
        
        #多分類的問題 指定學習任務和相應的學習目標
        #objective= 'multi:softmax', 
        
        # 類別數，多分類與 multisoftmax 並用
        #num_class=10,
        
        # 設定成1則沒有執行資訊輸出，最好是設定為0.是否在執行升級時列印訊息。
#        silent=0 ,
        # cpu 執行緒數 預設最大
#        nthread=4,
    
        #eval_metric= 'auc'
)

# 模型 訓練
clf.fit(X_train,y_train,eval_metric='auc')
# 預測值
y_pred=clf.predict(X_test)
# 真實值 賦值
y_true= y_test

# 計算精度
print("Accuracy : %.4g" % metrics.accuracy_score(y_true, y_pred))

機器學習之XGBoost分類器XGBClassifier-- xgb使用sklearn介面

機器學習之XGBoost分類器XGBClassifier # -*- coding: utf-8 -*- """ Created on Tue Dec 4 20:48:14 2018 @author: muli """ ''' xgb使用sklearn介面

機器學習之線性分類器（Linear Classifiers）——腫瘤預測例項

線性分類器：一種假設特徵與分類結果存線上性關係的模型。該模型通過累加計算每個維度的特徵與各自權重的乘積來幫助決策。 # 匯入pandas與numpy工具包。 import pandas as pd import numpy as np # 建立特徵列表。 column_n

機器學習之kNN分類kneighbors_classifier

機器學習之kNN分類kneighbors_classifier # -*- coding: utf-8 -*- """ Created on Sun Nov 25 12:04:15 2018 @author: muli """ import numpy as np

OpenCV機器學習：SVM分類器實現MNIST手寫數字識別

0. 開發環境最近機器學習隨著AI人工智慧的興起越來越火，博主想找一些ML的庫來練手。突然想起之前在看Opencv的doc時發現有ML的component，於是心血來潮就開始寫程式碼試試。話不多說，直接進正題。以下我的開發環境配置： -Windows7

機器學習常用的分類器比較-例項

這篇學習文章是在上一篇部落格（http://blog.csdn.net/july_sun/article/details/53088673）的基礎上，從機器學習的四要素（資料，演算法和模型，計算機硬體，機器學習平臺）角度出發用例項將各個分類器做一比較，下面就開始這段程式碼的

Python機器學習之XGBoost從入門到實戰(基本理論說明)

Xgboost從基礎到實戰 XGBoost:eXtreme Gradient Boosting * 應用機器學習領域的一個強有力的工具 * Gradient Booting Machines(GBM)的優化表現，快速有效 —深盟

機器學習之路： python 實踐提升樹 XGBoost 分類器

git mac class form 樹模型機器 AS sta imp git: https://github.com/linyi0604/MachineLearning 數據集被我下載到本地，可以去我的git上拿數據集 XGBoost提升分類器屬於集成學習模型

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

機器學習之路: python k近鄰分類器鳶尾花分類預測

ber AD uda classes them cal col rds esc 使用python語言學習k近鄰分類器的api 歡迎來到我的git查看源代碼: https://github.com/linyi0604/kaggle 1 from sklearn

機器學習之伯努利貝葉斯分類器bernoulliNB

機器學習之伯努利貝葉斯分類器bernoulliNB # -*- coding: utf-8 -*- """ Created on Sun Nov 25 11:45:17 2018 @author: muli """ from sklearn import naive

機器學習之多項式貝葉斯分類器multinomialNB

機器學習之多項式貝葉斯分類器multinomialNB # -*- coding: utf-8 -*- """ Created on Sun Nov 25 11:28:25 2018 @author: muli """ from sklearn import nai

機器學習之高斯貝葉斯分類器gaussianNB

機器學習之高斯貝葉斯分類器gaussianNB # -*- coding: utf-8 -*- """ Created on Sun Nov 25 10:55:17 2018 @author: muli """ from sklearn import naive_b

機器學習之樸素貝葉斯分類器附C++程式碼

一、基本概念：先驗概率(prior probability)：是指根據以往經驗和分析得到的概率，如全概率公式，它往往作為"由因求果"問題中的"因"出現的概率。比如，拋一枚硬幣，正面朝上的概率P(A)=1/2,就是先驗概率。聯合概率：表示兩個事件共同發生的概率。A與B的

機器學習之旅---SVM分類器

本次內容主要講解什麼是支援向量，SVM分類是如何推導的，最小序列SMO演算法部分推導。最後給出線性和非線性2分類問題的smo演算法matlab實現程式碼。一、什麼是支援向量機(Support Vector Machine) 本節內容部

吳恩達機器學習之最優間隔分類器

最優間隔分類器定義目標函式: hw,b=g(wTx+b)，g(z)={10z≥0z<0，y∈{−1,1} 定義函式間隔： Υ−i=yi(wTxi+b) 定

機器學習之分類器的進階

專案中我用到的分類器是隨機森林。理解隨機森林，我先po一篇論文。George Vosselman教授的 http://www.sciencedirect.com/science/article/pii/S0924271616306207 這裡面用到的分類器是CRF以

機器學習之樸素貝葉斯分類器實現

問題如下比如：有如下的需求，要判斷某一句英語是不是侮辱性語句分析思路對於機器來說，可能不容易分辨出某一句話是不是侮辱性的句子，但是機器可以機械的進行分析，何為機械的進行分析，就是判斷某一個句子中侮辱性的單詞是不是達到一定數量（當然這

機器學習之分類器——Matlab中各種分類器的使用總結（隨機森林、支援向量機、K近鄰分類器、樸素貝葉斯等）

Matlab中常用的分類器有隨機森林分類器、支援向量機（SVM）、K近鄰分類器、樸素貝葉斯、整合學習方法和鑑別分析分類器等。各分類器的相關Matlab函式使用方法如下：首先對以下介紹中所用到的一些變數做統一的說明： train_data——訓練樣本，矩陣的每

sklearn機器學習之邏輯迴歸分類器

物以類聚，人以群分。是非黑白，金木水火。乾坤陰陽，寒暑燥溼。 import numpy as np import matplotlib.pyplot as plt from sklearn import linear_model #訓練資

機器學習之分類問題實戰(基於UCI Bank Marketing Dataset)

表示般的機構文件 cnblogs opened csv文件 mas htm 導讀：分類問題是機器學習應用中的常見問題，而二分類問題是其中的典型，例如垃圾郵件的識別。本文基於UCI機器學習數據庫中的銀行營銷數據集，從對數據集進行探索，數據預處理和特征工程，到學習

機器學習之XGBoost分類器XGBClassifier-- xgb使用sklearn介面

相關推薦