機器學習之整合學習

阿新 • • 發佈：2019-02-02

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split

1、資料載入

# 載入資料集
fruits_df = pd.read_table('fruit_data_with_colors.txt')
print(fruits_df.head())
print('樣本個數：', len(fruits_df))
# 建立目標標籤和名稱的字典
fruit_name_dict = dict(zip(fruits_df['fruit_label' 
], fruits_df['fruit_name']))
print(fruit_name_dict)
# 劃分資料集
X = fruits_df[['mass', 'width', 'height', 'color_score']]
y = fruits_df['fruit_label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1/4, random_state=0)
print('資料集樣本數：{}，訓練集樣本數：{}，測試集樣本數：{}'.format(len(X), len(X_train), len(X_test)))

2、特徵歸一化

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

for i in range(4):
    print('歸一化前，訓練資料第{}維特徵最大值：{:.3f}，最小值：{:.3f}'.format(i + 1, X_train.iloc[:, i].max(), X_train.iloc[:, i].min 
()))
    print('歸一化後，訓練資料第{}維特徵最大值：{:.3f}，最小值：{:.3f}'.format(i + 1, X_train_scaled[:, i].max(), X_train_scaled[:, i].min()))
    print()

3、資料建模

# 3.1 Stacking
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from mlxtend.classifier import StackingClassifier

clf1 = KNeighborsClassifier()
clf2 = SVC()
clf3 = DecisionTreeClassifier()
lr = LogisticRegression()

sclf = StackingClassifier(classifiers=[clf1, clf2, clf3], 
                          meta_classifier=lr)

clf1.fit(X_train_scaled, y_train)
clf2.fit(X_train_scaled, y_train)
clf3.fit(X_train_scaled, y_train)
sclf.fit(X_train_scaled, y_train)

print('kNN測試集準確率：{:.3f}'.format(clf1.score(X_test_scaled, y_test)))
print('SVM測試集準確率：{:.3f}'.format(clf2.score(X_test_scaled, y_test)))
print('DT測試集準確率：{:.3f}'.format(clf3.score(X_test_scaled, y_test)))
print('Stacking測試集準確率：{:.3f}'.format(sclf.score(X_test_scaled, y_test)))

# 3.2 AdaBoost
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import GridSearchCV
parameters = {'n_estimators': [20, 40, 60, 80, 100, 120, 140]}
clf = GridSearchCV(AdaBoostClassifier(), parameters, cv=3, scoring='accuracy')
clf.fit(X_train_scaled, y_train)
print('最優引數：', clf.best_params_)
print('驗證集最高得分：', clf.best_score_)
print('測試集準確率：{:.3f}'.format(clf.score(X_test_scaled, y_test)))

# 3.3 GBDT
from sklearn.ensemble import GradientBoostingClassifier

parameters = {'learning_rate': [0.001, 0.01, 0.1, 1, 10, 100]}
clf = GridSearchCV(GradientBoostingClassifier(), parameters, cv=3, scoring='accuracy')
clf.fit(X_train_scaled, y_train)
print('最優引數：', clf.best_params_)
print('驗證集最高得分：', clf.best_score_)
print('測試集準確率：{:.3f}'.format(clf.score(X_test_scaled, y_test)))

# 3.4 隨機森林
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

parameters = {'n_estimators':[10, 50, 100, 150, 200]}
clf = GridSearchCV(RandomForestClassifier(random_state=0), parameters, cv=3, scoring='accuracy')
clf.fit(X_train_scaled, y_train)

print('最優引數：', clf.best_params_)
print('驗證集最高得分：', clf.best_score_)
print('測試集準確率：{:.3f}'.format(clf.score(X_test_scaled, y_test)))

機器學習之整合學習（一）Ensemble Learning

一、整合學習概述整合學習通過構建並結合多個學習器來完成學習任務。通過將多個學習器結合，常可以獲得比單一學習器顯著優越的泛化效能，達到博採眾長的目的。整合學習有兩個主要的問題需要解決： 1、如何訓練每個學習器？ 2、如何融合各個學習器？二

機器學習之整合學習Ensemble

整合演算法：將多個分類器整合起來而形成的新的分類演算法。這類演算法又稱元演算法(meta-algorithm)。最常見的整合思想有兩種bagging和boosting。整合思想 : b

機器學習之整合學習（三）AdaBoost演算法scikit-learn庫

一、AdaBoost類庫概述 scikit-learn中AdaBoost類庫比較直接，就是AdaBoostClassifier和AdaBoostRegressor兩個，從名字就可以看出AdaBoostClassifier用於分類，AdaBoostRegr

機器學習之整合學習

import numpy as np import matplotlib.pyplot as plt import pandas as pd import seaborn as sns from sklearn.model_selection import

機器學習筆記-整合學習之Bagging，Boosting，隨機森林三者特性對比

整合學習的概念定義：整合學習通過構建並結合多個學習器來完成學習任務。分類：只包含同種型別的個體學習器，這樣的整合是“同質”的，例如都是神經網路或者決策樹；包含不同型別的個體學習器，這樣的整合是“異質”的，例如同時包括神經網路和決策樹。作用：整合學習通過將多個學

機器學習教程之整合學習演算法：深入刨析AdaBoost

Boosting 是一族可以將弱學習器提升為強學習器的演算法。這族演算法的工作機制類似：先從初始訓練集訓練出一個基學習器，再根據基學習器的表現對訓練樣本分佈進行調整，使得先前基學習器做錯的訓練樣本在後續受到更多的關注，然後基於調整後的樣本分佈來訓練下一個基學習器

機器學習之整合演算法

一、整合演算法目的：讓機器學習效果更好，單個機器學習演算法不行，就用多個機器演算法整合。 Bagging模型：訓練多個分類器取結果的平均　　 Boosting模型：從弱學習器開始加強，通過加權來進行訓練（加入一棵樹，要比原來強）　 Stacking模型：聚合多個分類或迴歸模型（可以分階段

機器學習之python學習（十八）

今天來學習python中的資料結構dict，這個用的也是相對的較少！！！你們也可以參考廖雪峰大神的python教學快速入門。總結下來 dict與和list比較，dict有以下幾個特點：（1）查詢和插入的速度極快，不會隨著key的增加而增加；（2）需要佔用大量的記憶體

機器學習之python學習（十九）

今天來學習python中的檔案操作這是很關鍵的，這次先學習檔案的讀寫，需要注意的是檔案的許可權的問題。總結如下最常用的許可權：許可權數量 r 開啟只讀檔案，該檔案必須存在。

機器學習之python學習（十七）

今天來學習python中的tuple、這個資料結果用的還是比較少的。當然了，你們也可以參考廖雪峰大神的python教學快速入門。程式碼塊 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : SundayC

機器學習筆記——整合學習

一，個體與整合整合學習通過構建並結合多個學習器來完成學習任務，有時也被稱為多分類器系統，基於委員會的學習。其一般結構是先產生一組“個體學習器”，再用某種策略將它們結合起來。如下圖：整合學習研究的核心是如何產生並結合“好而不同”的個體學習器。根據個體學習器的生成方式，整合

機器學習：整合學習（ensemble learning）（一）——原理概述

整合學習（ensemble learning）整合學習通過構建多個個體學習器，然後再用某種策略將他們結合起來，產生一個有較好效果的強學習器來完成任務。基本原理如下圖所示。這裡主要有三個關鍵點：個體學習器的同質異質、個體學習器的生成方式、結合策略。同質異質。首先需要明確的是個體學習器至少不差於弱學習器。

機器學習演算法--整合學習2--AdaBoost

以《機器學習實戰為例》程式設計實現AdaBoost演算法。 1.AdaBoost演算法原理 Boosting演算法主要基於多個弱學習器來構建強學習器，最終結果由多個弱學習器的加權平均決定，每個基學習器的權重並不相同，每個權重代表對應分類器在上一輪的迭代中成功度。訓練中

機器學習之監督學習supervised learning

分類與迴歸監督學習的問題主要有兩種，分別是分類classification和迴歸regression。分類：分類問題的目的是預測類別標籤class label，這些標籤來自預定義的可選列表。迴歸：迴歸任務的目的是預測一個連續值，也叫作浮點數floating-point nu

ML.NET 示例：深度學習之整合TensorFlow

　　寫在前面　　　　準備近期將微軟的machinelearning-samples翻譯成中文，水平有限，如有錯漏，請大家多多指正。　　　　如果有朋友對此感興趣，可以加入我：https://github.com/feiyun0112/machinelearning-samples.zh-cn

淺談人工智慧之機器學習，機器學習之監督學習

淺談機器學習與深度學習的區別在人類歷史發展的這個階段，我們所談的AI（artificial intelligence）主要指的是弱人工智慧（narrow AI），也就是機器可以實現幫助人類實現一些任務，比如小區入口的業主人臉識別；另外，還有一個強人工智慧（Ge

機器學習實戰---整合學習

1.整合學習內容 2.數學支撐整合學習的思想背後有比較成熟的數學理論作支撐，也即Valiant和Kearns提出的PAC (Probably approximately correct) 學習框架下的強可學習和弱可學習理論。該理論指出：在PAC 的學習框架中，

機器學習之字典學習DictionaryLearning

機器學習之字典學習DictionaryLearning # -*- coding: utf-8 -*- """ Created on Sun Dec 9 13:00:52 2018 @author: muli """ from sklearn.decomposit

R語言分類演算法之整合學習（Bootstrap Aggregating）

1.整合學習（Bootstrap Aggregating）原理分析: Bagging是Bootstrap Aggregating的縮寫,簡單來說,就是通過使用boostrap抽樣得到若干不同的訓練集,以這些訓練集分別建立模型,即得到一系列的基分類器,這些分類器

演算法梳理之整合學習

演算法梳理整合學習篇整合學習概念 Boosting and Bagging Boosting Bagging 結合策略(平均法，投票法，學習法) 平均法投票法學習法隨機森林

機器學習之整合學習

相關推薦