《Python機器學習及實踐》----監督學習經典模型

阿新 • • 發佈：2019-02-10

本片部落格是根據《Python機器學習及實踐》一書中的例項，所有程式碼均在本地編譯通過。資料為從該書指定的百度網盤上下載的，或者是sklearn自帶資料下載到本地使用的。
程式碼片段：

import pandas as pd
import numpy as np
column_names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape', 'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei' 
, 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class']
data=pd.read_csv('D:\Source Code\machinelearn\\breast-cancer-wisconsin.txt',sep=',', names=column_names)
data = data.replace(to_replace='?', value=np.nan)
data = data.dropna(how='any')
data.shape
from sklearn.cross_validation import train_test_split
X_train,X_test,Y_train,Y_test = train_test_split(data[column_names[1 
:10]],data[column_names[10]],test_size=0.25,random_state=33)
Y_train.value_counts()
Y_test.value_counts()
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDClassifier
ss = StandardScaler()
X_train = ss.fit_transform(X_train)
X_test = ss.transform(X_test)
lr = LogisticRegression()
sgdc = SGDClassifier()
lr.fit(X_train,Y_train)
lr_y_predict = lr.predict(X_test)
sgdc.fit(X_train,Y_train)
sgdc_y_predict = sgdc.predict(X_test)
from 
 sklearn.metrics import classification_report
print 'Accuracy of LR Classifier:', lr.score(X_test,Y_test)
print classification_report(Y_test,lr_y_predict,target_names=['Benign','Malignant'])
print 'Accuracy of SGD Classifier:',sgdc.score(X_test,Y_test)
print classification_report(Y_test,sgdc_y_predict,target_names=['Benign','Malignant'])

from sklearn.datasets import load_digits
digits = load_digits()
digits.data.shape
from sklearn.cross_validation import train_test_split
x_train,x_test,y_train,y_test = train_test_split(digits.data,digits.target,test_size=0.25,random_state=33)
y_train.shape
y_test.shape
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC
ss = StandardScaler()
x_train = ss.fit_transform(x_train)
x_test = ss.transform(x_test)
lsvc = LinearSVC()
lsvc.fit(x_train,y_train)
y_predict = lsvc.predict(x_test)
from sklearn.metrics import classification_report
print 'The Accuracy of Linear SVC is ',lsvc.score(x_test,y_test)
print classification_report(y_test,y_predict,target_names=digits.target_names.astype(str))

from sklearn.datasets import fetch_20newsgroups
news = fetch_20newsgroups()
print len(news.data)
print news.data[0]
from sklearn.cross_validation import train_test_split
x_train,x_test,y_train,y_test = train_test_split(news.data,news.target,test_size=0.25,random_state=33)
from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer()
x_train = vec.fit_transform(x_train)
x_test = vec.transform(x_test)
from sklearn.naive_bayes import MultinomialNB
mnb = MultinomialNB()
mnb.fit(x_train,y_train)
y_predict = mnb.predict(x_test)
from sklearn.metrics import classification_report
print 'The Accuracy of Naive Bayes Classifier is ',mnb.score(x_test,y_test)
print classification_report(y_test,y_predict,target_names=news.target_names)

from sklearn.datasets import load_iris
iris = load_iris()
iris.data.shape
print iris.DESCR
from sklearn.cross_validation import train_test_split
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.25,random_state=33)
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
ss = StandardScaler()
x_train = ss.fit_transform(x_train)
x_test = ss.transform(x_test)
knc = KNeighborsClassifier()
knc.fit(x_train,y_train)
y_predict = knc.predict(x_test)
print 'The Accuracy of K-Nearest Neighbor Classifier is ',knc.score(x_test,y_test)
from sklearn.metrics import classification_report
print classification_report(y_test,y_predict,target_names=iris.target_names)

import pandas as pd
titanic = pd.read_csv('D:\Source Code\machinelearn\\titanic.txt')
titanic.head()
titanic.info()
X = titanic[['pclass','age','sex']]
Y = titanic['survived']
X.info()
X['age'].fillna(X['age'].mean(),inplace=True)
X.info()
from sklearn.cross_validation import train_test_split
x_train,x_test,y_train,y_test = train_test_split(X,Y,test_size=0.25,random_state=33)
from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer(sparse=False)
x_train = vec.fit_transform(x_train.to_dict(orient='record'))
print vec.feature_names_
x_test = vec.transform(x_test.to_dict(orient='record'))
from sklearn.tree import DecisionTreeClassifier
dtc = DecisionTreeClassifier()
dtc.fit(x_train,y_train)
y_predict= dtc.predict(x_test)
from sklearn.metrics import classification_report
print dtc.score(x_test,y_test)
print classification_report(y_predict,y_test,target_names=['died','survived'])

import pandas as pd
titanic = pd.read_csv('D:\Source Code\machinelearn\\titanic.txt')
X = titanic[['pclass','age','sex']]
Y = titanic['survived']
X['age'].fillna(X['age'].mean(),inplace=True)
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.25, random_state = 33)
from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer(sparse=False)
X_train = vec.fit_transform(X_train.to_dict(orient='record'))
X_test = vec.transform(X_test.to_dict(orient='record'))
from sklearn.tree import DecisionTreeClassifier
dtc = DecisionTreeClassifier()
dtc.fit(X_train, y_train)
dtc_y_pred = dtc.predict(X_test)
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)
rfc_y_pred = rfc.predict(X_test)
from sklearn.ensemble import GradientBoostingClassifier
gbc = GradientBoostingClassifier()
gbc.fit(X_train, y_train)
gbc_y_pred = gbc.predict(X_test)
from sklearn.metrics import classification_report
print 'The accuracy of decision tree is', dtc.score(X_test, y_test)
print classification_report(dtc_y_pred, y_test)
print 'The accuracy of random forest classifier is', rfc.score(X_test, y_test)
print classification_report(rfc_y_pred, y_test)
print 'The accuracy of gradient tree boosting is', gbc.score(X_test, y_test)
print classification_report(gbc_y_pred, y_test)

#線性迴歸
from sklearn.datasets import load_boston
boston = load_boston()
print boston.DESCR
from sklearn.cross_validation import train_test_split
import numpy as np
X = boston.data
Y = boston.target
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.25, random_state = 33)
print "The max target value is ", np.max(boston.target)
print "The min target value is ", np.min(boston.target)
print "The average target value is", np.mean(boston.target)
from sklearn.preprocessing import StandardScaler
ss_X = StandardScaler()
ss_Y = StandardScaler()
X_train = ss_X.fit_transform(X_train)
X_test = ss_X.transform(X_test)
Y_train = ss_Y.fit_transform(Y_train)
Y_test = ss_Y.transform(Y_test)
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X_train,Y_train)
lr_y_predict = lr.predict(X_test)
from sklearn.linear_model import SGDRegressor
sgdr = SGDRegressor()
sgdr.fit(X_train,Y_train)
sgdr_y_predict = sgdr.predict(X_test)
print 'The value of default measurement of LinearRegression is', lr.score(X_test, Y_test)
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
print 'The value of R-squared of LinearRegression is', r2_score(Y_test, lr_y_predict)
print 'The mean squared error of LinearRegression is', mean_squared_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(lr_y_predict))
print 'The mean absoluate error of LinearRegression is', mean_absolute_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(lr_y_predict))

print 'The value of default measurement of SGDRegressor is', sgdr.score(X_test, Y_test)
print 'The value of R-squared of SGDRegressor is', r2_score(Y_test, sgdr_y_predict)
print 'The mean squared error of SGDRegressor is', mean_squared_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(sgdr_y_predict))
print 'The mean absoluate error of SGDRegressor is', mean_absolute_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(sgdr_y_predict))

from sklearn.svm import SVR
linear_svr = SVR(kernel='linear')
linear_svr.fit(X_train,Y_train)
linear_svr_y_predict = linear_svr.predict(X_test)
poly_svr = SVR(kernel='poly')
poly_svr.fit(X_train,Y_train)
poly_svr_y_predict = poly_svr.predict(X_test)
rbf_svr = SVR(kernel='rbf')
rbf_svr.fit(X_train,Y_train)
rbf_svr_y_predict = rbf_svr.predict(X_test)
from sklearn.metrics import r2_score,mean_absolute_error,median_absolute_error
print 'R-squared value of linear SVR is', linear_svr.score(X_test, Y_test)
print 'The mean squared error of linear SVR is', mean_squared_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(linear_svr_y_predict))
print 'The mean absoluate error of linear SVR is', mean_absolute_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(linear_svr_y_predict))
print 'R-squared value of Poly SVR is', poly_svr.score(X_test, Y_test)
print 'The mean squared error of Poly SVR is', mean_squared_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(poly_svr_y_predict))
print 'The mean absoluate error of Poly SVR is', mean_absolute_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(poly_svr_y_predict))
print 'R-squared value of RBF SVR is', rbf_svr.score(X_test, Y_test)
print 'The mean squared error of RBF SVR is', mean_squared_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(rbf_svr_y_predict))
print 'The mean absoluate error of RBF SVR is', mean_absolute_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(rbf_svr_y_predict))

from sklearn.neighbors import KNeighborsRegressor
uni_knr = KNeighborsRegressor(weights='uniform')
uni_knr.fit(X_train,Y_train)
uni_knr_y_predict = uni_knr.predict(X_test)
dis_knr = KNeighborsRegressor(weights='distance')
dis_knr.fit(X_train,Y_train)
dis_knr_y_predict = dis_knr.predict(X_test)
print 'R-squared value of uniform-weighted KNeighorRegression:', uni_knr.score(X_test, Y_test)
print 'The mean squared error of uniform-weighted KNeighorRegression:', mean_squared_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(uni_knr_y_predict))
print 'The mean absoluate error of uniform-weighted KNeighorRegression', mean_absolute_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(uni_knr_y_predict))
print 'R-squared value of distance-weighted KNeighorRegression:', dis_knr.score(X_test, Y_test)
print 'The mean squared error of distance-weighted KNeighorRegression:', mean_squared_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(dis_knr_y_predict))
print 'The mean absoluate error of distance-weighted KNeighorRegression:', mean_absolute_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(dis_knr_y_predict))

from sklearn.tree import DecisionTreeRegressor
dtr = DecisionTreeRegressor()
dtr.fit(X_train,Y_train)
dtr_y_predict = dtr.predict(X_test)
print 'R-squared value of DecisionTreeRegressor:', dtr.score(X_test, Y_test)
print 'The mean squared error of DecisionTreeRegressor:', mean_squared_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(dtr_y_predict))
print 'The mean absoluate error of DecisionTreeRegressor:', mean_absolute_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(dtr_y_predict))

from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor, GradientBoostingRegressor
# 使用RandomForestRegressor訓練模型，並對測試資料做出預測，結果儲存在變數rfr_y_predict中。
rfr = RandomForestRegressor()
rfr.fit(X_train, Y_train)
rfr_y_predict = rfr.predict(X_test)
# 使用ExtraTreesRegressor訓練模型，並對測試資料做出預測，結果儲存在變數etr_y_predict中。
etr = ExtraTreesRegressor()
etr.fit(X_train, Y_train)
etr_y_predict = etr.predict(X_test)
# 使用GradientBoostingRegressor訓練模型，並對測試資料做出預測，結果儲存在變數gbr_y_predict中。
gbr = GradientBoostingRegressor()
gbr.fit(X_train, Y_train)
gbr_y_predict = gbr.predict(X_test)
# 使用R-squared、MSE以及MAE指標對預設配置的隨機迴歸森林在測試集上進行效能評估。
print 'R-squared value of RandomForestRegressor:', rfr.score(X_test, Y_test)
print 'The mean squared error of RandomForestRegressor:', mean_squared_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(rfr_y_predict))
print 'The mean absoluate error of RandomForestRegressor:', mean_absolute_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(rfr_y_predict))
# 使用R-squared、MSE以及MAE指標對預設配置的極端迴歸森林在測試集上進行效能評估。\n",
print 'R-squared value of ExtraTreesRegessor:', etr.score(X_test, Y_test)
print 'The mean squared error of  ExtraTreesRegessor:', mean_squared_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(etr_y_predict))
print 'The mean absoluate error of ExtraTreesRegessor:', mean_absolute_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(etr_y_predict))
# 利用訓練好的極端迴歸森林模型，輸出每種特徵對預測目標的貢獻度。
print np.sort(zip(etr.feature_importances_, boston.feature_names), axis=0)
# 使用R-squared、MSE以及MAE指標對預設配置的梯度提升迴歸樹在測試集上進行效能評估。
print 'R-squared value of GradientBoostingRegressor:', gbr.score(X_test, Y_test)
print 'The mean squared error of GradientBoostingRegressor:', mean_squared_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(gbr_y_predict))
print 'The mean absoluate error of GradientBoostingRegressor:', mean_absolute_error(ss_Y.inverse_transform(Y_test), ss_Y.inverse_transform(gbr_y_predict))

其中陣列讀資料有一處有問題，報錯如下：

No handlers could be found for logger "sklearn.datasets.twenty_newsgroups"

解決方法如下：
首先手動下載 http://qwone.com/~jason/20Newsgroups/20news-bydate.tar.gz 這個包，
在……\賬戶名\scikit_learn_data，將下載的包放在該目錄下，
之後找到twenty_newsgroups.py檔案，該檔案主要通過這個包來線上下載，我們這裡手動下載，然後註釋相關程式碼即可。
找到這個函式 download_20newsgroups，註釋以下程式碼

if os.path.exists(archive_path):
        # Download is not complete as the .tar.gz file is removed after
        # download.
        logger.warn("Download was incomplete, downloading again.")
        os.remove(archive_path)

    logger.warn("Downloading dataset from %s (14 MB)", URL)
    opener = urlopen(URL)
    open(archive_path, 'wb').write(opener.read())

觀察以下程式碼，是將下載的檔案解壓，所以我們註釋掉上面線上下載即可

logger.info("Decompressing %s", archive_path)
tarfile.open(archive_path, "r:gz").extractall(path=target_dir)
os.remove(archive_path)

儲存，執行相關匯入資料集程式，最終可以發現……r\賬戶名\scikit_learn_data目錄下只剩下
20news-bydate.pkz檔案，以後在執行程式就不需要重新下載了。

有監督學習及無監督學習的區別

有監督的過程為先通過已知的樣本來訓練得到一個最優的模型，再將這個模型應用在新的資料上，對映為輸出結果，使得模型具有預知能力。無監督沒有訓練過程，直接拿資料進行建模分析。有監督的核心是分類，無監督的核心是聚類。有監督的工作是選擇分類器和確定權值，無監督的工作是密度估計，即只要知道如何計算相

《Python機器學習及實踐》----監督學習經典模型

本片部落格是根據《Python機器學習及實踐》一書中的例項，所有程式碼均在本地編譯通過。資料為從該書指定的百度網盤上下載的，或者是sklearn自帶資料下載到本地使用的。程式碼片段： import pandas as pd import numpy as

《Python機器學習及實踐》----無監督學習之資料聚類

本片部落格是根據《Python機器學習及實踐》一書中的例項，所有程式碼均在本地編譯通過。資料為從該書指定的百度網盤上下載的，或者是sklearn自帶資料下載到本地使用的。程式碼片段： # coding: utf-8 # 分別匯入numpy、matplot

[python機器學習及實踐(6)]Sklearn實現主成分分析（PCA）

相關性 hit 變量 gray tran total 空間 mach show 1.PCA原理主成分分析（Principal Component Analysis，PCA），是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量，轉換後的這組

重回機器學習-《python機器學習及實踐》讀書筆記二

一.三個率機器學習模型訓練好之後，會在樣本外進行測試，然後我們可以得到三個“率”：準確率召回率精確率其實這些也沒有什麼大不了的，大家如果學習

PYTHON機器學習及實踐_從零開始通往KAGGLE競賽之路pdf

【下載地址】本書面向所有對機器學習與資料探勘的實踐及競賽感興趣的讀者，從零開始，以Python程式語言為基礎，在不涉及大量數學模型與複雜程式設計知識的前提下，逐步帶領讀者熟悉並且掌握當下最流行的機器學習、數learn作為基礎機器學習工具；第3章進階篇，涉及怎樣藉助高階技術或者模型進一步提升既有機器學習系統的

python機器學習及實踐學習筆記1-如何開啟ipynb字尾檔案

python機器學習及實踐學習筆記1-如何開啟ipynb字尾檔案 2017年02月22日 14:58:08 hustzhoutian 閱讀數：45365更多個人分類：深度學習需要安裝ipython notebook，如果你已經安裝Anaconda

Python機器學習及實踐——基礎篇11（迴歸樹）

迴歸樹在選擇不同特徵作為分裂節點的策略上，與基礎篇6的決策樹的思路類似。不同之處在於，迴歸樹葉節點的資料型別不是離散型，而是連續型。決策樹每個葉節點依照訓練資料表現的概率傾向決定了其最終的預測類；而回歸樹的葉節點確實一個個具體的值，從預測值連續這個意義上嚴格地講，迴歸樹不能成

Python機器學習及實踐——基礎篇7（分類整合模型）

常言道：“一個籬笆三個樁，一個好漢三個幫”。整合分類模型便是綜合考量多個分類器的預測結果，從而做出決策。只是這種“綜合考量”的方式大體上分為兩種：一種是利用相同的訓練資料同時搭建多個獨立的分類模型，然後通過投票的方式，以少數服從多數的原則作出最終的分類決策。比

Python機器學習及實踐——基礎篇10（K近鄰迴歸）

在基礎篇5中提到裡這類模型不需要訓練引數的特點。在迴歸任務重，k近鄰（迴歸）模型同樣只是藉助周圍K個最近訓練樣本的目標數值，對待測樣本的迴歸值進行決策。自然，也衍生出衡量待測樣吧迴歸值的不同方式，即到底是對K個近鄰目標數值使用普通的算術平均演算法，還是同時考慮距離的差

《Python機器學習及實踐》----模型實用技巧

本片部落格是根據《Python機器學習及實踐》一書中的例項，所有程式碼均在本地編譯通過。資料為從該書指定的百度網盤上下載的，或者是sklearn自帶資料下載到本地使用的。程式碼片段： measurements = [{'city': 'Dubai',

python機器學習及實踐第二章的2.1.2.1線性迴歸器程式報錯Reshape your data either using array.reshap(-1,1)的原因及解決方法

最近在看Python機器學習及實踐（從零開始kaggle競賽之路）這本書，到了第二章的線性迴歸器的GradientBoostingRegressor模型照著敲程式碼的時候出現了以下的錯誤出錯的問題在於標準化函式這裡。可見fit_tran

《python機器學習及實踐-從零開始通往kaggle競賽之路（程式碼Python 3.6 版）》chapter1.1

import pandas as pd #匯入pandas 庫 df_train = pd.read_csv('../Datasets/Breast-Cancer/breast-cancer-train.csv') #讀取目錄下的資料,如果程式碼與檔案路徑不在一起，則需要另行設定 df_test = pd

Python機器學習及實踐+從零開始通往Kaggle競賽之路

提升 google 技巧 pythonh href site 幫助 target panda 內容簡介本書面向所有對機器學習與數據挖掘的實踐及競賽感興趣的讀者，從零開始，以Python編程語言為基礎，在不涉及大量數學模型與復雜編程知識的前提下，逐

【機器學習】1 監督學習應用與梯度下降

例如 tla ges 機器 fprintf lns 找到輸入 style 監督學習簡單來說監督學習模型如圖所示其中 x是輸入變量又叫特征向量 y是輸出變量又叫目標向量通常的我們用（x,y）表示一個樣本而第i個樣本用（x（i），y（i））表示 h是輸出函

MQTT協議學習及實踐（Linux服務端，Android客戶端的例子）

nbsp hub 設備 log config cati href 10.10.4 rmi 前言 MQTT(Message Queuing Telemetry Transport),是一個物聯網傳輸協議，它被設計用於輕量級的發布/訂閱式消息傳輸，旨在為低帶寬和不穩定

從軟件project的角度寫機器學習3——主要監督學習算法的project性分析

求解大戰 dsm 二次它的 mar 集成 href .info 主要機器學習算法的project適用性分析前段時間AlphaGo跟李世石的大戰及相關的深度學

機器學習知識點01-監督學習

結果 you 組成都是直線擬合表示 idt 選擇分類問題從這篇隨筆開始是觀看斯坦福大學（吳恩達）機器學習課程，個人覺得課程講的非常棒，也很容易理解，特此總結知識點筆記。筆記如下：我們應用學習算法，可以在這

易百教程人工智能python修正-人工智能監督學習（回歸）

plot imp repr sin 人工智能 ima 多變量修正 shel 回歸是最重要的統計和機器學習工具之一。我們認為機器學習的旅程從回歸開始並不是錯的。它可以被定義為使我們能夠根據數據做出決定的參數化技術，或者換言之，允許通過學習輸入和輸出變量之間的關系來基於數

吳恩達機器學習筆記2-監督學習

word ins problems 一個 should regress ssi pri read 英文; Supervised Learning 　　In supervised learning, we are given a data set and already kn

《Python機器學習及實踐》----監督學習經典模型

相關推薦