使用Sklearn模組建立聚類、迴歸、分類模型並評價

阿新 • • 發佈：2018-12-17

資料預處理和降維

首先來學習下載入資料集、劃分資料集、資料預處理以及PCA降維

# 載入資料集
from sklearn.datasets import load_boston

boston = load_boston()
boston_data = boston['data']
boston_target = boston['target']
boston_names = boston['feature_names']
print('boston資料集資料形狀為：', boston_data.shape)
print('boston資料集標籤形狀為：', boston_target.shape) 

print('boston資料集特徵名形狀為：', boston_names.shape)

# 劃分資料集
from sklearn.model_selection import train_test_split
import numpy as np

boston_data_train, boston_data_test, \
boston_target_train, boston_target_test = \
    train_test_split(boston_data, boston_target,
                     test_size=0.2, random_state= 
42)
print('訓練集資料的形狀為：', boston_data_train.shape)
print('訓練集標籤的形狀為：', boston_target_train.shape)
print('測試集資料的形狀為：', boston_data_test.shape)
print('測試集標籤的形狀為：', boston_target_test.shape)

# 使用sklearn的轉換器進行資料預處理
from sklearn.preprocessing import StandardScaler

stdScaler = StandardScaler().fit(boston_data_train) 

boston_trainScaler = stdScaler.transform(boston_data_train)
boston_testScaler = stdScaler.transform(boston_data_test)
print('標準差標準化後訓練集資料的方差', np.var(boston_trainScaler))
print('標準差標準化後訓練集資料的均值', np.mean(boston_trainScaler))
print('標準差標準化後測試集資料的均值', np.var(boston_testScaler))
print('標準差標準化後測試集資料的均值', np.mean(boston_testScaler))

# 使用轉換器進行PCA降維
from sklearn.decomposition import PCA

pca = PCA(n_components=5).fit(boston_trainScaler)
boston_trainPca=pca.transform(boston_trainScaler)
boston_testPca=pca.transform(boston_testScaler)
print('降維後訓練集形狀：',boston_trainPca.shape)
print('降維後測試集形狀：',boston_testPca.shape)

執行結果如圖 在這裡插入圖片描述

聚類模型的構建與評價

聚類演算法中我們以kmeans為例對種子資料進行分析，並建立模型並評價

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

seeds = pd.read_csv('f:/data/seeds_dataset.txt', sep='\t')
# 處理資料
seeds_data = seeds.iloc[:, :7].values
seeds_target = seeds.iloc[:, 7].values
seeds_names = seeds.columns[:7]
stdScale = StandardScaler().fit(seeds_data)
seeds_dataScale = stdScale.transform(seeds_data)

# 構建並訓練模型
kmeans = KMeans(n_clusters=3, random_state=42).fit(seeds_data)
print('構建的kmeans模型為：', kmeans)

# 評價模型
from sklearn.metrics import calinski_harabaz_score

for i in range(2, 7):
    kmeans = KMeans(n_clusters=i, random_state=123).fit(seeds_data)
    score = calinski_harabaz_score(seeds_data, kmeans.labels_)
    print('seeds資料聚%d類calinski_harabaz指數為：%f' % (i, score))

結果如圖在這裡插入圖片描述 執行結果顯示，在聚類數目為3時，calinski_harabaz指數最大，聚類效果最好

分類模型的構建與評價(對鮑魚年齡特徵進行預測)

分類模型中我們以SVM為例對鮑魚年齡特徵進行分析

import pandas as pd
from sklearn.svm import SVC
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

abalone = pd.read_csv('f:/data/abalone.data', sep=',')
abalone_data = abalone.iloc[:, :8]
abalone_target = abalone.iloc[:, 8]

# 連續型特徵離散化
sex = pd.get_dummies(abalone_data['sex'])
abalone_data = pd.concat([abalone_data, sex], axis=1)
abalone_data.drop('sex', axis=1, inplace=True)

# 劃分訓練集、測試集
abalone_data_train, abalone_data_test, \
abalone_target_train, abalone_target_test = \
    train_test_split(abalone_data, abalone_target,
                     train_size=0.2, random_state=42)

# 標準化
abaloneScaler = StandardScaler().fit(abalone_data_train)
abalone_data_train_std = abaloneScaler.transform(abalone_data_train)
abalone_data_test_std = abaloneScaler.transform(abalone_data_test)

# 降維
pca = PCA(n_components=6).fit(abalone_data_train_std)
abalone_data_train_pca = pca.transform(abalone_data_train_std)
abalone_data_test_pca = pca.transform(abalone_data_test_std)

# 建模
svm_abalone = SVC().fit(abalone_data_train_pca, abalone_target_train)

# 評價
abalone_target_pre = svm_abalone.predict(abalone_data_test_pca)
print('svm的分類報告為：\n',
      classification_report(abalone_target_test, abalone_target_pre))

結果如圖在這裡插入圖片描述 結果表明對9的預測效果較好，其他較為欠缺

構建線性迴歸模型並評價

線性迴歸模型中我們以梯度提升迴歸樹模型為例對房價資料進行分析建模並評價

import pandas as pd
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split

house = pd.read_csv('f:/data/cal_housing.data', sep=',')
house_data = house.iloc[:, :-1]
house_target = house.iloc[:, -1]
house_train,house_test,\
house_target_train,house_target_test=\
    train_test_split(house_data,house_target,
                     test_size=0.2,random_state=42)
GBR_house=GradientBoostingRegressor().fit(house_train,house_target_train)
print(GBR_house)

#評價
house_target_pre=GBR_house.predict(house_test)
from sklearn.metrics import explained_variance_score,\
    mean_absolute_error,mean_squared_error,\
    median_absolute_error,r2_score
print('梯度提升迴歸樹模型的平均絕對誤差為：',mean_absolute_error(house_target_test,house_target_pre))
print('梯度提升迴歸樹模型的均方誤差為：',mean_squared_error(house_target_test,house_target_pre))
print('梯度提升迴歸樹模型的中值絕對誤差為：',median_absolute_error(house_target_test,house_target_pre))
print('梯度提升迴歸樹模型的可解釋方差值為：',explained_variance_score(house_target_test,house_target_pre))
print('梯度提升迴歸樹模型的R^2值為：',r2_score(house_target_test,house_target_pre))

結果如下在這裡插入圖片描述結果表明本次構建的梯度提升迴歸樹模型的平均絕對誤差和均方誤差相對合理，且可解釋方差值和R^2值較接近1，故本次構建的模型是一個較為有效的模型。

使用Sklearn模組建立聚類、迴歸、分類模型並評價

資料預處理和降維首先來學習下載入資料集、劃分資料集、資料預處理以及PCA降維 # 載入資料集 from sklearn.datasets import load_boston boston = load_boston() boston_data = bost

搞懂迴歸和分類模型的評價指標的計算：混淆矩陣，ROC，AUC，KS，SSE，R-square，Adjusted R-Square

今天看到某同學總結了迴歸和分類模型的評價指標，兩篇部落格講的特別清楚，看完後以前的疑惑都解除了，收穫很大，加一點補充，整理出來方便以後檢視，藍色的大標題是原文連結。對於迴歸模型效果的判斷指標經過了幾個過程，從SSE到R-square再到Ajusted

sklearn庫：分類、迴歸、聚類、降維、模型優化、文字預處理實現用例（趕緊收藏）

分類演算法 # knn演算法 from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier() ''' __init__函式 def __init__(self, n_neighbors=5,

機器學習---分類、迴歸、聚類、降維的區別

由上圖我們可以看到，機器學習分為四大塊，分別是 classification (分類)， regression (迴歸), clustering (聚類), dimensio

機器學習、監督學習、無監督學習、分類、迴歸、聚類的概念

機器學習的兩種主要定義：定義1 ： Arthur Samuel (1959):Field of study that gives computers the ability to learn without being explicitly programmed. 一

分類、迴歸、聚類、降維的區別

機器學習的類別機器學習分為四大塊，如下圖所示，分別是： classification (分類)，regression (迴歸), clustering (聚類), dimensionality reduction (降維)。區分方式給定一個樣本特徵

人人都能看懂的機器學習！3個案例詳解聚類、迴歸、分類演算法

導讀：機器是怎樣學習的，都學到了什麼？人類又是怎樣教會機器學習的？本文通過案例給你講清楚各類演算

python + sklearn ︱分類效果評估——acc、recall、F1、ROC、迴歸、距離

轉自：https://blog.csdn.net/sinat_26917383/article/details/75199996 之前提到過聚類之後，聚類質量的評價：聚類︱python實現六大分群質量評估指標（蘭德係數、互資訊、輪廓係數） R語言相關分類效果評估：R語言︱分類器的效能表現評價

機器學習sklearn19.0聚類演算法——層次聚類（AGNES/DIANA）、密度聚類(DBSCAN/MDCA)、譜聚類

一、層次聚類 BIRCH演算法詳細介紹以及sklearn中的應用如下面部落格連結： http://www.cnblogs.com/pinard/p/6179132.html http://www.cnblogs.com/pinard/p/62

【Python資料探勘課程】三.Kmeans聚類程式碼實現、作業及優化

這篇文章直接給出上次關於Kmeans聚類的籃球遠動員資料分析案例，同時介紹這次作業同學們完成的圖例，最後介紹Matplotlib包繪圖的優化知識。希望這篇文章對你有所幫助，尤其是剛剛接觸資料探勘以及大資料的同學，同時準備嘗試以案例為主的方式進行

聚類分析一、k-means

前言人們常說“物以類聚，人以群分”，在生物學中也對生物從界門綱目科屬種中進行了劃分。在統計學中，也有聚類分析法，通過把相似的物件通過靜態分類的方法分成不同的組別或者更多的子集，從而讓同一個子集中的成員都有相似的一些屬性，然後對這些子集中的資料進行分析，其關鍵則在於聚類。這系列文章將來講講各種聚類方法，這篇開

使用sklearn進行K_Means聚類算法

叠代 sta AR distance RM spa verbose TP word 首先附上官網說明 [http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#examples

機器學習中的sklearn中的聚類資料生成器

引數的意思： n_samples: int, optional (default=100)待生成的樣本的總數。n_features: int, optional (default=2)每個樣本的特徵數。centers: int or array of shape [n_centers, n_

sklearn中kmeans聚類分析常用命令

from sklearn.cluster import KMeansfrom sklearn.externals import joblibimport numpyfinal = open('c:/test/final.dat' , 'r')data = [line.str

專案釋出環境：開發、測試、迴歸、生產

開發環境：所有的開發和配置在這個環境裡進行。一般情況下，只有這個環境可以改配置和進行開發，並且一般不在這個環境下建立資料。（開發環境就是每個開發人員電腦上的開發環境，只有開發人員可以配置和開發，寫資料測試放在測試環境）配置可以比較隨意，為了開發除錯方便，一般

sklearn 細節 —— SGDClassifier、Perceptron（分類模型）

Perceptron iris_data = load_iris() X = iris_data.data[:, (2, 3)] y = (iris_data.target == 0).astype

經典演算法詳解--CART分類決策樹、迴歸樹和模型樹

Classification And Regression Tree(CART)是一種很重要的機器學習演算法，既可以用於建立分類樹（Classification Tree），也可以用於建立迴歸樹（Regression Tree），本文介紹了CART用於離散標籤分

鬼吹燈文字挖掘5：sklearn實現文字聚類和文字分類

1. 準備資料import numpy as np import pandas as pd import re import jieba # 章節判斷用變數預處理 def is_chap_head(tmpstr): import re pattern = r

網際網路專案釋出環境:測試、迴歸、預釋出、灰度釋出、上生產

測試環境提供測試人員使用，程式碼分支除了可以使用master分支外，其他的分支也是可以的。迴歸環境如果同時有好幾個人蔘與同一個專案，那麼基於master分支可能拉出非常多的開發分支，那麼當這些分支合併到master上後，master上的功能可能受到影

使用sklearn進行K_Means聚類演算法

再給一個百度上找的例子（侵權刪）： # -*- coding: utf-8 -*- from sklearn.cluster import KMeans from sklearn.externals import joblib import numpy

使用Sklearn模組建立聚類、迴歸、分類模型並評價

資料預處理和降維

聚類模型的構建與評價

分類模型的構建與評價(對鮑魚年齡特徵進行預測)

構建線性迴歸模型並評價

相關推薦