『sklearn學習』利用 Python 練習資料探勘

阿新 • • 發佈：2019-02-15

### ------------------------------------------------------------------- ###
#     利用 Python 練習資料探勘 URL：http://python.jobbole.com/83563/

# 資料匯入和視覺化
import urllib2
url = "http://aima.cs.berkeley.edu/data/iris.csv"
u = urllib2.urlopen(url)
localFiel = open("iris.csv", "w")
localFiel.write(u.read())
localFiel.close()

"""
資料來源： 伯克利大學
資料包含鳶尾花（iris）資料集，包含了三種鳶尾花（山鳶尾、維吉尼亞鳶尾和變色鳶尾）的各 50 個數據樣本的多元資料集
每個樣本有四個特徵，即花萼（sepal）和花瓣（petal）的長度和寬度，以釐米為單位
資料集有 5 列，前四列包含著特徵值，最後一列代表著樣本型別
"""

# csv 檔案很容易被 numpy 庫的 genfromtxt 方法解析
from numpy import genfromtxt,zeros
# 讀取前 4 列
data = genfromtxt("iris.csv", delimiter=",", usecols=(0, 1, 2, 3))
# 讀取第 5 列
target = genfromtxt("iris.csv", delimiter=",", usecols=(4), dtype=str)

print "data: ", data
print "target: ", target
print "data.shape: ", data.shape
print "target.shape: ", target.shape

# 檢視有多少種樣本型別以及它們的名字
print set(target)

# 使用 pylab 庫（matplotlib的介面）的 plotting 方法可以建一個二維散點圖讓我們在兩個維度上分析資料集的兩個特徵值
from pylab import plot, show, close
# 藍色點代表山鳶尾、紅色點代表變色鳶尾、綠色點代表維吉尼亞鳶尾
# 第一和第三維度是花萼的長度和花瓣的長度
plot(data[target == "setosa", 0], data[target == "setosa", 2], "bo")
plot(data[target == "versicolor", 0], data[target == "versicolor", 2], "ro")
plot(data[target == "virginica", 0], data[target == "virginica", 2], "go")
# show()
close()

# 另一種常用的檢視資料的方法是分特性繪製直方圖
# 下面的程式碼可以繪製資料中每一型別的第一個特性（花萼的長度）
from pylab import figure, subplot, hist, xlim, show
xmin = min(data[:, 0])
xmax = max(data[:, 0])
figure()
subplot(411)
hist(data[target == "setosa", 0], color="b", alpha=.7)
xlim(xmin, xmax)
subplot(412)
hist(data[target == "versicolor", 0], color="r", alpha=.7)
xlim(xmin, xmax)
subplot(413)
hist(data[target == "virginica", 0], color="g", alpha=.7)
xlim(xmin, xmax)
subplot(414)
hist(data[:, 0], color="y", alpha=.7)
xlim(xmin, xmax)
# show()
close()

# 分類
#     ------  高斯樸素貝葉斯分類 ------
# 把字串陣列轉型成整型資料
t = zeros(len(target))
t[target == "setosa"] = 1
t[target == "versicolor"] = 2
t[target == "virginica"] = 3

# 模型例項化和訓練分類器
from sklearn.naive_bayes import GaussianNB
classifier = GaussianNB()
classifier.fit(data, t)

# 分類器可以由 predict 方法完成，並且只要輸出一個樣例就可以很簡單的檢測
print classifier.predict(data[0])
print t[0]

# 評估分類器
# 通過從源資料集中隨機抽取樣本把資料分為訓練集和測試集，然後使用訓練集的資料來訓練分類器，並使用測試集來測試分類器
from sklearn import cross_validation
train, test, t_train, t_test = cross_validation.train_test_split(data, t, test_size=0.4, random_state=0)

# 訓練分類器並輸出精確度
classifier.fit(train, t_train)
print classifier.score(test, t_test)

# 另一個估計分類器表現的工具叫做混淆矩陣。在此矩陣中每列代表一個預測類的例項，每行代表一個實際類的例項
from sklearn.metrics import confusion_matrix
print confusion_matrix(classifier.predict(test), t_test)
"""
如果我們牢記所有正確的猜測都在表格的對角線上，那麼觀測表格的錯誤就很容易了，即
對角線以外的非零值
"""

# 可以展示分類器效能的完整報告的方法也是很好用的
from sklearn.metrics import classification_report
print classification_report(classifier.predict(test), t_test, target_names=["setosa", "versicolor", "virginica"])

#     ------ 聚類 ------
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3, init="random")
kmeans.fit(data)

c = kmeans.predict(data)

# 估計群集的結果，與使用完整性得分和同質性得分計算而得的標籤作比較
from sklearn.metrics import completeness_score, homogeneity_score
print completeness_score(t, c)
print homogeneity_score(t, c)
"""
當大部分資料點屬於一個給定的類並且屬於同一個群集，那麼完整性得分就趨向於 1
當所有群集都幾乎只包含某個單一類的資料點時同質性得分就趨向於 1
"""

# 把叢集視覺化並和帶有真實標籤的做視覺化比較
figure()
subplot(211)
plot(data[t == 1, 0], data[t == 1, 2], "bo")
plot(data[t == 2, 0], data[t == 2, 2], "ro")
plot(data[t == 3, 0], data[t == 3, 2], "go")
subplot(212)
plot(data[c == 1, 0], data[c == 1, 2], "bo", alpha=.7)
plot(data[c == 2, 0], data[c == 2, 2], "ro", alpha=.7)
plot(data[c == 0, 0], data[c == 0, 2], "go", alpha=.7)
# show()
close()

#     ------ 迴歸 ------
# 為了應用線性迴歸，我們需要建立一個由上所述的綜合資料集
from numpy.random import rand
x = rand(40, 1)
y = x*x*x + rand(40, 1) / 5

from sklearn.linear_model import LinearRegression
linreg = LinearRegression()
linreg.fit(x, y)

# 我們可以通過把擬合線和實際資料點畫在同一幅圖上來評估結果
from numpy import linspace, matrix
xx = linspace(0, 1, 40)
plot(x, y, "o", xx, linreg.predict(matrix(xx).T), "--r")
# show()
close()

# 我們還可以使用均方誤差來量化模型和原始資料的擬合度
from sklearn.metrics import mean_squared_error
print mean_squared_error(linreg.predict(x), y)
"""
該指標度量了預期的擬合線和真實資料之間的距離平方，當擬合線很完美時該值為 0
"""

#     ------ 相關 ------
"""
我們通過研究相關性來理解成對的變數之間是否相關，相關性的強弱。此類分析幫助我們精確定位被依賴的重要變數。
最好的相關方法是皮爾遜積矩相關係數，它是由兩個變數的協方差除以他們的標準差的乘機計算而來
"""

from numpy import corrcoef
corr = corrcoef(data.T)
print corr

from pylab import pcolor, colorbar, xticks, yticks, close
from numpy import arange
pcolor(corr)
colorbar()
xticks(arange(0.5, 4.5), ['sepal length',  'sepal width', 'petal length', 'petal width'],rotation=-20)
yticks(arange(0.5,4.5),['sepal length',  'sepal width', 'petal length', 'petal width'],rotation=-20)
# show()
close()

#    ------ 降維 ------
# 最著名的降維技術之一就是主成分分析
from sklearn.decomposition import PCA
pca = PCA(n_components=2)

pcad = pca.fit_transform(data)

plot(pcad[target == "setosa", 0], pcad[target == "setosa", 1], "bo")
plot(pcad[target == "versicolor", 0], pcad[target == "versicolor", 1], "ro")
plot(pcad[target == "virginica", 0], pcad[target == "virginica", 1], "go")
# show()
close()

# PCA 將空間資料方差最大化，我們可以通過方差比判斷 PCs 包含的資訊量
print pca.explained_variance_ratio_
# 輸出：[ 0.92461621  0.05301557]
# 現在我們知道第一個 PC 佔原始資料的 92% 的資訊量而第二個佔剩下的 5%，我們還可以輸出在轉化過程中
# 丟失的資訊量
print 1 - sum(pca.explained_variance_)
# 此時我們可以是應用逆變換還原原始資料
data_inv = pca.inverse_transform(pcad)
# 可以證明的是，由於資訊丟失逆變換不能給出準確的原始資料，我們可以估算逆變換的結果和原始資料的相似度
print abs(sum(sum(data - data_inv)))

# 通過改變主成分的數值來計算我們能夠覆蓋多少資訊量是很有趣的
for i in range(1, 5):
    pca = PCA(n_components=i)
    pca.fit(data)
    print sum(pca.explained_variance_ratio_) * 100, "%"

#     ------ 網路挖掘 ------
# 通常我們分析的資料是以網路結構儲存的，我們可以使用點和邊描述之間的關係
# 本章中我們將會介紹分析此類資料的基本步驟，稱為圖論，一個幫助我們創造、處理和研究網路的類庫
# 尤其我們將會介紹如何使用特定方法建立有意義的資料視覺化，以及如何建立一組關聯稠密的點
# 使用圖論可以讓我們很容易的匯入用於描述資料結構的最常用結構
import networkx as nx
G = nx.read_gml("lesmiserables.gml", relabel=True)      # networkx 必須要下載 1.9.1 版本才行
# 在上述程式碼我們匯入了《悲慘世界》同時出現的單片語成的網路，可以通過https://gephi.org/datasets/lesmiserables.gml.zip免費
# 下載，資料以GML格式儲存。我們還可以使用下面的命令匯入並可視化網路：
nx.draw(G, node_size=0, edge_color="b", alpha=.2, font_size=7)

『sklearn學習』利用 Python 練習資料探勘

### ------------------------------------------------------------------- ### # 利用 Python 練習資料探勘 URL：http://python.jobbole.com/83563/

利用 Python 練習資料探勘(鳶尾花練習）中遇到的問題，以及解決方法。

大佬好，我是隻小菜鳥，目前正在學習資料探勘。在練習鳶尾花這個經典練習中，遇到一些問題，順便記錄一下。原連結利用python練習資料探勘。一　獲取資料、 import urllib2 url = 'http://aima.cs.berkeley.ed

利用 Python 練習資料探勘

覆蓋使用Python進行資料探勘查詢和描述資料結構模式的實踐工具。第一節介紹資料探勘是一個隱式提取以前未知的潛在有用的資料資訊提取方式。它使用廣泛，並且是眾多應用的技術基礎。本文介紹那些使用Python資料探勘實踐用於發現和描述結構

『sklearn學習』不同的 SVM 分類器

#! usr/bin/env python # coding:utf-8 """ __author__ = "LCG22" __date__ = "2016-12-5" """ import nu

『sklearn學習』GridSearchCV：系統地遍歷多種引數組合

""" GridSearchCV 用於系統地遍歷多種引數組合，通過交叉驗證確定最佳效果引數 """ parameters = {"kernel": ("linear", "rbf"), "C": r

在Jupyter notebook和spyder上用python做資料探勘，安裝使用簡介和常見錯誤

這裡借知乎使用者的幾句對Jupyter notebook評價：我很喜歡Jupyter,使用的過程就好比拿紙和筆,還有計算器做數學演算. 而且可以把草稿輕鬆擦掉。比如,要寫個小Paper,完全可以用Jupyter來做,程式碼和論述完美的結合了,而且直接還

python/pandas資料探勘（十四）-groupby,聚合，分組級運算

groupby import pandas as pd df = pd.DataFrame({'key1':list('aabba'), 'key2': ['one','two','one','two','one'],

64位Python大資料探勘--環境搭建

之前裝的是python 32位。然後在處理大規模資料集如阿里移動推薦比賽的訓練集的時候會出現memory的問題。所以這次準備花些時間升級python，再重新裝那些庫。記錄如下：我的電腦環境：WIN7 64 1.安裝64位的python2.7.10 http://www.

python/pandas資料探勘（十四）-groupby,聚合，分組級運算---很全

groupby import pandas as pd df = pd.DataFrame({'key1':list('aabba'), 'key2': ['one','two','one','two','one'],

python網路資料探勘--JS隱式等待和顯式等待

第一部分：隱式等待和顯式等待隱式等待和顯式等待的不同之處在於，隱式等待是等DOM中某個狀態發生改變後再繼續執行程式碼（沒有明確的等待時間，但是有最大等待期限，只要在時限內就可以），而顯式等待明確設定了等待時間，如上篇文章中等待三秒鐘。在隱式等待中，DOM被觸發的

人大附中高中生學Python獲資料探勘競賽一等獎，將去曠視科技實習

本文授權轉自光明社教育家（微信ID：jyjzzwx）作者 | 翟小寧武迪朱星宇是人大附中2011級早培班的一名學生，現在在高三出國班上課。他在學校的身份不只是學生，同時也是計算機視覺與深度學習研學和人工智慧與資料探勘校本選修課的助教，負責兩門課的幾乎全部程式設計技術以及部分理論知識的教

利用Python學習資料探勘【0】

相信看到這篇文章的你一定是對資料分析，資料探勘有興趣，或者想從事和方面。本文不再累述python對資料分析的重要，資料分析這門的由來之類的。在這裡，我單刀直入，已我學習資料探勘3年來的經歷告訴大家怎麼去學，以讓大家少走彎路。純個人見解，如有不對，還請各位留言指教。話不多說，直接放圖。

利用Python學習資料探勘【2】

本文結合程式碼例項待你上手python資料探勘和機器學習技術。本文包含了五個知識點： 1. 資料探勘與機器學習技術簡介 2. Python資料預處理實戰 3. 常見分類演算法介紹

利用 Python學習資料探勘【1】

覆蓋使用Python進行資料探勘查詢和描述資料結構模式的實踐工具。第一節介紹資料探勘是一個隱式提取以前未知的潛在有用的資料資訊提取方式。它使用廣泛，並且是眾多應用的技術基礎。本文介紹那些使用Python資料探勘實踐用於發現和描述結構模式資料的工具。近些年來，Python在

《利用Python進行資料分析》學習記錄

第8章249頁原語句：party_counts = pd.crosstab(tips.day, tips.size) 現在的pandas似乎有個size屬性，就是計算資料的大小，而不會返回那一列具體的資料，比如這裡tips這個csv資料，其裡面包含一列size資料，現在來執行這句語句的話，

機器學習_利用python從網上自動下載資料

機器學習一個必要的前提條件就是獲得大量資料，尤其對於我們剛開始接觸機器學習的時候，網上提供了大量開源資料來源，方便我們進行學習，但是這些資料來源會隨著時間變換，因此萌生一個自動下載資料的方法，剛好網上也有很多的方法，結合別的部落格主的方法和自己的理解寫了一個利用python自

Python--學習筆記2 常用庫 <利用Python進行資料分析>

numpy 科學計算包：多維陣列物件；數學運算函式；隨機數；傅立葉變換可以作為演算法之間傳遞資料的容器。 pandas 快速處理結構化資料和函式。 dataframe，面向列的二維表結構，含有行標和列標。 matplotliba &nb

利用python中的pandas，sklearn進行資料探勘 basic_of_datamining

basic_of_datamining 利用python中的pandas，sklearn進行資料探勘 github 原始碼地址： https://github.com/zhangxinxi

【利用python進行資料分析】附錄A Python 學習

Python 是一種解析性語言，python解析器是通過“一次執行一條語句”的方式執行程式。標準互動式python解析器可以子啊命令列通過“python”命令啟動。 ">>>" 是提示符，exit()或者Ctril+D 退出。 >>> prin

Selenium學習三——利用Python爬取網頁表格資料並存到excel

利用Python爬取網頁表格資料並存到excel 1、具體要求：讀取教務系統上自己的成績單，並儲存到本地的excel中 2、技術要求：利用Selenium+Python獲取網頁，自動登陸並操作到成績單頁面通過xlwt模組，將表格儲存到本地excel （其中xlwt

『sklearn學習』利用 Python 練習資料探勘

相關推薦