python筆記3——k-means

阿新 • • 發佈：2018-12-09

#資料處理
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
from datetime import date,datetime
import numpy as np
from sklearn.cluster import KMeans #匯入K均值聚類演算法
from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 15, 6 #rcParams設定好畫布的大小
plt.rcParams['font.sans-serif']=['SimHei'] #用來正常顯示中文標籤

dir_path='E://DATA//'
outputfile = dir_path+'fenlei.csv'
data = pd.read_csv(dir_path+'full',sep='\x01',engine='python',header=None,names=[''], parse_dates=[''], infer_datetime_format=True,dtype={'':str,'':int}, encoding='utf-8')

#聚類
'''
演算法過程： 
1、從N個樣本資料中隨機選取K個物件作為初始的聚類質心。 
2、分別計算每個樣本到各個聚類中心的距離，將物件分配到距離最近的聚類中。 
3、所有物件分配完成之後，重新計算K個聚類的質心。 
4、與前一次的K個聚類中心比較，如果發生變化，重複過程2，否則轉過程5. 
5、當質心不再發生變化時，停止聚類過程，並輸出聚類結果。
'''
k = 5                       #需要進行的聚類類別數
iteration = 500             #聚類最大迴圈數
kmodel = KMeans(n_clusters = k, n_jobs = 4) #n_jobs是並行數，一般等於CPU數較好
kmodel.fit(data) #訓練模型
r1 = pd.Series(kmodel.labels_).value_counts()  #統計各個類別的數目
r2 = pd.DataFrame(kmodel.cluster_centers_)     #找出聚類中心
r = pd.concat([r2, r1], axis = 1) #橫向連線（0是縱向），得到聚類中心對應的類別下的數目
r.columns = list(data.columns) + ['類別數目'] #重命名錶頭
#詳細輸出原始資料及其類別
r1 = pd.concat([data, pd.Series(kmodel.labels_, index = data4.index)], axis = 1)
r1.columns = list(data.columns) + [u'聚類類別'] #重命名錶頭

#這個方法的聚類效果並不好，無法區分各個類別,棄用
from sklearn.manifold import TSNE
tsne = TSNE()
tsne.fit_transform(data4) #進行資料降維
tsne = pd.DataFrame(tsne.embedding_, index = data4.index) #轉換資料格式
plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標籤
plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負號
#不同類別用不同顏色和樣式繪圖
d = tsne[r1[u'聚類類別'] == 0]
plt.plot(d[0], d[1], 'y.')
d = tsne[r1[u'聚類類別'] == 1]
plt.plot(d[0], d[1], 'go')
d = tsne[r1[u'聚類類別'] == 2]
plt.plot(d[0], d[1], 'b*')
d = tsne[r1[u'聚類類別'] == 3]
plt.plot(d[0], d[1], 'c.')
d = tsne[r1[u'聚類類別'] == 4]
plt.plot(d[0], d[1], 'ro')
plt.show()

Clipboard Image.png

'''
行轉列，做x軸為省份 y軸為均值的聚類分佈圖
'''
data1=r1.copy()
data1=data1.reset_index().set_index(['聚類類別','sku_no']).stack().reset_index()
p=data1['province'].drop_duplicates().reset_index().drop('index',axis=1).reset_index().set_index('province')
dic_p=p['index'].to_dict()
#聚類後的類折線圖
data2=data1.copy()
data2['province']=data2['province'].map(dic_p)
plot_data=data2[['class','province','zb']].groupby(['class','province']).sum()
plot_data=plot_data.reset_index()
class_list=plot_data['class'].drop_duplicates().tolist()
for i,class_no in enumerate(class_list):
    mask_class=plot_data['class']==class_no
    plt.style.use('ggplot')
    plt.plot(plot_data['province'].loc[mask_class],plot_data['zb'].loc[mask_class])
    plt.xlabel('省份')
plt.show()

Clipboard Image.png

data3=data2[['class','province','sku_qty']].groupby(['class','province']).mean()
p_map=data9['province'].drop_duplicates().reset_index().set_index('province')
p_dict=p_map['index'].to_dict()
data3['province']=data3['province'].map(p_dict)
data3['class'].drop_duplicates()
class_list=data3['class'].drop_duplicates().tolist()
for i,class_no in enumerate(class_list):
    mask_c=data9['class']==class_no
    plt.xlabel('省份')
    plt.scatter(data3['province'].loc[mask_c],data3['sku_qty'].loc[mask_c])
plt.show()

Clipboard Image.png

python筆記3——k-means

#資料處理 import pandas as pd import matplotlib.pyplot as plt import matplotlib from datetime import date

python筆記3-輸出輸入

border 方法 body python筆記執行不能 name padding get 輸入、輸出 python怎麽來接收用戶輸入呢，使用input函數，python2中使用raw_input，接收的是一個字符串，輸出呢，第一個程序已經寫的使用print，代碼入下：

python筆記3：註釋命名風格

對齊類變量特殊字符串字符 price maker 小寫字母 python筆記 private 6.註釋：行註釋采用 # 開頭，多行註釋使用三個單引號(‘‘‘)或三個雙引號(""")，註釋不需要對齊三引號讓程序員從引號和特殊字符串的泥潭裏面解脫出來，自始至終保持

Python:筆記(3)——面向對象編程

擁有存儲內部關鍵字參數定義有變屬性綁定 ace 設置 Python:筆記(3)——面向對象編程類型與對象術語　　程序中存儲的所有數據都是對象。每個對象都有一個身份、一個類別和一個值。如：a=42，就是用值42創建了一個整數對象。　　大多數對象都擁有

python筆記--3--函數、生成器、裝飾器、函數嵌套定義、函數柯裏化

向量變量類型代碼其他包含即使遍歷 hello 函數嵌套函數函數定義語法：　　def 函數名([參數列表]): 　　　　‘‘‘註釋‘‘‘ 　　　　函數體函數形參不需要聲明其類型，也不需要指定函數返回值類型即使該函數不需要接收任何參數，也必須保留一對

吳恩達機器學習筆記八 K-means聚類演算法

1. 代價函式 K-means演算法是比較容易理解的，它屬於無監督學習方法，所以訓練樣本資料不再含有標籤。我們假設有樣本資料x(1),x(2),⋯,x(m)x(1),x(2),⋯,x(m)，我們選擇設定KK個聚類中心u1,u2,⋯,uKu1,u2,⋯,uK

python筆記3 閉包裝飾器叠代器生成器內置函數初識遞歸

叠代 bsp 裝飾 turn () col python 生成器對象閉包 1, 閉包是嵌套在函數中的 2, 閉包是內層函數對外層函數的變量(非全局變量)的引用(改變) 3,閉包需要將其作為一個對象返回,而且必須逐層返回,直至最外層函數的返回值閉包例子: def a1

python筆記 3-4網路通訊服務 linux上服務搭建 vim udp socket

day3 網路通訊服務 linux上服務搭建 linux基本操作 FTP服務 FTP 檔案傳輸協議服務端安裝vsftpd 命令:sudo apt-get install vsftpd ssh服務 SSH 安全協議,常用於遠端登入服務端：sudo apt-get insta

python筆記3

輸入與輸出 -input（）從控制檯獲得使用者輸入的函式 <變數>=input（<提示資訊字串>） -print（）以字元形式向控制檯輸出結果的函式 -字串型別的一對引號僅在程式內部使用，輸出無引號 -print（）函式的格式化 {}表示槽，後續變數填充到槽中例pr

MatLab建模學習筆記14——K-Means聚類演算法

網際網路的發展帶動雲端計算、虛擬化、大資料等IT新技術的興起，各行各業的網際網路化日趨明顯。其中大資料的興起和發展壯大成為了IT時代或者說資訊時代最為典型的特徵之一。僅就大資料本身而言，其本身就具有資料體積大、資料多樣性、價值密度低、資料更新快等特點。所以，要想

機器學習筆記(3)---K-近鄰演算法(1)---約會物件魅力程度分類

參考資料《機器學習實戰》，Machine Learning in Action，本文中簡稱MLiA 《機器學習》周志華，本文簡稱西瓜書《Web安全之機器學習》劉焱著，本文中簡稱WSML(Web Security in Machine Learning，

python sklearn 的k-means聚類易懂例項

使用sklearn庫來進行k-means聚類十分簡單，官網的教程是挺好的。但其他地方的一些例子和教程則很多都是要麼只是寫給作者自己看的，要麼是程式碼不能直接執行的。這裡我寫這篇文章，用盡量簡單的易懂方式來封裝k-means程式碼：首先建立一個kmeans.py

機器學習筆記之K-means聚類

K-means聚類是聚類分析中比較基礎的演算法，屬於典型的非監督學習演算法。其定義為對未知標記的資料集，按照資料內部存在的資料特徵將資料集劃分為多個不同的類別，使類別內的資料儘可能接近，類別間的資料相似度比較大。用於衡量距離的方法主要有曼哈頓距離、歐氏距離、切比雪夫距離，其中

利用python內建K-Means聚類演算法實現鳶尾花資料的聚類

在進去聚類情況分析前，我們需要為我們的IDLE安裝sklearn庫，scikit-learn是Python的一個開源機器學習模組，它建立在NumPy，SciPy和matplotlib模組之上能夠為使用者提供各種機器學習演算法介面，可以讓使用者簡單、高效地進行資料探勘和資料分析

【機器學習演算法-python實現】K-means無監督學習實現分類

''' @author: hakuri ''' from numpy import * import matplotlib.pyplot as plt def loadDataSet(fileName): #general function to parse tab -delimited float

python中使用k-means對鳶尾花資料集聚類

程式碼和結果： import matplotlib.pyplot as plt import numpy as np from sklearn.cluster import KMeans from sklearn import datasets X

Python之使用K-Means演算法聚類消費行為特徵資料分析（異常點檢測）

源資料（這裡僅展示10行）：程式：#-*- coding: utf-8 -*- #使用K-Means演算法聚類消費行為特徵資料 import numpy as np import pandas as pd #引數初始化 inputfile = '../data/consu

python 機器學習K-means演算法實現

\編譯器:pycharm 1.匯入K-means相關包這個包匯入有點坑,有許多依賴包需要匯入,推薦下載Anaconda後,在pycharm匯入Anaconda中的python,在下載sklearn包,就可以開心的敲程式碼了~! 2正式開始: from

Python筆記3--路徑問題

在使用路徑進行訪問時，注意使用\\或者/在使用【】對影象畫素點進行操作時，如果只有兩個引數那麼讀取的是該畫素點的B,R,G，如果加上了第三個引數（只能取0，1，2），那麼該引數提取的是具體的B,R,G

[Python聚類] K-Means聚類演算法分類

根據資料將客戶分類成不同客戶群，並評價這些客戶群的價值。資料示例部分餐飲客戶的消費行為特徵資料如下： R最近一次消費時間間隔 F消費頻率 M消費總金額方法採用K-Means

python筆記3——k-means

相關推薦