中國mooc北京理工大學機器學習第一周（一）

阿新 • • 發佈：2017-05-18

lib odi pen 運行 numpy 聚類準則 ++ mooc

從今天開始跟著北理工的老師走一遍sklearn，在這裏做筆記。

一、聚類

1、K-Means方法

先貼代碼，所有數據的下載地址：http://pan.baidu.com/s/1hrO5NW4

    import numpy as np
    from sklearn.cluster import KMeans
       
    def loadData(filePath):#def一個讀取數據的loadData
        fr = open(filePath,‘r+‘)
        lines = fr.readlines()
        retData = []
        retCityName  
= []
        for line in lines:
            items = line.strip().split(",")
            retCityName.append(items[0])
            retData.append([float(items[i]) for i in range(1,len(items))])
        return retData,retCityName
     　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
         　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 
     
if __name__ == ‘__main__‘:　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
        data,cityName = loadData(‘city.txt‘)
        km = KMeans(n_clusters=4)#構造聚類容器，分為四類
        label = km.fit_predict(data)#進行聚類，貼標簽，label=4
        expenses = np.sum(km.cluster_centers_,axis=1)#expenses是每一個聚類容器的sum
        CityCluster = [[],[],[],[]]#這裏的類別大於等於n_clusters
         
for i in range(len(cityName)):
            CityCluster[label[i]].append(cityName[i])
        for i in range(len(CityCluster)):
            print("Expenses:%.2f" % expenses[i])
            print(CityCluster[i])

 1   sklearn.cluster.KMeans(
 2 　　  n_clusters=8,#你想分類的種類
 3       init=‘k-means++‘,#初始簇中心的獲取方法    
 4       n_init=10,#獲取初始簇中心的更叠次數，為了彌補初始質心的影響，算法默認會初始10個質心，實現算法，然後返回最好的結果。 
 5       max_iter=300,#最大叠代次數 
 6       tol=0.0001,#容忍度，即kmeans運行準則收斂的條件 
 7       precompute_distances=‘auto‘, #是否需要提前計算距離
 8       verbose=0, 
 9       random_state=None, 
10       copy_x=True, 
11      n_jobs=1, #並行設置
12      algorithm=‘auto‘ #kmeans的實現算法
13      )

總結一下：先讀取數據集合 ==> 構造聚類容器（分幾類） ==> 進行聚類貼標簽 ==> 根據貼好的標簽放到對應的聚類容器 ==> 計算中心值

暫時先了解這麽多，結合andrew和林軒田的機器學習課程知道，這裏Kmeans方法整個聚類的計算是先隨機選定聚類中心，不斷叠代修正，求向量和最小。

目前主要先掌握如何使用sklearn。

2、DBSCAN聚類算法

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪聲的基於密度的聚類方法。

由名字就可以知道他可以算出哪些離群點是噪音。

他和kmeans一個顯著的區別是他自動設置聚類的多少，需要人為調的參數是設定核心點的範圍。

2_1、數據的讀取與預處理

    import numpy as np
    import sklearn.cluster as skc
    from sklearn import metrics
    import matplotlib.pyplot as plt  
    mac2id=dict()#字典
    onlinetimes=[]#數組
    f=open(‘TestData.txt‘,encoding=‘utf-8‘)
    for line in f:
        mac=line.split(‘,‘)[2]  #A417314EEA7B
        onlinetime=int(line.split(‘,‘)[6]) #15
        starttime=int(line.split(‘,‘)[4].split(‘ ‘)[1].split(‘:‘)[0])#22
        if mac not in mac2id:
            mac2id[mac]=len(onlinetimes)#如果沒有出現過，直接append
            onlinetimes.append((starttime,onlinetime))
        else:
            onlinetimes[mac2id[mac]]=[(starttime,onlinetime)]#出現過會替代（不太理解這，可能是數據的特點吧）
    real_X=np.array(onlinetimes).reshape((-1,2))#改成兩列（-1的含義是任意行）

2_2、DBSCAN聚類

 　　X=real_X[:,0:1]#按照原形式讀取第一列
    print(X)
     
    db=skc.DBSCAN(eps=0.01,min_samples=20).fit(X)#進行聚類，eps：半徑，min_samples:數據的個數
    labels = db.labels_#貼標簽與取標簽
     
    print(‘Labels:‘)
    print(labels)
    raito=len(labels[labels[:] == -1]) / len(labels)#-1為噪聲點
    print(‘Noise raito:‘,format(raito, ‘.2%‘))
     
    n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)   #set的作用是去重復，然後減去噪聲
     
    print(‘Estimated number of clusters: %d‘ % n_clusters_)
    print("Silhouette Coefficient: %0.3f"% metrics.silhouette_score(X, labels))
     
    for i in range(n_clusters_):
        print(‘Cluster ‘,i,‘:‘)
        print(list(X[labels == i].flatten()))#flatten方法：高維array和matrix轉化成1維。list不可用。
         
    plt.hist(X,20)
    plt.show()

總結一下是這個課程老師上課講的很簡要，聚類一共講了大概30分鐘，但是很多細節需要自己下功夫百度，很不錯的課程。

之前學過andrew和林軒田的課程，結合這個看發現自己有很多沒掌握的地方。

抽時間回去看看。

以上：）

中國mooc北京理工大學機器學習第一周（一）

lib odi pen 運行 numpy 聚類準則 ++ mooc 從今天開始跟著北理工的老師走一遍sklearn，在這裏做筆記。一、聚類 1、K-Means方法先貼代碼，所有數據的下載地址：http://pan.baidu.com/s/1hrO5NW4

中國mooc北京理工大學機器學習第二周（一）：分類

kmeans 方法輸入 nump arr mod 理工大學 each orm 一、K近鄰方法（KNeighborsClassifier）使用方法同kmeans方法，先構造分類器，再進行擬合。區別是Kmeans聚類是無監督學習，KNN是監督學習，因此需要劃分出訓練集和測試

機器學習第一篇（下）

實戰演練 ——MovieLens 第一步：獲取資料集第二步：解壓檔案後，將u.item以及u.data新增到專案中，加入方法loadMovieLens def loadMovieLens(path='data/movielens'): movies={} for

機器學習第一篇（中）

在上篇裡，我們學會了如何為指定人員尋找品味相近者，以及如何向其推薦商品的方法，但是我們想了解哪些商品是彼此相近的，那又該如何做呢？我們可以通過檢視哪些人喜歡某一特定物品，以及這些人喜歡哪些其他物品來決定相似度。事實上，只需要將人員與物品對換即可。 def transfor

機器學習第一篇（上）

提供推薦（電影，音樂，書籍，交友，購物，網站，部落格服務，文章，幽默笑話等）：這是我在看《集體智慧程式設計》這本書時所做的筆記，一是為了以後忘記的時候能再翻回來看一看，二是將自己所記錄的東西能夠與大家分享，三是保持我對人工智慧的激情與動力。協作性過濾：對一大群人進行搜尋

【科普周】機器學習掃盲篇（一）

給大家舉個例子：以我們之前做的波士頓房價視覺化迴歸預測來看，如果告訴機器一棟房子所在地區的住宅地比例、環保的指標、自住的比例、便利的指數、以及不動產稅率等指標，以及不同指標下房屋的價格，這樣機器就能學習這些指標的特點和房價的關係，而給出當前指標下具體的房屋價格。但是這個價格準確率的問題要看機器通過不同模型和演

周誌華《機器學習》筆記（一）緒論

樣本 binary 免費泛化能力概率與統計 class 表示訓練集 ESS 第一章緒論 1、數據集(data set)：機器學習數據的集合； 2、示例/樣本(instance/sample):每條數據描述了一個對象的信息，該對象稱之為示例，一般用x表示； 3、

機器學習入門點滴（一）（待補充完整）

arr intro 統計 int ica nts 機器學習算法 .com 場景 Step1-知識準備： 1. 數學：線性代數，概率論和統計，高數 2. 程序語言：Matlab R 或 Python（只用於學習入門，不是實現的最佳語言） 3. 推薦書籍：選擇一到兩本公式較少、

《Python 機器學習》筆記（一）

環境成功設定相關 reward 能力學習一定的 env 賦予計算機學習數據的能力涵蓋：1.機器學習的一般概念2.機器學習方法的三種類型和基本術語3.成功構建機器學習系統所需的模塊機器學習的三種不同方法1.監督學習2.無監督學習3.強化學習通過監督學習對未來事件進行

機器學習實戰教程（一）：線性回歸基礎篇（上）

學習 reg style spa 目標 pub auto 機器輸入一什麽是回歸？　　回歸的目的是預測數值型的目標值，最直接的辦法是依據輸入，寫入一個目標值的計算公式。　　假如你想預測小姐姐男友汽車的功率，可能會這麽計算：　　　　　　　　　　　　　　Ho

吳恩達老師機器學習筆記SVM（一）

時隔好久沒有再拾起機器學習了，今日抽空接著學今天是從最簡單的二維資料分類開始學習SVM~ （上圖為原始資料） SVM的代價函式這裡套用以前logistic迴歸的模板改一下下。。 load('ex6data1.mat'); theta=rand(3,1); [

機器學習基礎概念（一）

“無監督學習”是指人們在獲得訓練的向量資料後在沒有標籤的情況下嘗試找出其內部蘊含關係的一種挖掘工作，這個過程中使用者除了可能要設定一些必要的超引數（ hyper-parameter）以外，不用對這些樣本做任何的標記甚至是過程干預； “有監督學習”與此不同，每一個樣本都有著明確的標籤，最

系統學習機器學習之總結（一）--常見分類演算法優缺點

主要是參考網上各種資源，做了整理。其實，這裡更多的是從基礎版本對比，真正使用的時候，看資料，看改進後的演算法。 1. 五大流派 ①符號主義：使用符號、規則和邏輯來表徵知識和進行邏輯推理，最喜歡的演算法是：規則和決策樹 ②貝葉斯派：獲取發生的可能性來進行概率推理，最喜歡的演算法是：樸素貝葉

跨平臺機器學習實踐小結（一）

一、問題來源：如何在node web服務下呼叫sklearn的模型結果來進行實時模型預測？二、問題分析： 1、sklearn的模型結果有幾種儲存方式：（1）pickle.dumps ，結果通過變數儲存在記憶體中附上pickle文件：https://docs.pytho

機器學習速成筆記（一）：主要術語

機器學習研究如何通過計算的方式，利用資料集來改善系統自身的效能。而深度學習是屬於機器學習的一個子分支。機器學習的通用的兩種型別：無監督學習：事先並沒有任務訓練資料的樣本，需要直接對資料進行建模型。監督學習：通過已經有的訓練樣本（即輸入資訊和對應的輸出）來訓練，得到一個

Tensorflow學習——第一章（一）

計算圖 Flow-流 Flow–“流”，表達了張量之間通過計算相互轉化的過程，tensorflow是一個通過計算圖的形式來表述計算的程式設計系統。Tensorflow中的每一個計算都是計算圖上的一個節點，而節點之間的變藐視了計算之間的依賴關係。 Tensor-張量在Ten

機器學習實戰筆記（一）- 使用SciKit-Learn做回歸分析

err 皮爾遜練習 using flow 相關一個數 ocean 針對一、簡介這次學習的書籍主要是Hands-on Machine Learning with Scikit-Learn and TensorFlow（豆瓣：https://book.douban.co

機器學習：SVM（一）——線性可分支援向量機原理與公式推導

原理 SVM基本模型是定義在特徵空間上的二分類線性分類器（可推廣為多分類），學習策略為間隔最大化，可形式化為一個求解凸二次規劃問題，也等價於正則化的合頁損失函式的最小化問題。求解演算法為序列最小最優化演算法（SMO）當資料集線性可分時，通過硬間隔最大化，學習一個線性分類器；資料集近似線性可分時，即存在一小

《機器學習實戰》（一）knn演算法

K最近鄰（k-Nearest Neighbor，KNN）分類演算法可以說是最簡單的機器學習演算法了。它採用測量不同特徵值之間的距離方法進行分類。它的思想很簡單：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一個數據與所屬分類的對應關係。輸入沒有標

Coursera吳恩達機器學習教程筆記（一）

人工智慧行業如火如荼，想要入門人工智慧，吳恩達老師的機器學習課程絕對是不二之選（當然，這不是我說的，是廣大網友共同認為的）教程的地址連結：有的同學可能進不去這個網站，解決辦法參照如下連結：這個辦法本人親測有效，因為我看的時候也打不開（囧！！）

中國mooc北京理工大學機器學習第一周（一）

相關推薦