在Ignite中使用k-均值聚類演算法

阿新 • • 發佈：2018-12-03

在本系列前面的文章中，簡單介紹了一下Ignite的k-最近鄰(k-NN)分類演算法，下面會嘗試另一個機器學習演算法，即使用泰坦尼克資料集介紹k-均值聚類演算法。正好，Kaggle提供了CSV格式的資料集，而要分析的是兩個分類：即乘客是否倖存。

為了將資料轉換為Ignite支援的格式，前期需要做一些清理和格式化的工作，CSV檔案中包含若干個列，如下：

乘客Id
倖存（0：否，1：是）
船票席別（1：一，2：二，3：三）
乘客姓名
性別
年齡
泰坦尼克號上的兄弟/姐妹數
泰坦尼克號上的父母/子女數
船票號碼
票價
客艙號碼
登船港口（C＝瑟堡，Q＝皇后鎮，S＝南安普頓）

因此首先要做的是，刪除任何和特定乘客有關的、和生存無關的列，如下：

乘客Id
乘客姓名
船票號碼
客艙號碼

接下來會刪除任何資料有缺失的行，比如年齡或者登船港口，可以對這些值進行歸類，但是為了進行初步的分析，會刪除缺失的值。

最後會將部分欄位轉換為數值型別，比如性別會被轉換為：

0：女
1：男

登船港口會被轉換為：

0：Q（皇后鎮）
1：C（瑟堡）
2：S（南安普頓）

最終的資料集由如下的列組成：

船票席別
性別
年齡
泰坦尼克號上的兄弟/姐妹數
泰坦尼克號上的父母/子女數
票價
登船港口
倖存

可以看到，倖存列已被移到最後。

下一步會將資料拆分為訓練資料（80%）和測試資料（20%），和前文一樣，還是使用Scikit-learn來執行這個拆分任務。

準備好訓練和測試資料後，就可以編寫應用了，本文的演算法是：

讀取訓練資料和測試資料；
在Ignite中儲存訓練資料和測試資料；
使用訓練資料擬合k-均值聚類模型；
將模型應用於測試資料；
確定含混矩陣和模型的準確性。

讀取訓練資料和測試資料

通過下面的程式碼，可以從CSV檔案中讀取資料：

private static void loadData(String fileName, IgniteCache<Integer, TitanicObservation> cache)
        throws FileNotFoundException {

   Scanner scanner = new Scanner(new File(fileName));

   int cnt = 0;
   while (scanner.hasNextLine()) {
      String row = scanner.nextLine();
      String[] cells = row.split(",");
      double[] features = new double[cells.length - 1];

      for (int i = 0; i < cells.length - 1; i++)
         features[i] = Double.valueOf(cells[i]);
      double survivedClass = Double.valueOf(cells[cells.length - 1]);

      cache.put(cnt++, new TitanicObservation(features, survivedClass));
   }
}

該程式碼簡單地一行行的讀取資料，然後對於每一行，使用CSV的分隔符拆分出欄位，每個欄位之後將轉換成double型別並且存入Ignite。

將訓練資料和測試資料存入Ignite

前面的程式碼將資料存入Ignite，要使用這個程式碼，首先要建立Ignite儲存，如下：

IgniteCache<Integer, TitanicObservation> trainData = getCache(ignite, "TITANIC_TRAIN");
IgniteCache<Integer, TitanicObservation> testData = getCache(ignite, "TITANIC_TEST");
loadData("src/main/resources/titanic-train.csv", trainData);
loadData("src/main/resources/titanic-test.csv", testData);

getCache()的實現如下：

private static IgniteCache<Integer, TitanicObservation> getCache(Ignite ignite, String cacheName) {

   CacheConfiguration<Integer, TitanicObservation> cacheConfiguration = new CacheConfiguration<>();
   cacheConfiguration.setName(cacheName);
   cacheConfiguration.setAffinity(new RendezvousAffinityFunction(false, 10));

   IgniteCache<Integer, TitanicObservation> cache = ignite.createCache(cacheConfiguration);

   return cache;
}

使用訓練資料擬合k-NN分類模型

資料儲存之後，可以像下面這樣建立訓練器：

KMeansTrainer trainer = new KMeansTrainer()
        .withK(2)
        .withDistance(new EuclideanDistance())
        .withSeed(123L);

這裡k的值配置為2，表示有2個簇（倖存和未倖存），對於距離測量，可以有多個選擇，比如歐幾里得、海明或曼哈頓，在本例中會使用歐幾里得，另外，種子值賦值為123。

然後擬合訓練資料，如下：

KMeansModel mdl = trainer.fit(
        ignite,
        trainData,
        (k, v) -> v.getFeatures(),        
// Feature extractor.

        (k, v) -> v.getSurvivedClass()    
// Label extractor.

);

Ignite將資料儲存為鍵-值(K-V)格式，因此上面的程式碼使用了值部分，目標值是Survived類，特徵在其它列中。

將模型應用於測試資料

下一步，就可以用訓練好的分類模型測試測試資料了，可以這樣做：

int amountOfErrors = 0;
int totalAmount = 0;
int[][] confusionMtx = {{0, 0}, {0, 0}};

try (QueryCursor<Cache.Entry<Integer, TitanicObservation>> cursor = testData.query(new ScanQuery<>())) {
   for (Cache.Entry<Integer, TitanicObservation> testEntry : cursor) {
      TitanicObservation observation = testEntry.getValue();

      double groundTruth = observation.getSurvivedClass();
      double prediction = mdl.apply(new DenseLocalOnHeapVector(observation.getFeatures()));

      totalAmount++;
      if ((int) groundTruth != (int) prediction)
         amountOfErrors++;

      int idx1 = (int) prediction;
      int idx2 = (int) groundTruth;

      confusionMtx[idx1][idx2]++;

      System.out.printf(">>> | %.4f\t | %.0f\t\t\t|\n", prediction, groundTruth);
   }
}

確定含混矩陣和模型的準確性

下面，就可以通過對測試資料中的真實分類和模型進行的分類進行對比，來確認模型的真確性。

程式碼執行之後，輸出如下：

>>> Absolute amount of errors 56

>>> Accuracy 0.6084

>>> Precision 0.5865

>>> Recall 0.9873

>>> Confusion matrix is [[78, 55], [1, 9]]

這個初步的結果可不可以改進？可以嘗試的是對特徵的衡量，在Ignite和Scikit-learn中，可以使用MinMaxScaler()，然後會給出如下的輸出：

>>> Absolute amount of errors 29

>>> Accuracy 0.7972

>>> Precision 0.8205

>>> Recall 0.8101

>>> Confusion matrix is [[64, 14], [15, 50]]

作為進一步分析的一部分，還應該研究倖存與否和年齡和性別之間的關係。

總結

通常來說，k-均值聚類並不適合監督學習任務，但是如果分類很容易，這個方法還是有效的。對於本例來說，關注的就是是否倖存。

在Ignite中使用k-均值聚類演算法

在本系列前面的文章中，簡單介紹了一下Ignite的k-最近鄰(k-NN)分類演算法，下面會嘗試另一個機器學習演算法，即使用泰坦尼克資料集介紹k-均值聚類演算法。正好，Kaggle提供了CSV格式的資料集，而要分析的是兩個分類：即乘客是否倖存。為了將資料轉換為Ignite支援的格式，前期需要做一些清理和格式化

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記關鍵字：k-均值、kMeans、聚類、非監督學習作者：米倉山下時間：2018-11-3機器學習實戰（Machine Learning in Action,@author: Pet

k-均值聚類演算法

首先初始化k個點作為質心，遍歷資料集，把每一個數據點分配到距離最近的質心，把這個質心下的所有點的均值作為新的質心，迭代更新。度量聚類效果的指標：SSE( sum of squared error)誤差平方和改進演算法：二分-k-均值演算法（克服k-均值區

機器學習實戰———k均值聚類演算法

問題：關於第九章list（）新增的問題 fltLine = list(map(float,curLine)) fltLine = map(float,curLine) 二者的區別在於加list（）輸出為數 [1.658985, 4.285136] [-3.453

機器學習實戰---讀書筆記：第10章利用K均值聚類演算法對未標註資料分組---1

#!/usr/bin/env python # encoding: utf-8 import os from matplotlib import pyplot as plt from numpy import * ''' 讀書筆記之--<<機器學習實戰>>--第10章_

k-means(k均值聚類)演算法介紹及實現(c++)

基本介紹： k-means 演算法接受輸入量 k ；然後將n個數據物件劃分為 k個聚類以便使得所獲得的聚類滿足：同一聚類中的物件相似度較高；而不同聚類中的物件相似度較小。聚類相似度是利用各聚類中物件的均值所獲得一個“中心物件”（引力中心）來進行計算的。工作過程：　　k

K-means(K-均值)聚類演算法

劃分方法聚類分析最簡單、最基本的版本是劃分，它把物件組織成多個互斥的簇。這一方法，要求每個物件必須/恰好屬於每一個簇。（事實上，我們應該知道，這個要求是很不合理的，因為它忽略了離群點，假若把噪聲資料強行劃分在簇裡，那勢必會降低聚類的準確率，所以為了改進這一點

【opencv學習之四十三】K均值聚類演算法

K均值聚類演算法，在opencv中通過kmeans()函式實現；k均值通俗講：就是從一堆樣本中，隨便挑出幾個，比如3個吧，然後用樣本中的和這挑出來的比較，比較後排序，誰和挑出的那個接近就把他劃到那個類裡，比如樣A和挑1、挑2、挑3中，挑2最接近，則把樣A劃到挑2裡，當然還沒完

《機器學習實戰》筆記之十——利用K均值聚類演算法對未標註資料分組

第十章利用K均值聚類演算法對未標註資料分組 10.1 K-均值聚類演算法 K-均值是發現給定資料集的k個簇的演算法，每個簇通過其質心來描述。其優點為容易實現，但可能收斂到區域性最小值，在大規模資料集上收斂較慢。隨機確定k個初始點為質心，為每個點找距其最近的質心，並將

K均值聚類演算法的MATLAB實現

單來說，K-均值聚類就是在給定了一組樣本(x1, x2, ...xn) （xi, i = 1, 2, ... n均是向量) 之後，假設要將其聚為 m(<n) 類，可以按照如下的步驟實現: Step 1: 從 (x1, x2, ...xn) 中隨機選擇

如何編寫求K-均值聚類演算法的Matlab程式？

在聚類分析中，K-均值聚類演算法（k-means algorithm）是無監督分類中的一種基本方法，其也稱為C-均值演算法，其基本思想是：通過迭代的方法，逐次更新各聚類中心的值，直至得到最好的聚類結果。假設要把樣本集分為c個類別，演算法如下：（1）適當選擇c個類的初始中心；（2）在第k次迭代中，對任意

機器學習（二）——K均值聚類演算法（K-means）

概述： 1.聚類 “類”指的是具有相似性的集合。聚類是指將資料集劃分為若干類，使得類內之間的資料最為相識，各類之間的資料相似度差別儘可能大。聚類分析就是以相似性為基礎，對資料集進行聚類分析，屬於無監督學習。 2.無監督學習和監督學習 k-均值聚類（k-means）與k-近鄰（knn）

斯坦福大學機器學習筆記——聚類（k-均值聚類演算法、損失函式、初始化、聚類數目的選擇）

上面的部落格的演算法都是有監督學習的演算法，即對於每個資料我們都有該資料對應的標籤，資料集的形式如下：而今天我們學習的演算法是一種無監督學習的演算法——聚類，該演算法中的每個資料沒有標籤，資料集的形式如下： K-均值聚類 k-均值聚類是一種最常見

matlab中k-means聚類演算法畫點

只是需要用到matlab畫圖，在網上隨便找了找改了改 matlab內部直接就有k-means的 X=[39.55 116.24;41.48 123.25;38.55 121.36;43.54 125.19;45.44 126.36;37.54 112.33;40.06 1

《機器學習實戰》學習筆記———利用K-均值聚類演算法對未標註資料分組

引言 K-均值演算法試圖將一系列樣本分割成K個不同的類簇（其中K是模型的輸入引數），其形式化的目標函式稱為類簇內的方差和（within cluster sum of squared errors，WCSS）。K-均值聚類的目的是最小化所有類簇中的

Thinking in SQL系列之五：資料探勘K均值聚類演算法與城市分級

原創：牛超 2017-02-21 Mail：[email protected] 引言：前一篇文章開始不再介紹簡單演算法，而是轉到資料探勘之旅。感謝CSDN將我前一篇機器學習C4.5決策樹演算法的博文推送到了首頁，也非常榮幸能夠得到雲和恩墨的蓋老師的

K-均值聚類演算法學習心得

一、分類與聚類分類作為一種監督學習方法，要求必須事先明確知道各個類別的資訊，並且斷言所有待分類項都有一個類別與之對應。但是很多時候上述條件得不到滿足，尤其是在處理海量資料的時候，如果通過預處理使得資料滿足分類演算法的要求，則代價非常大，這時候可以考慮使用聚類演算法。聚類屬

機器學習實戰：K-均值及二分K-均值聚類演算法

# coding=utf-8 ''' Created on Feb 16, 2011 k Means Clustering for Ch10 of Machine Learning in Action #@author: Peter Harrington ''' from

機器學習中K-means聚類演算法原理及C語言實現

本人以前主要focus在傳統音訊的軟體開發，接觸到的演算法主要是音訊訊號處理相關的，如各種編解碼演算法和回聲消除演算法等。最近切到語音識別上，接觸到的演算法就變成了各種機器學習演算法，如GMM等。K-means作為其中比較簡單的一種肯定是要好好掌握的。今天就講講K-means的基本原理和程式碼實現。其中基本原

機器學習實戰---K均值聚類演算法

一：一般K均值聚類演算法實現（一）匯入資料 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): dataSet = np.loadtxt(filename) return dataSe

在Ignite中使用k-均值聚類演算法

讀取訓練資料和測試資料

將訓練資料和測試資料存入Ignite

使用訓練資料擬合k-NN分類模型

將模型應用於測試資料

確定含混矩陣和模型的準確性

總結

相關推薦