基於spark實現kmeans的更新聚類中心的關鍵程式碼

阿新 • • 發佈：2019-02-18

 /**
    * 這個方法作用是返回被給樣本的所屬聚類中心的索引，及其到這個聚類中心的距離，
    * 其中class VectorWithNorm(val vector: Vector, val norm: Double)這是VectorWithNorm的定義，vector為樣本構成的向量形式，norm是p-norm值
   */
  private[mllib] def findClosest(
      centers: TraversableOnce[VectorWithNorm],
      point: VectorWithNorm): (Int, Double) = {
    var 
 bestDistance = Double.PositiveInfinity
    var bestIndex = 0
    var i = 0
    centers.foreach { center =>
      // Since `\|a - b\| \geq |\|a\| - \|b\||`, we can use this lower bound to avoid unnecessary
      // distance computation.
      var lowerBoundOfSqDist = center.norm - point.norm
      lowerBoundOfSqDist = lowerBoundOfSqDist * lowerBoundOfSqDist
      if 
 (lowerBoundOfSqDist < bestDistance) {
        val distance: Double = fastSquaredDistance(center, point)
        if (distance < bestDistance) {
          bestDistance = distance
          bestIndex = i
        }
      }
      i += 1
    }
    (bestIndex, bestDistance)
  }

  /**
   * 下面是實現kmeans演算法程式碼
   * instr引數解釋一下這個在mllib裡面預設設定為None，之所以存在這個引數是因為ML庫中呼叫到了，因此傳入這個引數其實是適應ML裡面pipline的思想 ，Instrumentation是一個封裝器，記錄某個訓練session期間有用的資訊，class Instrumentation[E <: Estimator[_]] ，同時預設的初始點選擇方法非隨機，而是使用kmean++的方法進行選擇。
   * VectorWithNorm(val vector: Vector, val norm: Double)
   */ 

  private def runAlgorithm(
      data: RDD[VectorWithNorm],
      instr: Option[Instrumentation[NewKMeans]]): KMeansModel = {

    val sc = data.sparkContext

    val initStartTime = System.nanoTime()
    //初始化聚類中心
    val centers = initialModel match {
      case Some(kMeansCenters) =>
        kMeansCenters.clusterCenters.map(new VectorWithNorm(_))
      case None =>
        if (initializationMode == KMeans.RANDOM) {
          initRandom(data)
        } else {
          initKMeansParallel(data)
        }
    }
    val initTimeInSeconds = (System.nanoTime() - initStartTime) / 1e9
    logInfo(f"Initialization with $initializationMode took $initTimeInSeconds%.3f seconds.")

    var converged = false
    var cost = 0.0
    var iteration = 0

    val iterationStartTime = System.nanoTime()

    instr.foreach(_.logNumFeatures(centers.head.vector.size))

    // Execute iterations of Lloyd's algorithm until converged 累加器使用  廣播聚類中心變數
    while (iteration < maxIterations && !converged) {
      val costAccum = sc.doubleAccumulator
      val bcCenters = sc.broadcast(centers)

      // 找到每個聚類中心擁有的樣本數量   dims為向量即樣本的特徵維度，此處採用了mapPartitions 會對每個分割槽中的元素進行相同操作每個分割槽包含多個樣本即下面程式碼中的points ，不同於map是對RDD中每個元素進行操作
      val totalContribs = data.mapPartitions { points =>
      //bcCenters.value得到Array[VectorWithNorm]即獲得廣播變數的值
        val thisCenters = bcCenters.value
        //VectorWithNorm(val vector: Vector, val norm: Double);thisCenters為Array[VectorWithNorm]
        val dims = thisCenters.head.vector.size

        val sums = Array.fill(thisCenters.length)(Vectors.zeros(dims))
        //建立了一個數組存放每個聚類中心對應的樣本數目
        val counts = Array.fill(thisCenters.length)(0L)   
//在每個分割槽中對每個樣本進行下面操作，尋找其最優的所屬中心bestCenter，及其距離cost,然後對應的counts陣列對應的bestCenter索引位置+1，該聚類中心樣本數多1
        points.foreach { point =>
          val (bestCenter, cost) = KMeans.findClosest(thisCenters, point)
          costAccum.add(cost)
          val sum = sums(bestCenter)
          axpy(1.0, point.vector, sum)
          counts(bestCenter) += 1
        }

        counts.indices.filter(counts(_) > 0).map(j => (j, (sums(j), counts(j)))).iterator
      }.reduceByKey { case ((sum1, count1), (sum2, count2)) =>
        axpy(1.0, sum2, sum1)   //sum1 += 1.0 * sum2
        (sum1, count1 + count2)
      }.collectAsMap()   
       //collectAsMap()後得到了一個totalContribs變數格式為[key,(vector,long)]的map  其中key為聚類中心索引 long為該聚類中心樣本數目，sum1 sum2均為向量，此處應該是通過reducebykey將叢集中相同key的進行合併最終統計出每個聚類中心索引key對應的鍵值對形式的記錄key,(vector,long)]  其中key為聚類中心索引，vector為該聚類中心所對應的所有樣本每一個維度的和組成的向量，long代表了該聚類中心樣本數目

      bcCenters.destroy(blocking = false)

      // Update the cluster centers and costs   每個聚類中心儲存了其樣本每一維度的和及其樣本個數 用來更新聚類中心  裡面的sum為聚類中心
      converged = true
      totalContribs.foreach { case (j, (sum, count)) =>
      //scal函式作用   sum*= (1.0 / count )*sum  sum是一個向量將向量的每一維度乘以樣本個數得到每一維度平均值，即新的聚類中心
        scal(1.0 / count, sum)
        val newCenter = new VectorWithNorm(sum)
        if (converged && KMeans.fastSquaredDistance(newCenter, centers(j)) > epsilon * epsilon) {
          converged = false
        }
        centers(j) = newCenter
      }

      cost = costAccum.value
      iteration += 1
    }

    val iterationTimeInSeconds = (System.nanoTime() - iterationStartTime) / 1e9
    logInfo(f"Iterations took $iterationTimeInSeconds%.3f seconds.")

    if (iteration == maxIterations) {
      logInfo(s"KMeans reached the max number of iterations: $maxIterations.")
    } else {
      logInfo(s"KMeans converged in $iteration iterations.")
    }

    logInfo(s"The cost is $cost.")

    new KMeansModel(centers.map(_.vector))
  }

基於spark實現kmeans的更新聚類中心的關鍵程式碼

/** * 這個方法作用是返回被給樣本的所屬聚類中心的索引，及其到這個聚類中心的距離， * 其中class VectorWithNorm(val vector: Vector, val norm: Double)這是VectorWithNorm

基於arcpy實現空間資料聚類,kmeans

並不能直接進行空間資料的聚類，原理是讀取要素的x，y座標來進行聚類，然後將聚類中心儲存為空間資料以達到效果 # encoding: utf-8 from sklearn.cluster import KMeans import numpy as np import arcpy import pa

python實現Kmeans文字聚類，通過PCA降維和Matplotlib顯示聚類3d三維影象

首先感謝Eastmount寫的內容http://blog.csdn.net/Eastmount/article/details/50545937。點選開啟連結在此基礎上，主要實現以下改進及結果 1.替換使用sklearn.feature_extraction.text.T

在Spark SQL對人類資料實現K-Means聚類，並對聚類中心格式化輸出

簡介本篇博文對UCI提供的 Machine-Learning-Databases 資料集進行資料分析，並通過K-Means模型實現聚類，最後格式化輸出聚類中心點。本文主要包括以下內容：通過VectorAssembler來將多列資料合成一列features

MATLAB學習之路（一）實現簡單的基於歐式距離的新型聚類演算法（Clustering by fast search and find of density peaksd）

大學本科三年，眨眼而已，對於一個考研黨來說，本科時間已所剩不多，大三上學期初次接觸到MATLAB。的確如大牛們所說，強大的計算能力，充足的數學工具，帶來使用者極大的便利。在大資料的學習過程中，MAT

基於歐幾里德聚類的鐳射雷達點雲分割及ROS實現——學習總結

1、特別說明本部落格是在復現大神部落格的過程中遇到問題的解決方式，具體的部落格地址是： https://blog.csdn.net/AdamShan/article/details/83015570#commentsedit 寫的非常好的博主，在此大力推薦！！！ 2、實現過程

spark.mllib原始碼閱讀-聚類演算法1-KMeans

KMeans聚類是聚類分析比較簡單的一種，由於其簡單、高效、易於理解實現等優點被廣泛用於探索性資料分析中。關於KMeans演算法的介紹、分析的相關文章可謂汗牛充棟，留給我能寫的東西並不多了，在這裡，我通過羅列相關文章的方式，將涉及KMeans聚類的各方面做一個儘量詳盡的總結。

模式識別經典演算法——Kmeans影象聚類分割（以最短的matlab程式實現）

kmeans之於模式識別，如同“hello world”之於C、之於任何一門高階語言。演算法的規格（specification）在聚類問題（一般非監督問題）中，給定訓練樣本X={x(1),x(2),…,x(N)}，每個x(i)∈Rd。kmeans

【機器學習】：Kmeans均值聚類演算法原理(附帶Python程式碼實現)

這個演算法中文名為k均值聚類演算法，首先我們在二維的特殊條件下討論其實現的過程，方便大家理解。第一步.隨機生成質心由於這是一個無監督學習的演算法，因此我們首先在一個二維的座標軸下隨機給定一堆點，並隨即給定兩個質心，我們這個演算法的目的就是將這一堆點根據它們自身的座標特徵分為兩類，因此選取了兩個質心，什麼時

python實現一個層次聚類方法

mac ima 優先隊列 () don 標簽中位數 filepath normal 層次聚類(Hierarchical Clustering) 一.概念　　層次聚類不需要指定聚類的數目，首先它是將數據中的每個實例看作一個類，然後將最相似的兩個類合並，該過程叠代計算只到剩

通過IDEA及hadoop平臺實現k-means聚類算法

綜合 tle tostring html map apache cnblogs cos textfile 有段時間沒有操作過，發現自己忘記一些步驟了，這篇文章會記錄相關步驟，並隨時進行補充修改。 1 基礎步驟，即相關環境部署及數據準備數據文件類型為.csv文件，excel

【R統計】基於相似系數的聚類分析

ant 建模 sub plc str 選擇 pre light 均值題目：對48名應聘者數據的自變量作聚類分析，選擇變量的相關系數作為變量間的相似系數（cij），距離定義為dij=1-cij。分別用最長距離法、均值法、重心法和Ward法作聚類分析，並畫出相應的譜系圖。

基於spark的kmeans算法

temp 1.0 top spl nts 當前 int take 初始 from __future__ import print_function import sys import numpy as np from pyspark.sql import

R語言 Kmeans每次聚類結果不同的問題

問題闡述：同樣的資料，同樣的命令，重複執行命令時，發現每個cluster裡面的個數都在變化問題原因：k-means演算法中起點是隨機或者認為給定的，如果初始類中心發生改變，可能會導致結果改變解決問題的方法： 1、把初始隨機數進行固定 2、自己設定初始隨機種子 R語言中程式

使用Java實現K-Means聚類演算法

第一次寫部落格，隨便寫寫。關於K-Means介紹很多，還不清楚可以查一些相關資料。個人對其實現步驟簡單總結為4步: 1.選出k值,隨機出k個起始質心點。 2.分別計算每個點和k個起始質點之間的距離,就近歸類。 3.最終中心點集可以劃分為k類,

機器學習-*-MeanShift聚類演算法及程式碼實現

MeanShift 該演算法也叫做均值漂移，在目標追蹤中應用廣泛。本身其實是一種基於密度的聚類演算法。主要思路是：計算某一點A與其周圍半徑R內的向量距離的平均值M，計算出該點下一步漂移（移動）的方向（A=M+A）。當該點不再移動時，其與周圍點形成一個類簇，計算這個類簇與歷史類簇的距

利用模擬退火提高Kmeans的聚類精度

　http://www.cnblogs.com/LBSer/p/4605904.html 　　Kmeans演算法是一種非監督聚類演算法，由於原理簡單而在業界被廣泛使用，一般在實踐中遇到聚類問題往往會優先使用Kmeans嘗試一把看看結果。本人在工作中對Kmeans有過多次實踐，進行過使用者行為聚類

使用scikit-learn進行KMeans文字聚類

轉載自部落格：https://blog.razrlele.com/p/1614 K-Means 演算法簡介中文名字叫做K-均值演算法，演算法的目的是將n個向量分別歸屬到K箇中心點裡面去。演算法首先會隨機選擇K箇中心向量，然後通過迭代計算以及重新選擇K箇中心向量，使得n個向量各自被分配到距離

python實現mean-shift聚類演算法

新建MeanShift.py檔案 import numpy as np # 定義預先設定的閾值 STOP_THRESHOLD = 1e-4 CLUSTER_THRESHOLD = 1e-1 # 定義度量函式 def distance(a, b):

基於spark實現並行化Apriori演算法

詳細程式碼我已上傳到github：click me 一、實驗要求在 Spark2.3 平臺上實現 Apriori 頻繁項集挖掘的並行化演算法。要求程式利用 Spark 進行平行計算。二、演算法設計

基於spark實現kmeans的更新聚類中心的關鍵程式碼

相關推薦