使用pyspark進行機器學習（聚類問題）

阿新 • • 發佈：2019-01-01

BisectingKMeans

class pyspark.ml.clustering.BisectingKMeans(self, featuresCol="features", predictionCol="prediction", maxIter=20, seed=None, k=4, minDivisibleClusterSize=1.0)

引數解釋

maxIter: 最大迭代次數
K：聚類簇數
minDivisibleClusterSize: 聚類的最少資料點數(>1)或比例(0-1之間)
fit(dataset, params=None)方法

擬合後的模型擁有的方法和屬性

clusterCenters(): 獲取聚類中心，numpy array型別
computeCost()：計算點與其中心的平方和距離
Transform()：對預測資料進行預測
hasSummary:訓練模型是否有summary
Summary：獲取summary
擁有對引數的getter和setter方法

Summary擁有的屬性

cluster：預測的聚類中心
clusterSizes：每個聚類的大小
K：聚類個數
Predictions：由模型的transforn方法產生的預測資料框

程式碼

from pyspark.ml.linalg import Vectors
From pyspark.ml 
.clustering import BisectingKMeans

data = [(Vectors.dense([0.0, 0.0]),), (Vectors.dense([1.0, 1.0]),),(Vectors.dense([9.0, 8.0]),), (Vectors.dense([8.0, 9.0]),)]
df = spark.createDataFrame(data, ["features"])
bkm = BisectingKMeans(k=2, minDivisibleClusterSize=1.0)
model = bkm.fit(df)
centers = model.clusterCenters 
()
len(centers)
model.computeCost(df)
model.hasSummary
summary = model.summary
summary.k
summary.clusterSizes
#預測
transformed = model.transform(df).select("features", "prediction")
rows = transformed.collect()
rows[0].prediction == rows[1].prediction
rows[2].prediction == rows[3].prediction

KMeans

class pyspark.ml.clustering.KMeans(self, featuresCol="features", predictionCol="prediction", k=2, initMode="k-means||", initSteps=2, tol=1e-4, maxIter=20, seed=None)

引數解釋

initMode: 初始化演算法，可以使隨機的“random"，也可以是”k-means||"
initSteps: k-means||初始化的步數，需>0
fit(datast,params=None)方法

擬合後的模型擁有的方法和屬性

clusterCenters(): 同BisectingKMeans
computeCost(): 同BisectingKMeans
summary: 同BisectingKMeans
transform: 同BisectingKMeans
對引數的getter和setter方法

程式碼

from pyspark.ml.linalg import Vectors
data = [(Vectors.dense([0.0, 0.0]),), (Vectors.dense([1.0, 1.0]),),(Vectors.dense([9.0, 8.0]),), (Vectors.dense([8.0, 9.0]),)]
df = spark.createDataFrame(data, ["features"])
kmeans = KMeans(k=2, seed=1)
model = kmeans.fit(df)
centers = model.clusterCenters()
len(centers)
#2
model.computeCost(df)
#2.000...
transformed = model.transform(df).select("features", "prediction")
rows = transformed.collect()
rows[0].prediction == rows[1].prediction
#True
rows[2].prediction == rows[3].prediction
#True
model.hasSummary
#True
summary = model.summary
summary.k
#2
summary.clusterSizes
#[2, 2]
kmeans_path = temp_path + "/kmeans"
kmeans.save(kmeans_path)
kmeans2 = KMeans.load(kmeans_path)
kmeans2.getK()
#2
model_path = temp_path + "/kmeans_model"
model.save(model_path)
model2 = KMeansModel.load(model_path)
model2.hasSummary
#False
model.clusterCenters()[0] == model2.clusterCenters()[0]
#array([ True,  True], dtype=bool)
model.clusterCenters()[1] == model2.clusterCenters()[1]
#array([ True,  True], dtype=bool)

GaussianMixture

class pyspark.ml.clustering.GaussianMixture(self, featuresCol="features", predictionCol="prediction", k=2, probabilityCol="probability", tol=0.01, maxIter=100, seed=None)

引數解釋

fit(dataset,params=None)方法
k: 獨立高斯分佈的個數，>1
maxIter: 最大迭代次數 >=0
tol: 迭代演算法的收斂偏差 >=0
Setter方法和getter方法

擬合後的模型擁有的方法和屬性

gaussianDF: 抽取高斯分佈作為資料框，每一行代表高斯分佈，有兩列：mean（vector)和           cov(Matrix)
hasSummary: 模型是否有總括函式
summary： 獲取總括資訊
transform(dataset,params=None)方法
weights: 高斯混合模型的權重，和為1

Summary擁有的屬性

cluster: 每個訓練資料點預測的聚類中心資料框
clusterSize: 每個簇的大小（簇內資料點的個數）
k:  模型訓練的簇個數
predictions: 由模型transform方法產生的資料框

程式碼

from pyspark.ml.linalg import Vectors
data = [(Vectors.dense([-0.1, -0.05 ]),),(Vectors.dense([-0.01, -0.1]),),(Vectors.dense([0.9, 0.8]),),(Vectors.dense([0.75,0.935]),),(Vectors.dense([-0.83, -0.68]),),(Vectors.dense([-0.91, -0.76]),)]
df = spark.createDataFrame(data, ["features"])
gm = GaussianMixture(k=3, tol=0.0001,maxIter=10, seed=10)
model = gm.fit(df)
model.hasSummary
#True
summary = model.summary
summary.k
#3
summary.clusterSizes
#[2, 2, 2]
weights = model.weights
len(weights)
#3
model.gaussiansDF.show()
transformed=model.transform(df).select("features","prediction")
rows = transformed.collect()
rows[4].prediction == rows[5].prediction
#True
rows[2].prediction == rows[3].prediction
#True
gmm_path = temp_path + "/gmm"
gm.save(gmm_path)
gm2 = GaussianMixture.load(gmm_path)
gm2.getK()
#3
model_path = temp_path + "/gmm_model"
model.save(model_path)
model2 = GaussianMixtureModel.load(model_path)
model2.hasSummary
#False
model2.weights == model.weights
#True
model2.gaussiansDF.show()

使用pyspark進行機器學習（聚類問題）

BisectingKMeans class pyspark.ml.clustering.BisectingKMeans(self, featuresCol="features", predic

使用pyspark進行機器學習（分類問題）

LogisticRegression class pyspark.ml.classification.LogisticRegression(self, featuresCol="feature

使用pyspark進行機器學習（迴歸問題）

DecisionTreeRegressor class pyspark.ml.regression.DecisionTreeRegressor(self, featuresCol="features", labelCol="label", predic

機器學習（十二）讓你輕鬆理解K-means 聚類演算法

前言你還記得菜市場賣菜的嗎？書店賣書的或者是平時去超市買東西時的物品，它們是不是都根據相似性擺放在一起了呢，飲料、啤酒、零食分佈在各自區域，像這樣各級事物的相似特點或特性組織在一起的方法，在機器學習裡面即成為

吳恩達機器學習（十一）K-means（無監督學習、聚類演算法）

目錄 0. 前言學習完吳恩達老師機器學習課程的無監督學習，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。如果這篇文章對你有一點小小的幫助，請給個關注喔~我會非常開心

機器學習之聚類（二）

在機器學習和資料探勘中，我們經常需要知道個體間差異的大小，進而評價個體的相似性和類別。最常見的是資料分析中的相關分析，資料探勘中的分類和聚類演算法，如 K 最近鄰（KNN）和 K 均值（K-Means）等等。根據資料特性的不同，可以採用不同的度量方法

機器學習（十六）無監督學習、聚類和KMeans聚類

無監督學習、聚類聚類是在樣本沒有標註的情況下，對樣本進行特徵提取並分類，屬於無監督學習的內容。有監督學習和無監督學習的區別就是需要分析處理的資料樣本是否事先已經標註。如下圖，左邊是有監督，右邊是無監督：應用場景也有所不同。無

機器學習之聚類演算法（層次聚類）

層次聚類也叫連通聚類方法，有兩個基本方法：自頂而下和自底而上。自頂而將所有樣本看做是同一簇，然後進行分裂。自底而上將初所有樣本看做不同的簇，然後進行凝聚。這種聚類的中心思想是：離觀測點較近的點相比離觀測點較遠的點更可能是一類。這種方法首先會生成下面的樹

斯坦福大學機器學習筆記——聚類（k-均值聚類演算法、損失函式、初始化、聚類數目的選擇）

上面的部落格的演算法都是有監督學習的演算法，即對於每個資料我們都有該資料對應的標籤，資料集的形式如下：而今天我們學習的演算法是一種無監督學習的演算法——聚類，該演算法中的每個資料沒有標籤，資料集的形式如下： K-均值聚類 k-均值聚類是一種最常見

機器學習之聚類分析---K-means（一）

初探k-means（Matlab）俗話說：，聚類分析的目的是：在資料中發現數據物件之間的關係，並將資料進行分組，使得組內的相似性儘可能大，組間的差別盡可能大，那麼聚類的效果越好。例如在市場營銷中，聚類分

周志華《機器學習》之第九章（聚類）概念總結

記得在讀研期間，去選修資料探勘與資料倉庫這門課，當時老師講的很多的一個知識點，那就是聚類分析，然後老師講了很多什麼關聯分析等等，很多都忘記了，當時也是聽得雲裡霧裡的。看完周老師在機器學習這本書中提到的聚類，大概理解了聚類能做什麼，能解決什麼樣的問題。周老師在資料

Python_sklearn機器學習庫學習筆記（五）k-means（聚類）

# K的選擇：肘部法則如果問題中沒有指定K的值，可以通過肘部法則這一技術來估計聚類數量。肘部法則會把不同K值的成本函式值畫出來。隨著K值的增大，平均畸變程度會減小；每個類包含的樣本數會減少，於是樣本離其重心會更近。但是，隨著K值繼續增大，平均畸變程度的改善效果會不斷減

機器學習-層次聚類（劃分聚類）

層次聚類（劃分聚類）聚類就是對大量未知標註的資料集，按照資料內部存在的資料特徵將資料集劃分為多個不同的類別，使類別內的資料比較相似，類別之間的資料相似度比較小；屬於無監督學習。演算法步驟 1.初始化的k箇中心點 2.為每個樣本根據距離分配類別 3.更新每個類別的中心點（更新為該類別的所有樣本的均

機器學習經典聚類演算法 —— k-均值演算法（附python實現程式碼及資料集）

目錄工作原理 python實現演算法實戰對mnist資料集進行聚類小結附錄工作原理聚類是一種無監督的學習，它將相似

機器學習-KMeans聚類 K值以及初始類簇中心點的選取

src 常用趨勢試圖重復執行很大的一個點 3.4 選擇【轉】http://www.cnblogs.com/kemaswill/archive/2013/01/26/2877434.html 本文主要基於Anand Rajaraman和Jeffrey David

機器學習（西瓜書）模型評估與選擇

str 驗證選擇復雜集合數據集枚舉重新模型 1、評估標準　　1）經驗誤差：訓練集上產生的誤差　　2）泛化誤差：對新樣本進行預測產生的誤差　　3）過擬合：經驗誤差很小甚至為零，泛化誤差很大（模型訓練的很復雜，幾乎涵蓋了訓練集中所有的樣本點）　　4）欠擬

機器學習（1-1）監督學習

收集是否分開希望專業思想技術分享多個無限監督學習在本視頻中，我將介紹一種也許是最常見的機器學習問題。即監督學習。後面將給出監督學習更正式的定義，現在最好以示例來說明什麽是監督學習。之後再給出正式的定義。假設你想預測房價（無比需要啊！)，之前，某學生已經

機器學習（Machine Learning）大家與資源

內容挺多的，轉過來吧 =======================國外==================== Machine Learning 大家(1)：M. I. Jordan (http://www.cs.berkeley.edu/~jordan/) &nbs

吳恩達機器學習（十六）機器學習流水線、上限分析

目錄 0. 前言 1. 流水線 2. 上限分析（Ceiling analysis）學習完吳恩達老師機器學習課程的照片OCR，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。如果這篇文章對你有一點小小的幫助，請給個關注

吳恩達機器學習（第一章）

機器學習可以分為監督學習和無監督學習兩大類。一、監督學習監督學習就是在資料中有特定標註，會對資料進行分類，比如癌症例子。監督學習得到的結果可以預測某個新資料對應的結果（線性迴歸）或是該資料屬於哪一類（邏輯迴歸）。比如癌症的預測，房價的預測等。圈和叉就分別標識兩類資料，即在學習

使用pyspark進行機器學習（聚類問題）

BisectingKMeans

引數解釋

擬合後的模型擁有的方法和屬性

Summary擁有的屬性

程式碼

KMeans

引數解釋

擬合後的模型擁有的方法和屬性

程式碼

GaussianMixture

引數解釋

擬合後的模型擁有的方法和屬性

Summary擁有的屬性

程式碼

相關推薦