TensorFlow學習（二）資料聚類分析

阿新 • • 發佈：2018-12-10

本文通過K均值演算法作為例子研究資料聚類分析

一、無監督學習概念

無監督學習可以從給定的資料集中找到感興趣的模式。

無監督學習，一般不給出模式的相關資訊。所以，無監督學習演算法需要自動探索資訊是怎樣組成的，並識別資料中的不同結構。

二、什麼是聚類

聚類就是對大量未知標註的資料集，按資料的內在相似性將資料集劃分為多個類別，使類別內的資料相似度較大而類別間的資料相似度較小。

聚類中沒有任何指導資訊，完全按照資料的分佈進行類別劃分。

聚類的大小和結構都沒有事先假定。

聚類屬於無監督學習。

三、K均值演算法

1.基本原理

k均值演算法試圖將給定的資料分割為k個不相交的組（group）或者簇（cluster），每個簇的指標就是該組所有成員的均值。這個點通常稱為質心，指具有相同名稱的算術實體，並且可以被表示為任意維度中的向量。

判據和目標是最小化簇成員到包含該成員的簇的實際質心的平方距離的總和。這也稱為慣性最小化，k均值的損失函式如下：

2.具體流程

（1）設定初始類別數K，人為設定K個類別中心;

（2）根據樣本和類別中心的距離進行類別劃分，樣本劃分到距離最近的類別;

（3）重新計算當前類別劃分下每類的中心（類別樣本平均值）;

（4）在得到類別中心下繼續進行類別劃分;

（5）如果連續兩次的類別劃分結果不變則停止演算法;否則迴圈2～5 ;

3.如何確定資料之間的相似度

可以採用歐式距離、曼哈頓距離、餘弦相似度等等。這裡就不對具體的相似度計算進行探討。

四、使用TensorFlow進行資料聚類分析。

首先匯入資料集，使用sklearn生成資料集

blobs資料集設定類別K為4

circle資料集設定類別K為2

import tensorflow as tf
import numpy as np
import time
import matplotlib
import matplotlib.pyplot as plt

from sklearn.datasets.samples_generator import make_blobs
from sklearn.datasets.samples_generator import make_circles

DATA_TYPE = 'blobs'
N=200
# Number of clusters, if we choose circles, only 2 will be enough
if (DATA_TYPE == 'circle'):
    K=2
else:
    K=4

centers為我們指定的初始質心

生成資料集並且使用matplotlib繪製資料集

centers = [(-2, -2), (-2, 1.5), (1.5, -2), (2, 1.5)]
if (DATA_TYPE == 'circle'):
    data, features = make_circles(n_samples=200, shuffle=True, noise= 0.01, factor=0.4)
else:
    data, features = make_blobs (n_samples=200, centers=centers, n_features = 2, cluster_std=0.8, shuffle=False, random_state=42)

fig, ax = plt.subplots()
ax.scatter(np.asarray(centers).transpose()[0], np.asarray(centers).transpose()[1], marker = 'o', s = 250)
plt.show()

fig, ax = plt.subplots()
if (DATA_TYPE == 'blobs'):
    ax.scatter(np.asarray(centers).transpose()[0], np.asarray(centers).transpose()[1], marker = 'o', s = 250)
    ax.scatter(data.transpose()[0], data.transpose()[1], marker = 'o', s = 100, c = features, cmap=plt.cm.coolwarm )
    plt.show()

points用於存放資料集的座標

cluser_assignments用於存放每個資料的類別

centroids用於儲存每個組質心的座標

points=tf.Variable(data)
cluster_assignments = tf.Variable(tf.zeros([N], dtype=tf.int64))               # 樣本歸屬聚類中心……

centroids = tf.Variable(tf.slice(points.initialized_value(), [0,0], [K,2]))    # 初始聚類中心……

初始化模型的引數

sess = tf.Session()
sess.run(tf.global_variables_initializer())

sess.run(centroids)

計算所有樣本與聚類中心的距離。

對所有的質心做N次複製，對每個樣本做K次複製，這樣，樣本點和質心的形狀都是N*K*2。我們就可以計算每一個樣本到每一個質心點之間在所有維度上的距離

rep_centroids = tf.reshape(tf.tile(centroids, [N, 1]), [N, K, 2])
rep_points = tf.reshape(tf.tile(points, [1, K]), [N, K, 2])

對所有維度求和，得到“和最小”的那個索引（這個索引就是每個點所屬的新的類）Centroids也會在每個迭代之後由bucket_mean函式更新。

sum_squares = tf.reduce_sum(tf.square(rep_points - rep_centroids), 
reduction_indices=2)
best_centroids = tf.argmin(sum_squares, 1)           # 樣本對應的聚類中心索引

停止條件是所有的質心不再變化

did_assignments_change = tf.reduce_any(tf.not_equal(best_centroids, cluster_assignments))

def bucket_mean(data, bucket_ids, num_buckets):
	total = tf.unsorted_segment_sum(data, bucket_ids, num_buckets)
	count = tf.unsorted_segment_sum(tf.ones_like(data), bucket_ids, num_buckets)
	return total / count

means = bucket_mean(points, best_centroids, K)

使用control_dependencies來控制是否更新質心

with tf.control_dependencies([did_assignments_change]):
	do_updates = tf.group(
	centroids.assign(means),
	cluster_assignments.assign(best_centroids))

更新質心

changed = True
iters = 0

fig, ax = plt.subplots()
if (DATA_TYPE == 'blobs'):
    colourindexes=[2,1,4,3]
else:
    colourindexes=[2,1]
while changed and iters < MAX_ITERS:
	fig, ax = plt.subplots()
	iters += 1
	[changed, _] = sess.run([did_assignments_change, do_updates])
	[centers, assignments] = sess.run([centroids, cluster_assignments])
	ax.scatter(sess.run(points).transpose()[0], sess.run(points).transpose()[1], marker = 'o', s = 200, c = assignments, cmap=plt.cm.coolwarm )

列印結果

ax.scatter(centers[:,0],centers[:,1], marker = '^', s = 550, c = colourindexes, cmap=plt.cm.plasma)
	ax.set_title('Iteration ' + str(iters))
	plt.savefig("kmeans" + str(iters) +".png")


ax.scatter(sess.run(points).transpose()[0], sess.run(points).transpose()[1], marker = 'o', s = 200, c = assignments, cmap=plt.cm.coolwarm )
plt.show()


end = time.time()
print(("Found in %.2f seconds" % (end-start)), iters, "iterations")
print("Centroids:")
print(centers)
print("Cluster assignments:", assignments)

執行結果

TensorFlow學習（二）資料聚類分析

本文通過K均值演算法作為例子研究資料聚類分析一、無監督學習概念無監督學習可以從給定的資料集中找到感興趣的模式。無監督學習，一般不給出模式的相關資訊。所以，無監督學習演算法需要自動探索資訊是怎樣組成的，並識別資料中的不同結構。二、什麼是聚類聚類就是對大量未知

MySQL學習（二）資料型別

擷取書中內容留作學習。。。。 1、整數型別 2、浮點數與定點數型別 3、日期時間型別　　向資料庫中插入當前系統時間：CURRENT_TIME或者NOW() 4、文字字串型別　　MySQL列舉型別：create table test(enm E

MySQL學習（二）數據類型

info 時間類 cond 圖片 nbsp 數據 enum con ble 截取書中內容留作學習。。。。 1、整數類型 2、浮點數與定點數類型 3、日期時間類型　　向數據庫中插入當前系統時間：CURRENT_TIME或者NOW() 4、文本字符串

TensorFlow學習（二）：tf.random_normal() 和 tf.random_unform()

1. tf.random_normal() #正態分佈 tf.random_normal( shape, mean=0.0, stddev=1.0, dtype=tf.float32, seed=None, name=None ) Args:

TensorFlow 學習（二）張量和基本運算

tensor：張量 operation: 專門運算的操作節點 graph: 整個程式的結構, 圖 TensorBoard: 視覺化學習 run() : 運算程式的圖、會話張量的階： 0 階：

吳裕雄資料探勘與分析案例實戰（14）——Kmeans聚類分析

# 匯入第三方包import pandas as pdimport numpy as np import matplotlib.pyplot as pltfrom sklearn.cluster import KMeansfrom sklearn import metrics # 隨機生成三組二元正態分佈隨

機器學習筆記（3）——使用聚類分析演算法對文字分類（分類數k未知）

聚類分析是一種無監督機器學習（訓練樣本的標記資訊是未知的）演算法，它的目標是將相似的物件歸到同一個簇中，將不相似的物件歸到不同的簇中。如果要使用聚類分析演算法對一堆文字分類，關鍵要解決這幾個問題：如何衡量兩個物件是否相似演算法的效能怎麼度量如何確定分類的個數或聚類

Kotlin學習（二）List集合類

基本語法 List集合類 Kotlin的集合分類：可變集合類（Mutable）不可變集合類（Immutable）通常集合中的物件是指集合中物件的引用，集合型別主要有List(列表)，Set(集)，Map(對映)。使用listOf()函式建立

聚類演算法（二）、聚類演算法的系統性比較

聚類是試圖將資料集中的樣本劃分為若干個不相交的子集。每個子集稱為一個“簇”（cluster)。聚類既能作為一個單獨的過程，也可以作為分類等其他學習任務的前驅任務、例如，在一些商業應用中，需要對新使用者的型別進行判別，但是定義“使用者l型別”對商家來說可不容易，此時

TensorFlow學習（二）：變數常量型別

更新時間：2017.5.4 tensorflow 1.0出來了，API和以前有了一些不一樣，所以這裡把把之前的程式碼遷移到新的上面去。（2017.2.27）對於一些性質有了新的認識。補充一些新的東西一.概覽還記的上節TensorFl

發現群組（二）分級聚類

python基礎字串處理方法： string.lstrip() 截掉string 左邊的空格 string.rstrip() 刪除string 字串末尾的空格 string.split(str="", num=string.count(str)) 以str 為分隔符切片

機器學習筆記（十二）：聚類

目錄 1）Unsupervised learning introduction 2）K-means algorithm 3）Optimization objective 4）Random initialization 5）Choosing the number of clus

深度學習（二）——從零自己製作資料集到利用deepNN實現誇張人臉表情的實時監測（tensorflow實現）

一、背景介紹這篇文章主要參考我的上一篇文章：深度學習（一）——deepNN模型實現攝像頭實時識別人臉表情（C++和python3.6混合程式設計）。由於上一篇文章的模型所採用的資料集為fer2013，前面也介紹過這個基於這個資料集的模型識別人臉表情的準確率大概在70%左右

機器學習（二）——K均值聚類演算法（K-means）

概述： 1.聚類 “類”指的是具有相似性的集合。聚類是指將資料集劃分為若干類，使得類內之間的資料最為相識，各類之間的資料相似度差別儘可能大。聚類分析就是以相似性為基礎，對資料集進行聚類分析，屬於無監督學習。 2.無監督學習和監督學習 k-均值聚類（k-means）與k-近鄰（knn）

redis學習（二）——String數據類型

字符串類型創建復雜度 back nbsp 命令時間復雜度 value con 一、概述字符串類型是Redis中最為基礎的數據存儲類型，它在Redis中是二進制安全的，這便意味著該類型可以接受任何格式的數據，如JPEG圖像數據或Json對象描述信息等。在R

python學習（二）python中的核心數據類型

核心 ble 學習經驗隨心所欲創建相關字符串 cells 數據類型是編程語言中的很重要的一個組成部分，我所知道的有數據類型的好處有：在內存中存放的格式知道，規定了有哪幾種可用的操作。我的埋點：為什麽要有數據類型那麽python中的數據類型有哪幾種呢？對象類型

UML學習（二）-----類圖

聚合相互結構化設計依賴關系關系種類面向對象 bin 1、什麽是類圖　　類圖(Class diagram)主要用於描述系統的結構化設計。類圖也是最常用的UML圖，用類圖可以顯示出類、接口以及它們之間的靜態結構和關系。 2、類圖的元素　　在類圖中一共包含了以下

Golang學習筆記（二）資料型別

Go的資料型別與Java等語言的資料型別幾乎一致 //byte其實就是uint8的別名 var aaa byte = 100 // rune其實就是int32的別名 var bbb rune = 200 //可以給一個字元，計算ascll碼 var ddd byte = 'a' var c

redis學習（二） redis資料結構介紹以及常用命令

redis資料結構介紹　　我們已經知道redis是一個基於key-value資料儲存的資料結構資料庫，這裡的key指的是string型別，而對應的value則可以是多樣的資料結構。其中包括下面五種型別：　　1.string 字串　　　string字串型別是redis最基礎的資料儲存型別。

Cocos2d-x學習筆記（二）淺析動作類CCAction(1)

Cocos2d-x的動作類CCAction並不是一個在螢幕中顯示的物件，動作必須要依託於CCNode類及其子類的例項才能發揮作用。CCAction繼承於物件類CCObject，有三個子類：有限時間動作、跟隨、移動速度，其中有限時間動作子類CCActionInterVal會形成動畫過程。

TensorFlow學習（二） 資料聚類分析

一、無監督學習概念

二、什麼是聚類

三、K均值演算法

1.基本原理

2.具體流程

3.如何確定資料之間的相似度

四、使用TensorFlow進行資料聚類分析。

相關推薦

TensorFlow學習（二）資料聚類分析