機器學習 K-means 聚類演算法 C++

阿新 • • 發佈：2018-12-16

筆記:

尚未解決的問題 :
   1. 只支援二維,而不支援三維或更高,需要模板元
   2. 尚未實現如何刪除極端點, 即預處理
   3. 尚未視覺化

編譯環境 Ubuntu gcc 5.4 編譯選項 g++ -std=c++14

#include <iostream>
#include <functional>
#include <fstream>
#include <cstdlib>
#include <ctime>
#include <vector>
#include <tuple>
#include <memory>
#include <string>
#include <cmath>
#include <array>
#include <list>
#include <assert.h>
#include "scopeguard.h"
using point = std::tuple<double, double>;
using oneCluster = std::vector<point>;

void print(const std::vector<oneCluster>& clusters) {
	for(const auto& it : clusters) {
		std::cout << "\n\n*******************\n\n";
		for(const auto& r : it) {
			std::cout << "( " << std::get<0>(r) << " , ";
			std::cout << std::get<1>(r) << " )\n";
		}
	}
}

// 讀取檔案內容
std::vector< point > readData(const std::string& path) {  // std::unique_ptr
	std::ifstream in(path.c_str());
	YHL::ON_SCOPE_EXIT([&]{
		in.close();
		std::cout << "資料集檔案已關閉\n\n";
	});
	auto items = 0;
	in >> items;
	auto x = 0.00, y = 0.00;
	std::vector< point > dataSet;
	for(int i = 0;i < items; ++i) {
		in >> x >> y;
		dataSet.emplace_back(std::make_tuple<double, double>(std::move(x), std::move(y)));
	}
	for(const auto& it : dataSet)
		std::cout << std::get<0>(it) << "\t" << std::get<1>(it) << "\n";
	return dataSet;
}

// 計算兩個點之間的距離, 在這裡選擇的是歐氏距離
inline double getDistance(const point& a, const point& b) {
	return sqrt(pow(std::get<0>(a) - std::get<0>(b), 2) + 
				pow(std::get<1>(a) - std::get<1>(b), 2));
}

// 在這些簇中心點 centers 中, one 這個點選離自己最近的一個,返回這個最近的中心店
const int getLabel(const point& one, const oneCluster& centers) {
	// 計算 one 每一個 cluster 中心的距離, 返回距離最近的那個 cluster
	auto Min = 1e6;
	int label = -1, centerSize = centers.size();
	for(int i = 0;i < centerSize; ++i) {
		auto ans = getDistance(centers[i], one);
		if(ans < Min) {
			Min = ans;
			label = i;
		}
	}
	return label;
}

// 給定一個簇,計算簇的中心,在這裡選擇的是 x, y 均值點
point getCenter(const oneCluster& one) {
	double mean_x, mean_y = 0.00;
	for(const auto& it : one) {
		mean_x += std::get<0>(it);  // 取橫座標
		mean_y += std::get<1>(it);  // 取縱座標
	}
	int scale = one.size();
	return std::make_tuple<double, double>(mean_x / scale, mean_y / scale);
}

// 給定聚類結果 clusters, 和這些簇的中心 centers,預估聚類效果,方式多樣
const double getEvaluate(const std::vector<oneCluster>& clusters,
						 const oneCluster& centers) {
	double ans = 0;
	int lSize = clusters.size(), rSize = centers.size(); // 一個簇對應一箇中心點
	assert(lSize == rSize);
	for(int i = 0;i < lSize; ++i) {
		// it 代表一個簇, 計算這個簇每一個點 和 "虛擬"中心點的距離(中心點可能不在簇中,畢竟求的是均值所在)
		int oneSize = clusters[i].size();
		for(int k = 0;k < oneSize; ++k) {
			ans += getDistance(clusters[i][k], centers[i]);  // 第 i 個簇的每個點, 計算和這個簇的中心點的距離
		}
	}
	return ans;
}

// 給定資料集 dataSet, 聚成 k 類, 閾值 thresholdValue(預估差 < 閾值 就結束)
std::vector< oneCluster > K_means(const oneCluster& dataSet, const int k, 
			 const double thresholdValue) {
	// 還可以預處理,刪掉極端點
	auto dataSize = dataSet.size();
	assert(k <= dataSize); // 如果聚類數 > 資料量,這是錯誤的
	oneCluster centers;
	// 先選定 k 個隨機的中心點
	std::vector<int> book(k, 0);
	srand(time(nullptr));
	for(int i = 0;i < k; ++i) {
		auto j = rand() % dataSize;
		while(book[j] == 1) 
			j = rand() % dataSize;
		centers.emplace_back(dataSet[j]);
	}

	// clusters 儲存的每一個元素都是一個簇, 預先分配 K 個簇的空間
	std::vector< oneCluster > clusters;
	clusters.assign(k, oneCluster());

	double oldValue = 0.00, newValue = 0.00; int cnt = 0;

	while(true) {
		std::cout << "\n\n********** 第 " << ++cnt << "  次聚類 ************\n\n";

		// 每個點找出離它最近的中心點, 放在第 label 個簇中
		for(const auto& it : dataSet) {
			auto label = getLabel(it, centers); 
			assert(0 <= label and label < k);
			clusters[label].emplace_back(it);
		}
		print(clusters);

		// 重新計算每個簇的中心點
		for(int i = 0;i < k; ++i) {
			centers[i] = getCenter(clusters[i]);
			std::cout << "第 " << i + 1 << " 個簇的中心點是  :  ";
			std::cout << "( " << std::get<0>(centers[i]) << " , " << std::get<1>(centers[i]) << " )\n";
		}

		// 重新衡量這次的最小函式值
		oldValue = newValue;  // 先儲存上次的最小均方差之和
		newValue = getEvaluate(clusters, centers);
		if(abs(newValue - oldValue) < thresholdValue) // 如果變化小於閾值,就結束
			return clusters; // NVO

		// 每次聚類,得到的聚類都是不一樣的,所以上次的記錄要清空
		for(auto &it : clusters) 
			it.clear();
	}
	return std::vector< oneCluster >();
}

int main() {
	auto dataSet = readData("k-means(1).txt");
	auto clusters = K_means(dataSet, 3, 0.5);
	print(clusters);
	return 0;
}

/*  尚未解決的問題 :
	1. 只支援二維,而不支援三維或更高,需要模板元
	2. 尚未實現如何刪除極端點, 即預處理
	3. 尚未視覺化
*/

生成測試資料的程式碼:

利用 C++ 生成隨機小數, 聲稱自己的資料集:

#include <iostream>
#include <fstream>
#include <ctime>
#include <random>
#include "scopeguard.h"

int main() {
	std::ofstream out("k-means(1).txt", std::ios::trunc);
	YHL::ON_SCOPE_EXIT([&]{ out.close(); });
	int num = 380;
	out << num << "\n";

	std::default_random_engine e(time(0));
	std::uniform_real_distribution<double> a(0, 4);
	std::uniform_real_distribution<double> b(6, 8);
	std::uniform_real_distribution<double> c(-3, -6);
	for(int i = 0;i < num - 80; ++i) {
		int choice = rand() % 3;
		switch(choice) {
			case 0 : {
				out << a(e) << " " << a(e) << "\n";  // 這一塊比較集中,位於第一象限
				break;
			}
			case 1 : {
				out << b(e) << " " << c(e) << "\n";  // 這一塊比較集中,位於第四象限
				break;
			}
			case 2 : {
				out << c(e) << " " << c(e) << "\n";  // 這一比較集中,位於第三象限
				break;
			}
		}
	}
	std::uniform_real_distribution<double> d(-10, 10); // 剩下的是大範圍內隨機, 1, 2, 3, 4象限都有
	for(int i = 0; i < 80; ++i)
		out << d(e) << " " << d(e) << "\n";
	return 0;
}

測試結果:

可見元素基本集中在三個象限中

機器學習 K-means 聚類演算法 C++

筆記: 尚未解決的問題 : 1. 只支援二維,而不支援三維或更高,需要模板元 2. 尚未實現如何刪除極端點, 即預處理 3. 尚未視覺化編譯環境 Ubuntu gcc 5.4 編譯選項 g++ -std=c++14 #include &l

k-means聚類演算法——c語言

程式程式碼： #include"stdio.h" #include"stdlib.h" #include<iostream> using namespace std; #define N 11 #define k 3 typedef struc

機器學習中K-means聚類演算法原理及C語言實現

本人以前主要focus在傳統音訊的軟體開發，接觸到的演算法主要是音訊訊號處理相關的，如各種編解碼演算法和回聲消除演算法等。最近切到語音識別上，接觸到的演算法就變成了各種機器學習演算法，如GMM等。K-means作為其中比較簡單的一種肯定是要好好掌握的。今天就講講K-means的基本原理和程式碼實現。其中基本原

吳恩達老師機器學習筆記K-means聚類演算法（二）

運用K-means聚類演算法進行影象壓縮趁熱打鐵，修改之前的演算法來做第二個練習—影象壓縮原始圖片如下：程式碼如下： X =imread('bird.png'); % 讀取圖片 X =im2double(X); % unit8轉成double型別 [m,n,z]=size

吳恩達老師機器學習筆記K-means聚類演算法（一）

今天接著學習聚類演算法以後堅決要八點之前起床學習！不要浪費每一個早晨。 K-means聚類演算法聚類過程如下：原理基本就是先從樣本中隨機選擇聚類中心，計算樣本到聚類中心的距離，選擇樣本最近的中心作為該樣本的類別。最後某一類樣本的座標平均值作為新聚類中心的座標，如此往復。原

機器學習（十二）讓你輕鬆理解K-means 聚類演算法

前言你還記得菜市場賣菜的嗎？書店賣書的或者是平時去超市買東西時的物品，它們是不是都根據相似性擺放在一起了呢，飲料、啤酒、零食分佈在各自區域，像這樣各級事物的相似特點或特性組織在一起的方法，在機器學習裡面即成為

機器學習——K-均值聚類（K-means）演算法

本文轉載自：https://www.cnblogs.com/ybjourney/p/4714870.html 一 K-均值聚類（K-means）概述聚類 “類”指的是具有相似性的集合。聚類是指將資料集劃分為若干類，使得類內之間的資料最為相似，各類之間的資料相

【機器學習】接地氣地解釋K-means聚類演算法

俗話說“物以類聚，人以群分”，這句話在K-means聚類演算法裡面得到了充分的繼承。而K-means演算法的實際應用範圍可謂是大到無法估量，基本可以說，只要你想不到，沒有聚類聚不起來的東西！ &nbs

吳恩達機器學習筆記八 K-means聚類演算法

1. 代價函式 K-means演算法是比較容易理解的，它屬於無監督學習方法，所以訓練樣本資料不再含有標籤。我們假設有樣本資料x(1),x(2),⋯,x(m)x(1),x(2),⋯,x(m)，我們選擇設定KK個聚類中心u1,u2,⋯,uKu1,u2,⋯,uK

吳恩達機器學習第七次作業Part1： K-means聚類演算法

這是習題和答案的下載地址，全網最便宜，只要一積分哦~~~ 0.綜述學習K-means聚類演算法，並對一幅影象進行畫素壓縮。 1.Find Closest Centroids 這是指令碼 %% ================= Part 1: Find Clo

ML-61: 機器學習之K均值(K-Means)聚類演算法含原始碼

機器學習之K均值聚類演算法1 演算法原理2 演算法例項3 典型應用參考資料機器學習分為監督學習、無監督學習和半監督學習(強化學習)。無監督學習最常應用的場景是聚類(clustering)和降維(dimension reduction)。聚類演算法包括：K均值

K-means聚類演算法——機器學習

聚類屬於無監督學習，以往的迴歸、樸素貝葉斯、SVM 等都是有類別標籤 y 的，也就是說樣例中已經給出了樣例的分類。而聚類的樣本中卻沒有給定 y，即監督樣本。在聚類問題中，給我們的訓練樣本是{?(1),…,?(?)}，每個?(?) ∈ ℝ?，沒有了 y。 K-mean

【機器學習】K-means聚類演算法初探

資料聚類是對於靜態資料分析的一門技術，在許多領域內都被廣泛地應用，包括機器學習、資料探勘、模式識別、影象分析、資訊檢索以及生物資訊等。聚類是把相似的物件通過靜態分類的方法分成不同的組別或者更多的子集，這樣讓在同一個子集中的成員物件都有相似的一些屬性，常見的包括在座標系中

python機器學習：K-means聚類演算法

為了更好構建關於機器學習的整體架構，多快好省的學好機器學習，計劃提綱挈領的總結一遍，從演算法的執行流程、虛擬碼流程構建、python程式碼實現、呼叫sklearn機器學習庫相關函式實現功能等方面論述，以便以後自己複習和備查，下面先從k-means演算法開始。一

機器學習（1）：K-MEANS聚類演算法

一、聚類簡介 1.無監督問題：我們手裡沒有標籤了 2.聚類：相似的東西分到一組 3.難點：如何評估，如何調參二、基本概念： 1.K：要得到簇的個數，需要指定K 2.質心：均值，即向量各維取平均 3.距離的度量：常用歐幾里得距離和餘弦相似度（先標準化） 4.優化目標（1）Ci代表

Andrew Ng機器學習課程筆記（十二）之無監督學習之K-means聚類演算法

Preface Unsupervised Learning（無監督學習） K-means聚類演算法 Unsupervised Learning 我們以前介紹的所有演算法都是基於有類別標籤的資料集，當我們對於沒有標籤的資料進行分類時，以前的方

機器學習(25)之K-Means聚類演算法詳解

微信公眾號關鍵字全網搜尋最新排名【機器學習演算法】：排名第一【機器學習】：排名第一【Python】：排名第三【演算法】：排名第四前言 K-Means演算法是無監督的聚類演算法，它實現起來比較簡單，聚類效果也不錯，因此應用很廣泛。K-Means演算法有大量的變體，本文就從最傳統的K-Means演算

機器學習之K-means聚類演算法

k均值演算法的計算過程非常直觀： 1、從D中隨機取k個元素，作為k個簇的各自的中心。 2、分別計算剩下的元素到k個簇中心的相異度，將這些元素分別劃歸到相異度最低的簇。 3、根據聚類結果，重新計算k個簇各自的中心，計算方法是取簇

非監督學習之k-means聚類演算法——Andrew Ng機器學習筆記（九）

寫在前面的話在聚類問題中，我們給定一個訓練集，演算法根據某種策略將訓練集分成若干類。在監督式學習中，訓練集中每一個數據都有一個標籤，但是在分類問題中沒有，所以類似的我們可以將聚類演算法稱之為非監督式學習演算法。這兩種演算法最大的區別還在於：監督式學習有正確答

【無監督學習】1：K-means聚類演算法原理

前言：粗略研究完神經網路基礎——BP、CNN、RNN、LSTM網路後自己算是鬆懈了很多，好長的時間都沒有堅持再更新部落格了。“腐敗”生活了這麼久，還是要找到自己一點樂趣吧，於是想了一想，決定把《機器學習》的演算法研究過得都重新梳理一遍，於是就從無監督學習——聚類

機器學習 K-means 聚類演算法 C++

相關推薦