聚類演算法-K-means-C++實現

阿新 • • 發佈：2019-01-08

程式流程圖：

K-means核心功能函式，首先，隨機選擇K-中心點（中心點座標為簇中所有點的x座標的平均值，y座標的平均值，該點用於記錄位置，不屬於原始資料集）；迴圈判斷中心點是否不變，若是，將二維點對資訊寫入clustering檔案，程式結束。否則，對於每個二維資料點，選擇與其距離最近的中心點，將點cluster編號更新為中心點的cluster編號。然後對於K-簇，重新計算K-中心點，進入下一個迴圈判斷。

計算簇中心是否不變可以採用SSE方式，具體實現程式碼中已給出，或者直接迴圈執行多次（不推薦）。

/*
	K-means Algorithm
	15S103182
	Ethan
*/
#include <iostream>
#include <sstream>
#include <fstream>
#include <string>
#include <vector>
#include <ctime>
#include <cstdlib>
#include <limits>
using namespace std;
/* run this program using the console pauser or add your own getch, system("pause") or input loop */
typedef struct Point{
	float x;
	float y;
	int cluster;
	Point (){}
	Point (float a,float b,int c){
		x = a;
		y = b;
		cluster = c;
	}
}point;
float stringToFloat(string i){
	stringstream sf;
	float score=0;
	sf<<i;
	sf>>score;
	return score;
}
vector<point> openFile(const char* dataset){
	fstream file;
	file.open(dataset,ios::in);
	vector<point> data;
	while(!file.eof()){
		string temp;
		file>>temp;
		int split = temp.find(',',0);
		point p(stringToFloat(temp.substr(0,split)),stringToFloat(temp.substr(split+1,temp.length()-1)),0);
		data.push_back(p);
	}		
	file.close();
	return data;
}
float squareDistance(point a,point b){
	return (a.x-b.x)*(a.x-b.x)+(a.y-b.y)*(a.y-b.y);
}
void k_means(vector<point> dataset,int k){
	vector<point> centroid;
	int n=1;
	int len = dataset.size();
	srand((int)time(0));
	//random select centroids
	while(n<=k){
		int cen = (float)rand()/(RAND_MAX+1)*len;
		point cp(dataset[cen].x,dataset[cen].y,n);
		centroid.push_back(cp);
		n++;
	}
	for(int i=0;i<k;i++){
		cout<<"x:"<<centroid[i].x<<"\ty:"<<centroid[i].y<<"\tc:"<<centroid[i].cluster<<endl;
	}
	//cluster
	int time = 100;
	int oSSE = INT_MAX;
	int nSSE = 0;
	while(abs(oSSE-nSSE)>=1){
//	while(time){
		oSSE = nSSE;
		nSSE = 0;
		//update cluster for all the points
		for(int i=0;i<len;i++){
			n=1;
			float shortest = INT_MAX;
			int cur = dataset[i].cluster;
			while(n<=k){
				float temp=squareDistance(dataset[i],centroid[n-1]);			
				if(temp<shortest){
					shortest = temp;
					cur = n;
				}
				n++;
			}
			dataset[i].cluster = cur;
		}
		//update cluster centroids
		int *cs = new int[k];
		for(int i=0;i<k;i++) cs[i] = 0;
		for(int i=0;i<k;i++){
			centroid[i] = point(0,0,i+1);
		}
		for(int i=0;i<len;i++){
			centroid[dataset[i].cluster-1].x += dataset[i].x;
			centroid[dataset[i].cluster-1].y += dataset[i].y;
			cs[dataset[i].cluster-1]++;
		}
		for(int i=0;i<k;i++){
			centroid[i].x /= cs[i];
			centroid[i].y /= cs[i];
		}
		cout<<"time:"<<time<<endl;
		for(int i=0;i<k;i++){
			cout<<"x:"<<centroid[i].x<<"\ty:"<<centroid[i].y<<"\tc:"<<centroid[i].cluster<<endl;
		}	
		//SSE
		for(int i=0;i<len;i++){
			nSSE += squareDistance(centroid[dataset[i].cluster-1],dataset[i]);
		}
//		time--;
	}
	fstream clustering;
	clustering.open("clustering.txt",ios::out);
	for(int i=0;i<len;i++){
		clustering<<dataset[i].x<<","<<dataset[i].y<<","<<dataset[i].cluster<<"\n";
	}
	clustering.close();
//	cout<<endl;
//	for(int i=0;i<centroid.size();i++){
//		cout<<"x:"<<centroid[i].x<<"\ty:"<<centroid[i].y<<"\tc:"<<centroid[i].cluster<<endl;
//	}
}
int main(int argc, char** argv) {
	vector<point> dataset = openFile("dataset3.txt");
	k_means(dataset,7);
	return 0;
}

資料檔案格式：（x，y）

執行結果格式：（x，y，cluster）

具體檔案格式見DBSCAN篇：http://blog.csdn.net/k76853/article/details/50440182

圖形化展現：

總結：

K-means演算法執行速度快，實現簡便。但K-means演算法對具有變化大小，變化密度，非圓形狀等特點的資料具有侷限性。解決方法是增加K的大小，增加cluster數量，使得資料的特徵能夠更加明顯。對於資料初始中心點的選擇，採用隨機的方式可能無法產生理想的聚類，這時可以採用二分K-means方法，或層次聚類進行處理。

聚類演算法-K-means-C++實現

聚類演算法-K-means-C++實現

聚類演算法-K-means

資料聚類演算法-K-means演算法

機器學習聚類(Clustering)____K-均值聚類演算法(K-means Clustering) 層次聚類(Hierarchical Clustering)

機器學習學習筆記第十九章聚類演算法-K-MEANS

[聚類演算法]K-means優缺點及其改進

機器學習聚類演算法——K-means聚類

聚類演算法—K-Means原理與應用

機器學習中K-means聚類演算法原理及C語言實現

聚類分析(K-means 層次聚類和基於密度DBSCAN演算法三種實現方式)

K-means均值聚類演算法的原理與實現

聚類之均值聚類（k-means）演算法的python實現

K-Means聚類演算法的原理及實現

k-means聚類演算法原理及python3實現

周志華《機器學習》Ch9. 聚類：k-means演算法的python實現

機器學習——K-均值聚類（K-means）演算法

聚類之K-means演算法

無監督學習——聚類（k-means演算法）

聚類演算法實踐（一）——層次聚類、K-means聚類

聚類分析層次聚類及k-means演算法

聚類演算法-K-means-C++實現

相關推薦