Knn演算法實現

阿新 • • 發佈：2019-02-15

#include <iostream>
#include <string>
#include <vector>
#include <set>
#include <map>
#include <fstream>
#include <sstream>
#include <cassert>
#include <cmath>
using namespace std;

//樣例結構體，所屬型別和特徵向量
struct sample
{
	string type;
	vector<double> features;
};

// 型別和距離結構體，未用到
struct typeDistance
{
	string type;
	double distance;
};

bool operator < (const typeDistance& lhs, const typeDistance& rhs)
{
	return lhs.distance < rhs.distance;
}

// 讀取訓練樣本
// 訓練樣本的格式是：每行代表一個樣例
// 每行的第一個元素是型別名，後面的是樣例的特徵向量
// 例如：
/*
a    1 2 3 4 5
b    5 4 3 2 1
c    3 3 3 3 3
d    -3 -3 -3 -3 -3
a    1 2 3 4 4
b    4 4 3 2 1
c    3 3 3 2 4
d    0 0 1 1 -2
*/
void readTrain(vector<sample>& train, const string& file)
{
	ifstream fin(file.c_str());
	if (!fin)
	{
		cerr << "File error!" << endl;
		exit(1);
	}
	string line;
	double d = 0.0;
	while (getline(fin, line))
	{
		istringstream sin(line);
		sample ts;
		sin >> ts.type;
		while (sin >> d)
		{
			ts.features.push_back(d);
		}
		train.push_back(ts);
	}
	fin.close();
}

// 讀取測試樣本
// 每行代表一個樣例
// 每一行是一個樣例的特徵向量
// 例如：
/*
1 2 3 2 4
2 3 4 2 1
8 7 2 3 5
-3 -2 2 4 0
-4 -4 -4 -4 -4
1 2 3 4 4
4 4 3 2 1
3 3 3 2 4
0 0 1 1 -2
*/
void readTest(vector<sample>& test, const string& file)
{
	ifstream fin(file.c_str());
	if (!fin)
	{
		cerr << "File error!" << endl;
		exit(1);
	}
	double d = 0.0;
	string line;
	while (getline(fin, line))
	{
		istringstream sin(line);
		sample ts;
		while (sin >> d)
		{
			ts.features.push_back(d);
		}
		test.push_back(ts);
	}
	fin.close();
}

// 計算歐氏距離
double euclideanDistance(const vector<double>& v1, const vector<double>& v2)
{
	assert(v1.size() == v2.size());
	double ret = 0.0;
	/*
	size_type由string類型別和vector類型別定義的型別，用以儲存任意string物件或vector物件的長度，標準庫型別將size_type定義為unsigned型別
	*/
	for (vector<double>::size_type i = 0; i != v1.size(); ++i)
	{
		ret += (v1[i] - v2[i]) * (v1[i] - v2[i]);
	}
	return sqrt(ret);
}

// 初始化距離矩陣
// 該矩陣是根據訓練樣本和測試樣本而得
// 矩陣的行數為測試樣本的數目，列數為訓練樣本的數目
// 每一行為一個測試樣本到各個訓練樣本之間的歐式距離組成的陣列
void initDistanceMatrix(vector<vector<double> >& dm, const vector<sample>& train, const vector<sample>& test)
{
	for (vector<sample>::size_type i = 0; i != test.size(); ++i)
	{
		vector<double> vd;
		for (vector<sample>::size_type j = 0; j != train.size(); ++j)
		{
			vd.push_back(euclideanDistance(test[i].features, train[j].features));
		}
		dm.push_back(vd);
	}
}

// K-近鄰法的實現
// 設定不同的 k 值，給每個測試樣例予以一個型別
// 距離和權重成反比
void knnProcess(vector<sample>& test, const vector<sample>& train, const vector<vector<double> >& dm, unsigned int k)
{
	for (vector<sample>::size_type i = 0; i != test.size(); ++i)
	{
		multimap<double, string> dts;  //儲存與測試樣本i距離最近的k個點
		for (vector<double>::size_type j = 0; j != dm[i].size(); ++j)
		{
			if (dts.size() < k) //把前面k個插入dts中
			{
				dts.insert(make_pair(dm[i][j], train[j].type)); //插入時會自動排序，按dts中的double排序，最小的排在最後
			}
			else
			{
				multimap<double, string>::iterator it = dts.end();
				--it;
				if (dm[i][j] < it->first) //把當前測試樣本i到當前訓練樣本之間的歐氏距離與dts中最小距離比較，若更小就更新dts
				{
					dts.erase(it);
					dts.insert(make_pair(dm[i][j], train[j].type));
				}
			}
		}
		map<string, double> tds;
		string type = "";
		double weight = 0.0;
		//下面for迴圈主要是求出與測試樣本i最鄰近的k個樣本點中大多數屬於的類別，即將其作為測試樣本點i的類別
		for (multimap<double, string>::const_iterator cit = dts.begin(); cit != dts.end(); ++cit)
		{
			// 不考慮權重的情況，在 k 個樣例中只要出現就加 1
			// ++tds[cit->second];

			// 這裡是考慮距離與權重的關係，距離越大權重越小
			tds[cit->second] += 1.0 / cit->first;
			if (tds[cit->second] > weight)
			{
				weight = tds[cit->second];
				type = cit->second;  //儲存一下類別
			}
		}
		test[i].type = type;
	}
}

// 輸出結果
// 輸出的格式和訓練樣本的格式一樣
// 每行表示一個樣例，第一個元素是該樣例的型別，後面是該樣例的特徵向量
// 例如：
/*
a    1 2 3 2 4 
b    2 3 4 2 1 
b    8 7 2 3 5 
a    -3 -2 2 4 0 
d    -4 -4 -4 -4 -4 
a    1 2 3 4 4 
b    4 4 3 2 1 
c    3 3 3 2 4 
d    0 0 1 1 -2 
*/
void writeTest(const vector<sample>& test, const string& file)
{
	ofstream fout(file.c_str());
	if (!fout)
	{
		cerr << "File error!" << endl;
		exit(1);
	}
	for (vector<sample>::size_type i = 0; i != test.size(); ++i)
	{
		fout << test[i].type << '\t';
		for (vector<double>::size_type j = 0; j != test[i].features.size(); ++j)
		{
			fout << test[i].features[j] << ' ';
		}
		fout << endl;
	}
}

// 封裝
void knn(const string& file1, const string& file2, const string& file3, int k)
{
	vector<sample> train, test;
	readTrain(train, file1.c_str());
	readTest(test, file2.c_str());
	vector<vector<double> > dm;
	initDistanceMatrix(dm, train, test);
	knnProcess(test, train, dm, k);
	writeTest(test, file3.c_str());
}

// 測試
int main()
{
	knn("train.txt", "test.txt", "result.txt", 5);
	return 0;
}

Hadoop偽分佈安裝詳解+MapReduce執行原理+基於MapReduce的KNN演算法實現

本篇部落格將圍繞Hadoop偽分佈安裝+MapReduce執行原理+基於MapReduce的KNN演算法實現這三個方面進行敘述。（一）Hadoop偽分佈安裝 1、簡述Hadoop的安裝模式中–偽分佈模式與叢集模式的區別與聯絡. Hadoop的安裝方式有三種:本地模式,偽分佈模式

KNN演算法實現影象分類

首先，回顧k-Nearest Neighbor（k-NN）分類器，可以說是最簡單易懂的機器學習演算法。實際上，k-NN非常簡單，根本不會執行任何“學習”，以及介紹k-NN分類器的工作原理。然後，我們將k-NN應用於Kaggle Dogs vs. Cats資料集，這是Microsoft的A

python資料建模與KNN演算法實現手寫體數字識別

資料建模指的是對現實世界各類資料的抽象組織,建立一一個適合的模型對資料進行處理。在資料分析與挖掘中,我們通常需要根據一-些資料建立起特定的模型，然後處理。模型的建立需要依賴於演算法, - -般,常見的演算法有分類、聚類、關聯、

加權歐氏距離KNN演算法實現人臉識別(Python實現)

前沿: 本實踐是純屬小白練手入門小專案，希望未來可以手動自己用神經網路來識別人臉。共勉，加油! 題目內容: 針對標準人臉樣本庫，選擇訓練和測試樣本，對基本的knn分類演算法設計智慧演算法進行改進，能夠對測試樣本識別出身份。題目要求: 1) 選擇合適的編碼

Spark學習筆記-KNN演算法實現

基於Spark簡單實現演算法程式碼如下： object SparkKNN extends Serializable { def main(args: Array[String]) { if (args.length != 4) { printl

KNN演算法實現及其交叉驗證

KNN演算法用NumPy庫實現K-nearest neighbors迴歸或分類。鄰近演算法，或者說K最近鄰(kNN，k-NearestNeighbor)分類演算法是資料探勘分類技術中最簡單的方法之一。所謂K最近鄰，就是k個最近的鄰居的意思，

基於KNN演算法實現的單個圖片數字識別

Test.csv中第1434行，圖片數字值為”0“,最終歸類為0，正確。 Test.csv中第14686行，圖片數字值為”8“,最終歸類為8，正確。 4原始碼最後附上本次基於KNN思想實現單個數字圖片識別的全部原始碼。 /** * @Title: DigitClassification.java

R語言基於KNN演算法實現蘑菇毒性識別

R語言：基於KNN演算法實現蘑菇毒性識別平臺：Ubuntu16.04LTS RStudio 資料集介紹： trainData.txt 訓練資料集。包含4339個樣本（行），每個樣本共6個特徵（列），其中前5列為蘑菇樣本的特徵值，第6列為蘑菇的毒性屬性，0表示無毒，1

機器學習實戰-KNN演算法實現及遇到的問題總結

最近在看《機器學習實戰》這本書，內容充實，重視實踐，很不錯，也很適合機器學習的入門。下面貼上用python編寫的KNN演算法程式碼，放在部落格裡安全啊~~我的電腦隨時都會崩潰的.... from numpy import * import operator from os

編寫knn演算法實現手寫體識別

一、首先學習學習knn演算法。 kNN演算法的核心思想是如果一個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別，並具有這個類別上樣本的特性。該方法在確定分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。 kNN方法

機器學習之KNN演算法實現影象分類

閒著無聊，這次自己動手實現一下簡單的KNN分類演算法，來實現對圖片的分類，夯實一下自己的基礎。首先，KNN演算法流程： 1）計算測試資料與各個訓練資料之間的距離； 2）按照距離的遞增關係進行排序； 3）選取距離最小的點； 4）確定最小點所在的位置； 5）返回最

KNN演算法——實現手寫數字識別（Sklearn實現）

KNN專案實戰——手寫數字識別 1、資料集介紹需要識別的數字已經使用圖形處理軟體，處理成具有相同的色彩和大小：寬高是32畫素x32畫素的黑白影象。儘管採用本文格式儲存影象不能有效地利用記憶體空間，但是為了方便理解，我們將圖片轉換為文字格式。數字的文字格式如下：

Knn演算法實現

#include <iostream> #include <string> #include <vector> #include <set> #include <map> #include <fstream> #include <

【機器學習演算法實現】kNN演算法手寫識別——基於Python和NumPy函式庫

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Tensorflow實現KNN演算法

tensorflow實現KNN演算法 KNN演算法應該是機器學習中比較好理解的一種演算法，它沒有訓練的過程，就是看樣本點中與測試點距離(可以是歐式距離，也可以是曼哈頓距離等等)最近的K個點的分類。採用投票的方式，即K個點中最多的分類即是該測試點的分類。 tensorflow的程式碼如

C#實現K-近鄰(KNN)演算法

KNN（k-nearest-neighbor）演算法的思想是找到在輸入新資料時，找到與該資料最接近的k個鄰居，在這k個鄰居中，找到出現次數最多的類別，對其進行歸類。 Iris資料集是常用的分類實驗資料集，由Fisher, 1936收集整理。Iris也稱鳶尾花卉資料集，是一類多重變數分析的資料

machine learning Knn演算法最鄰近規則取樣（三）自己實現演算法

import csv import random import math import operator #匯入資料集,split將資料分為兩部分，訓練集和測試集 def loadDataset(filename,split,trainingSet=[],testSet=[]):

python實現KNN演算法

from numpy import * import operator import numpy as np a = np.array([1,2,3,4,5,6]) print(a.shape) def knn(k,testdata,traindata,labels):#traindata訓練資料集 l

機器學習--k-近鄰演算法（kNN）實現手寫數字識別

這裡的手寫數字以0,1的形式儲存在文字檔案中，大小是32x32.目錄trainingDigits有1934個樣本。0-9每個數字大約有200個樣本，命名規則如下：下劃線前的數字代表是樣本0-9的

KNN演算法及python實現

KNN演算法原理和python實現 K最近鄰(kNN，k-NearestNeighbor)分類演算法是資料探勘分類技術中最簡單的方法之一。原理是：如果一個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別，並具有這個類別上樣本的

Knn演算法實現

相關推薦