【機器學習】實驗三 Parzen窗 KNN

阿新 • • 發佈：2019-02-16

一、實驗內容

考慮上面表格中點的parzen window估計和分類器。設視窗函式為球面高斯函式：
- a) 編寫一個程式，根據Parzen視窗對任意測試點x進行分類估計。使用三維資料訓練你的分類器。設h = 1，分類樣本點為： $(0.50;1.0;0.0)^t (0.31;1.51;-0.50)^t和(-0.3;0.44;-0.1)^t$ 。
- b) h = 0.1, 重複a)
考慮在不同維數下的k-最近鄰密度估計
- (a)編寫一個程式，對於一維的情況，當有n個數據樣本點時，進行k-緊鄰概率密度估計。對錶格中的類別w3,中的特徵x1，用程式畫出當k = 1,3,5時的概率密度估計結果。
- (b)編寫一個程式，對於二維的情況，當有n個數據樣本點時，進行k-緊鄰概率密度估計。對錶格中的類別w2,中的特徵 $(x1，x2)^T$ ，用程式畫出當k = 1,3,5時的概率密度估計結果。
- ( c )對上表中三個類別的三維資料編寫一個k-近鄰分類器。當k=1,3,5時，對下面點的概率密度進行估計。 $(-0.41, 0.82, 0.88)^t , (0.14, 0.72, 4.1)^t and (-0.81, 0.61, -0,38)^t.$
  
  )t,(0.14,0.72,4.1)tand(−0.81,0.61,−0,38)t.
使用的資料：

二、實驗環境

linux系統
g++編譯器6.3.0及以上版本
matlab 2016a
可在windows下使用同樣或更高版本的g++編譯器編譯，但需要修改Makefile檔案，刪除命令rm改為del, 可執行檔案main改為main.exe

三、理論知識

非引數估計：不假定其分佈符合哪種分佈，而是直接用樣本和待判定向量計算其條件概率。
關鍵公式： $p_n(x)=( k_n/n)/V_n$ , Parzen方法是固定體積 $V_n$

求 $K_n$ .而KNN方法是固定要包含的樣本個數，求幾何體體積。
估計概率密度：估計概率密度的時候，我們最終的輸出結果應該是一個概率值。
- Parzen方法：以輸入的x為中心，輸入的h為半徑（邊長），做一個球體（超幾何體），然後看這個類的樣本中有多少個樣本在這個球體內部，這個數量就是上面公式中的 $k_n$ ,將其代入公式中求出 $p_n(x)$ ，這個值就是我們想要的值。
- KNN方法：在這個類別的樣本中找到距離x (輸入資料）最近的K (是輸入資料）個樣本，然後再在找到的這K個樣本中找到離他最遠的那個樣本，以他們之間的距離為半徑，以輸入的x為中心，做一個球體，這個球體的體積就是 $V_n$ .將其代入上述公式，求出 $p_n(x)$ 即可。
分類：
- 將上面的 $p_n(x)$ 帶入到貝葉斯公式，最後貝葉斯公式變成了 $p(w_i|x) = k_i/k_n$ 。
- parzen方法： $k_i$ 是在以待判定向量x為中心以h為邊長（半徑）的超幾何體所包含的樣本中 $w_i$ 樣本的數量。 $k_n$ 是上述超幾何體所包含的全部樣本數量。由於在判定後驗概率大小的時候， $k_n$ 對於所有類別都是相同的。所以我們在計算的時候只需要計算 $k_i$ 。 $k_i=\sum_{i = 1}^n\phi((x-x_i)/h)$ 。最後比較各個類別中 $k_i$ 的大小，那個大則屬於哪一類。
- KNN方法：就是找到距離輸入向量x最近的K個向量，然後看找到的這些樣本中，哪一類的最多則判為哪一類。

四、實驗過程

1、parzen窗

由於題目中要求進行分類，所以我們沒有必要直接求出 $p_n(x)$ ，只要求出 $k_i$ ,然後哪個大，就屬於那類。關鍵程式碼如下：

int NPE::judgePar(string vec_str_in, float h)
{
	this->storage.reset();
	Matrix vec1 = this->userInputProcess(vec_str_in);
	float g = - FLT_MAX, temp = 0;//將g賦值為最小浮點數
	int victory = -1;
	for (int counter1 = 1; counter1 <= this->classSize; counter1++)
	{
		temp = 0;
		for (int counter2 = 0; counter2 < this->sampleSize; counter2++)
		{
			Matrix vec2 = vec1 - this->storage.readData();
			temp += exp(-(vec2.trans()*vec2).matrixToFloat()/(2*pow(h,2)));
		}
		if (temp > g)
		{
			g = temp;
			victory = counter1;
		}
	}
	return victory;
}

結果

2、kNN

新加函式及其正確性說明

這次比上次在Matrix類中增加了友元函式eDist來計算歐氏距離，下面驗證其正確性,這個函式會在C小題中用到。
程式碼：
就是計算[1.55,2.66]和[2,3]之間的歐式距離

cout<<eDist(npe.userInputProcess("[1.55,2.66]"), npe.userInputProcess("[2,3]"));

結果：
結果驗證：

a小題

找到最近的k個點然後V = 2*dis, dis是x到第k個最近點之間的歐式距離。
x取了[0,3]之間的數，每隔0.01取一個值。
結果：
k = 1,3,5

b小題

基本和a小題一樣，不同之處就在於，這裡是二維，所以V應該是面積，以x為圓心，x到離它最近的第k個點的歐式距離為半徑，求面積。畫圖時，x軸取[-3,3]，每隔0.1取一個值，y軸取[-3,4],每隔0.1取一個值。
結果：

c小題

在這裡插入圖片描述

五、遇到的問題

1、思路和演算法都正確，結果不正確

在編寫parzen方法時思路就像上面說的，是正確的，結果就是不正確。所以我在思考是我的程式碼有問題，還是抄資料的時候出了錯誤。所以，就想百度一個已有的程式碼，然後用我的樣本資料去執行這個程式碼。如果結果和網上的一樣說明我的資料是沒有問題的，是程式碼實現時出錯了；反之，就是資料有問題。百度了一個已經寫好的程式碼¹（python語言），看了下實現思路，和我的不一樣，是直接求概率密度，這樣就更好了，兩種方法驗證，我copy下來，使用我的資料檔案執行，發現結果正確，這就說明我的資料是沒有問題的，然後就debug。把所有變數一一輸出。。。。。。。一大堆操作。最後發現，原來是判決第一個向量後讀取檔案指標到了檔案末尾，然後沒有把他移到開頭，就開始判斷下一個向量了，導致出錯。
matlab不常用三維畫圖不會，弄了好久好不容易弄出上面的圖，雖然很醜。。。。

【機器學習】實驗三 Parzen窗 KNN

一、實驗內容考慮上面表格中點的parzen window估計和分類器。設視窗函式為球面高斯函式： a) 編寫一個程式，根據Parzen視窗對任意測試點x進行分類估計。使用三維資料訓練你的分類

【機器學習】動手寫一個全連線神經網路（三）：分類

我們來用python寫一個沒有正則化的分類神經網路。傳統的分類方法有聚類，LR邏輯迴歸，傳統SVM，LSSVM等。其中LR和svm都是二分類器，可以將多個LR或者svm組合起來，做成多分類器。多分類神經網路使用softmax+cross entropy組

【機器學習】人像識別（三）——K-Means聚類

簡介　　K-Means聚類是一種非監督的聚類方式，原理參看資料探勘十大演算法 | k-means。　　程式碼 import sys import random import numpy as np from sklearn.decomposit

【機器學習】決策樹（三）——生成演算法（ID3、C4.5與CRAT）

回顧前面我們介紹了決策樹的特徵選擇，以及根據資訊增益構建決策樹。那麼決策樹的生成又有哪些經典演算法呢？本篇將主要介紹ID3的生成演算法，然後介紹C4.5中的生成演算法。最後簡單介紹CRAT演算法。 ID3演算法前面我們提到，一般而言，資訊增

【機器學習】【線性迴歸】梯度下降的三種方式(BGD+SGD+MSGD)以及三種調優方法(加快收斂速度)

1.梯度下降演算法梯度下降演算法的核心思路和公式推導，可以詳見前面的文章：梯度下降演算法的核心思路和公式推導如果代價函式是凸函式，用梯度下降演算法一定可以求得最優解。2.梯度下降的三種方式在ML中，梯度下降有三種方式：1）批量梯度下降(Batch Gradient Desc

【機器學習】演算法原理詳細推導與實現(三):樸素貝葉斯

【機器學習】演算法原理詳細推導與實現(三):樸素貝葉斯在上一篇演算法中，邏輯迴歸作為一種二分類的分類器，一般的迴歸模型也是是判別模型，也就根據特徵值來求結果概率。形式化表示為 $p(y|x;\theta)$，在引數 $\theta$ 確定的情況下，求解條件概率 $p(y|x)$ 。通俗的解釋為：

【機器學習】隨機森林 Random Forest 得到模型後，評估參數重要性

img eas 一個 increase 裏的 sum 示例增加機器在得出random forest 模型後，評估參數重要性 importance（）示例如下特征重要性評價標準 %IncMSE 是 increase in MSE。就是對每一個變量比如 X1

【機器學習】主成分分析PCA（Principal components analysis）

大小限制總結情況 pca 空間會有 ges nal 1. 問題真實的訓練數據總是存在各種各樣的問題：　　1、比如拿到一個汽車的樣本，裏面既有以“千米/每小時”度量的最大速度特征，也有“英裏/小時”的最大速度特征，

【機器學習】1 監督學習應用與梯度下降

例如 tla ges 機器 fprintf lns 找到輸入 style 監督學習簡單來說監督學習模型如圖所示其中 x是輸入變量又叫特征向量 y是輸出變量又叫目標向量通常的我們用（x,y）表示一個樣本而第i個樣本用（x（i），y（i））表示 h是輸出函

【機器學習】EM的算法

log mea www 優化問題 get href ive 路線 EM的算法流程：初始化分布參數θ；重復以下步驟直到收斂： E步驟：根據參數初始值或上一次叠代的模型參數來計算出隱性變量的後驗概率，其實就是隱性變量的期望。作為隱藏變量的

【機器學習】DBSCAN Algorithms基於密度的聚類算法

多次使用缺點有效結束基於需要 att 共享一、算法思想： DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個比較有代表性的基於密度的聚

【機器學習】數據預處理之將類別數據轉換為數值

行數據 pri and slab form ces nbsp 遍歷 encode 在進行python數據分析的時候，首先要進行數據預處理。有時候不得不處理一些非數值類別的數據，嗯，今天要說的就是面對這些數據該如何處理。目前了解到的大概有三種方法： 1，通過LabelE

【機器學習】對梯度下降算法的進一步理解

獨立 com 線性回歸執行 ont 執行過程 wid 簡單的技術單一變量的線性回歸讓我們依然以房屋為例，如果輸入的樣本特征是房子的尺寸，我們需要研究房屋尺寸和房屋價格之間的關系，假設我們的回歸模型訓練集如下其中我們用 m表示訓練集實例中的實例數量， x代表特

【機器學習】手寫數字識別算法

alt gdi 數字識別 -1 轉換 error: erro files turn 1.數據準備樣本數據獲取忽略，實際上就是將32*32的圖片上數字格式化成一個向量，如下：本demo所有樣本數據都是基於這種格式的訓練數據：將圖片數據轉成1*1024的數組，作為一

【機器學習】隨機初始化思想神經網絡總結

算法代價函數所有 -i 如果中間相同決定最小　之前在進行梯度下降時，通常我們讓Θ等參數為0，這樣的做法在邏輯回歸中還是可行的，但是在神經網絡中，如果你讓所有的參數都初始化為0，這將意味著第二層的所有的激活單元都會有相同的值，同理，如果我們初始化所有的參數都是一

【機器學習】 Matlab 2015a 自帶機器學習算法匯總

dtree 決策 mat 可能集成模型訓練貝葉斯 cdi top MATLAB機器學習沒看到啥教程，只有一系列函數，只好記錄下： MATLAB每個機器學習方法都有很多種方式實現，並可進行高級配置（比如訓練決策樹時設置的各種參數），這裏由於篇幅的限制，不再詳細描述。我

【機器學習】支持向量機（SVM）

cto nom 機器 ins 神經網絡學習參數 mage 36-6 感謝中國人民大學胡鶴老師，課程深入淺出，非常好關於SVM 可以做線性分類、非線性分類、線性回歸等，相比邏輯回歸、線性回歸、決策樹等模型（非神經網絡）功效最好傳統線性分類：選出兩堆數據的質心，並

【機器學習】---密度聚類從初識到應用

max 一個 eight log div 指定聚類空間 mar 一.前述密度聚類是一種能降噪的算法。二.相關概念先看些抽象的概念（官方定義）： 1.：對象O的是與O為中心，為半徑的空間，參數，是用戶指定每個對象的領域半徑值。 2.MinPts（領域密度閥值）：對象

【機器學習】--線性回歸中L1正則和L2正則

last clas nbsp post pan red font 推廣 http 一、前述 L1正則，L2正則的出現原因是為了推廣模型的泛化能力。相當於一個懲罰系數。二、原理 L1正則：Lasso Regression L2正則：Ridge Regression

【機器學習】谷歌的速成課程（一）

label spa dev 分類 ram 做出 org ron 表示問題構建 (Framing) 什麽是（監督式）機器學習？簡單來說，它的定義如下：機器學習系統通過學習如何組合輸入信息來對從未見過的數據做出有用的預測。標簽在簡單線性回歸中，標簽是我們要預測

【機器學習】實驗三 Parzen窗 KNN

一、實驗內容

二、實驗環境

三、理論知識

四、實驗過程

1、parzen窗

2、kNN

新加函式及其正確性說明

a小題

b小題

c小題

五、遇到的問題

1、思路和演算法都正確，結果不正確

相關推薦