非引數估計-parzen窗估計和k近鄰估計

　　許多資料探勘模型（貝葉斯決策模型）是基於一假設條件的：資料的概率密度函式的引數形式已知，然後去估計其引數，並且有引數估計方法，最大似然估計和貝葉斯引數估計等。這一假設是帶有相當大的侷限性的，第一：假設是否總是成立；第二：經典的密度函式的引數形式都是單峰的，怎麼處理多峰問題；第三：高維概率密度可由一些一維概率密度組成是否總是成立。此時，我們不禁要問，如何才能繞開這一假設，而直接處理任意概率分佈的資料呢。非引數方法，給我們提供了不必假設概率密度的引數形式，而直接估計概率密度。

非引數概率密度的估計

　　先講解一下非引數概率密度估計的理論支援。怎樣進行估計概率密度，為什麼會收斂於真實的概率密度值。

怎樣概率密度估計

　　核心：一個向量x落於區域R內的概率為：
　　

P=∫Rp(x)dx; 其中p(x)是概率密度函數
　　如果p(x)是連續的，且區域R足夠小，則上式可以變化一下：
　　∫Rp(x)dx≈p(x)∗V; 其中V是區域R的體積
　　則可以得到p(x)的估計：p(x)≈PV
　　如果n個樣本x1,x2,x3,...,xn是根據概率密度p(x)獨立同分布的取樣得到的，則事件k個樣本落在區域R內的概率Pk服從二項分佈：
　　Pk=CknPk(1−P)n−k
　　其中k的期望為： E(k)=nP 得到P的估計：P≈kn
　　綜合{p(x)≈P/VP≈k/n

得到p(x)的估計：p(x)≈k/nV
　　注意到兩個問題（侷限性），若想用這種方式估計概率密度：
　　1. k/n總是由一定變動的。在V固定的情況下，樣本越多，k/n將會收斂。實際情況並不總是遂人意，可能會有0個1個2個樣本在區域內。
　　2. p(x)總是存在一定程度的平滑效果（平滑意味著取平均，不是真實值）。受到樣本所限，V不能取得任意小。p(x)=PV=∫Rp(x)dx∫Rdx

為什麼估計收斂於真實概率密度

　　如果我們能夠得到無限多的樣本，是否可以克服上面的兩個問題（侷限性），收斂到真實的概率密度函式。答案是肯定的，不過需要一定的條件，現證明如下。
　　為估計點x處的概率密度函式，構造一系列包括點x

的區域：R1,R2,R3,...,Rn。其中，區域R1使用1個樣本，區域R2使用2個樣本，R3使用3個樣本,…,區域Rn使用n個樣本。Vn對應區域Rn的體積，kn表示落於區域Rn內的樣本個數。pn(x)表示對p(x)的第n次估計：
　　

非引數估計-parzen窗估計和k近鄰估計

非引數概率密度的估計

怎樣概率密度估計

為什麼估計收斂於真實概率密度

非引數估計法之 parzen窗方法和k近鄰方法估計概率密度

parzen窗方法和k近鄰方法估計概率密度

非引數估計-parzen窗估計和k近鄰估計

非引數技術——Parzen窗估計方法

數學模型：3.非監督學習--聚類分析和K-means聚類

SPSS中八類常用非引數檢驗之四單樣本K-S檢驗

K近鄰估計

最近鄰法和k-近鄰法 KD樹

最近鄰和K近鄰及其優化演算法LSH（區域性敏感雜湊，Locality Sensitive Hashing） Kd-Tree

模式識別：非引數估計法之Parzen窗估計和k最近鄰估計

模式識別七--非引數估計法之Parzen窗估計和k

非引數估計：parzen窗發與kn近領法

非引數估計——核密度估計（Parzen窗）

python資料探勘入門與實踐--------電離層（Ionosphere）, scikit-learn估計器，K近鄰分類器，交叉檢驗，設定引數

R語言Copula的貝葉斯非引數估計

直方圖法、Kn近鄰估計法、Parzen窗法

引數估計與非引數估計

機器學習_非引數估計

PRML 第二章非引數化概率密度估計

有監督學習、無監督學習、引數估計、非引數估計

非引數估計-parzen窗估計和k近鄰估計

非引數概率密度的估計

怎樣概率密度估計

為什麼估計收斂於真實概率密度

相關推薦