1. 程式人生 > >非引數估計-parzen窗估計和k近鄰估計

非引數估計-parzen窗估計和k近鄰估計

  許多資料探勘模型(貝葉斯決策模型)是基於一假設條件的:資料的概率密度函式的引數形式已知,然後去估計其引數,並且有引數估計方法,最大似然估計和貝葉斯引數估計等。這一假設是帶有相當大的侷限性的,第一:假設是否總是成立;第二:經典的密度函式的引數形式都是單峰的,怎麼處理多峰問題;第三:高維概率密度可由一些一維概率密度組成是否總是成立。此時,我們不禁要問,如何才能繞開這一假設,而直接處理任意概率分佈的資料呢。非引數方法,給我們提供了不必假設概率密度的引數形式,而直接估計概率密度。

非引數概率密度的估計

  先講解一下非引數概率密度估計的理論支援。怎樣進行估計概率密度,為什麼會收斂於真實的概率密度值。

怎樣概率密度估計

  核心一個向量x落於區域R內的概率為:
  

P=Rp(x)dx; p(x)

  如果p(x)是連續的,且區域R足夠小,則上式可以變化一下:
  
Rp(x)dxp(x)V; VR

  則可以得到p(x)的估計:p(x)PV
  如果n個樣本x1,x2,x3,...,xn是根據概率密度p(x)獨立同分布的取樣得到的,則事件k個樣本落在區域R內的概率Pk服從二項分佈:
  
Pk=CknPk(1P)nk

  其中k的期望為: E(k)=nP 得到P的估計:Pkn
  綜合{p(x)P/VPk/n
得到p(x)的估計:p(x)k/nV
  注意到兩個問題(侷限性),若想用這種方式估計概率密度:
  1. k/n總是由一定變動的。在V固定的情況下,樣本越多,k/n將會收斂。實際情況並不總是遂人意,可能會有0個1個2個樣本在區域內。
  2. p(x)總是存在一定程度的平滑效果(平滑意味著取平均,不是真實值)。受到樣本所限,V不能取得任意小。p(x)=PV=Rp(x)dxRdx

為什麼估計收斂於真實概率密度

  如果我們能夠得到無限多的樣本,是否可以克服上面的兩個問題(侷限性),收斂到真實的概率密度函式。答案是肯定的,不過需要一定的條件,現證明如下。
  為估計點x處的概率密度函式,構造一系列包括點x

的區域:R1,R2,R3,...,Rn。其中,區域R1使用1個樣本,區域R2使用2個樣本,R3使用3個樣本,…,區域Rn使用n個樣本。Vn對應區域Rn的體積,kn表示落於區域Rn內的樣本個數。pn(x)表示對p(x)的第n次估計:
  

p