1. 程式人生 > >機器學習理論筆記(4)

機器學習理論筆記(4)

高緯度的區域性方法

高維的資料相比於低緯度的來說,多了很多麻煩 。s首先,高維取樣中,同樣比例的鄰域往往需要邊長較長的取樣。為了方便分析,我們假設是在p維單位超立方體中取樣。如圖,取一個佔整個單位體積比例為r的樣本,那麼取樣邊長就是

ep(r)=r1p
這裡寫圖片描述

那麼如果樣本空間維度是10,取樣大小佔總樣本的1%,那麼每一條邊的平均取樣邊長度就是e10(0.01)0.63,如果取樣10%,平均取樣邊長就是e10(0.1)0.8,也就是說我們取樣10%就需要覆蓋每個維度的80%
其次,均勻分佈的樣本點一般都更加靠近邊緣處。例如,從原點到最近資料點的一箇中值距離是

d(p,N)=(1121N)1p
證明Ex2.3
還有一點就是取樣樣本密度與N1p成正比,也就是說單輸入問題N1=100稠密度的樣本,對於10輸入問題來說,就需要N10=10010的樣本容量。構造一個均勻分佈的例子,在[1,1]p中取1000個點,YX的真正關係是:Y=f(X)=e8X
檢驗x0=0使用1-最近鄰規則預測y0,對1000個樣本取均值,考慮f(0)均方誤差:
MSE(x0)=E[f(x0)y^0]2=E[y^0E(y^0)]2+[E(y^0)f(x0)]2=Var(y^0)+Bias2(y^0)
備註:由於x0是確定的,所以f(x0)可以看作是常值,上式直接拆開計算比較一下就可以了。上式成為方差偏倚分解。
對於p=1的情況,x0的最近點非常接近0,但是隨著維度的增加,最近點逐漸遠離。1-NN,MSE,方差,平方偏倚與維度的關係如圖。
這裡寫圖片描述

高維函式的複雜性往往也是這樣指數增長,要達到低維函式相同的精度,訓練的資料大小也是呈指數增長的。
如果我們知道YX之間是接近線性的: