高緯度的區域性方法

高維的資料相比於低緯度的來說，多了很多麻煩。s首先，高維取樣中，同樣比例的鄰域往往需要邊長較長的取樣。為了方便分析，我們假設是在p維單位超立方體中取樣。如圖，取一個佔整個單位體積比例為 $r$ 的樣本，那麼取樣邊長就是

e_{p} (r) = r^{\frac{1}{p}}

那麼如果樣本空間維度是10，取樣大小佔總樣本的1%，那麼每一條邊的平均取樣邊長度就是 $e_{10} (0.01) \approx 0.63$ ，如果取樣10%，平均取樣邊長就是 $e_{10} (0.1) \approx 0.8$ ，也就是說我們取樣10%就需要覆蓋每個維度的80%
其次，均勻分佈的樣本點一般都更加靠近邊緣處。例如，從原點到最近資料點的一箇中值距離是

d (p, N) = (1 - {\frac{1}{2}}^{\frac{1}{N}})^{\frac{1}{p}}

證明Ex2.3
還有一點就是取樣樣本密度與

N^{\frac{1}{p}}

成正比，也就是說單輸入問題

N_{1} = 100

稠密度的樣本，對於10輸入問題來說，就需要

N_{10} = 100^{10}

的樣本容量。構造一個均勻分佈的例子，在

[- 1, 1]^{p}

中取1000個點，

Y

與

X

的真正關係是：

Y = f (X) = e^{- 8 ‖ X ‖}

檢驗

x_{0} = 0

使用1-最近鄰規則預測

y_{0}

，對1000個樣本取均值，考慮

f (0)

均方誤差：

\begin{aligned} M S E (x_{0}) & = E [f (x_{0}) - {\hat{y}}_{0}]^{2} \\ = E [{\hat{y}}_{0} - E ({\hat{y}}_{0})]^{2} + [E ({\hat{y}}_{0}) - f (x_{0})]^{2} \\ = V a r ({\hat{y}}_{0}) + B i a s^{2} ({\hat{y}}_{0}) \end{aligned}

備註：由於

x_{0}

是確定的，所以

f (x_{0})

可以看作是常值，上式直接拆開計算比較一下就可以了。上式成為方差偏倚分解。
對於

p = 1

的情況，

x_{0}

的最近點非常接近0，但是隨著維度的增加，最近點逐漸遠離。1-NN,MSE,方差，平方偏倚與維度的關係如圖。
這裡寫圖片描述

高維函式的複雜性往往也是這樣指數增長，要達到低維函式相同的精度，訓練的資料大小也是呈指數增長的。
如果我們知道 $Y$ 與 $X$ 之間是接近線性的:

Y = X^{T} β + ε

機器學習理論筆記（4）

高緯度的區域性方法

機器學習理論筆記（4）

Andrew Ng機器學習課程筆記（四）之神經網絡

《Python 機器學習》筆記（一）

《Python 機器學習》筆記（四）

《Python機器學習》筆記（六）

機器學習讀書筆記（四）樸素貝葉斯基礎篇之網站賬號分類

機器學習讀書筆記（三）決策樹基礎篇之從相親說起

機器學習簡要筆記（二）——常見學習任務及算法

機器學習速成筆記（二）：訓練與損失

機器學習速成筆記（一）：主要術語

機器學習實戰筆記（一）- 使用SciKit-Learn做回歸分析

機器學習課程筆記（2）

機器學習數學原理（4）——樸素貝葉斯演算法

Coursera吳恩達機器學習教程筆記（一）

程式設計師的機器學習入門筆記（七）：推薦系統入門介紹

2018-3-21李巨集毅機器學習視訊筆記（十三）--“Hello Wrold” of Deep learning

Andrew Ng機器學習課程筆記（十三）之無監督學習之EM演算法

CS229機器學習個人筆記（3）——Logistic Regression+Regularization

CS229機器學習個人筆記（2）——Linear Regression with Multiple Variables

CS229機器學習個人筆記（1）——Linear Regression with One Variable