1. 程式人生 > >FPGA機器學習之stanford機器學習第十堂

FPGA機器學習之stanford機器學習第十堂

               誤差都為0.

這次用三點舉例子。也是可以完全分離的。

如果用這三個點的話。h就不可以分離了。

可是用4個點的話。h函式也不可以完全分離。

在二維空間裡面,任何線性分離器都不可以分割右上角四個點的情況。

根據這些情況可以得到一些結論。

如果要分離n個假設類的話,至少需要VC維數至少是n+1個

給定一個H假設類,讓d=vc(h)。在至少概率在1-的話。

VC是不會有過擬合現象的。

SVM和logistic迴歸都不是直接的ERM演算法。但是是ERM的近似。

model  selection

Cross validation

 70%資料用來訓練,30%資料用來測試。有些更有效率的交叉選取。

k值交叉選取:k經常是10.每次留10分之1做驗證。剩下的十分之9做訓練。得到一個誤差。

然後在用第二個10分之一做驗證,剩下十分之九做訓練。在得到一個誤差。共做了10次訓練,求十個誤差。

如果樣本數量非常少,就會選用留1,交叉訓練。方法和上面的k值交叉選取一樣。

關於這些邊界和樣本數的相關情況是,如果你按照邊界理論去解出樣本量的話,有時候樣本需要很大。是無法完成的。

但是一般性情況是樣本幾倍於參量,擬合會很好。

Feature Selection

前向選擇演算法。一個一個特徵來,然後用交叉驗證,得到一個最小誤差。然後把誤差最小的合格的特徵保留下來。這個就是特徵選擇。

封裝特徵選擇。它的變相叫後向選擇。就是不合格刪除特徵過程。

如果太多的特徵的情況下,用的方法叫過濾模型。

大概是x對y的影響度有多大。這個公式來估計。

這個叫KL距離。

需要選取前K個特徵。

微笑我能力有限,但是我努力分享我的知識,希望能一起學習,一起進步。這個就是我的初衷