1. 程式人生 > >機器學習筆記 第10課

機器學習筆記 第10課

繼續學習有關學習理論方面的知識。

(1)依賴於浮點數為64位,可得到一個不是那麼嚴格的結論,假設線性分類器共有d個引數,即m應與d成線性關係。代入樣本複雜度表示式即可得。

(2)VC維的V和C分別代表兩個人

VC維=3,代表存在一個假設可以使其分散大小為3的集合。並不是要求其對於所有大小為3的集合都可分割。要理解這裡分散的意思。我認為VC所要解決的是假設空間若存在無限種假設的問題。解決的思路是VC維從無限種假設中進行分類從而提取出有限種有效的假設。即對於偏差\方差權衡公式,利用VC維替代假設空間個數,解除假設空間假設數目的約束。

Andrew得出一個結論是:訓練樣本的數量階應和VC維的階同階。

對於大多數模型而言,模型訓練的樣本數量和模型的引數數量大概呈線性關係。

VC維的上界與特徵的維度無關,對於線性分類器來說,只需考慮那些使分割間隔較大的分類器。

VC維暫且理解為一個假設空間的複雜度吧,也就是說VC維越多,代表假設越複雜(即二次分類器比線性分類器複雜),即假設能夠shatter的點越多。還沒有弄明白。具體參照:

http://www.flickering.cn/machine_learning/2015/04/vc%E7%BB%B4%E7%9A%84%E6%9D%A5%E9%BE%99%E5%8E%BB%E8%84%89/

(3)邏輯迴歸和SVM(凸)是對於ERM(非凸)的一種近似模擬,一種凸優化

接下來關於模型選擇的內容

(4)hold out cross validation 七三開

k-fold cross validation k次求平均

leave one-out cross validation   when trainning examples are very few

接下來關於模型選擇

(6)特徵過多往往會產生過擬合的風險

前向搜尋與後向搜尋,比較好理解 (wrapper feature selection) 計算量很大

filter feature selection 對於每個特徵i,都計算出其對於y的影響程度

對於文字分類問題,因為特徵的表達常用0和1表示,所以常利用Mutual information(MI)作為計算公式,從MI的公式看出。

KL距離,用來衡量兩種概率分佈之間的差異,即衡量的是特徵i的分佈與y的分佈的差異