1. 程式人生 > >《統計學習方法》李航著 第一章讀書筆記

《統計學習方法》李航著 第一章讀書筆記

有一個公眾號叫  “夕小瑤的賣萌屋” ,這位公眾號推薦說 李航的《統計學習方法》是一門基礎課。因此我從網上找了找資源 ,著手去看了。覺得寫得確實很棒。

首先,以前看機器學習理論總是單獨看,分著看,覺得關聯規則就是關聯規則,神經網路就是神經網路。但是這本書能讓我有著一種想法,就是將整個機器學習串聯起來。

首先什麼是統計學習呢,統計學習也稱作統計機器學習。按照百度百科的意思就是從統計學的角度上,發展起來的機器學習理論。

統計學習三要素

在本書中,將統計學習建模過程概括為三個要素。模型,策略,演算法。

模型:不同的模型功效不一樣

策略

損失函式:也叫做代價函式,這個比較熟悉了,比如普通最小二乘迴歸中用的均方誤差就是損失函式,或者資訊熵等等。

風險函式:就是損失函式的期望值,也可以叫做期望損失。定義如下:

這裡面的L就是損失函式,p就是x與y 的聯合分佈。。意思就是如果知道聯合分佈之後就能夠知道風險函數了。 但是這不可能啊,知道聯合分佈了,求邊際分佈很容易就求出來了,然後求條件概率P(y|x)不就求出來了麼,所以說這個想法行不通。

由於以上的策略行不通,所以又想了個策略。根據大數定律,無窮樣本的均值就是期望值。但是現實中也不可能有無窮的樣本,所以說對這個方法需要改進才能使用。所以自然而然就想到了經驗風險最小。

當樣本量足夠大時,極大似然估計就是經驗風險最小化的一個例子。但是當樣本量很小的時候,經驗風險最小化就容易產生過擬合現象。

結構風險最小化是為了防止過擬合而提出來的策略。結構風險最小化等價於正則化。就是加入正則化項或者叫懲罰項。當然正則項人們都知道有第一範數和第二範數,,之後用時候再說吧。

演算法:演算法是指學習模型的具體計算方法。

模型評估與模型選擇

對於模型的評估,在這本書裡僅僅說了用訓練誤差和測試誤差來對模型進行評估,其實我到現在也是隻知道這種方法對模型進行評估,看誤差大不大,,最多就是畫一個交叉圖,離散資料的話檢視資料分類的正確率。

對於模型的選擇,由於訓練模型存在過擬合問題,所以可能需要加上一個正則項,,或者交叉驗證。

正則項與交叉驗證

正則項有兩種範數{L_1},{L_2}兩種範數

根據奧卡姆剃刀原則:在所有可能選擇的模型中,能夠很好的解釋已知資料並且十分簡單才是最好的模型,也就是 應該選擇的模型。

交叉驗證:

如果資料充足,將模型分為三個部分,訓練集、驗證集和測試集。

如果資料不充足,有三種方法可以使用。簡單交叉驗證,S折交叉驗證,留一交叉驗證

簡單交叉驗證:最簡單的將資料几几開,分為訓練集與測試集。然後對模型進行評估

S折交叉驗證:將資料分為S個互不相交的大小相同的子集,然後利用S-1個子集資料進行模型訓練。利用餘下的子集測試模型。將這一個過程重複進行,最後選出測試誤差最小的模型

留一交叉驗證: 就是極值的將資料分為N個樣本集,用S折交叉驗證的方法,意思就是每個樣本就是一個數據集。進行交叉驗證,這種方法是在資料缺乏的情況下使用的。

ojbk,第一章完事了。泛化能力這一章搞得不是很懂,以後再說吧,坑是自己挖的,,以後慢慢補。其他章沒什麼好說的,都是基礎。不說了

2018-8-20 21:09