《統計學習方法》第7章課後題答案

最近在補一些機器學習的基礎知識，所以就刷了一下李航博士的《統計學習方法》。那麼刷一本書怎麼才能徹底呢，當然是刷題了。幸好作者在每一章留有課後題，在這裡嘗試做一下。

（一想到這部分內容可能會被完爆我好幾條街的大神看到就覺得好害羞 ⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄。個人水平有限，望大神指正）

在做題之前先吐槽一下第7章的內容，本章介紹了支援向量機的相關知識，內容安排合理，講解清楚，是很棒的入門材料。不過在刷書的過程中遇到了一些小疑問，我準備把這些小疑問和大家分享一下。有些通過查文獻找到了答案，有些還沒有解決，希望路過的大神指點。

1、P104在推導拉格朗日函式L(w,b,α)極小值的過程中，如何確定所求得的極值點（導數等於0的點）就是L

(w,b,α)的極小值而不是極大值呢？是否可以證明一下其所對應的二次型在這一情況下只能取極小值？

2、p120式7.82下面那句話如果嚴格說來應該是“對於不完備的賦範向量空間S，一定可以找到一個完備的賦範向量空間H，使得S在H中稠密”

3、P130式7.116下面那段話，原文的意思是如果0<αnewi<C，那麼bnew1=bnew2。我嘗試證明一下這但是死活搞不出來。後來轉念一想，P112最下面的部分不是已經說明了b的值不唯一麼。為什麼這裡就變成bnew1=bnew2一定成立了呢？

後來經過查閱Platt的原始文獻”Fast training of support vector machines using sequential minimal optimization”發現原文中是這麼說的：“when b

1 and b2 are vaild, they are equal”（b1,b2是原作者使用的記號，也就相當於bnew1,bnew2）。所以我覺得原文中的內容是不是這個意思：“如果bnew1,bnew2都複合條件，那麼用哪個作為最終結果都是一樣的”。不知這部分理解是否正確，求大神指點。

4、P130在SMO演算法中，應該在第一步也將b初始化為0

進入正題，下面的答案是我自己做的，有時候會偷懶╮(￣▽￣)╭，請見諒。

1.1 比較感知機的對偶形式與線性可分支援向量機的對偶形式。

這是一個開放問題，如何比較這兩種模型的對偶形式呢。我思前想後決定首先把這兩個對偶形式寫出來：

給定一個訓練資料集

T={(x1,y1),(x2,y2),…,(xN,yN)}
其中，xi∈X=Rn,yi∈Y={−1,1},i=1,2,…,N。

根據本書前面的內容：感知機學習演算法是求引數w,b，使其為以下損失函式極小化問題的解：

minw,bL(w,b)=−∑xi∈Myi(w⋅xi+b)

其中M為誤分類點的集合。上式稱為感知機演算法的原始形式，事實上，如果使用P114頁所介紹的[∗]+函式，可以將上述原始形式寫為：

minw,bL(w,b)=∑i=1N[−yi(w⋅xi+b)]+

如果將w,b表示為例項xi和標記yi的線性組合的形式，即：

wb=∑j=1Nαjyjxj=∑j=1Nαjyj

其中αj>0,j=1,2,…,N那麼上述原始形式可以寫為如下的對偶形式：

minw,bL(w,b)=∑i=1N[−yi(w⋅xi+b

《統計學習方法》第7章 課後題答案