linear classification

上節中簡單介紹了影象分類的概念，並且學習了費時費記憶體但是精度不高的knn法，本節我們將會進一步學習一種更好的方法，以後的章節中會慢慢引入神經網路和convolutional neural network。這種新的演算法有兩部分組成：
1. 評價函式score function，用於將原始資料對映到分類結果（預測值）；
2. 損失函式loss function，用於定量分析預測值與真實值的相似程度，損失函式越小，預測值越接近真實值。
我們將兩者結合，損失函式中的引數也是評價函式中的引數，找到將loss function最小化的引數。

線性分類的引數化對映

這裡首先討論前面講的score function，最簡單的實現使用引數將原始資料對映到輸出分類的方法就是線性分類，他的方程如下：
這裡寫圖片描述
（公式的含義可以直接看後面的一節）
其中的x就是圖片的中的數值，上一章節我們提到過一個rgb的圖片包含三維資料，這裡是將所的所有的資料都展開為1維資料，其中我們需要知道w和b的術語名稱：
W：權重 weight ；b 偏差bias vector或者截距intercept
以下是我們需要知道的事情：
1. 多分類中，若有k類結果，那麼w就有k行，上面的矩陣方程能很好的同時表達k類的得分；
2. 我們的目標是控制w和b使我們的分類在全域性範圍內得分儘可能的與真實值相同，我們希望通過最後的函式得到的結果中，真實的類別會得到更大的score；
3. 當我們通過訓練資料得到w和b之後，就可以用這些引數方便快捷的對新圖片進行預測；
4. 最後，上面的公式在計算大量資料時會比knn等比較的方法更加迅速

線性影象分類的解釋

如何才能根據上面提到的線性分類的方程進行分類呢？
這裡寫圖片描述
主要到其中x是三個顏色通道rgb的展開，其中是各個畫素的值，如果我們想根據上面的公式判斷一個物體是大海還是草地，按照經驗我們希望在藍色通道代表的值中計算海水分數的權重要大一點，計算草地時，綠色通道的權重要大一些，也就是說可以通過調整引數來使得輸出值儘量的與我們想要的分類近似。
下面的例子中，我們要判斷一張圖片是屬於cat、dog、還是ship，假設我們最後的引數如下，得到了三種分類的不同的分數：
這裡寫圖片描述
可見計算結果更傾向於認為圖片是一隻狗。

幾何解釋

上面我們提到過需要把圖片展開為一維的資料，如在32x32的資料中，我們每一張圖片一共有3072個數值，換一種思路，一張圖片=3072個數，那麼我們可以認為這張圖片是3072維中的一個點，我們要做的分類也成了對點進行分類，為了便於展現，我們在二維空間中用下圖表現：
這裡寫圖片描述

我們需要做個就是建立上面的線性矩陣方程代入之後得到的結果用於分類。
按照上圖中所展現的，w控制斜率，b控制截距，如果沒有b，那麼所有類別分界線都會經過0點。

模板解釋

另外一種理解w的方法是將w理解為每一個類別的模板template或者prototype，模板的匹配程度就是利用內積的結果來衡量。下圖是通過學習cifar-10得到的template：
這裡寫圖片描述
上圖可以看出我們學到的horse彷彿有兩隻頭，兩隻頭的原因是在資料集中訓練集包含向左和向右兩種馬，也就是說線性分類器將多個形狀集合到了一張圖片（template）中，而且上面的模板似乎每個物體的顏色都已經確定了，如果是一種白色馬則可能與模板相差多一些，也就是說線性分類器不能很好的解釋不同的物體的顏色資訊。後面我們學習的神經網路會幫我們解決這個問題。

其他

我們可以將b與w合併，如下圖：
影象預處理，上面我們一直使用的是0-255之間的原始數值計算，然而在機器學習中，我們一般會對影象進行規範化，例如可以將各個畫素的值減去所有畫素的平均值得到範圍近似於[-127,127]的新值，更常見的是將他們對映到 [-1, 1]中去. 將資料規範為0均值是非常重要的只不過現在我們暫時不證.

損失函式

上面的論述中我們已經初步明白如何利用w和b建立一個score function，但是還是沒有利用我們標定的label值，我們將通過score function得到的值與ground truth相比較，分類結果與真實值越相似越好，我們稱這個相似的程度的衡量函式為loss function，預測結果越準確，損失函式值越小。下面我們將學習如何建立一個loss function。

Multiclass Support Vector Machine loss 多分類支援向量機損失函式

SVM loss 的中心思想是，如果正確分類的得分應該比錯誤分類的得分高，而且至少應該高Δ.
Let’s now get more precise.上面我們用 f(xi,W)表示第i個圖的得分函式，yi表示正確的類別，j表示第j類，這裡我們用sj表示對應第j類的得分，那麼svm loss的表示式如下：

Li=∑j≠yimax(0,sj−syi+Δ)
上式可以看出如果正確類別的得分比其他類值大Δ時，損失函式就是0，這時候判斷正確。如果判斷錯誤那麼得到的得分就會比其他的值小，那麼得到的損失函式為正值，也就是說如果想損失函式為零那麼得到的正確分類的分數必須比其他幾類得到的分數大Δ。
代入上文中線性分類的得分函式，上式變為：
Li=∑j≠yimax(0,wTjxi−wTyixi+Δ)

上面的 max(0,−)函式經常被稱作 hinge loss（合頁損失）. 有時候我們也可以用 squared hinge loss SVM (or L2-SVM)來代替它，他的表示式是max(0,−)2, 它對於錯誤分類的懲罰更加嚴厲。到底哪種函式比較好，我們可以用上節提到的cross validation來驗證。

規則化

上面的公式其實還有一個bug：按照這個公式得到的值不唯一。假設我們已經得到了一組w可以正確的份額裡而且可以使損失函式為0，那麼如果我們將w都擴大λ（>1）倍，那麼得到的損失函式依然為0。
但是我們往往希望得到一個確切的最好的引數來是我們快速有效的進行分類工作. 我們可以通過新增一個 regularization penalty來實現. 最常見的是新增二範數。新增懲罰項（規則化）之後的表示式為：

L=1N∑iLidata loss+λR(W)regularization loss
其中的lambda往往可以用交叉驗證來選擇。
規則化有很多好處，例如在svm中二範數規則化可以得到最大裕量（max margin）可以看Andrew Ng 老師的講義http://cs229.stanford.edu/notes/cs229-notes3.pdf。
對引數進行懲罰的一大好處就是可以避免過擬合，避免因為某一個因素或者較大的權重，因為在l2時單個大權重往往得到的懲罰比幾個小的加起來都多，（上節中也提到了l1和l2 的區別http://blog.csdn.net/bea_tree/article/details/51472839#t4）。
另外注意到的是偏差項b，不會對輸入的特徵的影響力產生作用，所以並沒有對b進行規則懲罰。
現在我們已經有了如果評價分類結果的loss function ，那麼剩下的就是如何利用他來求解上面所有的引數了。

其他

Δ的選擇。上文中我們一直沒有討論Δ的取值，實際應用中我們一般取1即可。這是因為Δ 和λ 有著同樣的功能：平衡data loss 與regulation loss.試想，如果Δ很大，那麼我們為了得到較小的loss值，就要取得較大的w值來彌補，而λ又可以調整w的值，反之亦然。也就是說不論Δ變大或者變小都以用w來彌補，也就是最終的loss function的平衡是w的平衡，λ可以用來控制它。
二分類是多分類的特殊情況
實際應用中神經網路往往不可微，這個時候的優化依然可以使用subgradient方法

Softmax classifier

softmax是另外一個比較常用的多分類方法，與svm類似，他是將svm的hinge loss變成了cross-entropy loss：

Li=−log⎛⎝efyi∑jefj⎞⎠or equivalentlyLi=−fyi+log∑jefj
fj代表第j類的得分。下式稱作softmax functionfj(z)=ezj∑kezk
可見cross-entropy loss 包含softmax function。下面從兩個角度來理解這個loss function
1. 資訊理論角度。資訊理論中有個重要的概念叫做交叉熵cross-entropy，具體這篇論文中有講解http://eprints.eemcs.utwente.nl/7716/01/fulltext.pdf。他的公式是：
H(p,q)=−∑xp(x)logq(x)
（這裡順帶著寫下夏農熵的公式：這裡寫圖片描述

）
為了便於發現交叉熵與 loss的聯絡，這裡再貼一下損失函式的公式：
Li=−log⎛⎝efyi∑jefj⎞⎠我們設p(x)代表的是真實的概率分佈p=[0,…1,…,0]，那麼可以看出上式是概率分佈為ef

cs231n 卷積神經網路與計算機視覺 2 SVM softmax

linear classification

線性分類的引數化對映

線性影象分類的解釋

幾何解釋

模板解釋

其他

損失函式

Multiclass Support Vector Machine loss 多分類支援向量機損失函式

規則化

其他

Softmax classifier

cs231n 卷積神經網路與計算機視覺 2 SVM softmax

cs231n 卷積神經網路與計算機視覺 2 SVM softmax

cs231n 卷積神經網路與計算機視覺 1 基礎梳理與KNN影象分類

CS231n 卷積神經網路與計算機視覺 6 資料預處理權重初始化規則化損失函式等常用方法總結

CS231n 卷積神經網路與計算機視覺 10 卷積神經網路學了些什麼？

cs231n 卷積神經網路與計算機視覺 1 基礎梳理與KNN影象分類

吳恩達deeplearning.ai第四課學習心得：卷積神經網路與計算機視覺

【深度學習】8：CNN卷積神經網路與sklearn資料集實現數字識別

深度學習：卷積神經網路與影象識別基本概念

深度學習進階（五）--卷積神經網路與深度置信網路以及自動編碼初識（補昨天部落格更新）

卷積神經網路特徵圖視覺化（自定義網路和VGG網路）

王小草【深度學習】筆記第四彈--卷積神經網路與遷移學習

簡單卷積神經網路的tensorboard視覺化

卷積神經網路實戰（視覺化部分）——使用keras識別貓咪

【TensorFlow】第三課卷積神經網路與影象應用

使用卷積神經網路進行圖片分類 2

卷積神經網路(CNN)學習筆記2：舉例理解

吳恩達深度學習第四課：卷積神經網路（學習筆記2）

卷積神經網路提取特徵並用於SVM

CNN卷積神經網路--反向傳播（2，前向傳播）

cs231n 卷積神經網路與計算機視覺 2 SVM softmax

linear classification

線性分類的引數化對映

線性影象分類的解釋

幾何解釋

模板解釋

其他

損失函式

Multiclass Support Vector Machine loss 多分類支援向量機損失函式

規則化

其他

Softmax classifier

相關推薦