# [cs231n （八）神經網路總結：最小網路案例研究 ][1]

阿新 • • 發佈：2018-12-11

標籤（空格分隔）：神經網路

0.回顧

cs231n （一）影象分類識別講了KNN
cs231n （二）講了線性分類器：SVM和SoftMax
cs231n （三）優化問題及方法
cs231n （四）反向傳播
cs231n （五）神經網路 part 1:構建架構
cs231n （六）神經網路 part 2:傳入資料和損失
cs231n （七）神經網路 part 3 : 學習和評估

1. 引言

經過前面近七節課的學習訓練，我們有了深厚理論基礎，和毛毛草草的向量化程式設計基礎、調優基礎。。。這牛逼吹的怕了都。

那麼現在我們應該開始自己動手解決一個實際問題吧：快來啊。

首先實現線性分類器，然後拓展到神經網路，只要線性網路構建好了，我們拓展到神經網路就會很簡單很簡單很jian。

2. 生成一些資料

先生成一個螺旋離散資料

N = 100 # number of points per class
D = 2 # dimensionality
K = 3 # number of classes
X = np.zeros((N*K,D)) # data matrix (each row = single example)
y = np.zeros(N*K, dtype='uint8') # class labels
for j in range(K):
  ix = range(N*j,N*(j+1))
  r = np.linspace(0.0,1,N) # radius
  t = 
 np.linspace(j*4,(j+1)*4,N) + np.random.randn(N)*0.2 # theta
  X[ix] = np.c_[r*np.sin(t), r*np.cos(t)]
  y[ix] = j
# lets visualize the data:
plt.scatter(X[:, 0], X[:, 1], c=y, s=40, cmap=plt.cm.Spectral)
plt.show()

此時資料是非線性的，對資料進行標準差標準化已經做過了。

3. 訓練一個softmax線性分類器

1. 初始化引數

先在這個分類資料集上訓練一個Softmax分類器，Softmax分類器具有線性分數函式，並使用交叉熵損失。

線性分類器的引數由每個類別的權重矩陣W和偏差向量b組成，先將這些引數初始化為隨機數：

# initialize parameters randomly
W = 0.01 * np.random.randn(D,K)
b = np.zeros((1,K))

W = DxC = 2x3

2. 計算分數

得到分數很簡答啊：

# compute class scores for a linear classifier
scores = np.dot(X, W) + b

X = NxD = 300x2
scores = NxC

3. 計算loss

損失函式是得到區分目標的關鍵：其實就是正確的類得分是最高的，並且損失是最低的，如果分類正確。

這裡使用的是softmax相關的交叉熵損失，損失函式應該是：

$\displaystyle Li=-log(\frac{e^{f_{y_i}}}{\sum_je^{f_j}})$

softmax 函式把每一個數據得到三個分數，按照上述公式得到的是標準化概率，並且：
當正確類別概率很小，那麼loss會趨近於無窮的。
當正確類別概率接近於1，那麼loss會趨近於0的，因為log(1)=0

$$L = \underbrace{ \frac{1}{N} \sum_i L_i }\text{data loss} + \underbrace{ \frac{1}{2} \lambda \sum_k\sum_l W{k,l}^2 }_\text{regularization loss} \\$$

我們計算得到了分數，那麼損失可由上述獅子計算

num_examples = X.shape[0]
# get unnormalized probabilities
exp_scores = np.exp(scores)
# normalize them for each example
probs = exp_scores / np.sum(exp_scores, axis=1, keepdims=True)

現在得到的概率是：[300 x 3], 每行有三個數值，理論上最大的那個就是對應的正確分類的分數。

corect_logprobs = -np.log(probs[range(num_examples),y])

這裡只分配概率給正確分類，損失就是這些對數概率和正則化損失的均值

# compute the loss: average cross-entropy loss and regularization
data_loss = np.sum(corect_logprobs)/num_examples
reg_loss = 0.5*reg*np.sum(W*W)
loss = data_loss + reg_loss

損失越低意味著正確分類的概率越高。

4. 反向傳播法計算梯度

這裡引入 $p_k = \frac{e^{f_k}}{ \sum_j e^{f_j} } \hspace{1in} L_i =-\log\left(p_{y_i}\right)$ ,

可以使用鏈式法則：

$\frac{\partial L_i }{ \partial f_k } = p_k - \mathbb{1}(y_i = k)$

好簡單哈 p = [0.2, 0.3, 0.5], 0.3是正確的分類，那麼 df = [0.2, -0.7, 0.5]

增加分數向量f的第一個或最後一個元素（不正確類別的分數）會增加損失（由於+0.2和+0.5的正號）增加損失是不好的分類。

然而，增加正確分數的分數對損失有負面影響。 -0.7的梯度告訴我們，增加正確的分數會導致損失 Li 的減少，這是合理的。

probs儲存每個例子的所有類（作為行）的概率，為了獲得分數上的梯度dscores。

dscores = probs
dscores[range(num_examples),y] -= 1
dscores /= num_examples

最後，我們得到的分數 $scores = np.dot（X，W）+ b$ ，所以分數梯度儲存在dscores中），我們現在可以反向傳播到W和b：

dW = np.dot(X.T, dscores)
db = np.sum(dscores, axis=0, keepdims=True)
dW += reg*W # don't forget the regularization gradient

###5. 如何引數更新？

現在指導了梯度，指導引數如何影響損失函式，那麼就開始更新梯度啦，就是稍微減少點梯度，其實就是迭代啦。

# perform a parameter update
W += -step_size * dW
b += -step_size * db

6. 現在就可以合併一下得到softmax分類器

#Train a Linear Classifier

# initialize parameters randomly
W = 0.01 * np.random.randn(D,K)
b = np.zeros((1,K))

# some hyperparameters
step_size = 1e-0
reg = 1e-3 # regularization strength

# gradient descent loop
num_examples = X.shape[0]
for i in xrange(200):
  
  # evaluate class scores, [N x K]
  scores = np.dot(X, W) + b 
  
  # compute the class probabilities
  exp_scores = np.exp(scores)
  probs = exp_scores / np.sum(exp_scores, axis=1, keepdims=True) # [N x K]
  
  # compute the loss: average cross-entropy loss and regularization
  corect_logprobs = -np.log(probs[range(num_examples),y])
  data_loss = np.sum(corect_logprobs)/num_examples
  reg_loss = 0.5*reg*np.sum(W*W)
  loss = data_loss + reg_loss
  if i % 10 == 0:
    print "iteration %d: loss %f" % (i, loss)
  
  # compute the gradient on scores
  dscores = probs
  dscores[range(num_examples),y] -= 1
  dscores /= num_examples
  
  # backpropate the gradient to the parameters (W,b)
  dW = np.dot(X.T, dscores)
  db = np.sum(dscores, axis=0, keepdims=True)
  
  dW += reg*W # regularization gradient
  
  # perform a parameter update
  W += -step_size * dW
  b += -step_size * db

結果大概是這個樣子的。

iteration 0: loss 1.096956
iteration 10: loss 0.917265
iteration 20: loss 0.851503
iteration 30: loss 0.822336
iteration 40: loss 0.807586
iteration 50: loss 0.799448
iteration 60: loss 0.794681
iteration 70: loss 0.791764
iteration 80: loss 0.789920
iteration 90: loss 0.788726
iteration 100: loss 0.787938
iteration 110: loss 0.787409
iteration 120: loss 0.787049
iteration 130: loss 0.786803
iteration 140: loss 0.786633
iteration 150: loss 0.786514
iteration 160: loss 0.786431
iteration 170: loss 0.786373
iteration 180: loss 0.786331
iteration 190: loss 0.786302

經過190次迭代，可以得到訓練精度：

# evaluate training set accuracy
scores = np.dot(X, W) + b
predicted_class = np.argmax(scores, axis=1)
print 'training accuracy: %.2f' % (np.mean(predicted_class == y))

準確率是 49%，看一下學習到邊界

4. 訓練神經網路

其實對於非線性邊界用線性分類器確實有點難，現在我們構建一個簡單的二層神經網路。

第一層第二層就是這麼簡單：

# initialize parameters randomly
h = 100 # size of hidden layer
W = 0.01 * np.random.randn(D,h)
b = np.zeros((1,h))
W2 = 0.01 * np.random.randn(h,K)
b2 = np.zeros((1,K))

前向傳播的分數可以這樣得到：

# evaluate class scores with a 2-layer Neural Network
hidden_layer = np.maximum(0, np.dot(X, W) + b) # note, ReLU activation
scores = np.dot(hidden_layer, W2) + b2

在隱含層新增非線性單元------ReLU。
然後計算loss，分數梯度dscores都和之前一樣。
計算梯度的時候先BP到第二層網路，這裡也和之前的softmax類似。

# backpropate the gradient to the parameters
# first backprop into parameters W2 and b2
dW2 = np.dot(hidden_layer.T, dscores)
db2 = np.sum(dscores, axis=0, keepdims=True)

由於中間加了一個隱含層，所以我們需要計算隱含層的梯度：

dhidden = np.dot(dscores, W2.T)

還需要回傳ReLUd的非線性，很簡答啊
$r = max(0, x), \frac{dr}{dx} = 1(x > 0)$
可以知道梯度通過如果x > 0，梯度為零如果x < 0

# backprop the ReLU non-linearity
dhidden[hidden_layer <= 0] = 0

那麼計算第一層的權重和梯度就是：

# finally into W,b
dW = np.dot(X.T, dhidden)
db = np.sum(dhidden, axis=0, keepdims=True)

好了我們已經完成整個過程了，總結一下。

# initialize parameters randomly
h = 100 # size of hidden layer
W = 0.01 * np.random.randn(D,h)
b = np.zeros((1,h))
W2 = 0.01 * np.random.randn(h,K)
b2 = np.zeros((1,K))

# some hyperparameters
step_size = 1e-0
reg = 1e-3 # regularization strength

# gradient descent loop
num_examples = X.shape[0]
for i in xrange(10000):
  
  # evaluate class scores, [N x K]
  hidden_layer = np.maximum(0, np.dot(X, W) + b) # note, ReLU activation
  scores = np.dot(hidden_layer, W2) + b2
  
  # compute the class probabilities
  exp_scores = np.exp(scores)
  probs = exp_scores / np.sum(exp_scores, axis=1, keepdims=True) # [N x K]
  
  # compute the loss: average cross-entropy loss and regularization
  corect_logprobs = -np.log(probs[range(num_examples),y])
  data_loss = np.sum(corect_logprobs)/num_examples
  reg_loss = 0.5*reg*np.sum(W*W) + 0.5*reg*np.sum(W2*W2)
  loss = data_loss + reg_loss
  if i % 1000 == 0:
    print "iteration %d: loss %f" % (i, loss)
  
  # compute the gradient on scores
  dscores = probs
  dscores[range(num_examples),y] -= 1
  dscores /= num_examples
  
  # backpropate the gradient to the parameters
  # first backprop into parameters W2 and b2
  dW2 = np.dot(hidden_layer.T, dscores)
  db2 = np.sum(dscores, axis=0, keepdims=True)
  # next backprop into hidden layer
  dhidden = np.dot(dscores, W2.T)
  # backprop the ReLU non-linearity
  dhidden[hidden_layer <= 0] = 0
  # finally into W,b
  dW = np.dot(X.T, dhidden)
  db = np.sum(dhidden, axis=0, keepdims=True)
  
  # add regularization gradient contribution
  dW2 += reg * W2
  dW += reg * W
  
  # perform a parameter update
  W += -step_size * dW
  b += -step_size * db
  W2 += -step_size * dW2
  b2 += -step_size * db2
  
  
## This prints:

iteration 0: loss 1.098744
iteration 1000: loss 0.294946
iteration 2000: loss 0.259301
iteration 3000: loss 0.248310
iteration 4000: loss 0.246170
iteration 5000: loss 0.245649
iteration 6000: loss 0.245491
iteration 7000: loss 0.245400
iteration 8000: loss 0.245335
iteration 9000: loss 0.245292

訓練精度是：98%! 厲害了，老鐵

# evaluate training set accuracy
hidden_layer = np.maximum(0, np.dot(X, W) + b)
scores = np.dot(hidden_layer, W2) + b2
predicted_class = np.argmax(scores, axis=1)
print 'training accuracy: %.2f' % (np.mean(predicted_class == y))

5. 總結

其實從線性到網路我們變化的程式碼很少，Loss只變了一行，反向傳播只不過是加了“中間變數”。

# [cs231n （八）神經網路總結：最小網路案例研究 ][1]

標籤（空格分隔）：神經網路 0.回顧 cs231n （一）影象分類識別講了KNN cs231n （二）講了線性分類器：SVM和SoftMax cs231n （三）優化問題及方法 cs231n （四）反向傳播 cs231n （五）神經網路 part 1:

# [cs231n （六）神經網路 part 2:傳入資料和損失 ][1]

標籤（空格分隔）：神經網路 0.回顧 cs231n （一）影象分類識別講了KNN cs231n （二）講了線性分類器：SVM和SoftMax cs231n （三）優化問題及方法 cs231n （四）反向傳播 cs231n （五）神經網路（part 1）

# [cs231n （七）神經網路 part 3 : 學習和評估 ][1]

原生webgl學習（八） WebGL實現動畫：平移、縮放和旋轉

筆者在前面的文章主要是針對二維的靜態圖形進行開發；但有時候我們需要模型動起來，就像真實世界中的一切運動變化一樣。場景如果不是動態的，那麼可想而知，我們的世界是多麼枯燥乏味。為了讓我們開發的圖形應用看上去更加高大上，這一節筆者將和大家一起做一個動畫的例子；本節的內容用到了前面文

分散式快取技術redis學習系列（八）——JedisCluster原始碼解讀：叢集初始化、slot(槽)的分配、值的存取

redis叢集環境，客戶端使用JedisCluster獲取連線並操作redis服務，上一篇分散式快取技術redis學習系列（七）——spring整合jediscluster 簡單介紹了spring使用JedisCluster，這篇從JedisCluster原始

SpringBoot 原始碼解析（八）----- Spring Boot 精髓：事務原始碼解析

本篇來講一下SpringBoot是怎麼自動開啟事務的，我們先來回顧一下以前SSM中是如何使用事務的 SSM使用事務匯入JDBC依賴包眾所周知，凡是需要跟資料庫打交道的，基本上都要新增jdbc的依賴，在Spring專案中，加入的是spring-jdbc依賴： <dependency>

深入理解python（一）python語法總結：基礎知識和對python中物件的理解

用python也用了兩年了，趁這次疫情想好好整理下。大概想法是先對python一些知識點進行總結，之後就是根據python核心原始碼來對python的實現方式進行學習，不會閱讀整個原始碼，，，但是應該會把資料結構的實現、函式呼叫過程、以及python虛擬機器的基本原理根據原始碼解釋下。當然限於筆者只是一個

劍指offer（6）旋轉數組的最小數字

rotate ret length -s 一個數 min 一個 UNC -i 題目描述：把一個數組最開始的若幹個元素搬到數組的末尾，我們稱之為數組的旋轉。輸入一個非減排序的數組的一個旋轉，輸出旋轉數組的最小元素。例如數組{3,4,5,1,2}為{1,2,3,4,5}

領釦（LeetCode）兩個列表的最小索引總和個人題解

假設Andy和Doris想在晚餐時選擇一家餐廳，並且他們都有一個表示最喜愛餐廳的列表，每個餐廳的名字用字串表示。你需要幫助他們用最少的索引和找出他們共同喜愛的餐廳。如果答案不止一個，則輸出所有答案並且不考慮順序。你可以假設總是存在一個答案。示例 1: 輸入: ["Shogun", "Tapioc

譜聚類演算法入門教程（三）—— 求f^TLf的最小值

在上一篇部落格中，我們知道目標函式變為 argmin⁡f∈R6fTLfarg \min \limits_{f \in \R^6} f^TLfargf∈R6minfTLf，即找到一個fff，使得 fTLff^TLffTLf 取得最小值這篇部落格將通過求導的方

劍指offer程式設計題（JAVA實現)——第29題：最小的K個數

github https://github.com/JasonZhangCauc/JZOffer import java.util.ArrayList; import java.util.Arrays;

解題筆記（35）——旋轉陣列中的最小元素

問題描述：把一個數組最開始的若干個元素搬到陣列的末尾，我們稱之為陣列的旋轉。輸入一個排好序的陣列的一個旋轉，輸出旋轉陣列的最小元素。例如陣列{3, 4, 5, 1, 2}為{1, 2, 3, 4, 5}的一個旋轉，該陣列的最小值為1。思路：這道

7-13（圖）暢通工程之區域性最小花費問題（35 分） 35分程式碼

最小生成樹克魯斯卡爾演算法首先要將已經修建的道路進行並查集合並操作用 set 存集合中結點的個數，，剩餘的點按照基本操作進行就好了（注：部落格作為交流使用，切勿抄襲應付作業） #includ

（C#）曲線擬合的最小二乘法

using System; using System.Collections.Generic; using System.Linq; using System.Text; namespace 數值分析實驗報告 { class Gauss曲線擬合的最小二乘法

斯坦福cs231n學習筆記（11）------神經網路訓練細節（梯度下降演算法大總結/SGD/Momentum/AdaGrad/RMSProp/Adam/牛頓法）

神經網路訓練細節系列筆記：通過學習，我們知道，因為訓練神經網路有個過程: <1>Sample 獲得一批資料； <2>Forward 通過計算圖前向傳播，獲得loss； <3>Backprop 反向傳播計算梯度，這

計算機視覺（八）：提取Cifar-10資料集的HOG、HSV特徵並使用神經網路進行分類

1 - 引言之前我們都是將整張圖片輸入進行分類，要想進一步提升準確率，我們就必須提取出圖片更容易區分的特徵，再將這些特徵當做特徵向量進行分類。在之前我們學了一些常用的影象特徵，在這次實驗中，我們使用了兩種特徵梯度方向直方圖（HOG）顏色直方圖（HSV）

軟件架構設計學習總結（14）：大型網站技術架構（八）網站的安全架構

根據知情提交 pac 請求參數用途 text 避免信息加密從互聯網誕生起，安全威脅就一直伴隨著網站的發展，各種Web攻擊和信息泄露也從未停止。常見的攻擊手段有XSS攻擊、SQL註入、CSRF、Session劫持等。 1、XSS攻擊 XSS攻擊即跨站點腳本攻擊（C

vue2.0：（八）、外賣App彈窗部分知識點總結

leave service eas 總結 icon main 在線支付 false amp 本篇文章是對外賣App彈窗部分知識點的總結。知識點一：如何從接口取出不同的圖片。　　　　答：　　　　1、header.vue: 　　　　　　　　代碼： <

JS排序算法總結：（八）基數排序

clas style dig ret .com strong spa radi 基本目的：掌握基數排序的基本思想與過程、代碼實現、時間復雜度 1、基本思想與過程：（只針對數字）　　（1）首先確定基數為10，數組的長度也就是10.每個數都會在這10個數中尋找自己的位

網路程式設計基礎【day09】：socket解決粘包問題之MD5（八）

本節內容 1、概述 2、程式碼實現一、概述　　上一篇部落格講到的用MD5來校驗還是用的之前解決粘包的方法，就是客戶端傳送一個請求，等待服務端的確認的這樣的一個笨方法。下面我們用另外一種方法：就是客戶端已經知道可接收多少資料了，既然客戶端已經知道接收多少資料了，那麼客戶端在接收資料的時候，正好接收已

# [cs231n （八）神經網路總結：最小網路案例研究 ][1]

0.回顧

1. 引言

2. 生成一些資料

3. 訓練一個softmax線性分類器

1. 初始化引數

2. 計算分數

3. 計算loss

4. 反向傳播法計算梯度

6. 現在就可以合併一下得到softmax分類器

4. 訓練神經網路

5. 總結

相關推薦