cs231n-(5)神經網路-2：設定資料和Loss

資料預處理

神經網路輸入的資料往往要經過預處理。假設資料X大小為[N x D]，其中N表示元素個數，D表示維度。

減去均值

最長用的就是減去每個特徵的均值（均值常常有訓練集計算得到），減去均值的幾何意義是將資料中心大致移到零點。。使用python時，可以用X-=np.mean(X, axis = 0)算得均值。如果是影象，常常減去RGB通道的均值。

正則化

正則化是指將資料各個維度歸一化，即變化範圍相同。一般有兩種方法：1、將資料均值設為零（如減去均值），之後除以標準差：X /= np.std(X, axis=0)。2、不同維度的資料範圍相差很大，且重要性相同，將其最大值和最小值分別變換為+1和-1。

下去就是原始資料，零中心化，正則化處理的效果。

PCA and Whitening

PCA是用來降維，假設已經完成了零中心化和歸一化，降維過程如下：
先計算協方差矩陣

# Assume input data matrix X of size [N x D]
X -= np.mean(X, axis = 0) # zero-center the data (important)
cov = np.dot(X.T, X) / X.shape[0] # get the data covariance matrix

協方差矩陣中(i,j)位的資料表示i維度和j維度資料的協方差；對角線上資料表示某一維度的方差。協方差矩陣是對稱的半正定矩陣，對它進行SVD分解：

U,S,V = np.linalg.svd(cov)

得到U是特徵向量矩陣，它的每一列都是一個特徵向量，S是特徵值向量，因為協方差矩陣是對稱的半正定矩陣，所以它等於特徵值平方。為了去除相關性，將已經中心化的資料對映到特徵向量上

Xrot = np.dot(X, U) # decorrelate the data

其中U的每一列都是標準正交特徵向量，且已經按照特徵值由大到小排列（np.linalg.svg返回時已經排列）。與特徵向量相乘，相當於對X的資料做一個旋轉對映，對映到特徵向量對應的正交基上。可以只保留前面較大特徵值對應的特徵向量，丟棄較小值對應的特徵向量，以此來降維。這種方法叫做Principal component analysis

Xrot_reduced = np.dot(X, U[:,:100 
]) # Xrot_reduced becomes [N x 100]

通過這個操作，保留了前100維度資料（以方差大小為標準）。

經過PCA處理的資料，可以再經過白化Whitening處理。白化是指PCA處理後的資料，每個維度除以其特徵值。幾何解釋就是服從多維度高斯分佈的資料，經過白化處理後，服從均值為零，協方差相等的分佈。

# whiten the data:
# divide by the eigenvalues (which are square roots of the singular values)
Xwhite = Xrot / np.sqrt(S + 1e-5)

上面處理為白化操作，分母加上1e-5為防止分母為零。這樣的操作把所有維度資料拉伸到相同範圍，可能會放大噪聲，實際中可以通過增大分母（加上比1e-5更大的值）來平滑。

上圖左邊分佈為原始資料。中間為PAC處理後的資料，可以看出PCA處理後，將座標軸旋轉，可以看出橫軸資訊量大，如果只保留一維資料，要丟棄縱軸資料。右邊為白化處理後的資料，資料範圍相同了

使用CIFAR-10來展示PCA和白化

上圖中，最左邊為原始資料，每張圖片可以看做是3072的列向量。第二張為特徵向量中，前144個（按照特徵值排列）。第三張為經過PAC降維處理後，只保留144維特徵的圖片；圖片變模糊了，說明只保留了低頻部分。最後一張為白化後的圖片。

注意：CNN不需要進行PCA和白化操作，這裡提到只是講解資料處理的一般方法。
資料預處理，只能在訓練集上應用。應該先將資料分為訓練集、驗證集、測試集，之後在訓練集上應用資料預處理。

權重初始化

訓練神經網路前，要先初始化權重。

全部初始化為零

權重最終的值我們不知道，但是根據前面資料預處理過程，大概可以猜到，權重最終應該是一般為正，一般為負。但是權重不能全部初始化為零。如果全部初始化為零，那麼所有神經元輸出將相同，計算得到所有梯度都相同，權重更新相同，最終得到的權重也相同。

小的隨機數

因為正則化，權重要比較小，但是又不能對稱；那麼可以用小的隨機數來初始化。這樣計算得到不同梯度，迭代更新權重會趨向不同。例如這樣初始化。W = 0.01 * np.random.randn(D, H)，randn是生成零均值單位方差的高斯分佈。這樣初始化，每個神經權重向量是從高維高斯分佈隨機取樣而來；也可是使用隨機生成的隨機數。但是在實際中，這樣初始化效果不好。

小的權重並不一定會得到好的效果。神經網路中，如果權重比較小，那麼反向傳播時，梯度就比較小。這樣會減小梯度傳播的訊號，在深度神經網路中也是個問題。

校準方差

如果神經元輸出有著相似的分佈，那麼收斂速度回加快。前面提到的權重初始化方法，隨著輸入增大，輸出的方差會增大。通過除以sqrt(n)，其中n是輸入個數，可以將輸出方差歸一化到1；例如這樣初始化w = np.random.randn(n) / sqrt(n)。

不考慮非線性啟用函式，假設輸出s=∑niwixi，那麼計算輸出方差和輸入關係如下：

Var(s)=Var(∑inwixi)=∑inVar(wixi)=∑in[E(wi)]2Var(xi)+E[(xi)]2Var(wi)+Var(xi)Var(wi)=∑inVar(xi)Var(wi)=(nVar(w))Var(x)Var(s)=Var(∑inwixi)=∑inVar(wixi)=∑in[E(wi)]2Var(xi)+E[(xi)]2Var(wi)+Var(xi)Var(wi)=∑inVar(xi)Var(wi)=(nVar(w))Var(x)

上面第三步中，用到了假設E[xi]=E[wi]=0（注意，有些並不等於零，例如ReLU），最後一步假設了x,w服從相同分佈。如果想要輸出和x有相同的方差，那麼nVar(w)必須為1，所以得到上面初始化方式w = np.random.randn(n) / sqrt(n)。

稀疏初始化

首先將所有權重初始化為零，但是為了避免對稱，隨機在層之間連線個別神經全，權重初始化可以使用小的高斯分佈，連線個數常常設定為10.

實際應用

目錄，使用ReLU啟用函式的，建議初始化為w = np.random.randn(n) * sqrt(2.0/n)，參考He et al

批歸一化 Batch Normalization

這是個最近出現的技術，參考論文。它在一定程度上減輕瞭如何初始化網路權重的問題。具體做法為讓資料在輸入啟用函式前先通過一個網路，通過這個網路之後，輸出資料（即輸入啟用函式的資料）服從標準高斯分佈。因為歸一化是一個可以簡單的求導操作，因此方案可行。實際應用中，常常在全連線層（卷積層）和啟用函式(非線性操作）之間插入一個BatchNormalization層。批歸一化可以理解為在網路每一層之前都做了預處理。

正則化

正則化用來阻止網路過擬合，有以下幾種方法：

L2 regularization

L2正則化是最常用的方法；它可以直接懲罰目標函式中任何一個權重平方的幅度。具體實現時對於每一個權重w在目標函式都加上一項12λw2，其中λ常常等於12，這樣方便求導運算。L2正則化可以直觀理解為，它限制單個較大的權重，在權重和不變時，它把權重大概均勻分不到每個權重上。使用L2正則化後，在反向傳播梯度更新時，權重會以W+=-lambda * W速度向0靠近。

L1 regularization

L1正則化也是常用的一種方法，在目標函式中，它給每個權重加上一項λ|w|。可以把L1和L2正則化結合起來λ

cs231n-(5)神經網路-2：設定資料和Loss

資料預處理

減去均值

正則化

PCA and Whitening

權重初始化

全部初始化為零

小的隨機數

校準方差

稀疏初始化

實際應用

批歸一化 Batch Normalization

正則化

L2 regularization

L1 regularization

cs231n-(5)神經網路-2：設定資料和Loss

機器學習與深度學習系列連載：第二部分深度學習（十四）迴圈神經網路 2（Gated RNN - LSTM ）

機器學習與深度學習系列連載：第二部分深度學習（十一）卷積神經網路 2 Why CNN for Image？

# [cs231n （八）神經網路總結：最小網路案例研究 ][1]

機器學習與深度學習系列連載：第二部分深度學習（十四）迴圈神經網路 2（Gated RNN

類神經網路+工作圖譜+大資料+類人工智慧+內容視覺化：一款企業軟體裡的逆天思維

斯坦福cs231n學習筆記（8）------神經網路訓練細節（資料預處理、權重初始化）

【opencv3--ANN神經網路訓練識別OCR資料集】

5.神經網路演算法

神經網路優化：病態矩陣與條件數

神經網路優化：指數衰減計算平均值(滑動平均)

【深度學習】Tensorflow——CNN 卷積神經網路 2

[譯]在 Keras 中使用一維卷積神經網路處理時間序列資料

吳恩達改善深層神經網路引數：超引數除錯、正則化以及優化——優化演算法

實戰生成對抗網路[2]：生成手寫數字

Caffe原始碼理解2：SyncedMemory CPU和GPU間的資料同步

TensorFlow之神經網路簡單實現MNIST資料集分類

TensorFlow之卷積神經網路(CNN)實現MNIST資料集分類

Python面向物件基礎2：設定物件屬性

神經網路識別數字相關資料

cs231n-(5)神經網路-2：設定資料和Loss

資料預處理

減去均值

正則化

PCA and Whitening

權重初始化

全部初始化為零

小的隨機數

校準方差

稀疏初始化

實際應用

批歸一化 Batch Normalization

正則化

L2 regularization

L1 regularization

相關推薦