deeplearning系列（五）實現一個簡單的深度神經網路

阿新 • • 發佈：2019-01-02

1. 深度學習概覽

在淺層神經網路的介紹中，實現了包含一個隱藏層的淺層神經網路，對於這樣的淺層網路，在網路訓練過程中可以通過反向傳播演算法得到較優的網路引數值。然而，因為只有一個隱藏層，限制了模型的表達能力。

在本節中，開始介紹包含多個隱藏層的深度神經網路，經過多個隱藏層對上一層的非線性變換，深度神經網路有遠超過淺層網路的表達能力。

但訓練深度神經網路並不是一件十分輕鬆的工作，淺層神經網路的訓練經驗不能直接移植過來。這其中主要存在一下幾方面原因：

資料量大小。淺層神經網路的訓練依賴於有標籤的資料。深度網路，因其遠超過淺層網路的引數量，需要更多的有標籤資料來訓練，而通常這樣的資料是很難獲取的。

區域性極值。神經網路是一個非凸的優化問題，對於淺層網路來說，可以通過訓練使引數收斂到合理的區域性極值。而深度網路是一個高度非凸的問題，存在很多的壞的區域性極值，使用梯度下降法一般不能收斂到合理的引數值。
梯度彌散。使用反向傳播計算梯度時，當網路層次很多時，網路前幾層梯度幅值很小。使用梯度下降時，前幾層引數更新速度也因此變得緩慢，這些層不能從樣本中有效學習。

那麼有沒有可以解決這些問題的方案，從而使深度網路的訓練是可行的呢？採用逐層貪婪訓練得到每層引數，然後再使用解決淺層神經網路的演算法（例如：BP+L-BFGS）對引數微調是一個比較可行的解決方案。

2. 棧式自編碼神經網路

棧式自編碼神經網路是一個由多層稀疏自編碼器組成的神經網路，前一層自編碼器的輸出作為後一層的輸入。棧式自編碼神經網路引數是通過逐層貪婪訓練獲得的。以一個包含2個隱藏層，輸出層為softmax的神經網路為例，其訓練過程可以表示為：

用原始輸入x訓練第一個自編碼器，學習原始輸入的一階特徵h(1)，如下圖（左）所示；
將所有訓練資料輸入上面第一個自編碼器，得到其一階特徵h(1)，然後作為第二個自編碼器的輸入，學習原始輸入的二階特徵h(2)如下圖（中）所示；
將所有一階特徵輸入到訓練好的第二個自編碼器，得到所有的二階特徵h(2)，作為softmax分類器的輸入，訓練分類器的引數。

這裡寫圖片描述

3. 引數微調

在上述預訓練結束之後，將上面三層結合起來得到包含兩個隱藏層和一個softmax輸出層的棧式自編碼網路，如下圖所示。

然後採用反向傳播演算法調整所有層的引數，這個過程稱為微調。微調過程中，網路所有層的全部引數都被優化，經過微調後，可以大幅提高神經網路的分類效能。

4. 程式碼實現

程式碼結構為：

STEP：0-1是引數設定及訓練資料的獲取部分；
STEP：2-4是棧式自編碼訓練部分。包括兩個自編碼器和一個softmax迴歸訓練部分，經過這樣的訓練，可以得到一個適合微調的引數初始值；
STEP：5是引數的微調部分，包括使用反向傳播計算梯度和用L-BFGS優化引數。
STEP：6用經過訓練後的網路引數對測試資料集中的資料進行測試。

%% STEP 0: Here we provide the relevant parameters values 
inputSize = 28 * 28;
numClasses = 10;
hiddenSizeL1 = 200;    % Layer 1 Hidden Size
hiddenSizeL2 = 200;    % Layer 2 Hidden Size
sparsityParam = 0.1;   % desired average activation of the hidden units.
lambda = 3e-3;         % weight decay parameter       
beta = 3;              % weight of sparsity penalty term

%% STEP 1: Load data from the MNIST database
trainData = loadMNISTImages('mnist/train-images.idx3-ubyte');
trainLabels = loadMNISTLabels('mnist/train-labels.idx1-ubyte');
trainLabels(trainLabels == 0) = 10; % Remap 0 to 10 since our labels need to start from 1

%% STEP 2: Train the first sparse autoencoder
sae1Theta = initializeParameters(hiddenSizeL1, inputSize);
addpath minFunc/
options.Method = 'lbfgs'; % Here, we use L-BFGS to optimize our cost function. 
options.maxIter = 400;    % Maximum number of iterations of L-BFGS to run 
options.display = 'on';
[sae1OptTheta, cost] = minFunc( @(p) sparseAutoencoderCost(p,inputSize, hiddenSizeL1, 
                                   lambda, sparsityParam,beta, trainData), 
                                   sae1Theta, options);

%% STEP 3: Train the second sparse autoencoder
[sae1Features] = feedForwardAutoencoder(sae1OptTheta, hiddenSizeL1,inputSize, trainData);
sae2Theta = initializeParameters(hiddenSizeL2, hiddenSizeL1);
[sae2OptTheta, cost] = minFunc( @(p) sparseAutoencoderCost(p, ...
                                   hiddenSizeL1, hiddenSizeL2, ...
                                   lambda, sparsityParam, ...
                                   beta, sae1Features), ...
                                   sae2Theta, options);

%% STEP 4: Train the softmax classifier
[sae2Features] = feedForwardAutoencoder(sae2OptTheta, hiddenSizeL2, ...
                                        hiddenSizeL1, sae1Features);
saeSoftmaxTheta = 0.005 * randn(hiddenSizeL2 * numClasses, 1);
softmaxModel = softmaxTrain(hiddenSizeL2, numClasses, lambda, ...
                            sae2Features, trainLabels, options);
saeSoftmaxOptTheta = softmaxModel.optTheta(:);

%% STEP 5: Finetune softmax model
stack = cell(2,1);
stack{1}.w = reshape(sae1OptTheta(1:hiddenSizeL1*inputSize), ...
                     hiddenSizeL1, inputSize);
stack{1}.b = sae1OptTheta(2*hiddenSizeL1*inputSize+1:2*hiddenSizeL1*inputSize+hiddenSizeL1);
stack{2}.w = reshape(sae2OptTheta(1:hiddenSizeL2*hiddenSizeL1), ...
                     hiddenSizeL2, hiddenSizeL1);
stack{2}.b = sae2OptTheta(2*hiddenSizeL2*hiddenSizeL1+1:2*hiddenSizeL2*hiddenSizeL1+hiddenSizeL2);
[stackparams, netconfig] = stack2params(stack);
stackedAETheta = [ saeSoftmaxOptTheta ; stackparams ];
[stackedAEOptTheta, cost] = minFunc( @(p) stackedAECost(p, ...
                                   inputSize, hiddenSizeL2, ...
                                   numClasses,netconfig,lambda, ...
                                   trainData, trainLabels), ...
                                   stackedAETheta, options);

%% STEP 6: Test 
testData = loadMNISTImages('mnist/t10k-images.idx3-ubyte');
testLabels = loadMNISTLabels('mnist/t10k-labels.idx1-ubyte');
testLabels(testLabels == 0) = 10; % Remap 0 to 10
[pred] = stackedAEPredict(stackedAETheta, inputSize, hiddenSizeL2, ...
                          numClasses, netconfig, testData);
acc = mean(testLabels(:) == pred(:));
fprintf('Before Finetuning Test Accuracy: %0.3f%%\n', acc * 100);
[pred] = stackedAEPredict(stackedAEOptTheta, inputSize, hiddenSizeL2, ...
                          numClasses, netconfig, testData);
acc = mean(testLabels(:) == pred(:));
fprintf('After Finetuning Test Accuracy: %0.3f%%\n', acc * 100);

用L-BFGS優化引數，需要提供一個輸入是網路引數：theta，輸出是網路輸出：cost和引數梯度：grad的函式。其中函式梯度是用反向傳播演算法得到的，程式碼如下：

function [ cost, grad ] = stackedAECost(theta, inputSize, hiddenSize, ...
                                              numClasses, netconfig, ...
                                              lambda, data, labels)
softmaxTheta = reshape(theta(1:hiddenSize*numClasses), numClasses, hiddenSize);
stack = params2stack(theta(hiddenSize*numClasses+1:end), netconfig);
softmaxThetaGrad = zeros(size(softmaxTheta));
stackgrad = cell(size(stack));
for d = 1:numel(stack)
    stackgrad{d}.w = zeros(size(stack{d}.w));
    stackgrad{d}.b = zeros(size(stack{d}.b));
end
m = size(data, 2);
groundTruth = full(sparse(labels, 1:m, 1));

% Forward propagation
z2 = stack{1}.w*data + repmat(stack{1}.b,1,m);
a2 = sigmoid(z2);
z3 = stack{2}.w*a2 + repmat(stack{2}.b,1,m);
a3 = sigmoid(z3);
z4 = softmaxTheta*a3;
z4 = bsxfun(@minus, z4, max(z4, [], 1));
a4 = exp(z4);
a4 = bsxfun(@rdivide, a4, sum(a4));

% Back propagation
delta4 = -(groundTruth-a4);
delta3 = (softmaxTheta'*delta4).*sigmoidGrad(z3);
delta2 = (stack{2}.w'*delta3).*sigmoidGrad(z2);
softmaxThetaGrad = 1./m *delta4*a3';
stackgrad{2}.w = 1./m *delta3*a2';
stackgrad{2}.b = 1./m *sum(delta3,2);
stackgrad{1}.w = 1./m *delta2*data';
stackgrad{1}.b = 1./m *sum(delta2,2);
softmaxThetaGrad = softmaxThetaGrad+lambda*softmaxTheta;
stackgrad{2}.w = stackgrad{2}.w+lambda*stack{2}.w;
stackgrad{1}.w = stackgrad{1}.w+lambda*stack{1}.w;

% cost calculation
cost = -(1./m)*sum(sum(groundTruth.*log(a4))) + lambda/2.0*sum(sum(theta.^2));

%% Roll gradient vector
grad = [softmaxThetaGrad(:) ; stack2params(stackgrad)];
end

分別使用下面兩種引數值對測試資料進行分類：

僅使用預訓練得到的引數；
預訓練加微調後的引數；

在測試資料上的分類結果為：

Before Finetuning Test Accuracy: 91.950%
After Finetuning Test Accuracy: 98.280%

可以看出，微調後的結果將分類準確率提高了6.3個百分點。

deeplearning系列（五）實現一個簡單的深度神經網路

1. 深度學習概覽在淺層神經網路的介紹中，實現了包含一個隱藏層的淺層神經網路，對於這樣的淺層網路，在網路訓練過程中可以通過反向傳播演算法得到較優的網路引數值。然而，因為只有一個隱藏層，限制了模型的表達能力。在本節中，開始介紹包含多個隱藏層的深度神經網路，

深度學習系列（五）：一個簡單深度學習工具箱

本節主要介紹一個深度學習的matlab版工具箱，該工具箱中的程式碼很簡單，感覺比較適合用來學習演算法。裡面有常見的網路結構，包括深度網路(NN),稀疏自編碼網路(SAE),CAE,深度信念網路(DBN)(基於玻爾茲曼RBM實現)，卷積神經網路(CNN

JAVAWEB學習（12） - 實現一個簡單的MVC框架

實現一個簡單的MVC框架 1. 目標 SmartMVC核心是一個通用的控制器(DispatcherServlet)。利用SmartMVC,我們在開發一個web應用時，只需要新增相應的配置，通過該控制器就可以呼叫相應的模型或者檢視。也就是說，只需要寫模型和檢視，不再需要寫控制器了。

CSS題目系列（2） - 實現一個固定比例盒子

描述在開發過程中，會有這麼一個情況，需要將一個盒子的尺寸定義為固定比例，且尺寸需根據檢視的尺寸來進行縮放，也就是響應式，常見的多如有矩形、圓形等。下面我將使用下面的例子為大家進行講解：正文其實實現這個效果，有多種方法，下面逐一介紹。 1、垂直方向的padding 相信大家

用純numpy實現一個簡單的神經網路（理解）

簡單的一個numpy神經網路示例： import numpy as np class NeuralNetwork(): def __init__(self): #將權重轉換為3×1矩陣，其值從-1到1，平均值為0 self.synaptic_we

QML學習筆記（五）— 做一個簡單的待做事項列表

checked amp click done itl listview blank row idt 做一個簡單的QML待做事項列表，能夠動態添加和刪除和編輯數據 GitHub:八至作者：狐貍家的魚本文鏈接：QML學習筆記（五）— 做一個待做事項列表

Recyclerview的一些個人理解與使用（二）實現一個簡單的列表介面

公司專案前一段時間有些忙，忙完後趕緊就來寫下了這篇文章，上次的文章中，我們對Recyclerview進行了一個基礎的封裝，這次我們就用上次的封裝實現一個最簡單的Recyclerview。先來看看效果圖一個簡單的列表。下面是佈局檔案：

用Numpy實現一個簡單的神經網路

本示例來自於PyTorch的官網上的一個warm-up小示例, 覺得很有代表性, 所有這裡單獨記錄一下. 對於numpy來說, 它對計算圖, 深度學習, 梯度等等概念幾乎是不知道的, 但是, 如果我們瞭

Docker系列（五）：.Net Core實現k8s健康探測機制

k8s通過liveness來探測微服務的存活性，判斷什麼時候該重啟容器實現自愈。比如訪問 Web 伺服器時顯示 500 內部錯誤，可能是系統超載，也可能是資源死鎖，此時 httpd 程序並沒有異常退出，在這種情況下重啟容器可能是最直接最有效的解決方案。

深度學習基礎系列（五）| 深入理解交叉熵函式及其在tensorflow和keras中的實現

　　在統計學中，損失函式是一種衡量損失和錯誤（這種損失與“錯誤地”估計有關，如費用或者裝置的損失）程度的函式。假設某樣本的實際輸出為a，而預計的輸出為y，則y與a之間存在偏差，深度學習的目的即是通過不斷地訓練迭代，使得a越來越接近y，即 a - y →0，而訓練的本質就是尋找損失函式最小值的過程。　　常見的

解密SVM系列（五）：matlab下libsvm的簡單使用：分類與迴歸

本節簡單介紹一下libsvm的使用方法。關於libsvm似乎曾經使用過，那個時候主要用libsvm進行。當時還翻譯過關於介紹與分類實驗下載下來的libsvm其實包含好多個平臺的工具箱軟體，c++，matlab，java，python都有。他們的函

基於Proteus學習微控制器系列（五）——定時器實現電子錶

專案下載點選下載1. 電路圖 2. 程式主函式#include<reg51.h> #include<DEFINE.c> #include<KEY.c> #include<DISPLAY.c> void timer_

從零開始打造一個新聞訂閱APP之爬蟲篇（二、實現一個簡單的爬蟲系統）

前景提要：如何開發一個新聞訂閱APP之爬蟲篇（一、背景介紹&需求分析）做一個特定的爬蟲系統，首先考慮它要做什麼？從網際網路上抓取指定的N個站點資訊，解析提取需要的內容，按照特定的結構儲存；系統結構圖如下：下面是主要的程式碼結構；

ASP.NET Core Web API下事件驅動型架構的實現（一）：一個簡單的實現

很長一段時間以來，我都在思考如何在ASP.NET Core的框架下，實現一套完整的事件驅動型架構

Spring Cloud Alibaba系列（五）sentinel實現服務限流降級

## 一、sentinel是什麼 sentinel的官方名稱叫分散式系統的流量防衛兵。Sentinel 以流量為切入點，從流量控制、熔斷降級、系統負載保護等多個維度保護服務的穩定性。在Spring Cloud專案中最開始我們使用的是Hystrix，目前已停止更新了。現在Spring Cloud官方推薦的是r

python系列（五）centos6.x中部署多個python版本

python pyenv centos6.x virtualenv 博主QQ：819594300博客地址：http://zpf666.blog.51cto.com/有什麽疑問的朋友可以聯系博主，博主會幫你們解答，謝謝支持！使用pyenv+virtualenv方式部署python多版本pyenv

源碼分析系列（五）x264_ratecontrol_dataflow

技術 stc 碼率控制碼率 targe article nbsp target 緩沖區 http://www.cnblogs.com/xkfz007/articles/2616159.html 碼率控制部分關鍵函數 5.1 x264_ratecontrol_star

Windows Server 2012（單林、多樹、多站點）AD 部署系列（五）創建樹域

windows server 域樹域站點多域環境本章博文開始在BJ、SH、GZ站點為林bicionline.org 創建樹域控及調配的相關DNS等功能。網絡配置：1、為BJ站點ds04、SH站點pdc02和GZ站點ad02配置網絡， IP配置分別如下：（註：在創建域樹環境時，確

PHP系列（五）PHP字符串處理

php字符串處理 php字符串處理1、字符串的處理方式（分割匹配找查替換）//聲明一個關聯數組，數組名為$lamp, 成員有4個$lamp = array( ‘os‘=>‘Linux‘,‘webserver‘ =>‘Apache‘, ‘db‘=>‘MySQL‘, ‘language‘=>

洗禮靈魂，修煉python（3）--從一個簡單的print代碼揭露編碼問題，運行原理和語法習慣

比較編譯 windows 機器函數容易打印字符出現無法前期工作已經準備好後，可以打開IDE編輯器了，你可以選擇python自帶的IDLE，也可以選擇第三方的，這裏我使用pycharm——一個專門為python而生的編譯器第一個python代碼當然是所有開發語

deeplearning系列（五）實現一個簡單的深度神經網路

1. 深度學習概覽

2. 棧式自編碼神經網路

3. 引數微調

4. 程式碼實現

相關推薦