Coursera機器學習-第五週-Neural Network BackPropagation

Cost Function and Backpropagation

Cost Function
假設有樣本m個。x(m)表示第m個樣本輸入，y(m)表示第m個樣本輸出，L表示網路的層數，sl表示在l層下，神經單元的總個數（不包括偏置bias units），SL表示輸出單元的個數

當遇到二分問題時，SL=1，y=0or1，
遇到K分類問題時，SL=K，yi=1

例如遇到5分類問題時，輸出並不是y=1,y=2,...y=5這類，而是標記成向量形式[10000]T,[01000]T.....[00001]T

這裡寫圖片描述

我們先看Logistic Regression Cost Function:
這裡寫圖片描述

m表示樣本個數，前半部分表示假設與樣本之間的誤差之和，後半部分是正則項（不包括bias terms）

logistic regression一般用於二分類，所以cost function寫成上式，那麼神經網路的Cost Function如何寫呢？它可是K分類（K≥2），由上述J(θ)推廣，我們可以得到如下：

這裡寫圖片描述

其實，就是在上述的基礎之上，對每個類的輸出進行加和，後半部分是對bias項所有引數的平方和(不包括bias terms)

BackProgagation ALG
從第四周的課程當中，我們已經瞭解到了向前傳播(Forward Propagation),向後傳播（BackPropagation）無非是方向相反罷了。

先簡述一下BP神經網路，下圖是神經網路的示意圖：
這裡寫圖片描述

Layer1，相當於外界的刺激，是刺激的來源並且將刺激傳遞給神經元，因此把Layer1命名為輸入層(Input Layer)。Layer2-Layer3，表示神經元相互之間傳遞刺激相當於人腦裡面，因此命名為隱藏層(Hidden layers)。Layer4，表示神經元經過多層次相互傳遞後對外界的反應，因此Layer4命名為輸出層(Output Layer)。

簡單的描述就是，輸入層將刺激傳遞給隱藏層，隱藏層通過神經元之間聯絡的強度（權重）和傳遞規則（啟用函式）將刺激傳到輸出層，輸出層整理隱藏層處理的後的刺激產生最終結果。若有正確的結果，那麼將正確的結果和產生的結果進行比較，得到誤差，再逆推對神經網中的連結權重進行反饋修正，從而來完成學習的過程。這就是BP神經網的反饋機制，也正是BP（Back Propagation）名字的來源：運用向後反饋的學習機制，來修正神經網中的權重，最終達到輸出正確結果的目的！

那麼，演算法是如何實現的呢？如何向後傳播呢？
在BackPropagation中，定義了一個：
這裡寫圖片描述

表示l層節點j的殘差，殘差是指實際觀察值與估計值（擬合值）之間的差。
那麼δ

(l)j是如何得到的呢？

由上面提到的定義：殘差是指實際觀察值與估計值（擬合值）之間的差，那麼對於Layer4而言δ(4)j=a(4)j−yj，其中a(4)j表示擬合值，yj表示實際觀察值，要得到a(4)j，我們需要通過

Forward Propagation：
這裡寫圖片描述

對於δ(3)j,δ(2)j:
這裡寫圖片描述

由此，我們得到計算δ的方式，下面來看BP演算法的虛擬碼：

這裡寫圖片描述
ps：最後一步之所以寫+=而非直接賦值是把Δ看做了一個矩陣，每次在相應位置上做修改。

從後向前此計算每層依的δ，用Δ表示全域性誤差，每一層都對應一個Δ(l)。再引入D作為cost function對引數的求導結果。下圖左邊j是否等於0影響的是否有最後的bias regularization項。左邊是定義，右邊可證明（比較繁瑣）。
這裡寫圖片描述

Backpropagation in Practice

Backpropagation intuition
1.向前傳播 Forward propagation，得到每個權重θ,若有疑惑可參考第四周課程
這裡寫圖片描述

PS：bias units 並不算在內。所以1,2,3層的神經元個數為2，而不是3

2.簡化神經網路的代價函式（去除正則項，即λ=0）
這裡寫圖片描述

我們僅關注一個樣本(x(i),y(i))，並且僅針對一個輸出單元的神經網路（上例），這樣Cost function可以簡化為如下的形式：
這裡寫圖片描述

3.計算誤差
這裡寫圖片描述
δ(l)j記為l層神經元j的誤差
BP演算法主要是從輸出層反向計算各個節點的誤差的，故稱之為反向傳播演算法，對於上例，計算的過程如下圖所示：

這裡寫圖片描述
換句話說, 對於每一層來說，δ分量都等於後面一層所有的δ加權和，其中權值就是引數θ。

Implementation note: Unrolling parameters
這節主要是講引數的向量化，以及將其還原
這裡寫圖片描述

具體不懂可以實踐一下。 Gradient Checking
神經網路中的引數很多，如何檢測自己所編寫的程式碼是否正確？
對於下面這個θ−J(θ)圖，取Θ點左右各一點(θ+ε),(θ−ε)，則有點θ的導數（梯度）近似等於J(θ+ε)−J(θ−ε)/(2ε)

對於每個引數的求導公式如下圖所示
這裡寫圖片描述

由於在back-propagation演算法中我們一直能得到J(Θ)的導數D（derivative），那麼就可以將這個近似值與D進行比較，如果這兩個結果相近就說明code正確，否則錯誤，如下圖所示：

這裡寫圖片描述
實現時的注意點：

首先實現反向傳播演算法來計算梯度向量DVec；
其次實現梯度的近似gradApprox;
確保以上兩步計算的值是近似相等的；
在實際的神經網路學習時使用反向傳播演算法，並且關掉梯度檢查。

特別重要的是：
一定要確保在訓練分類器時關閉梯度檢查的程式碼。如果你在梯度下降的每輪迭代中都執行數值化的梯度計算，你的程式將會非常慢。

Random initialization

如何初始化引數向量or矩陣。通常情況下，我們會將引數全部初始化為0，這對於很多問題是足夠的，但是對於神經網路演算法，會存在一些問題，以下將會詳細的介紹。

對於梯度下降和其他優化演算法，對於引數 θ向量的初始化是必不可少的。能不能將初始化的引數全部設定為0：
這裡寫圖片描述
看下圖，如果將引數全設定為0

這裡寫圖片描述

這裡寫圖片描述
會導致一個問題，例如對於上面的神經網路的例子，如果將引數全部初始化為0，在每輪引數更新的時候，與輸入單元相關的兩個隱藏單元的結果將是相同的，

a(2)1=a(2)2

因此，我們需要隨機初始化：
這裡寫圖片描述

Putting it together
這裡寫圖片描述

首先需要確定一個神經網路的結構-神經元的連線模式, 包括：
輸入單元的個數：特徵x(i)的維數；
輸出單元的格式：類的個數
隱藏層的設計：比較合適的是1個隱藏層，如果隱藏層數大於1，確保每個隱藏層的單元個數相同，通常情況下隱藏層單元的個數越多越好。

這裡寫圖片描述

在確定好神經網路的結構後，我們按如下的步驟訓練神經網路：

隨機初始化權重引數；
實現：對於每一個 x(i) 通過前向傳播得到 hθ(x(i)) ;
實現：計算代價函式 J(θ)；
實現：反向傳播演算法用於計算偏導數

相關推薦

Coursera機器學習-第五週-Neural Network BackPropagation

Cost Function and Backpropagation Cost Function 假設有樣本m個。x(m)表示第m個樣本輸入，y(m)表示第m個樣本輸出，L表示網路的層數，sl表示在l層下，神經單元的總個數（不包括偏置bias units）

Coursera-吳恩達-機器學習-第五週-程式設計作業: Neural Networks Learning

本次文章內容： Coursera吳恩達機器學習課程，第五週程式設計作業。程式語言是Matlab。學習演算法分兩部分進行理解，第一部分是根據code對演算法進行綜述，第二部分是程式碼。 0 Introduction 在這個練習中，將應用 backpropagation

Coursera NG 機器學習第五週正則化 bias Vs variance Python實現

ex5.py import scipy.optimize as op import numpy as np from scipy.io import loadmat from ex5modules import * #Part 1: Loading and visuali

機器學習第五週

代價函式和反向傳播代價函式首先引入一些新的我們即將討論的變數名稱： L = 網路的總層數 sjsj = 網路第 j 層的單元節點數（不包含偏置項） K = 最後一層輸出的單元數 m = 樣本的個數在神經網路中，我們可能有很多輸出節點，我用

Coursera機器學習-第三週-邏輯迴歸Logistic Regression

Classification and Representation 1. Classification Linear Regression （線性迴歸）考慮的是連續值（[0,1]之間的數）的問題，而Logistic Regression（邏輯迴歸）考

Coursera機器學習-第七週-Support Vector Machine

Large Margin Classification 支援向量機(Support vector machine)通常用在機器學習 (Machine learning)。是一種監督式學習 (Supervised Learning)的方法，主要用在統計分類

Coursera-吳恩達-機器學習-第七週-測驗-Support Vector Machines

忘記截圖了，做了二次的，有點繞這裡，慢點想就好了。正確選項是，It would be reasonable to try increasing C. It would also be reasonable to try decreasing σ2. &n

Coursera-吳恩達-機器學習-第七週-程式設計作業: Support Vector Machines

本次文章內容： Coursera吳恩達機器學習課程，第七週程式設計作業。程式語言是Matlab。本文只是從程式碼結構上做的小筆記，更復雜的推導不在這裡。演算法分兩部分進行理解，第一部分是根據code對演算法進行綜述，第二部分是程式碼。本次作業分兩個part，第一個是using SVM，第

coursera NLP mooc 第五週 NLU學習筆記

coursera NLP mooc 第五週 NLU學習筆記任務指向型對話系統需要注意的是，在本課中我們假設我們得到的使用者的表達都是以文字形式被系統接收的。意圖的判斷當我們接收到使用者輸入的資訊後，我們要做的第一件事就是去判斷他的意圖。舉個例子，當接收到"How lo

Coursera-吳恩達-機器學習-第十週-測驗-Large Scale Machine Learning

本片文章內容： Coursera吳恩達機器學習課程，第十週 Large Scale Machine Learning 部分的測驗，題目及答案截圖。 1.cost increase ，說明資料diverge。減小learning rate。 stochastic不需要每步都是減

Coursera-吳恩達-機器學習-第八週-程式設計作業: K-Means Clustering and PCA

本次文章內容： Coursera吳恩達機器學習課程，第八週程式設計作業。程式語言是Matlab。本文只是從程式碼結構上做的小筆記，更復雜的推導不在這裡。演算法分兩部分進行理解，第一部分是根據code對演算法進行綜述，第二部分是程式碼。本次作業分兩個part，第一個是K-Means Clu

Coursera-吳恩達-機器學習-第八週-測驗-Principal Component Analysis

本片文章內容： Coursera吳恩達機器學習課程，第八週的測驗，題目及答案截圖。

Coursera-吳恩達-機器學習-第六週-程式設計作業: Regularized Linear Regression and Bias/Variance

本次文章內容： Coursera吳恩達機器學習課程，第六週程式設計作業。程式語言是Matlab。學習演算法分兩部分進行理解，第一部分是根據code對演算法進行綜述，第二部分是程式碼。 0 Introduction 在這個練習中，應用regularized linea

Coursera-吳恩達-機器學習-第六週-測驗-Machine Learning System Design

說實話，這一次的測驗對我還是有一點難度的，為了刷到100分，刷了7次（哭）。無奈，第2道和第4道題總是出錯，後來終於找到錯誤的地方，錯誤原因是思維定式，沒有動腦和審題正確。這兩道題細節會在下面做出講解。第二題分析：題意問，使用大量的資料，在哪兩種情況時

吳恩達機器學習第5周Neural Networks（Cost Function and Backpropagation）

and div bsp 關於邏輯回歸 info src clas 分享 5.1 Cost Function 假設訓練樣本為：{(x1),y(1)),(x(2),y(2)),...(x(m),y(m))} L = total no.of layers in network

吳恩達機器學習第三週

轉載https://www.cnblogs.com/LoganGo/p/8562575.html 一.邏輯迴歸問題（分類問題）生活中存在著許多分類問題，如判斷郵件是否為垃圾郵件；判斷腫瘤是惡性還是良性等。機器學習中邏輯迴歸便是解決分類問題的一種方法。二分類：通常表示為yϵ{0,1}

機器學習 | 吳恩達機器學習第三週程式設計作業(Python版)

實驗指導書下載密碼:fja4 本篇部落格主要講解，吳恩達機器學習第三週的程式設計作業，作業內容主要是利用邏輯迴歸演算法(正則化)進行二分類。實驗的原始版本是用Matlab實現的，本篇部落格主要用Python來實現。目錄 1.實驗包含的檔案 2.使用邏

機器學習第三週（下）

擬合 1、擬合程度 1.1、過擬合 1.1.1、原因 1.1.2、理論解決方法 1.1.3、實際解決方法之一：正則化 1.1.3.1、正則化線性迴歸 1.1.3.2、正則化正規方

機器學習 | 吳恩達機器學習第六週學習筆記

課程視訊連結第六週PPT 下載密碼:zgkq 本週主要講解了如何設計機器學習系統和如何改進機器學習系統，包括一些模型選擇的方法，模型效能的評價指標，模型改進的方法等。目錄一、應用機器學習建議 1.決定下一步做什麼 2.評估假設函式 3.模型選擇和訓練、驗

機器學習 | 吳恩達機器學習第八週學習筆記

課程視訊連結第八週PPT 下載密碼:qedd 上週主要講解了支援向量機SVM的原理包括優化目標、大間隔以及核函式等SVM核心內容，以及SVM的使用。本週主要講解經典的無監督聚類演算法k-means，包括k-means的優化目標，原理以及一些引數設定細節；和降維演算法PCA的原理，

Coursera機器學習-第五週-Neural Network BackPropagation

Cost Function and Backpropagation

Backpropagation in Practice

相關推薦