機器學習演算法--方向傳播演算法（BP法）

阿新 • • 發佈：2019-01-21

誤差表示式：

\( \large E(w) = \frac{1}{2} \sum_{d\in D} \sum_{k\in outputs} (t_{kd} - o_{kd}) ^2 \)

其中，\(outputs\)是網路輸出單元的集合，\(D\)還是代表所有訓練樣本空間，\(t_{kd}\)和\(o_{kd}\)是與訓練樣例d和第k個輸出單元相關的預期值與輸出值。

每次只處理一個樣本例項，然後更新各個權值，通過大量的樣本例項逐漸的調整權值。那麼對於每一次的訓練樣例d來說，它的輸出誤差為：

\( \large E_{d}(w) = \frac{1}{2} \sum_{k\in outputs} (t_{kd} - o_{kd}) ^2 \)

梯度

\( \large \bigtriangleup w_i = -\eta \frac{\partial E_{d} }{\partial w_i } \)

\( \large \bigtriangleup w_i = -\eta \frac{\partial E_{d} }{\partial net } \frac{\partial net }{\partial w_i } \)

\( \large \bigtriangleup w_i = -\eta \frac{\partial E_{d} }{\partial net } x_i \)

情況1：對於輸出單元的權值訓練法則：

因為\( \large \frac{\partial E_{d} }{\partial net } = \frac{\partial E_{d} }{\partial o} \frac{\partial o }{\partial net } = -(t-o)o(1-o)\)

所以

\( \large \bigtriangleup w_i = -\eta (t-o)o(o-1) x_i \)

\( \large \bigtriangleup w_i = \eta (t-o)o(1-o)x_i \)

情況2：隱藏單元的權值訓練法則

隱藏層中的任意結點上的連結線權值都是通過影響以它的輸出作為輸入的下一層(downstream)的結點而最終影響誤差的，所以隱藏層的推導如下：

因為\( \large \frac{\partial E_{d} }{\partial net_i } = \sum_{k\in ds(i)} \frac{\partial E_{d} } {\partial net_k} \frac {\partial net_k} {\partial o_i } \frac{\partial o_i }{\partial net_i } \)

\(= \sum_{k\in ds(i)} \delta_k w_{ik} o_i(1-o_i) = o_i(1-o_i) \sum_{k\in ds(i)} \delta_k w_{ik} \)

所以

\( \large \bigtriangleup w_i = -\eta \frac{\partial E_{d} }{\partial net_i } x_i \)

reference: 點選開啟連結

=====================================================================================================================

定義誤差：

\( \large net_j = \sum_i w_{ij} O_i\), \( \large net_k = \sum_j w_{jk} O_j\)

\( \large O_i= 1/ ( 1 + e ^ {- net _i} ) = f(net_i)\)

\( \large O_j = 1/ ( 1 + e ^ {- net _j} ) = f(net_j)\)

\( \large O_k = 1/ ( 1 + e ^ {- net _k} ) = f(net_k)\)

\( \large E = \frac {1}{2} \sum_j (y_j - O_j)^2 \) 其中\(y_j\)是理想輸出，\(O_j\)是實際輸出，

\( \Large \frac{\partial E} { \partial w_{ij} } = \frac{\partial E} { \partial net_j} \frac { \partial net_j} {\partial w_{ij}} = \delta_j O_i , \ \ \ 其中區域性梯度( \delta_j= \frac{\partial E} { \partial net_j} )\)

則修正量定義為：

\( \large \bigtriangleup w_{ij}(t) = - \eta \frac{\partial E} { \partial w_{ij} } = -\eta \delta_j O_i \)

當節點j是輸出單元時：

\( \Large \delta_j= \frac{\partial E} { \partial net_j} = \frac{\partial E} { \partial O_j} \frac{\partial O_j} { \partial net_j} = -(y_j - O_j) f'(net_j)\)

當節點j不是輸出單元時：

\( \Large \delta_j= \frac{\partial E} { \partial net_j} = \sum_k \frac{\partial E} { \partial net_k} \frac{\partial net_k} { \partial O_j} \frac{\partial O_j} { \partial net_j} = \sum_k \delta_k w_{jk} f'(net_j)\)

當採用sigmod函式\(y = f(x) = 1/ ( 1 + e ^ {- x} ) \)時 \( f'(x) = y(1-y) \)

即：\( \large f'(net_j) = O_j(1-O_j)\)

最終修正量為：

\( \large \bigtriangleup w_{ij}(t) = - \eta \delta_j O_i + \alpha \bigtriangleup w_{ij}(t-1) \)

演算法步驟：

1）從前向後各層計算各單元 \( O_j\)

\( \large net_j = \sum_i w_{ij} O_i\)

\( \large O_j = 1/ ( 1 + e ^ {- net _j} ) \)

2) 對輸出層計算\( \delta_j \)

\( \large \delta_j = (y-O_j)O_j(1- O_j)\)

3)從後向前計算各隱層

\( \large \delta_j = O_j(1- O_j) \sum_k w_{jk} \delta_k\)

4)計算並儲存各權值修正量

\( \large \bigtriangleup w_{ij}(t) = \alpha \bigtriangleup w_{ij}(t-1) + \eta \delta_j O_i\)

5)修正權值

\( \large w_{ij}(t+1) = w_{ij}(t) + \bigtriangleup w_{ij}(t) \)

步長係數\(\eta\) 對收斂性影響很大，通常在0.1~3之間

慣性系數\(\alpha\)影響收斂速度，一般現在0.9~1之間，大於1時不收斂，有些情況可以不使用慣性系數（等於0）

reference：《模式識別》張學工

機器學習演算法--方向傳播演算法（BP法）

機器學習演算法--方向傳播演算法（BP法）

機器學習——K-均值聚類（K-means）演算法

【python與機器學習入門1】KNN（k近鄰）演算法2 手寫識別系統

100天搞定機器學習|day38 反向傳播演算法推導

從零單排入門機器學習：線性回歸（linear regression）實踐篇

機器學習三--分類--鄰近取樣（Nearest Neighbor）

機器學習課程不完全收錄（持續更新）

【深度學習】一文讀懂機器學習常用損失函數（Loss Function）

斯坦福NG機器學習聽課筆記-推薦系統（recommender system）

收藏！超全機器學習資料合集！（附下載）

機器學習入門之房價預測（線性迴歸）

資源|28本必讀的經典機器學習/資料探勘書籍（免費下載）

機器學習——樸素貝葉斯（Naive Bayes）詳細解讀

機器學習專案實戰--邏輯迴歸（Logistic Regression）

機器學習1：梯度下降（Gradient Descent）

機器學習之python入門指南（十一）numpy常用方法簡介

【機器學習-斯坦福】因子分析（Factor Analysis）

機器學習之線性分類器（Linear Classifiers）——腫瘤預測例項

機器學習之資料預處理（sklearn preprocessing）

機器學習面試常見題總結（持續更新）

機器學習演算法--方向傳播演算法（BP法）

相關推薦