【週末AI課堂】SELU和ResNet（理論篇） | 機器學習你會遇到的

科技 · 發表 2018-12-22 20:19:58

摘要：原標題：【週末AI課堂】SELU和ResNet（理論篇） | 機器學習你會遇到的 AI課堂開講，就差你了！很多人說，看了再多的文章，可是沒有人手把手地教授，還是很難真正地入門AI。為了將AI知識體系以最簡單的方式呈現給你，從這個星期開始，芯君邀請AI專業人士開設“週末學習課堂”——每週就AI學習中...

AI課堂開講，就差你了！

很多人說，看了再多的文章，可是沒有人手把手地教授，還是很難真正地入門AI。為了將AI知識體系以最簡單的方式呈現給你，從這個星期開始，芯君邀請AI專業人士開設“週末學習課堂”——每週就AI學習中的一個重點問題進行深度分析，課程會分為理論篇和程式碼篇，理論與實操，一個都不能少！

來，退出讓你廢寢忘食的遊戲頁面，取消只有胡吃海塞的週末聚會吧。未來你與同齡人的差異，也許就從每週末的這堂AI課開啟了！

讀芯術讀者交流群，請加小編微訊號：zhizhizhuji。等你。後臺回覆“週末AI課堂”，查閱相關原始碼。

全文共1762字，預計學習時長3分鐘

對神經網路的深度加深是最有效的提升效能的辦法，同時網路越深，梯度消失和梯度爆炸的問題，會給優化帶來極大的困難。我們前面介紹了加強優化的幾種通用技術：

1、隱藏單元。最明顯的改變來自於sigmoid改為ReLU。

2、優化演算法。從簡單的SGD到動量演算法，再到RMSProp和Adam。

3、輸出單元。最明顯的改變是分類中MSE改為交叉熵，一種來自於極大似然估計的做法。

4、BatchNormalization.削弱層與層之間協調更新的問題。

在幾乎任何深度學習的任務中，我們都會用到以上幾種方法。我們已經在實踐中看到了這些有助於我們訓練更好的引數但是我們接下來的課程可能會涉及到比較深的網路，還有兩種技術是非常值得介紹的：

1、一種叫做SELU的隱藏單元，它可以構建出一個自歸一化的神經網路（Self-Normalizing Neural Networks），在很多實踐中證明，這樣的網路更容易優化（Klambauer ，2017）。

2、另一種是著名的ResNet（Kaiming He，2015 ），它採用了跨層的連線，這種highway network的思想並不是由ResNet首創，但是ResNet中恆等連線使得梯度更快更好地到達之前highway network無法有效到達的層。目前在很深的網路中，ResNet提出殘差模組幾乎是必須存在的。

在這裡，我們以理論和實踐相結合的方式來介紹這兩種“神奇”的技術。

自歸一化神經網路：SELU

我們在《常見隱藏單元》中提到過ELU隱藏單元，它具有軟飽和和輸出均值為零的特性：

而所謂的SELU似乎也很簡單，它將這個式子變為了：

乘以，則是將在時原本為1的梯度稍微變大了一點點，其中有兩個關鍵點：

1、權重係數服從均值為零，方差為的高斯分佈。

2、引數和（保留兩位小數）。

其中第一點是第二點的前提，不使用啟用函式就可以推出來，而第二點的證明太過冗餘，此處不做詳解。回憶一下，我們在對每一層做Batch Normalization，目的就是希望讓每一層的輸出都是一個均值為零，方差為1的正態分佈。那麼SELU作為啟用函式，就是希望能將通過啟用函式來直接得到均值為0，方差為1的正態分佈。

根據中心極限定理，我們假設輸入變數X服從均值為0，方差為1的高斯分佈，即：