1. 程式人生 > >神經網絡,25個術語

神經網絡,25個術語

產生 濾波 war 這也 術語 rec 周期表 ren 多層

從神經網絡說起:深度學習初學者不可不知的25個術語和概念(上)

http://www.36dsj.com/archives/85406

1,神經元;2,權重;3,偏置:用來改變輸入的範圍。4,激活函數f(x):將輸入信號翻譯成輸出信號。最常用的激活函數有Sigmoid、ReLU 和softmax。5,神經網絡:訓練神經網絡,更新偏置值,目標是找到未知函數的一個近似值。6,輸入層、輸出層、隱含層,7,多層神經網絡MLP,每一層上的神經元都和下一層上的神經元連接在一起,全互連網絡(fully connected networks);8,正向傳播(forward propagation)。9,成本函數(損失函數)(cost function):最小化成本函數,即為最優化輸出。學習過程就是圍繞著 如何最小化成本。10,梯度下降(gradient descent):11,學習速率(learning rate):學習率指每次叠代中 對成本函數的“最小化次數”。12,反向傳播(back propagation):一次叠代後,根據產生的結果計算出整個網絡的偏差,然後用偏差結合“成本函數的梯度”,對“權重因子進行調整”,使得下次叠代的過程中偏差變小。這樣一個結合 成本函數的梯度 來調整 權重因子 的過程就叫做反向傳播。13,分批(batches):當訓練一個神經網路時,不應一次性發送全部輸入信號,而應把輸入信號隨機分成幾個大小相同的數據塊發送。將數據分批發送,建立的模型會更具有一般性。14,周期(epochs):一個周期表示對 所有的數據批次 都進行了一次叠代,包括一次正向傳播和一次反向傳播。往往周期數越高,模型的準確性就越高,但是耗時就越長,同樣周期/紀元的次數過高,可能會出現“過擬合”的情況。。15,dropout方法,訓練過程中隱藏的某些特定神經元會被忽略掉(drop)。16,分批標準化(batch normalization),為了保證下一層網絡得到的數據擁有合適的分布。因此在每一次數據傳遞前都需要對數據進行一次正則化處理。17,過濾器/濾波器(filters),將一個權重矩陣乘以輸入圖像的一個部分,產生相應的卷積輸出。18,卷積神經網絡CNN(convolutional neural network),卷積的過程。19,池化(pooling):最大化池16->4->1,取最大值。20,補白(padding),指給圖像的邊緣增加額外的空白,從而使得卷積後輸出的圖像跟輸入圖像在尺寸上一致,這也被稱作相同補白(Same Padding),21數據增強(data augmentation):從已有數據中創造出新的數據,通過增加訓練量以期望能夠提高預測的準確率。通過“旋轉”“照亮”的操作,訓練數據的品質得到了提升,這種過程被稱作數據增強 。22,遞歸神經元經由自己處理過的數據,會變成自身下一次的輸入,這個過程進行t次。

23,遞歸神經網絡(RNN,recurrent neural network),常被用於處理序列化的數據,即前一項的輸出 是用來預測下一項的輸入。遞歸神經網絡中存在環的結構,這些神經元上的環狀結構使得它們能夠存儲之前的數據一段時間,從而使得能夠預測輸出。RNN中隱含層的輸出會作為下一次的輸入,如此往復經歷t次,再將輸出的結果傳遞到下一層網絡中。這樣,最終輸出的結果會更全面,而且之前訓練的信息被保持的時間會更久。隱藏層將反向傳遞錯誤以更新權重。這被稱為backpropagation through time (BPTT).

24,梯度消失問題,當激活函數的梯度非常小時,在反向傳播過程中,權重因子會被多次乘以這些小的梯度。因此會越變越小,隨著遞歸的深入趨於“消失”,出現梯度消失問題。這一問題可通過采用ReLu等沒有小梯度的激活函數來有效避免。

25,梯度爆炸問題:激活函數的梯度過大,在反向傳播過程中,部分節點的大梯度使得他們的權重變得非常大,從而削弱了其他節點對於結果的影響。這個問題可以通過截斷(即設置一個梯度允許的最大值)的方式來有效避免。

神經網絡,25個術語