這些深度學習術語,你瞭解多少?(下)
ofollow,noindex">這些深度學習術語,你瞭解多少?(上)
動 量( Momentum )
Momentum 是Gradient Descent演算法的擴充套件、可加速或抑制引數更新。
1、 通 過 反向 傳 播的 錯誤 來學 習表 徵
多層感知器(MLP)
多層感知器是一種前饋神經網路,具有多個完全連線的層,使用非線性 sary/#activation-function" rel="nofollow,noindex" target="_blank"> 啟用函式 來處理不可線性分離的資料。MLP是多層神經網路的最基本形式,如果它超過2層,則是深度神經網路。
神經機器翻譯(NMT)
NMT 系統使用神經網路在不同語言之間進行翻譯,例如英語和法語。NMT系統可以使用雙語語料庫進行端到端的訓練,這與需要手工製作的特徵的傳統機器翻譯系統不同。NMT系統通常使用編碼器和解碼器遞在歸神經網路來實現,該編碼器和解碼器分別是編碼源句子和產生目標句子。
2、 使用 RNN 編碼器 - 解 碼 器學 習 短 語 表示
神經網路圖靈機(NTM)
NMT 是神經網路架構,可以從示例中推斷出簡單的演算法。例如,NTM可以通過示例輸入和輸出來學習排序演算法。NTM通常學習某種形式的記憶和注意力機制來在程式執行期間處理狀態。
1、 神 經網路圖 靈機
噪聲對比估計(NCE)
噪聲對比估計是通常用於訓練具有大輸出詞彙的分類器取樣損耗。在大量可能的類別上計算 softmax 非常昂貴,但使用NCE,我們可以通過訓練分類器將問題從“實際”分佈和人為生成的噪聲分佈區分開來,將問題簡化為二元分類問題。
1、 噪聲 對 比估 計 :非 標 準化 統計 模型的一種新的估 計 原理
受限玻爾茲曼機(RBN)
RBM 是一種概率圖形模型,也可以解釋為隨機人工神經網路,RBN以無監督的方式學習資料的表徵。RBN由可見層和隱藏層以及這些層中的二進位制神經元之間的連線組成。RBN可以使用 對比發散 ( Contrastive Divergence ) 進行有效訓練,這是梯度下降的近似值。
1、 動 力系 統 中的資訊 處 理:和 諧 理 論 的基 礎
遞迴神經網路(RNN)
RNN 通過隱藏狀態順序互動,它最多需要N個輸入併產生多達N個輸出。例如,輸入可以是句子,輸出是句子的情感分類(N-to-1)。輸入可以是單個影象,輸出可以是與影象的描述(1到N)對應的單詞序列。在每個時間步,RNN基於當前輸入和先前隱藏狀態計算新的隱藏狀態(“儲存器”)。“遞迴性”就是源於這樣的事實:在每個步驟中使用相同的引數並且網路基於不同的輸入執行相同的計算操作。
結構遞迴神經網路
結構遞迴神經網路是 遞迴神經網路 結合樹狀結構的推廣。它也在每次遞迴時應用相同的權重,但結構遞迴神經網路可以使用反向傳播進行端到端的訓練。雖然可以將樹結構作為優化問題的一部分來學習,但結構遞迴神經網路通常應用於已經具有預定義結構的問題,如自然語言處理中的解析樹。
1、 用結構 遞迴 神 經 網 絡 解析自然 場 景和自然 語 言 處理
RELU
線性整流函式的簡稱。ReLU通常用作深度神經網路中的 啟用函式 ,它們的定義是 f(x)=max(0,x) 。ReLU函式在效能上是優於 tanh 函式 ,並且它們對 梯度消失問題的 影響較小。ReLUs是卷積神經網路中最常用的啟用函式。 ReLU 存在若干變體,例如 Leaky ReLU , Parametric ReLU ( PReLU ) 或更平滑的 softplus 近似。
1、 深入研究整流函式:超越 ImageNet 分 類 的表 現 ;
3、ICML.pdf" rel="nofollow,noindex" target="_blank"> 線 性整流函式改 進 受限制的玻 爾茲 曼機器 ;
RESNET
Deep Residual Networks 贏得了2015年ILSVRC的挑戰。它通過在層的堆疊之間引入快捷方式連線來工作,允許優化器學習“更容易”的殘差對映,而不是更復雜的原始對映。ResNet在ImageNet測試集上實現了3.57%的錯誤率。
1、 深度殘留學 習 的 圖 像 識別 ;
RMSProp
RMSProp 是一種基於梯度的優化演算法,它與 Adagrad 類似,但引入了額外的衰減方法來抵消Adagrad學習率的快速下降。
1、 用於機器學 習 的神 經 網 絡
Seq2Seq
序列到序列模型將序列(例如句子)作為輸入讀取併產生另一序列作為輸出。它與標準 RNN 的 不同之處在於,在網路開始產生任何輸出之前完全讀取輸入序列。通常,seq2seq模型使用兩個RNN實現,用作編碼器和解碼器。 神經機器翻譯 是seq2seq模型的典型示例。
SGD
隨機梯度下降是一種基於梯度的優化演算法,用於在訓練階段學習網路引數,通常使用 反向傳播 演算法計算梯度。在實踐中,人們使用SGD的小批量版本,其中引數更新是基於批次而不是單個示例來執行的,從而提高了計算效率。存在許多對vanilla SGD的擴充套件,包括 Momentum 、 Adagrad 、 rmsprop 、 Adadelta 或 Adam 。
1、 在 線 學 習 隨機 優 化的自適 應 子梯度方法 ;
2、 斯坦福 CS231n : 優 化演算法 ;
3、 梯度下降 優 化演算法概述 ;
SOFTMAX
SOFTMAX 函式 通常用於將原始分數的向量轉換成在一個神經網路的概率類用於分類的輸出層。它通過取冪和除以標準化常數來對分數進行標準化。如果我們正在處理大量的類,例如機器翻譯中的大量詞彙表,標準化這些常量的計算成本很高。這就需要各種替代方案以使計算更有效,包括 Hierarchical Softmax 或使用基於取樣的損失,例如 NCE 。
TensorFlow 是一個開源的C++/Python軟體庫,使用資料流圖進行數值計算。它是由Google建立,在設計方面,它與 Theano 最相似。
Theano
Theano 是一個Python庫,允許你自定義、優化和評估數學表示式。它包含許多用於深度神經網路的基礎塊。Theano是一個類似於 Tensorflow 的低階庫,高階庫包括 Keras 和 Caffe 。
梯度消失問題
消失梯度問題通常出現在非常深的神經網路中,通常是遞迴神經網路,因為它使用了使梯度趨於很小的啟用函式(在0到1的範圍內)。而這些小梯度在反向傳播期間成倍增加,所以它們傾向於在整個層中“消失”,從而阻止網路學習遠端依賴性。解決此問題的常用方法是使用不受小梯度影響的 ReLU 啟用函式或使用明確消除梯度消失的 LSTM 等 架構,與此問題相反的是 梯度爆炸問題 。
VGG
VGG 指的是一種卷積神經網路模型,這個模型分別在2014年ImageNet影象定位和分類中獲得第一名和第二名。VGG模型由16-19個權重層組成,並使用尺寸為3×3和1×1的小卷積濾波器。
1、 用於大 規 模 圖 像 識別 的非常深的卷 積 網 絡
word2vec 是一種演算法和 工具 ,通過嘗試預測文件中單詞的上下文來學習詞 嵌入 。例如,生成的單詞向量具有一些有趣的屬性 vector(‘queen') ~= vector('king')-vector('man')+vector('woman') 。可以使用兩個不同的目標來學習這些嵌入:Skip-Gram目標嘗試從單詞上預測上下文,並且CBOW目標嘗試從其上下文預測單詞。
2、 詞語分散式表達及其組合性 ;
3、 word2vec 引數學 習 解 釋 ;
本文由 阿里云云棲社群 組織翻譯。
文章原標題《deep-learning-glossary》
作者:wildml 譯者:虎說八道,審校:。
文章為簡譯,更為詳細的內容,請檢視 原文 。