短視訊那麼多，快手如何利用GRU實現各種炫酷的語音應用

R語言 · 發表 2018-09-17 12:12:55

摘要：隨著短視訊的興起，如何使用演算法理解視訊內容，並對其進行描述與檢索就顯得非常重要。最近快手多媒體內容理解部的語音組提出了一種能使用下文資訊的門控迴圈單元，該模型能為快手大量的短視訊提供語音識別、語音特效和語音評論等優秀的應用。快手提出的該論文已經被 Interspeech 2018 接...

隨著短視訊的興起，如何使用演算法理解視訊內容，並對其進行描述與檢索就顯得非常重要。最近快手多媒體內容理解部的語音組提出了一種能使用下文資訊的門控迴圈單元，該模型能為快手大量的短視訊提供語音識別、語音特效和語音評論等優秀的應用。快手提出的該論文已經被 Interspeech 2018 接收為 oral 論文，目前它同樣也部署在了快手的各種語音業務中。

本文介紹了快手這一研究成果以及它在實際業務中的應用，同時也介紹了 Interspeech 2018 中比較有意思的主題。本文首先會討論語音在快手業務中的應用，以及為什麼需要高效能門控迴圈單元以及較低的解碼延遲。隨後文章會重點討論快手如何選擇 GRU、mGRU 以及更加精簡的迴圈單元 mGRUIP，同時會介紹如何將下文資訊嵌入迴圈單元以處理語音的協同發音問題，這些帶下文資訊的高效模組在處理快手短視訊語音資訊中處於核心地位。最後，本文還會介紹快手整個多媒體理解部門所研究的方向與情況。

快手多媒體內容理解部語音組的李傑博士在 Interspeech2018 做 oral 報告。

為什麼語音需要新單元

首先語音在快手業務中的應用主要分為兩大類。第一類是語音內容分析，主要目的是對每天快手使用者產生的海量語音資料進行內容分析，為接下來的資訊保安、內容理解、廣告與推薦等提供基礎服務。涉及到的技術主要包括：語音識別、關鍵詞識別、說話人識別、聲學事件檢測等。這類業務快手使用者可能不太容易感受的到，但對快手而言是很重要的業務。具體的應用，比如，短視訊語音識別、短視訊音訊標籤、直播語音識別、直播髒詞過濾等。

第二類是語音互動。其目的是提升使用者與快手產品互動時的便利性，此外，可以通過語音設計一些新的玩法，提升趣味性。涉及的技術包括語音識別、關鍵詞喚醒等。比如，快手產品中的魔法表情語音特效觸發、語音自動生成字幕、語音評論、語音搜尋等。

在語音識別領域，設計一個「又快又好」的聲學模型一直是從業者不斷追求的目標。「快」指的是模型延遲要小，計算要高效。「好」指的是識別準確率要高。本次快手提出的「具備下文語境的門控迴圈單元聲學模型」就具有這樣的特點。在語音內容分析和語音互動兩類業務中，語音識別相關部分都可以用此模型。

•論文：Gated Recurrent Unit Based Acoustic Modeling with Future Context

• 論文地址：https://arxiv.org/abs/1805.07024

帶下文語境的門控迴圈單元

正因為快手需要快速與準確地處理語音資訊，所以快手的李傑博士等研究者提出了一種能利用下文資訊的門控迴圈單元。這裡需要注意的是，利用下文資訊在語音識別和關鍵詞識別等任務中非常重要。正如快手所述，很多時候語音識別不能僅考慮當前話語的資訊，我們還需要一定長度的後文資訊才能降低口音和連讀等協同發音的影響。

為了利用下文資訊，我們首先想到的可能就是 BiLSTM，它廣泛應用於機器翻譯和其它需要下文資訊的序列任務中。但是在語音識別中，雙向LSTM的延遲非常大，它也做不到實時解碼。例如在使用 BiLSTM實現語音建模的過程中，模型的延遲是整句話，也就是說在識別第 5 個詞時，我們需要等整句話結束並將資訊由句末傳遞到第 5 個詞，這樣結合前向資訊與反向資訊才能完成第 5 個詞的識別。這種延遲是非常大的，通常也是不可忍受的，沒有人希望模型在整句話都說完才開始計算。

整個延遲的控制在語音識別中都處於核心地位，因此正式來說，模型延遲指在解碼當前幀時，模型需要等待多久才能對當前幀進行預測。而模型等的時間就應該是識別當前幀所需要的未來資訊，這個延遲是一定存在的，只要在可接受的範圍內就完全沒問題。快手多媒體內容理解部語音組李傑博士表示一般最簡單的方法就是在輸入特徵的時候，除了輸入當前特徵以外，還要把未來的比如說一百毫秒以內的特徵都輸入進去。因此在真正使用，並解碼的當前時刻 T 的時候，我們必須要等待一百毫秒。

其實有很多方法都能在聲學建模中利用下文資訊，例如時延神經網路（TDNN）和控制延遲的 LC-BiLSTM網路等。其中 TDNN 是一種前饋神經網路架構，它可以在上下文執行時間卷積而高效地建模長期依賴性關係。而 LC-BiLSTM嘗試控制解碼延遲，希望不再需要等整個句子完成再解碼，但這些模型的延遲仍然非常高，達不到實際的需求。

為了降低延遲並提高計算效率，快手的研究者在該論文中以 GRU 為基礎進行了修正並添加了上下文模組。總的而言，他們採用了只包含更新門的最小門控迴圈單元（mGRU），並進一步新增線性輸入對映層以作為「瓶頸層」，從而提出大大提升運算效率的門控迴圈單元mGRUIP。使用 mGRUIP 再加上能建模下文資訊的模組，就能得到高效能與低模型延遲的聲學建模方法。

李傑博士表示一般來說，「建模下文資訊」總會帶來一定的延遲，「建模下文資訊」與「低延遲」經常會相互矛盾。這篇論文提出的模型是在兩者之間找到了一個比較好的平衡點。模型中的 input projection 形成了一個 bottleneck，而快手在這個 bottleneck 上設計了下文語境建模模組，從而實現了在低延遲的條件下，對下文語境進行有效建模。

從 GRU 到 mGRUIP

為了構建計算效率更高的單元，快手從 GRU、mGRU 到 mGRUIP 探索了新型門控單元。GRU 背後的原理與LSTM非常相似，即用門控機制控制輸入、記憶等資訊而在當前時間步做出預測。GRU 只有兩個門，即一個重置門（reset gate）和一個更新門（update gate）。這兩個門控機制的特殊之處在於，它們能夠儲存長期序列中的資訊，且不會隨時間而清除或因為與預測不相關而移除。

從直觀上來說，重置門決定了如何將新的輸入資訊與前面的記憶相結合，更新門定義了前面記憶儲存到當前時間步的量。在 Kyunghyun Cho 等人第一次提出 GRU 的論文中，他們用下圖展示了門控迴圈單元的結構：

上圖的更新 z 將選擇隱藏狀態 h 是否更新為新的 h tilde，重置門 r 將決定前面的隱藏狀態是否需要遺忘。以下圖左的方程式展示了 GRU 的具體運算過程：

其中 z_t 表示第 t 個時間步的更新門，它會根據當前時間步的資訊 X_t 與前一時間步的記憶 h_t-1 計算到底需要保留多少以前的記憶。而 r_t 表示重置門，它同樣會通過 Sigmoid 函式判斷當前資訊與多少以前的記憶能形成新的記憶。而上圖右側所展示的 mGRU 進一步減少了門控的數量，它移除了重置門，並將雙曲正切函式換為 ReLU啟用函式。此外，mGRU 相當於令 GRU 中的重置門恆等於 1。

通過上圖的左右對比，很明顯我們會發現 mGRU 的計算要簡單地多，但是如果網路的每一層神經元都非常多，那麼 mGRU 的計算量還是非常大，且隨著神經元數量的增加計算成線性增長。這就限制了 mGRU 在大型網路和大規模場景中的應用。因此李傑等研究者進一步提出了帶輸入對映的 mGRUIP，它相當於給輸入增加了一個瓶頸層，先將高維特徵壓縮為低維，然後在低維特徵上發生實際的運算，再恢復到應有的高維特徵。

上圖展示了 mGRU 到 mGRUIP 的演變，其中 mGRUIP 會先將當前輸入 x_t 與前一時間步的記憶（或輸出，h_t-1）拼接在一起，然後再通過矩陣 W_v 將拼接的高維特徵壓縮為低維向量 v_t，這裡就相當於瓶頸層。然後通過批歸一化 BN 和啟用函式ReLU 計算出當前需要記憶的資訊 h_t tilde，再結合以前需要保留的記憶就能給出當前最終的輸出。

mGRUIP 顯著地減少了 mGRU 的引數量，它們之間的引數量之比即 InputProj 層的單元數比上隱藏層的單元數。例如我們可以將 InputProj 層的單元數（或 v_t 向量的維度）設定為 256，而神經網路隱藏層的單元數設定為 2048，那麼同樣一層迴圈單元，mGRUIP 比 mGRU 的引數量少了 8 倍。

很多讀者可能會疑惑既然等大小的兩層網路引數量相差這麼多，那麼它們之間的表徵能力是不是也有差別，mGRUIP 是不是在效能上會有損失。李傑表示他們經過實驗發現，這種降維不僅不會降低 GRU 模型的表達能力，反而可以提升模型的效能。不僅本文的 GRU 如此，其他人所做的關於LSTM的工作也有類似的發現。在LSTM中增加線性輸出層，或者輸入層，大部分情況下，不僅沒有效能損失，反而有一定的收益。可能的原因在於，語音連續幀之間具有較多的冗餘資訊，這種線性層可以進行一定程度的壓縮，降低冗餘。

mGRUIP 與上下文模組

完成高效的門控迴圈單元后，接下來我們需要基於這種單元構建利用下文資訊的方法。在快手的論文中，他們提出了兩種上下文模組，即時間編碼與時間卷積。

在時間編碼中，未來幀的語境資訊會編碼為定長的表徵並新增到輸入對映層中。如下向量 v 的表示式為添加了時間編碼的輸入對映層，其中藍色虛線框表示為時間編碼，且 l 表示層級、K 表示利用未來語境的數量、s 為未來每一個語境移動到下一個語境的步幅。在向量 v 的表示式中，左側 W_v[x_t; h_t-1] 為 mGRUIP 計算輸入對映層的表示式，而右側時間編碼則表示將前一層涉及下文資訊的 InputProj 加和在一起，並與當前層的 InputProj 相加而作為最終的瓶頸層輸出。這樣就相當於在當前時間步上利用了未來幾個時間步的資訊，有利於更準確地識別協同發音。

上圖展示了帶有時間編碼的 mGRUIP 計算過程，在 l 層時先利用當前輸入與上一層輸出計算出不帶下文資訊的 InputProj，然後從 l-1 層取當前時間步往後的幾個時間框，並將它們的 InputProj 向量加和在一起。將該加和向量與當前層的 InputProj 向量相加就能得出帶有下文資訊的瓶頸層向量，它可以進一步完成 mGRUIP 其它的運算。如上所示轉換函式 f(x) 一般可以是數乘、矩陣乘法或者是恆等函式，但快手在實驗中發現恆等函式在效能上要更好一些，所以它們選擇了 f(x)=x。

李傑等研究者還採用了第二種方法為 mGRUIP 引入下文資訊，即時間卷積。前面時間編碼會使用低層級的輸入映射向量表徵下文資訊，而時間卷積會從低層級的輸出狀態向量中抽取下文資訊，並通過輸入對映壓縮下文資訊的維度。如下 v 向量的計算式為整個模組的計算過程，其中左側同樣為 mGRUIP 計算 InputProj 的標準方法，右側藍色虛線框表示時間卷積。

簡單而言，時間卷積即將所需要的前層輸出拼接在一起，並通過 W_p 構建表徵下文資訊的輸入對映層。其中所需要的前層輸出表示模型需要等多少幀語音資訊，例如需要等 10 幀，那麼前一層當前往後 10 個時間步的輸出會拼接在一起。此外，這兩種方式的延遲都是逐層疊加的，也就是說每一層需要等 10 毫秒，那麼 5 層就需要等 50 毫秒。

如上所示為帶時間卷積的 mGRUIP 具體過程，它會利用 l-1 層的 t_1 和 t_2 等時間步輸出的隱藏單元狀態，並在第 l 層拼接在一起。然後將下文資訊壓縮為 Projection 向量並與 l 層當前時間步的 InputProj 相加而成為帶下文資訊的瓶頸層向量。

至此，整個模型就完成了構建，快手在兩個語音識別任務上測試了該模型，即 309 小時的 Swichboard 電話語音任務和 1400 小時的國內普通話語音輸入任務。mGRUIP 在引數量上顯著地小於LSTM與 mGRU，且在詞錯率和效能上比它們更優秀。此外，帶有上下文模組的 mGRUIP 在延遲控制和模型效能上都有非常優秀的表現，感興趣的讀者可檢視原論文。

Interspeech 2018 與快手研究

這篇論文也被語音頂會 Interspeech 2018 接收為 Oral 論文，李傑同樣在大會上對這種能使用下文資訊的門控迴圈單元給出了詳細的介紹。前面我們已經瞭解了該模型的主要思想與過程，但是在 Interspeech 2018 還有非常多優秀的研究與趨勢。李傑表示：「從今年的大會看，主流的聲學模型依然是基於 RNN 結構，只不過大家所做的工作、所解的問題會更加細緻。比如，對於 RNN 模型低延遲條件下，下文語境建模問題，除了我們在關注，Yoshua Bengio他們也有一篇工作聚焦在該問題上。此外，如何提升 RNN 聲學模型的噪聲魯棒性、低資源多語言聲學模型建模、說話人和領域聲學模型自適應、新的 RNN 結構等問題，也受到了很多關注。」

除此之外，李傑表示端到端模型依然是大家研究的熱點。主要的技術方向有三個，第一，CTC；第二，基於 RNN 的帶注意力機制的編解碼模型；第三，也是今年 Interspeech 新出現的，基於 self-attention 的無 RNN 結構的編解碼模型。

其實除了 Interspeech 接收的這篇 Oral 論文，快手還有很多不同方向的研究，包括計算機視覺、自然語言處理和情感計算等等。因為快手平臺每天都有大量的短視訊上傳，因此如何分層有序地提取視訊資訊、理解視訊內容就顯得尤為重要。針對該問題，快手多媒體內容理解部門通過感知和推理兩個階段來解讀一個視訊，首先感知獲取視訊的客觀內容資訊，進而推理獲取視訊的高層語義資訊。

在感知階段，除了上文所述的語音處理，快手還會從另外三個維度來分析理解視訊內容，包括人臉、影象和音樂。

對於語音資訊，快手不僅進行語音識別，還需要實現說話人識別、情緒年齡等語音屬性資訊分析。
對於人臉資訊，快手會對視訊中的人臉進行檢測、跟蹤、識別，並分析其年齡、性別、3D 形狀和表情等資訊。
對於影象資訊，快手會通過分類、物體檢測等演算法分析場景、物體，通過影象質量分析演算法對影象的主觀質量進行評估，通過 OCR 分析影象中包含的文字資訊等。
對於音樂資訊，快手需要進行音樂識別、歌聲/伴奏分離、歌聲美化打分等分析，對音樂資訊進行結構化。

從以上四個方面，快手能抽取足夠的視訊語義資訊，併為推理階段提供資訊基礎。推理階段可以將視訊看做一個整體，進行分類、描述、檢索。此外，高階視訊資訊也可以整理並存儲到快手知識圖譜中，這樣融合感知內容和知識圖譜，就可以完成對視訊高層語義及情感的識別。因此，感知與推理，基本上也就是快手多媒體理解部門最為關注的兩大方面。

產業快手 GRU 門控迴圈單元視訊

相關資料

啟用函式技術

Activation function

在計算網路中，一個節點的啟用函式定義了該節點在給定的輸入或輸入的集合下的輸出。標準的計算機晶片電路可以看作是根據輸入得到"開"(1)或"關"(0)輸出的數字網路啟用函式。這與神經網路中的線性感知機的行為類似。一種函式（例如 ReLU 或 S 型函式），用於對上一層的所有輸入求加權和，然後生成一個輸出值（通常為非線性值），並將其傳遞給下一層。

來源：維基百科 Google ML glossary

注意力機制技術

Attention mechanism

我們可以粗略地把神經注意機制類比成一個可以專注於輸入內容的某一子集（或特徵）的神經網路. 注意力機制最早是由 DeepMind 為影象分類提出的，這讓「神經網路在執行預測任務時可以更多關注輸入中的相關部分，更少關注不相關的部分」。當解碼器生成一個用於構成目標句子的詞時，源句子中僅有少部分是相關的；因此，可以應用一個基於內容的注意力機制來根據源句子動態地生成一個（加權的）語境向量（context vector）, 然後網路會根據這個語境向量而不是某個固定長度的向量來預測詞。

來源：機器之心

情感計算技術

Affective computing

情感計算(也被稱為人工情感智慧或情感AI)是基於系統和裝置的研究和開發來識別、理解、處理和模擬人的情感。它是一個跨學科領域，涉及電腦科學、心理學和認知科學（cognitive science)。在計算機領域，1995年Rosalind Picard 首次提出affective computing。研究的目的是使得情感能夠模擬和計算。這個技術也可以讓機器人能夠理解人類的情緒狀態，並且適應它們的行為，對這些情緒做出適當的反應。這是一個日漸興起的興欣領域

來源： Wikipedia

神經網路技術

Neural Network

（人工）神經網路是一種起源於 20 世紀 50 年代的監督式機器學習模型，那時候研究者構想了「感知器（perceptron）」的想法。這一領域的研究者通常被稱為「聯結主義者（Connectionist）」，因為這種模型模擬了人腦的功能。神經網路模型通常是通過反向傳播演算法應用梯度下降訓練的。目前神經網路有兩大主要型別，它們都是前饋神經網路：卷積神經網路（CNN）和迴圈神經網路（RNN），其中 RNN 又包含長短期記憶（LSTM）、門控迴圈單元（GRU）等等。深度學習是一種主要應用於神經網路幫助其取得更好結果的技術。儘管神經網路主要用於監督學習，但也有一些為無監督學習設計的變體，比如自動編碼器和生成對抗網路（GAN）。

來源：機器之心

計算機視覺技術

Computer Vision

計算機視覺（CV）是指機器感知環境的能力。這一技術類別中的經典任務有影象形成、影象處理、影象提取和影象的三維推理。目標識別和麵部識別也是很重要的研究領域。

來源：機器之心

降維技術

Dimensionality reduction

降維演算法是將 p+1 個係數的問題簡化為 M+1 個係數的問題，其中 M<p。演算法執行包括計算變數的 M 個不同線性組合或投射（projection）。然後這 M 個投射作為預測器通過最小二乘法擬合一個線性迴歸模型。兩個主要的方法是主成分迴歸（principal component regression）和偏最小二乘法（partial least squares）。

來源：機器之心

前饋神經網路技術

Feed-forward neural network

前饋神經網路(FNN)是人工智慧領域中最早發明的簡單人工神經網路型別。在它內部，引數從輸入層經過隱含層向輸出層單向傳播。與遞迴神經網路不同，在它內部不會構成有向環。FNN由一個輸入層、一個（淺層網路）或多個（深層網路，因此叫作深度學習）隱藏層，和一個輸出層構成。每個層（除輸出層以外）與下一層連線。這種連線是 FNN 架構的關鍵，具有兩個主要特徵：加權平均值和啟用函式。

來源：機器之心

門控迴圈單元技術

Gated recurrent Units

門控迴圈單元（GRU）是迴圈神經網路（RNN）中的一種門控機制，與其他門控機制相似，其旨在解決標準RNN中的梯度消失／爆炸問題並同時保留序列的長期資訊。GRU在許多諸如語音識別的序列任務上與LSTM同樣出色，不過它的引數比LSTM少，僅包含一個重置門（reset gate）和一個更新門（update gate）。

來源： Understanding GRU networks, Medium

知識圖譜技術

Knowledge graph

知識圖譜本質上是語義網路，是一種基於圖的資料結構，由節點(Point)和邊(Edge)組成。在知識圖譜裡，每個節點表示現實世界中存在的“實體”，每條邊為實體與實體之間的“關係”。知識圖譜是關係的最有效的表示方式。通俗地講，知識圖譜就是把所有不同種類的資訊（Heterogeneous Information）連線在一起而得到的一個關係網路。知識圖譜提供了從“關係”的角度去分析問題的能力。知識圖譜這個概念最早由Google提出，主要是用來優化現有的搜尋引擎。不同於基於關鍵詞搜尋的傳統搜尋引擎，知識圖譜可用來更好地查詢複雜的關聯資訊，從語義層面理解使用者意圖，改進搜尋質量。比如在Google的搜尋框裡輸入Bill Gates的時候，搜尋結果頁面的右側還會出現Bill Gates相關的資訊比如出生年月，家庭情況等等。

來源：機器之心

長短期記憶網路技術

Long-Short Term Memory

長短期記憶(Long Short-Term Memory) 是具有長期記憶能力的一種時間遞迴神經網路(Recurrent Neural Network)。其網路結構含有一個或多個具有可遺忘和記憶功能的單元組成。它在1997年被提出用於解決傳統RNN(Recurrent Neural Network) 的隨時間反向傳播中權重消失的問題（vanishing gradient problem over backpropagation-through-time)，重要組成部分包括Forget Gate, Input Gate, 和 Output Gate, 分別負責決定當前輸入是否被採納，是否被長期記憶以及決定在記憶中的輸入是否在當前被輸出。Gated Recurrent Unit 是 LSTM 眾多版本中典型的一個。因為它具有記憶性的功能，LSTM經常被用在具有時間序列特性的資料和場景中。

來源： Hochreiter, Sepp & Schmidhuber, Jürgen. (1997). Long Short-term Memory. Neural computation. 9. 1735-80. 10.1162/neco.1997.9.8.1735.

對映技術

Mapping

對映指的是具有某種特殊結構的函式，或泛指類函式思想的範疇論中的態射。邏輯和圖論中也有一些不太常規的用法。其數學定義為：兩個非空集合A與B間存在著對應關係f，而且對於A中的每一個元素x，B中總有有唯一的一個元素y與它對應，就這種對應為從A到B的對映，記作f：A→B。其中，y稱為元素x在對映f下的象，記作：y=f(x)。x稱為y關於對映f的原象*。*集合A中所有元素的象的集合稱為對映f的值域，記作f(A)。同樣的，在機器學習中，對映就是輸入與輸出之間的對應關係。

來源： Wikipedia

神經元技術

neurons

（人工）神經元是一個類比於生物神經元的數學計算模型，是神經網路的基本組成單元。對於生物神經網路，每個神經元與其他神經元相連，當它“興奮”時會向相連的神經元傳送化學物質，從而改變這些神經元的電位；神經元的“興奮”由其電位決定，當它的電位超過一個“閾值”（threshold）便會被啟用，亦即“興奮”。目前最常見的神經元模型是基於1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神經元模型”。在這個模型中，神經元通過帶權重的連線接處理來自n個其他神經元的輸入訊號，其總輸入值將與神經元的閾值進行比較，最後通過“啟用函式”（activation function）產生神經元的輸出。

來源： Overview of Artificial Neural Networks and its Applications. (2018). medium.com.

自然語言處理技術

Natural language processing

自然語言處理（英語：natural language processing，縮寫作 NLP）是人工智慧和語言學領域的分支學科。此領域探討如何處理及運用自然語言；自然語言認知則是指讓電腦“懂”人類的語言。自然語言生成系統把計算機資料轉化為自然語言。自然語言理解系統把自然語言轉化為計算機程式更易於處理的形式。

來源：維基百科

機器翻譯技術

Machine translation

機器翻譯（MT）是利用機器的力量「自動將一種自然語言（源語言）的文字翻譯成另一種語言（目標語言）」。機器翻譯方法通常可分成三大類：基於規則的機器翻譯（RBMT）、統計機器翻譯（SMT）和神經機器翻譯（NMT）。

來源：機器之心

引數技術

parameter

在數學和統計學裡，引數（英語：parameter）是使用通用變數來建立函式和變數之間關係（當這種關係很難用方程來闡述時）的一個數量。

來源：維基百科

感知技術

perception

知覺或感知是外界刺激作用於感官時，腦對外界的整體的看法和理解，為我們對外界的感官資訊進行組織和解釋。在認知科學中，也可看作一組程式，包括獲取資訊、理解資訊、篩選資訊、組織資訊。與感覺不同，知覺反映的是由物件的各樣屬性及關係構成的整體。

來源：維基百科

時延神經網路技術

Time delay neural network

時間延遲神經網路（TDNN）是一種人工神經網路結構，其主要目的是對圖案進行不受位移影響的分類，即不需要事先確定圖案的起點和終點。TDNN最先被提出是用來分類語音訊號中的音素以用於自動語音識別，因為語音識別中精確的分段或特徵邊界的自動確定是困難的或不可能的，而TDNN識別音素及其基本的聲學/語音特徵，與時間上的位置無關，不受時間偏移影響。

來源： Wikipedia

語音識別技術

Speech Recognition

自動語音識別是一種將口頭語音轉換為實時可讀文字的技術。自動語音識別也稱為語音識別(Speech Recognition)或計算機語音識別(Computer Speech Recognition)。自動語音識別是一個多學科交叉的領域，它與聲學、語音學、語言學、數字訊號處理理論、資訊理論、電腦科學等眾多學科緊密相連。由於語音訊號的多樣性和複雜性，目前的語音識別系統只能在一定的限制條件下獲得滿意的效能，或者說只能應用於某些特定的場合。自動語音識別在人工智慧領域佔據著極其重要的位置。

來源： What is Automatic Speech Recognition?

雙曲正切函式技術

tanh function

在數學中，雙曲函式是一類與常見的三角函式（也叫圓函式）類似的函式。雙曲正切函式是雙曲函式的一種，它也是雙曲正弦函式（sinh）與雙曲餘弦函式（cosh）的商。在人工智慧領域，tanh函式是一種常見的啟用函式，取值範圍為（-1，1），“在特徵相差明顯時的效果會很好，在迴圈過程中會不斷擴大特徵效果”。

來源： Wikipedia

約書亞·本吉奧人物

Yoshua Bengio

約書亞·本希奧（法語：Yoshua Bengio，1964年－）是一位加拿大電腦科學家，因人工神經網路和深度學習領域的研究而聞名。Yoshua Bengio於1991年獲得加拿大麥吉爾大學電腦科學博士學位。經過兩個博士後博士後，他成為蒙特利爾大學電腦科學與運算研究系教授。他是兩本書和超過200篇出版物的作者，最被引用在深度學習，復現神經網路，概率學習演算法，自然語言處理和多元學習領域。他是加拿大最受歡迎的電腦科學家之一，也是或曾經是機器學習和神經網路中頂尖期刊的副主編。

涉及領域

所屬機構

來源： https://en.wikipedia.org/wiki/Yoshua_Bengio

準確率技術

Accuracy

分類模型的正確預測所佔的比例。在多類別分類中，準確率的定義為：正確的預測數/樣本總數。在二元分類中，準確率的定義為：(真正例數+真負例數)/樣本總數

來源： Google ML Glossary

說話人識別技術

Speaker recognition

說話人識別作為模式識別的一類，主要任務是通過待測試語音來判斷對應的說話人身份。從識別物件進行劃分可以主要分為兩個部分：說話人確認（speaker verification）和說話人辨認（speaker identification）。如果待測說話人的範圍已知，需要通過語音段對待測說話人的身份進行判斷，是否是屬於某個說話人，則為說話人確認。說話人確認問題可以歸結為是一種1:1的身份判別問題。若說話人的身份範圍未知，需要從一定的範圍內來對語音段對應的說話人身份進行辨別，這屬於說話人辨認問題。說話人辨認問題可以歸結為是1:N的問題。從識別語音段的文字，可以講說話人識別問題分為文字相關問題和文字無關問題。對於文字相關問題，待測試語音段的內容需要和系統中預先登記的內容相同。對於文字無關問題，待測試語音段的內容可以與系統中預先登記的內容不同，待測試說話人可以只說幾個字來進行身份認證。

來源：維基百科

思源

機器之心編輯

短視訊那麼多，快手如何利用GRU實現各種炫酷的語音應用

為什麼語音需要新單元

•論文：Gated Recurrent Unit Based Acoustic Modeling with Future Context

帶下文語境的門控迴圈單元

從 GRU 到 mGRUIP

mGRUIP 與上下文模組

Interspeech 2018 與快手研究

您可能也會喜歡…