微軟最新論文解讀 | 基於預訓練自然語言生成的文字摘要方法

BERT 文字摘要 · 發表 2019-03-19 20:20:15

摘要：作者丨張浩宇學校丨國防科技大學計算機學院研究方向丨自然語言生成、知識圖譜問答本文解讀的是一篇由國防科技大學與微軟亞洲研究院共同完成的工作，文中提出一種基於預訓練模型的自然語言生成方法。論文連結： Pap...

作者丨張浩宇

學校丨國防科技大學計算機學院

研究方向丨自然語言生成、知識圖譜問答

本文解讀的是一篇由 國防科技大學 與 微軟亞洲研究院 共同完成的工作，文中提出一種基於預訓練模型的自然語言生成方法。

論文連結： PaperWeekly

摘要

在本文中，我們 基於編碼器-解碼器框架提出了一種新穎的基於預訓練的方法，該方法可以由給定輸入序列以兩階段的方式生成輸出序列。

對於編碼器，我們使用 BERT 將輸入序列編碼為上下文語義表示。對於解碼器，在我們的模型中有兩個階段，在第一階段，我們使用基於 Transformer 的解碼器來生成輸出序列的草稿；在第二階段，我們分別 mask 草稿中的每個單詞並將其提供給 BERT，然後基於 BERT 生成的輸入序列和草稿的上下文語義表示，由一個基於 Transformer 的解碼器來預測精化每個被 mask 位置的單詞。

據我們所瞭解，我們的方法 首次將 BERT 應用於文字生成任務 。作為在這方面的首次嘗試，我們在文字摘要任務上驗證我們方法的效果。試驗結果表明，我們的模型在 CNN/Daily Mail 和 New York Times 資料集上的效能超過了當前最好的方法。

研究動機

文字摘要是一種從給定文字中生成精煉資訊的任務，近年來很多生成式摘要方法在基於神經網路的序列到序列模型上進行了改進。但是 這些方法有一些不足： 首先在解碼器端，這些方法大都是從左向右的解碼，因此在解碼每個單詞的時候只能看到上文，而無法看到下文；其次由於上下文不完整，這些方法無法在解碼器端很好的利用預訓練的上下文語言模型的能力。

同時，預訓練的上下文語言模型（如 BERT）在很多自然語言處理任務上取得了很好的效果。本文工作希望探討如何更好的利用此類預訓練語言模型提高文字生成方法的效果。

研究方法

上圖是作者提出的方法的結構圖，它包含了一個編碼器和兩個解碼器。方法包含以下部分：草稿生成過程以及精煉過程。

草稿生成過程中，編碼器由預訓練的 BERT 從輸入文件中提取上下文表示，而後利用一個帶有 Copy 機制的 N 層 Transformer 解碼器，以從左向右的方式解碼生成草稿。Copy 利用最後一層解碼器的輸出和編碼器的輸出計算注意力權重 α 和 Copy 概率，並和生成概率進行加權求和得到最終預測的概率：

這一階段解碼器端並沒有使用 BERT 產生上下文表示。該過程的損失函式定義為：

摘要精煉過程的主要目的是利用 BERT 的上下文表示提高解碼器的學習能力，因此該過程使用和草稿生成階段相同的文件編碼。在解碼器端，我們提出了一個單次級別的精煉解碼器，該解碼器接受草稿作為輸入，輸出精煉後的摘要。

如模型圖中所示，首先依次將摘要草稿中的每個單詞掩蓋住，而後將掩蓋後的序列輸入 BERT 並得到序列的上下文表示。而後這個上下文表示被輸入 N 層 Transformer 的解碼器並與源文件表示進行互動預測摘要的每個單詞。

儘管該解碼器也是自左向右的解碼順序，但是在每個時刻解碼器都能夠獲得完整的上下文。從 BERT 的角度來看，輸入的是完整序列而不僅僅是上文，輸入的分佈與 BERT 的預訓練過程更加一致，這能夠儘可能地讓 BERT 輸入更好的上下文語義表示，從而幫助解碼器生成更佳的摘要。

直觀上看，在我們第二次解碼時，每個時刻解碼器能夠利用到的資訊更多，降低了學習的難度。

在實驗中，基於實驗結果我們共享了兩個解碼器的引數，精煉過程的損失函式定義如下。

最後，由於最大化極大似然估計的目標對摘要等文字生成任務來說太過嚴格，可能會過度擬合，因此借鑑之前工作，我們將 ROUGE-L 作為另一個優化目標並利用強化學習對該目標進行優化，最終的學習目標是 MLE 和 ROUGE-L 的混合。

實驗結果

為了驗證模型的效果，作者在 CNN/DailyMail 和 NYT-50 兩個摘要資料集上進行了實驗，並與當前一些主要方法進行了對比。其中 NYT-50 資料集是 NYT 資料集中刪選所有摘要長度大於 50 的樣本得到。在 CNN/DailyMail 資料集上作者進行了消融實驗，以此來驗證每個模組的作用。

同時，為了驗證摘要長度對模型效能的影響，作者對不同長度樣本下模型效能相對於抽取式和生成式基準模型的平均提高進行了計算並分析。

同生成式模型相比，相比於長度更短的樣本，在摘要長度為 40-80 區間內的樣本中作者提出的模型達到了更高的效能提升；而同抽取式基準模型相比，在長度超過 80 的樣本上，效能提升不大，這可能是由於實驗設定截斷的原因，也可能是因為這個區間訓練樣本太少，因此抽取式模型效能不會落後太多。

下面是兩個模型預測（Pred.）和正確摘要（Ref.）的例子。

總結

本文主要的創新點在於設計了一個兩階段解碼器的模型，從而更好地在解碼器端利用預訓練語言模型的能力輔助文字生成。與目前 SOTA 的方法相比，在兩個摘要資料集上都有一定的效能提升。

#投稿通道#

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？ 答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是 最新論文解讀 ，也可以是 學習心得 或 技術乾貨 。我們的目的只有一個，讓知識真正流動起來。

:memo: 來稿標準：

• 稿件確係個人 原創作品 ，來稿需註明作者個人資訊（姓名+學校/工作單位+學歷/職位+研究方向）

• 如果文章並非首發，請在投稿時提醒並附上所有已釋出連結

• PaperWeekly 預設每篇文章都是首發，均會新增“原創”標誌

:mailbox_with_mail: 投稿方式：

• 方法一：在PaperWeekly知乎專欄頁面點選“投稿”，即可遞交文章

• 方法二：傳送郵件至： [email protected] ，所有文章配圖，請單獨在附件中傳送

• 請留下即時聯絡方式（微信或手機），以便我們在編輯釋出時和作者溝通

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號後臺點選 「交流群」 ，小助手將把你帶入 PaperWeekly 的交流群裡。

加入社群： http:// paperweek.ly

微信公眾號：PaperWeekly

新浪微博：@PaperWeekly