《Generating topic-oriented summaries》閱讀筆記
來源:NAACL 2018
原文: Generating topic-oriented summaries using neural attention
Introduction
一篇文章可以涵蓋幾個topic,本文以生成針對不同主題的摘要為目標,將一篇文章與感興趣的主題作為輸入。由於缺少包含多個面向主題的文字摘要的資料集,本文從CNN / Dailymail資料集中人為構建語料。
Topic aware pointer-generator network
本文采用的基礎模型是See在2017年公開的pointer-generator network,論文參照 《Get To The Point: Summarization with Pointer-Generator Networks》 。

pointer-generator network是seq2seq模型和pointer network的混合模型,保留了seq2seq模型抽象生成的特點,另一方面結合了pointer network從原文中抽取詞的能力,提高摘要的準確度並且有助緩解OOV問題。相比於單純的seq2seq模型,選原文中出現的詞作為摘要的概率要更大一些。在預測的每一步,動態計算一個生成概率 ,把二者軟性地結合起來

預測概率為

本文中把input sequence和主題向量concat起來,作為模型輸入。
Dataset
針對topic形成摘要需要的資料集格式為(a,u,s),即article,topic,和summary。當前語料集多為article-summary對,本文利用在2017年KDD資料科學新聞研討會(VoxMedia)上釋出的標記主題的新聞資料集構建新的摘要資料集,之後的訓練過程也比較巧妙。
對於一個主題t,包含此主題的文章集合為St。在這裡將每個主題t表示為向量et =(n1,n2,...,nv)其中v = | V| 單詞詞彙量的大小。V = {w1,w2,...,wv},ni是單詞在St中出現的次數。
使用CNN-Dailymail文字摘要資料集。建立了一個由(a,ut,s)對組成的中間資料集。
首先計算摘要(詞袋錶示)和在上一步驟中提取的主題向量之間的點積(維度均為V),<vs,et>。對於每個主題ti,<vs,eti>可以表示摘要s與主題ti的相似性。如果置信度小於閾值,從資料集中刪除文章和摘要(確保單一topic)。如果置信度大於閾值,將三元組(a,uti,s)新增到中間資料集中。
最後生成資料集的步驟:
1、從中間資料集中隨機選擇(a1,ut1,s1)和(a2,ut2,s2),
2、通過從a1和a2順序抽取一行資料來建立新文字a‘ 。
3、將(a‘,ut1,s1)新增到最終資料集。
4、重複步驟2以獲取新文章a‘’,並將(a‘’,ut2,s2)新增到最終資料集。
由於新構造的資料集由兩篇文章組合而成,因此模型必須學會區分來自兩篇文章的內容,生成有主題傾向的摘要。
Experiment

另外,針對多主題摘要,本文也進行了對比實驗。對一篇文章,可以生成傾向於不同主題的摘要,以此證明了實驗有效性。

Conclusion
本文提出了一種方法,用於生成針對不同主題的給定文件的摘要。 通過修改pointer-generator network的注意機制來使其專注於與主題相關的文字。 此外,本文構建了新的主題導向的資料集。實驗證明勝過以前的使用詞頻或對數似然比的方法。