1. 程式人生 > >CIPS青工委學術專欄第12期 | 自動文摘研究進展與趨勢

CIPS青工委學術專欄第12期 | 自動文摘研究進展與趨勢

題目:自動文摘研究進展與趨勢

作者:萬小軍、姚金戈(北京大學計算機科學技術研究所)

作者簡介:

萬小軍,北京大學計算機科學技術研究所教授,博士生導師,語言計算與網際網路挖掘實驗室負責人。研究方向為自然語言處理與文字挖掘,研究興趣包括自動文摘與文字生成、情感分析與觀點挖掘、語義計算與資訊推薦等,在相關學術會議與期刊上發表高水平學術論文上百篇。擔任計算語言學頂級國際期刊Computational Linguistics編委,TACL常務評審委員(Standing Reviewing Committee),多次擔任自然語言處理領域一流與重要國際會議領域主席或SPC(包括ACL、NAACL、IJCAI、IJCNLP等),自主或合作研製了自動文摘開源平臺PKUSUMSUM、AI寫稿機器人Xiaomingbot等系統。

姚金戈,北京大學計算機科學技術研究所博士生,研究方向為自然語言處理與自動文摘。

  

自動文摘的目的是通過對原文字進行壓縮、提煉,為使用者提供簡明扼要的文字描述。根據處理的文件數量,自動文摘可以分為只針對單篇文件的單文件自動摘要和針對文件集的多文件自動摘要。根據是否提供上下文環境,自動文摘可以分為與主題或查詢相關的自動摘要以及普通自動摘要。根據摘要的不同應用場景,自動文摘可以分為傳記摘要、觀點摘要、學術文獻綜述生成等,這些摘要通常為滿足特定的應用需求。

自動文摘可以看作是一個資訊壓縮過程,將輸入的一篇或多篇文件壓縮為一篇簡短的摘要,該過程不可避免有資訊損失,但是要求保留儘可能多的重要資訊。自動文摘系統通常涉及到對輸入文件的理解、要點的篩選,以及文摘合成這三個主要步驟。其中,文件理解可淺可深,大多數自動文摘系統只需要進行比較淺層的文件理解,例如段落劃分、句子切分、詞法分析等,也有文摘系統需要依賴句法解析、語義角色標註、指代消解,甚至深層語義分析等技術。

1

研究現狀與進展

自動文摘所採用的方法從實現上考慮可以分為抽取式摘要(extractivesummarization)和生成式摘要(abstractive summarization)。抽取式方法相對比較簡單,通常利用不同方法對文件結構單元(句子、段落等)進行評價,對每個結構單元賦予一定權重,然後選擇最重要的結構單元組成摘要。而生成式方法通常需要利用自然語言理解技術對文字進行語法、語義分析,對資訊進行融合,利用自然語言生成技術生成新的摘要句子。

目前主流自動文摘研究工作大致遵循如下技術框架:

內容表示→ 權重計算→ 內容選擇→ 內容組織

首先將原始文字表示為便於後續處理的表達方式,然後由模型對不同的句法或語義單元進行重要性計算,再根據重要性權重選取一部分單元,經過內容上的組織形成最後的摘要。現有的研究工作針對不同設定和場景需求展開,為上述框架中的各個技術點提供了多種不同的設計方案。有不少相關研究也嘗試在統一的框架中聯合考慮其中的多個技術點。

1 內容表示與權重計算

原文件中的每個句子由多個詞彙或單元構成,後續處理過程中也以詞彙等元素為基本單位,對所在句子給出綜合評價分數。以基於句子選取的抽取式方法為例,句子的重要性得分由其組成部分的重要性衡量。由於詞彙在文件中的出現頻次可以在一定程度上反映其重要性,我們可以使用每個句子中出現某詞的概率作為該詞的得分,通過將所有包含詞的概率求和得到句子得分(Nenkova and Vanderwende,2005; Vanderwende et al., 2007)。也有一些工作考慮更多細節,利用擴充套件性較強的貝葉斯話題模型,對詞彙本身的話題相關性概率進行建模(Daume III and Marcu, 2006; Haghighi and Vanderwende,2009; Celikyilmaz and Hakkani-Tur, 2010)。

一些方法將每個句子表示為向量,維數為總詞表大小。通常使用加權頻數(Salton and Buckley, 1988; Erkan and Radev,2004)作為句子向量相應維上的取值。加權頻數的定義可以有多種,如資訊檢索中常用的詞頻-逆文件頻率(TF-IDF)權重。也有研究工作考慮利用隱語義分析或其他矩陣分解技術,得到低維隱含語義表示並加以利用(Gong and Liu, 2001)。得到向量表示後計算兩兩之間的某種相似度(例如餘弦相似度)。隨後根據計算出的相似度構建帶權圖,圖中每個節點對應每個句子。在多文件摘要任務中,重要的句子可能和更多其他句子較為相似,所以可以用相似度作為節點之間的邊權,通過迭代求解基於圖的排序演算法來得到句子的重要性得分(Erkan and Radev, 2004; Wan et al., 2007; Wanand Yang, 2008)。也有很多工作嘗試捕捉每個句子中所描述的概念,例如句子中所包含的命名實體或動詞。出於簡化考慮,現有工作中更多將二元詞(bigram)作為概念(Gillicket al., 2008; Li et al., 2013)。

另一方面,很多摘要任務已經具備一定數量的公開資料集,可用於訓練有監督打分模型。例如對於抽取式摘要,我們可以將人工撰寫的摘要貪心匹配原文件中的句子或概念,從而得到不同單元是否應當被選作摘要句的資料。然後對各單元人工抽取若干特徵,利用迴歸模型(Ouyanget al., 2011; Hong and Nenkova, 2014)或排序學習模型(Shenand Li, 2011; Wang et al., 2013)進行有監督學習,得到句子或概念對應的得分。文件內容描述具有結構性,因此也有利用隱馬爾科夫模型(HMM)、條件隨機場(CRF)、結構化支援向量機(Structural SVM)等常見序列標註或一般結構預測模型進行抽取式摘要有監督訓練的工作(Conroy,2001; Shen et al., 2007; Sivos and Joachims, 2012)。所提取的特徵包括所在位置、包含詞彙、與鄰句的相似度等等。對特定摘要任務一般也會引入與具體設定相關的特徵,例如查詢相關摘要任務中需要考慮與查詢的匹配或相似程度。

2 內容選擇

無論從效果評價還是從實用性的角度考慮,最終生成的摘要一般在長度上會有限制。在獲取到句子或其他單元的重要性得分以後,需要考慮如何在儘可能短的長度裡容納儘可能多的重要資訊,在此基礎上對原文內容進行選取。

2.1 貪心選擇

可以根據句子或其他單元的重要性得分進行貪心選擇。選擇過程中需要考慮各單元之間的相似性,儘量避免在最終的摘要中包含重複的資訊。最為簡單常用的去除冗餘機制為最大邊緣相關法(Maximal Marginal Relevance – MMR)(Carbonell and Goldstein, 1998),即在每次選取過程中,貪心選擇與查詢最相關或內容最重要、同時和已選擇資訊重疊性最小的結果。也有一些方法直接將內容選擇的重要性和多樣性同時考慮在同一個概率模型框架內(Kulesza and Taskar, 2011),基於貪心選擇近似優化似然函式,取得了不錯的效果。

此後有離散優化方向的研究組介入自動文摘相關研究,指出包括最大邊緣相關法在內的很多貪心選擇目標函式都具有次模性(Lin and Bilmes, 2010)。記內容選取目標函式為F(S),其自變數S為待選擇單元的集合;次模函式要求對於,以及任意單元u,都滿足如下性質:

  

這個性質被稱為回報遞減效應(diminishing returns),很符合貪心選擇摘要內容的直覺:由於每步選擇的即時最優性,每次多選入一句話,資訊的增加不會比上一步更多。使用特定的貪心法近似求解次模函式優化問題,一般具備最壞情況近似比的理論保證。而實際應用中研究發現,貪心法往往已經可以求得較為理想的解。由於貪心法易於實現、執行效率高,基於次模函式優化的內容選擇在近年得到了很多擴充套件。多種次模函式優化或部分次模函式優化問題及相應的貪心解法被提出,用於具體語句或句法單元的選取(Linand Bilmes, 2011; Sipos et al., 2012; Dasgupta et al., 2013; Morita et al.,2013)。

2.2 全域性優化

基於全域性優化的內容選擇方法同樣以最大化摘要覆蓋資訊、最小化冗餘等要素作為目標,同時可以在優化問題中考慮多種由任務和方法本身的性質所匯出的約束條件。最為常用的形式化框架是基於0-1二值變數的整數線性規劃(McDonald,2007; Gillick and Favre, 2009)。最後求解優化問題得到的結果中如果某變數取值為1,則表示應當將該變數對應的單元選入最後的摘要中。由於整數線性規劃在計算複雜性上一般為NP-難問題,此類方法的求解過程在實際應用中會表現較慢,並不適合實時性較高的應用場景。有研究工作將問題簡化後使用動態規劃策略設計更高效的近似解法。也有少量研究工作嘗試在一部分特例下將問題轉化為最小割問題快速求解(Qian and Liu, 2013),或利用對偶分解技術將問題化為多個簡單子問題嘗試求得較好的近似解(Almeida and Martins, 2013)。更為通用的全域性優化加速方案目前仍是一個開放問題。

3 內容組織

3.1 內容簡化與整合

基於句子抽取得到的語句在表達上不夠精練,需要通過語句壓縮、簡化、改寫等技術克服這一問題。在這些技術中相對而言較為簡單的語句壓縮技術已經廣泛被應用於摘要內容簡化。現行主要做法基於句法規則(Clarke and Lapata, 2008)或篇章規則(Clarke and Lapata, 2010; Durrett et al., 2016),例如如果某短語重要性較高需要被選擇用於構成摘要,那麼該短語所修飾的中心詞也應當被選擇,這樣才能保證得到的結果符合語法。這些規則既可以直接用於後處理步驟銜接在內容選取之後進行,也可以用約束的形式施加在優化模型中,這樣在求解優化問題完畢後就自然得到了符合規則的簡化結果。區域性規則很容易表達為變數之間的線性不等式約束,因此尤其適合在前面提到的整數線性規劃框架中引入。另外,關於語句簡化與改寫方面目前也有相對獨立的研究,主要利用機器翻譯模型進行語句串或句法樹的轉寫(Wubben et al., 2012)。由於訓練代價高以及短語結構句法分析效率和效能等諸多方面原因,目前很少看到相關模組在摘要系統中的直接整合與應用。

一些非抽取式摘要方法則重點考慮對原句資訊進行融合以生成新的摘要語句。基於句法分析和對齊技術,可以從合併後的詞圖直接產生最後的句子(Barzilayand McKeown, 2005),或者以約束形式將合併資訊引入優化模型(Bing et al., 2015)等方式來實現。

還有部分研究者嘗試通過對原文件進行語義理解,將原文件表示為深層語義形式(例如深層語義圖),然後分析獲得摘要的深層語義表示(例如深層語義子圖),最後由摘要的深層語義表示生成摘要文字。近期的一個嘗試為基於抽象意義表示(AbstractMeaning Representation, AMR)進行生成式摘要(Liu et al., 2015)。這類方法所得到的摘要句子並不是基於原文句子所得,而是利用語義分析和自然語言生成技術從語義表達直接生成而得。這類方法相對比較複雜,而且由於自然語言理解與自然語言生成本身都沒有得到很好的解決,因此目前生成式摘要方法仍屬於探索階段,其效能還不盡如人意。

3.2 內容排序

關於對所選取內容的排序,相關研究尚處於較為初級的階段。對於單文件摘要任務而言,所選取內容在原文件中的表述順序基本可以反映這些內容之間正確的組織順序,因此通常直接保持所選取內容在原文中的順序。而對於多文件摘要任務,選取內容來自不同文件,所以更需要考慮內容之間的銜接性與連貫性。早期基於實體的方法(Lapataand Barzilay, 2005; Barzilay and Lapata, 2008)通過對實體描述轉移的概率建模計算語句之間的連貫性。據此找到一組最優排序的問題很容易規約到複雜性為NP-完全的旅行商問題,精確求解十分困難。因此多種近似演算法已經被應用於內容排序。近年來,深度學習技術被用於語句連貫性建模與排序任務中,Li與Jurafsky (2016)提出基於LSTM的辨別式模型與生成式模型,能夠取得比較理想的排序效果。未來隨著篇章分析、指代消解技術的不斷進步,多文件摘要中的語句排序問題也有機會隨之產生更好的解決方案。

4 端到端摘要

隨著深度學習技術在分散式語義、語言模型、機器翻譯等任務上取得了一系列突破性成果,相關方法在文摘任務上的應用研究也受到廣泛關注。基於編碼器-解碼器(encoder-decoder)架構的序列到序列學習模型(sequence-to-sequencelearning)目前最為流行,因為可以避免繁瑣的人工特徵提取,也避開了重要性評估、內容選擇等技術點的模組化,只需要足夠的輸入輸出即可開始訓練。但這些方法需要比傳統方法規模遠遠更大的訓練語料,加上當前主流的神經網路框架尚不能夠有效對長文件進行語義編碼,因此目前的相關研究大多隻能集中於語句級簡化和標題生成,一般僅僅以文件首句作為輸入,以一個短句作為輸出(如Rush et al., 2015; Gu et al., 2016等)。極少數近期工作開始同時在同一個神經網路框架裡考慮句子選取和摘要生成,嘗試對語句層次進行編碼並在此基礎上引入層次化注意機制(Li et al., 2015; Cheng et al., 2016),但效果尚未能明顯改善傳統方法已經能夠取得的效能。

2

展望

自動文摘是自然語言處理領域的一個重要研究方向,近60年持續性的研究已經在部分自動文摘任務上取得了明顯進展,但仍需突破很多關鍵技術,才能提高其應用價值、擴大其應用範圍。

展望未來,以下研究方向或問題值得關注:

多語言自動文摘資源建設:目前的自動文摘資源總體上偏少,無論是資料還是工具與系統。一方面會影響評測結果的準確性,另一方面也無法為有監督學習方法尤其是深度學習方法提供充足的訓練資料。業界需要投入更多的人力物力來建設多語言自動文摘資源。

自動文摘評價方法的完善:目前的自動文摘評價方法需要進一步完善,尤其是自動評價方法。基於詞彙重疊程度的ROUGE等評價方法雖然被廣泛採用,但質疑聲不斷。業界需要提出更加合理的自動評價準則,綜合考慮摘要的多種性質,這將極大推動業界對自動文摘的研究。

基於自然語言生成的自動文摘:生成式摘要方法更符合人類撰寫摘要的習慣,但自然語言生成技術的複雜性和不成熟阻礙了生成式摘要方法的研究進展。深度學習技術在自然語言生成問題上的逐步應用給生成式摘要帶來了希望和機遇,未來幾年將會有越來越多的研究者基於深度學習技術從事生成式摘要方法的研究,也有望取得重要進展。

篇章資訊和語義資訊的有效利用:現有方法利用的資訊主要基於由統計頻數或出現位置所反映的重要性度量,一般比較表層,而忽視了對文件篇章資訊與語義資訊的利用。文件本身的語義表達具備很強的結構性,各語義單元之間存在緊密聯絡,這一點在目前提出的結構預測模型中也幾乎沒有考慮。另一方面,應儘可能保證最後抽取或生成的摘要在描述上前後一致、表達連貫。因此,對文件篇章與語義資訊的有效利用將有可能大大改善自動文摘系統的效能。

綜述自動生成:綜述自動生成是一類特殊的自動文摘任務,具有廣泛的應用價值,可幫助自動撰寫新聞事件深度報道、學術文獻綜述、輿情報告等。與傳統自動文摘任務不同,綜述一般較長,可以長達數千字,牽涉到篇章的整體邏輯性與區域性連貫性,因此更具有挑戰性。目前業界僅僅對學術文獻自動綜述進行了簡單了嘗試,效果差強人意,未來幾年期待業界研究者在更多綜述自動生成任務上進行有益的嘗試,並在特殊應用場景下實現風格相對固定的綜述文章自動撰寫。

面向複雜問題回答的自動摘要:基於關鍵詞檢索的搜尋引擎正在逐步向基於自然語言檢索的問答引擎過渡。而對於很多種類的問題,並不適合使用簡單的一兩個短語作答。比如搜尋引擎使用者時常需要進行對定義(“是什麼”)、原因(“為什麼”)、步驟(“怎麼做”)、觀點(“怎麼樣”)等方面的查詢。與只需少量簡單實體作答的事實型問題相對,這一類問題往往被稱為非事實型問題或複雜問題。相對完整地回答非事實型問題需要對單個文件甚至多個相關文件中的部分內容進行提取、聚合與總結。由於非事實型問答固有的困難性,相關研究在學術圈進展緩慢,期待未來有更多的研究者敢於迎接此項挑戰。

除了上述研究方向與問題之外,未來自動文摘將會越來越多地與其他技術相結合,面向全新的應用需求,形成更具特色的自動文摘任務,該領域的研究也將更加多樣化。

最後,我們有理由相信,隨著語義分析、篇章理解、深度學習等技術的快速發展,自動文摘這一重要且有挑戰性的自然語言處理問題在可預見的未來能夠取得顯著的研究進展,並且更多地應用於網際網路產品與服務,從而體現自身的價值。

3

參考文獻

Almeida, M. B., & Martins, A. F. (2013). Fast andRobust Compressive Summarization with Dual Decomposition and Multi-TaskLearning. In ACL.

Bing L., Li P., Liao Y., Lam W., Guo W., & PassonneauR. J. (2015). Abstractive Multi-Document Summarization via Phrase Selection andMerging. In ACL.

Barzilay, R., & Lapata, M. (2008). Modeling localcoherence: An entity-based approach. Computational Linguistics, 34(1), 1-34.

Barzilay, R., & McKeown, K. R. (2005). Sentencefusion for multidocument news summarization. Computational Linguistics, 31(3),297-328.

Carbonell, J., & Goldstein, J. (1998). The use ofMMR, diversity-based reranking for reordering documents and producingsummaries. In SIGIR.

Celikyilmaz, A., & Hakkani-Tur, D. (2010). A hybridhierarchical model for multi-document summarization. In ACL.

Cheng, J., & Lapata, M. (2016). Neural Summarizationby Extracting Sentences and Words. In ACL.

Clarke, J., & Lapata, M. (2008). Global inference forsentence compression: An integer linear programming approach. Journal of Artificial Intelligence Research,399-429.

Clarke, J., & Lapata, M. (2010). Discourseconstraints for document compression. Computational Linguistics, 36(3),411-441.

Conroy, J. M., & O'leary, D. P. (2001). Textsummarization via hidden markov models. In SIGIR.

Dasgupta, A., Kumar, R., & Ravi, S. (2013).Summarization Through Submodularity and Dispersion. In ACL.

Daumé III, H., & Marcu, D. (2006). Bayesianquery-focused summarization. In ACL.

Durrett, G., Berg-Kirkpatrick, T., & Klein, D.(2016). Learning-Based Single-Document Summarization with Compression andAnaphoricity Constraints. In ACL.

Erkan, G., & Radev, D. R. (2004). LexRank:Graph-based lexical centrality as salience in text summarization. Journal ofArtificial Intelligence Research, 22, 457-479.

Gillick, D., Favre, B., & Hakkani-Tur, D. (2008). TheICSI summarization system at TAC 2008. In Proceedings of the Text UnderstandingConference.

Gillick, D., & Favre, B. (2009). A scalable globalmodel for summarization. In Proceedingsof the Workshop on Integer Linear Programming for Natural Langauge Processing(pp. 10-18). Association for Computational Linguistics.

Gu, J., Lu, Z., Li, H., & Li, V. O. (2016).Incorporating copying mechanism in sequence-to-sequence learning. In ACL.

Haghighi, A., & Vanderwende, L. (2009). Exploringcontent models for multi-document summarization. In ACL.

Hong, K., & Nenkova, A. (2014). Improving theEstimation of Word Importance for News Multi-Document Summarization. In EACL.

Kulesza, A., & Taskar, B. (2011). Learningdeterminantal point processes. In UAI.

Lapata, M., & Barzilay, R. (2005). Automaticevaluation of text coherence: Models and representations. In IJCAI.

Li, C., Qian, X., & Liu, Y. (2013). Using SupervisedBigram-based ILP for Extractive Summarization. In ACL.

Li, J., & Jurafsky, D. (2016). Neural Net Models forOpen-Domain Discourse Coherence. arXiv, https://arxiv.org/abs/1606.01545v1.

Li, J., Luong, M. T., & Jurafsky, D. (2015). Ahierarchical neural autoencoder for paragraphs and documents. In ACL.

Lin, H., & Bilmes, J. (2010). Multi-documentsummarization via budgeted maximization of submodular functions. In HLT-NAACL.

Lin, H., & Bilmes, J. (2011). A class of submodularfunctions for document summarization. In HLT-NAACL.

Lin, C. Y., & Hovy, E. (2002). From single tomulti-document summarization: A prototype system and its evaluation. In ACL.

Liu, F., Flanigan, J., Thomson, S., Sadeh, N., &Smith, N. A. (2015). Toward Abstractive Summarization Using SemanticRepresentations. In NAACL.

McDonald, R. (2007). A study of global inference algorithms in multi-document summarization(pp. 557-564). Springer Berlin Heidelberg.

Morita, H., Sasano, R., Takamura, H., & Okumura, M.(2013). Subtree Extractive Summarization via Submodular Maximization. In ACL.

Nenkova, A., & Vanderwende, L. (2005). The impact offrequency on summarization. Microsoft Research, Redmond, Washington, Tech. Rep.MSR-TR-2005-101.

Ouyang, Y., Li, W., Li, S., & Lu, Q. (2011). Applyingregression models to query-focused multi-document summarization. Information Processing & Management,47(2), 227-237.

Qian, X., & Liu, Y. (2013). Fast Joint Compression andSummarization via Graph Cuts. In EMNLP.

Rush, A. M., Chopra, S., & Weston, J. (2015). Aneural attention model for abstractive sentence summarization. In EMNLP.

Salton, G., & Buckley, C. (1988). Term-weightingapproaches in automatic text retrieval. Information processing &management, 24(5), 513-523.

Sipos, R., Shivaswamy, P., & Joachims, T. (2012).Large-margin learning of submodular summarization models. In EACL.

Shen, C., & Li, T. (2011). Learning to rank forquery-focused multi-document summarization. In ICDM.

Shen, D., Sun, J. T., Li, H., Yang, Q., & Chen, Z.(2007). Document Summarization Using Conditional Random Fields. In IJCAI.

Vanderwende, L., Suzuki, H., Brockett, C., & Nenkova,A. (2007). Beyond SumBasic: Task-focused summarization with sentencesimplification and lexical expansion. Information Processing & Management,43(6), 1606-1618.

Wan, X., & Yang, J. (2008). Multi-documentsummarization using cluster-based link analysis. In SIGIR.

Wan, X., Yang, J., & Xiao, J. (2007).Manifold-Ranking Based Topic-Focused Multi-Document Summarization. In IJCAI.

Wang, L., Raghavan, H., Castelli, V., Florian, R., &Cardie, C. (2013). A Sentence Compression Based Framework to Query-FocusedMulti-Document Summarization. In ACL.

Wubben, S., Van Den Bosch, A., & Krahmer, E. (2012).Sentence simplification by monolingual machine translation. In ACL.