自動文摘(Automatic document summarization)方法綜述(三)——基於次模函式(submodular function)最大化的方法
自動文摘(Automatic document summarization)方法綜述的第一篇文章(一)總結了基於中心的(Centroid-based)方法和基於圖的(graph-based)方法,第二篇文章(二)總結了基於最優化的(optimization-based)的方法。這篇部落格將依舊整理基於最優化方法選取文字單元的方法,更確切的說,這篇部落格將聚焦在次模函式(submodular function)最大化。
Submodularity
次模函式(submodular function)又稱“子模函式”或“亞模函式”,次模函式具有次模性(submodularity),它是經濟學上邊際效益遞減(property of diminishing returns)現象的形式化描述
則稱是次模函式。從邊際效益遞減的角度考慮,次模函式還有一種等價定義:對任意的,並且,
公式(2)指出,當集合越來越大,的“價值”將越來越小,正是邊際效益遞減的特性。這個現象在自然界普遍存在,例如:夏農熵函式就是隨機變數集合上的次模函式。當時有,則稱該次模函式是單調的(monotone)。 更進一步,次模性是convexity(凸性)的離散模擬。由於convexity使得連續函式更容易最優化,因而次模性在組合優化中重要作用。當目標函式是次模函式時,許多組合優化問題能夠在多項式時間內得到最優解或近似解。次模函式最大化被證明是一個NP-hard問題,幸運的是,存在高效並且解的質量有保證的近似演算法。一個流行的結果是:最大化一個單調非負的帶基數約束(cardinality constraint,即對子集大小的約束)的次模函式,貪心演算法至少能夠達到的結果,其中表示問題的最優解,大約是0.63。
Lin and Bilmes(2010)
Lin and Bilmes是最早將次模函式引入自動文摘的學者之一,也是對自動文摘次模性研究最深度的學者。在Multi-document summarization via budgeted maximization of submodular functions文章中,作者將自動文摘定義為預算約束(budget constraint,指每個文字單元都有一個budget)下次模函式最大化問題,形式描述如下:
其中,是文件中所有文字單元(如:句子)的集合,是抽取的摘要,是非負實數,表示選擇文字單元的代價,是預算,次模函式對摘要的質量進行打分。預算約束(budget constraint)在自動文摘中天然存在,因為文摘通常有長度限制,例如:單詞數目,句子數目,摘要bytes大小等。 在定義摘要質量打分函式時,作者首先將整個文件表示成一個帶權圖,每條邊都關聯一個非負權重。一個著名的基於圖的用來度量與剩餘相似度的次模函式是graph-cut函式:
在多文件摘要中,冗餘是一個不能忽略的問題,一份高質量不僅需要資訊豐富,而且需要緊湊。作者在這借用了MMR的思想(最大化資訊覆蓋度同時最小化冗餘度),定義瞭如下目標函式:
上式中,無論是graph-cut函式還是冗餘項都是次模的,所以整個目標函式仍然是次模的,但是不是單調的。接著作者定義瞭如下改進版貪婪演算法:
演算法存在兩處改進:1)第8、9行,候選摘要和具有最高得分的單文字單元進行比較,然後才確定最終摘要,這一步保證了當時能夠達到常數近似因子(constant approximation factor,0.63);2)作者引入了比例因子(scaling factor)用於調整代價的比率。接著作者分析了演算法的效能保證(),證明部分感興趣的朋友可以自行檢視。
Lin and Bilmes(2011)
在Lin and Bilmes 2011年的文章A Class of Submodular Functions for Document Summarization中,作者設計了一類次模函式用於自動文摘任務。這些函式都由兩部分組成,一部分用於鼓勵摘要包含更多的資訊,另一部分用於鼓勵內容的多樣性,即低冗餘。更為關鍵的是,這些函式是單調不減的,這意味一個高效可伸縮的貪婪最優化方案具有常數因子最優性保證。
Submodularity in summarization
作者首先分析了自動文摘任務天然存在次模性,摘要可以從兩個角度思考:
- 在knapsack constraint下,最大化目標函式。 knapsack constraint是基數約束()的一般化,由上面次模函式的性質可知,如果是單調次模函式,採用改進的貪婪演算法能夠達到的結果。
- 在摘要必須覆蓋文件所有或足夠數量資訊的約束下,尋找能使代價最低的子集。 其中,是文字單元對應的代價,用於度量的資訊覆蓋度。當是次模的,約束稱作次模覆蓋約束。
是單調次模的
ROUGE-N是候選摘要和一組參考摘要之間的n-gram召回率。令是候選摘要,計算n-gram 在中的出現次數,是參考摘要中n-grams的集合(假設有各參考摘要,i.e.,),那麼ROUGE-N公式可以寫成如下集合函式: