1. 程式人生 > >自動文摘(Automatic document summarization)方法綜述(三)——基於次模函式(submodular function)最大化的方法

自動文摘(Automatic document summarization)方法綜述(三)——基於次模函式(submodular function)最大化的方法

自動文摘(Automatic document summarization)方法綜述的第一篇文章(一)總結了基於中心的(Centroid-based)方法和基於圖的(graph-based)方法,第二篇文章(二)總結了基於最優化的(optimization-based)的方法。這篇部落格將依舊整理基於最優化方法選取文字單元的方法,更確切的說,這篇部落格將聚焦在次模函式(submodular function)最大化。

Submodularity

次模函式(submodular function)又稱“子模函式”或“亞模函式”,次模函式具有次模性(submodularity),它是經濟學上邊際效益遞減(property of diminishing returns)現象的形式化描述

。給定一個集合函式f:2VRf:2^V\rightarrow \R,其將有限集VV的一個子集SVS\subseteq V對映為一個實數。如果對於任意SS,滿足: (1)f(ST)+f(ST)f(S)+f(T) f(S\cup T)+f(S\cap T)\leq f(S)+f(T) \tag 1

則稱f()f(\cdot)是次模函式。從邊際效益遞減的角度考慮,次模函式還有一種等價定義:對任意的RSVR\subseteq S \subseteq V,並且sVSs\in V\setminus S

(2)f(S{s})f(S)f(R{s})f(R) f(S\cup \{s\})-f(S)\leq f(R\cup \{s\})-f(R) \tag 2

公式(2)指出,當集合越來越大,ss的“價值”將越來越小,正是邊際效益遞減的特性。這個現象在自然界普遍存在,例如:夏農熵函式就是隨機變數集合上的次模函式。當STS\subseteq T時有f(S)f(T)f(S)\leq f(T),則稱該次模函式是單調的(monotone)。 更進一步,次模性是convexity(凸性)的離散模擬。由於convexity使得連續函式更容易最優化,因而次模性在組合優化中重要作用。當目標函式是次模函式時,許多組合優化問題能夠在多項式時間內得到最優解或近似解。次模函式最大化被證明是一個NP-hard問題,幸運的是,存在高效並且解的質量有保證的近似演算法。一個流行的結果是:最大化一個單調非負的帶基數約束(cardinality constraint,即對子集S

S大小的約束)的次模函式,貪心演算法至少能夠達到(11/e)f(Sopt)(1-1/e)f(S_{opt})的結果,其中f(Sopt)f(S_{opt})表示問題的最優解,11/e1-1/e大約是0.63。 f(Sapp)(11e)f(Sopt) f(S_{app})\geq (1-\frac{1}{e})f(S_{opt})

Lin and Bilmes(2010)

Lin and Bilmes是最早將次模函式引入自動文摘的學者之一,也是對自動文摘次模性研究最深度的學者。在Multi-document summarization via budgeted maximization of submodular functions文章中,作者將自動文摘定義為預算約束(budget constraint,指每個文字單元都有一個budget)下次模函式最大化問題,形式描述如下: maxSV{f(S):iSciB} \max_{S\subseteq V}\Big\{f(S):\sum_{i\in S}c_i\leq \mathcal{B}\Big\}

其中,VV是文件中所有文字單元(如:句子)的集合,SVS\subseteq V是抽取的摘要,cic_i是非負實數,表示選擇文字單元ii的代價,B\mathcal{B}是預算,次模函式f()f(\cdot)對摘要的質量進行打分。預算約束(budget constraint)在自動文摘中天然存在,因為文摘通常有長度限制,例如:單詞數目,句子數目,摘要bytes大小等。 在定義摘要質量打分函式時,作者首先將整個文件表示成一個帶權圖(V,E)(V,E),每條邊ei,jEe_{i,j}\in E都關聯一個非負權重wi,jw_{i,j}。一個著名的基於圖的用來度量SS與剩餘VSV\setminus S相似度的次模函式是graph-cut函式: fcut(S)=iVSjSwi,j f_{cut}(S)=\sum_{i\in V\setminus S}\sum_{j\in S}w_{i,j}

在多文件摘要中,冗餘是一個不能忽略的問題,一份高質量不僅需要資訊豐富,而且需要緊湊。作者在這借用了MMR的思想(最大化資訊覆蓋度同時最小化冗餘度),定義瞭如下目標函式: fMMR(S)=iVSjSwi,jλi,jS:ijwi,j,λ0 f_{\textbf{MMR}}(S)=\sum_{i\in V\setminus S}\sum_{j\in S}w_{i,j}-\lambda\sum_{i,j\in S:i\neq j}w_{i,j},\lambda\geq0

上式中,無論是graph-cut函式還是冗餘項都是次模的,所以整個目標函式仍然是次模的,但是不是單調的。接著作者定義瞭如下改進版貪婪演算法: 在這裡插入圖片描述

演算法存在兩處改進:1)第8、9行,候選摘要GG和具有最高得分的單文字單元vv^*進行比較,然後才確定最終摘要GfG_f,這一步保證了當r=1r=1時能夠達到常數近似因子(constant approximation factor,0.63);2)作者引入了比例因子(scaling factor)rr用於調整代價的比率。接著作者分析了演算法的效能保證(11e1-\frac{1} {\sqrt e}),證明部分感興趣的朋友可以自行檢視。

Lin and Bilmes(2011)

在Lin and Bilmes 2011年的文章A Class of Submodular Functions for Document Summarization中,作者設計了一類次模函式用於自動文摘任務。這些函式都由兩部分組成,一部分用於鼓勵摘要包含更多的資訊,另一部分用於鼓勵內容的多樣性,即低冗餘。更為關鍵的是,這些函式是單調不減的,這意味一個高效可伸縮的貪婪最優化方案具有常數因子最優性保證。

Submodularity in summarization

作者首先分析了自動文摘任務天然存在次模性,摘要可以從兩個角度思考:

  1. 在knapsack constraint下,最大化目標函式。 SargmaxSVF(S)subjectto:iScib. S^*\in argmax_{S\subseteq V}\mathcal{F}(S)\quad subject\ to:\sum_{i\in S}c_i\leq b. knapsack constraint是基數約束(ci=1c_i=1)的一般化,由上面次模函式的性質可知,如果F\mathcal{F}是單調次模函式,採用改進的貪婪演算法能夠達到(11/e)f(Sopt)(1-1/e)f(S_{opt})的結果。
  2. 在摘要必須覆蓋文件所有或足夠數量資訊的約束下,尋找能使代價最低的子集。 SargminSViScisubjectto:F(S)α. S^*\in argmin_{S\subseteq V}\sum_{i\in S}c_i\quad subject\ to:\mathcal{F}(S)\geq\alpha. 其中,cic_i是文字單元對應的代價,F(S)\mathcal{F}(S)用於度量SS的資訊覆蓋度。當F\mathcal{F}是次模的,約束F(S)α\mathcal{F}(S)\geq\alpha稱作次模覆蓋約束。

ROUGENROUGE-N是單調次模的

ROUGE-N是候選摘要和一組參考摘要之間的n-gram召回率。令SS是候選摘要,ce:2VZ+c_e:2^V\rightarrow \Z_+計算n-gram eeSS中的出現次數,RiR_i是參考摘要ii中n-grams的集合(假設有KK各參考摘要,i.e.,i=1, ,Ki=1,\cdots,K),那麼ROUGE-N公式可以寫成如下集合函式: FROUGE-N(S)i=1KeRimin(ce(S),re,i)i=1KeRire,i \mathcal{F}_{\textbf{ROUGE-N}}(S)\triangleq\frac{\sum_{i=1}^K\sum_{e\in R_i}\min(c_e(S),r_{e,i})}{\sum_{i=1}^K\sum_{e\in R_i}r_{e,i}}