自動文摘（Automatic document summarization）方法綜述（三）——基於次模函式（submodular function）最大化的方法

阿新 • • 發佈：2018-12-13

自動文摘（Automatic document summarization）方法綜述的第一篇文章（一）總結了基於中心的（Centroid-based）方法和基於圖的（graph-based）方法，第二篇文章（二）總結了基於最優化的（optimization-based）的方法。這篇部落格將依舊整理基於最優化方法選取文字單元的方法，更確切的說，這篇部落格將聚焦在次模函式（submodular function）最大化。

Submodularity

次模函式（submodular function）又稱“子模函式”或“亞模函式”，次模函式具有次模性（submodularity），它是經濟學上邊際效益遞減（property of diminishing returns）現象的形式化描述

。給定一個集合函式

f:2^V\rightarrow \R

，其將有限集

V

的一個子集

S\subseteq V

對映為一個實數。如果對於任意

S

，滿足：

f(S\cup T)+f(S\cap T)\leq f(S)+f(T) \tag 1

則稱 $f(\cdot)$ 是次模函式。從邊際效益遞減的角度考慮，次模函式還有一種等價定義：對任意的 $R\subseteq S \subseteq V$ ，並且 $s\in V\setminus S$

s \in V ∖ S

，

f(S\cup \{s\})-f(S)\leq f(R\cup \{s\})-f(R) \tag 2

公式（2）指出，當集合越來越大， $s$ 的“價值”將越來越小，正是邊際效益遞減的特性。這個現象在自然界普遍存在，例如：夏農熵函式就是隨機變數集合上的次模函式。當 $S\subseteq T$ 時有 $f(S)\leq f(T)$ ，則稱該次模函式是單調的（monotone）。更進一步，次模性是convexity（凸性）的離散模擬。由於convexity使得連續函式更容易最優化，因而次模性在組合優化中重要作用。當目標函式是次模函式時，許多組合優化問題能夠在多項式時間內得到最優解或近似解。次模函式最大化被證明是一個NP-hard問題，幸運的是，存在高效並且解的質量有保證的近似演算法。一個流行的結果是：最大化一個單調非負的帶基數約束（cardinality constraint，即對子集 $S$

S $S$ 大小的約束）的次模函式，貪心演算法至少能夠達到 $(1-1/e)f(S_{opt})$ 的結果，其中

f(S_{opt})

表示問題的最優解，

1-1/e

大約是0.63。

f(S_{app})\geq (1-\frac{1}{e})f(S_{opt})

Lin and Bilmes(2010)

Lin and Bilmes是最早將次模函式引入自動文摘的學者之一，也是對自動文摘次模性研究最深度的學者。在Multi-document summarization via budgeted maximization of submodular functions文章中，作者將自動文摘定義為預算約束（budget constraint，指每個文字單元都有一個budget）下次模函式最大化問題，形式描述如下： $\max_{S\subseteq V}\Big\{f(S):\sum_{i\in S}c_i\leq \mathcal{B}\Big\}$

其中， $V$ 是文件中所有文字單元（如：句子）的集合， $S\subseteq V$ 是抽取的摘要， $c_i$ 是非負實數，表示選擇文字單元 $i$ 的代價， $\mathcal{B}$ 是預算，次模函式 $f(\cdot)$ 對摘要的質量進行打分。預算約束（budget constraint）在自動文摘中天然存在，因為文摘通常有長度限制，例如：單詞數目，句子數目，摘要bytes大小等。在定義摘要質量打分函式時，作者首先將整個文件表示成一個帶權圖 $(V,E)$ ，每條邊 $e_{i,j}\in E$ 都關聯一個非負權重 $w_{i,j}$ 。一個著名的基於圖的用來度量 $S$ 與剩餘 $V\setminus S$ 相似度的次模函式是graph-cut函式： $f_{cut}(S)=\sum_{i\in V\setminus S}\sum_{j\in S}w_{i,j}$

在多文件摘要中，冗餘是一個不能忽略的問題，一份高質量不僅需要資訊豐富，而且需要緊湊。作者在這借用了MMR的思想（最大化資訊覆蓋度同時最小化冗餘度），定義瞭如下目標函式： $f_{\textbf{MMR}}(S)=\sum_{i\in V\setminus S}\sum_{j\in S}w_{i,j}-\lambda\sum_{i,j\in S:i\neq j}w_{i,j},\lambda\geq0$

上式中，無論是graph-cut函式還是冗餘項都是次模的，所以整個目標函式仍然是次模的，但是不是單調的。接著作者定義瞭如下改進版貪婪演算法：在這裡插入圖片描述

演算法存在兩處改進：1）第8、9行，候選摘要 $G$ 和具有最高得分的單文字單元 $v^*$ 進行比較，然後才確定最終摘要 $G_f$ ，這一步保證了當 $r=1$ 時能夠達到常數近似因子（constant approximation factor，0.63）；2）作者引入了比例因子（scaling factor） $r$ 用於調整代價的比率。接著作者分析了演算法的效能保證（ $1-\frac{1} {\sqrt e}$ ），證明部分感興趣的朋友可以自行檢視。

Lin and Bilmes(2011)

在Lin and Bilmes 2011年的文章A Class of Submodular Functions for Document Summarization中，作者設計了一類次模函式用於自動文摘任務。這些函式都由兩部分組成，一部分用於鼓勵摘要包含更多的資訊，另一部分用於鼓勵內容的多樣性，即低冗餘。更為關鍵的是，這些函式是單調不減的，這意味一個高效可伸縮的貪婪最優化方案具有常數因子最優性保證。

Submodularity in summarization

作者首先分析了自動文摘任務天然存在次模性，摘要可以從兩個角度思考：

在knapsack constraint下，最大化目標函式。 $S^*\in argmax_{S\subseteq V}\mathcal{F}(S)\quad subject\ to:\sum_{i\in S}c_i\leq b.$ knapsack constraint是基數約束（ $c_i=1$ ）的一般化，由上面次模函式的性質可知，如果 $\mathcal{F}$ 是單調次模函式，採用改進的貪婪演算法能夠達到 $(1-1/e)f(S_{opt})$ 的結果。
在摘要必須覆蓋文件所有或足夠數量資訊的約束下，尋找能使代價最低的子集。 $S^*\in argmin_{S\subseteq V}\sum_{i\in S}c_i\quad subject\ to:\mathcal{F}(S)\geq\alpha.$ 其中， $c_i$ 是文字單元對應的代價， $\mathcal{F}(S)$ 用於度量 $S$ 的資訊覆蓋度。當 $\mathcal{F}$ 是次模的，約束 $\mathcal{F}(S)\geq\alpha$ 稱作次模覆蓋約束。

$ROUGE-N$ 是單調次模的

ROUGE-N是候選摘要和一組參考摘要之間的n-gram召回率。令 $S$ 是候選摘要， $c_e:2^V\rightarrow \Z_+$ 計算n-gram $e$ 在 $S$ 中的出現次數， $R_i$ 是參考摘要 $i$ 中n-grams的集合（假設有 $K$ 各參考摘要，i.e., $i=1,\cdots,K$ ），那麼ROUGE-N公式可以寫成如下集合函式： $\mathcal{F}_{\textbf{ROUGE-N}}(S)\triangleq\frac{\sum_{i=1}^K\sum_{e\in R_i}\min(c_e(S),r_{e,i})}{\sum_{i=1}^K\sum_{e\in R_i}r_{e,i}}$

自動文摘（Automatic document summarization）方法綜述（三）——基於次模函式（submodular function）最大化的方法

Submodularity

Lin and Bilmes(2010)

Lin and Bilmes(2011)

Submodularity in summarization

$ROUGE-N$ 是單調次模的

自動文摘（Automatic document summarization）方法綜述（三）——基於次模函式（submodular function）最大化的方法

自動文摘（Automatic document summarization）方法綜述（四）——基於神經網路的（neural summarization）方法

自動文字摘要(automatic text summarization)目前的研究方法分類

多文檔自己主動文摘：Multi-Document Summarization,MDS

《C語言程式設計：現代方法（第2版）（K.N.King 著）》學習筆記三：C語言基本概念（2）

DNV Phast & Safeti v6.53.1 1CD（事故後果模擬、安全風險計算軟件，五模塊全部功能版）

雜湊函式（雜湊函式，Hash Function）

node.js（三 stream 管道流模塊化函數）

使用三種不同的核函式（迴歸）對Boston房價進行預測，同時對測試資料做出預測

（六）Python函數語言程式設計1：高階函式 Higher-order-function

backboneJS 使用心得（2）view和model事件的多次繫結（轉載）

橢圓函式與模函式（2012.10出版）（2013-01-16 09:34:57）

三周第一次課(12月25日）

三周第一次課(2月5日）

Linux學習筆記第三周第一次課(2月5日）

Linux 三周第一次課(4月2日）Linux,windows 互傳文件用戶配置文件密碼組管理

Code First 下自動更新數據庫結構（Automatic Migrations）

Oracle12c中SQL性能優化（SQL TUNING）新特性之自動重優化（automatic reoptimization）

一篇關於如何用深度學習完成自動上色（Automatic Image Colorization）的論文淺析

基於深度神經網路的高光譜影響分類方法研究---MNF+自動編碼器+Softmax （準確率比較低，17年的論文）

自動文摘（Automatic document summarization）方法綜述（三）——基於次模函式（submodular function）最大化的方法

Submodularity

Lin and Bilmes(2010)

Lin and Bilmes(2011)

Submodularity in summarization

ROUGE−NROUGE-NROUGE−N是單調次模的

相關推薦

$ROUGE-N$ 是單調次模的