《A Language Model based Evaluator for SC》閱讀筆記
來源:ACL 2018
原文: ofollow,noindex">A Language Model based Evaluator for Sentence Compression
Introduction
基於刪除的句子壓縮旨在從源句中刪除不必要的單詞以形成短句,同時保證符合語法規範和遵循源句的基本含義。 以前的工作使用基於機器學習的方法或基於句法樹的方法來產生最具可讀性和資訊量的壓縮結果。
然而使用RNN作為模型仍然會產生不合語法的句子,原因在於RNN的優化目標是基於單個詞而不是整個壓縮句子, 優化目標和評估之間存在差異。 因此,本文提出了以下兩點改進:(i)將整個壓縮句子的可讀性作為學習目標;(ii)構建基於語言模型的評估器,用以恢復語法錯誤
Task and Framework

本文使用強化學習的方法,模型如上圖所示。左側是用於句子壓縮的policy network。模型使用雙向LSTM結構,輸入x = [e(wi ); p(wi ); d(wi )] ,(embedding + 詞性標籤 + 依賴關係),在embedding層面為模型新增語法資訊。經過sigmoid之後,得到當前時間步的(1,0)標籤,也就是{retain,remove}動作,進而得到壓縮後的句子序列(w1, w2, ..., wm),作為監督器的輸入。
Syntax-based Evaluator
使用預訓練的語言模型作為強化學習的監督器。將壓縮句輸入LM中,輸出得到reward,進一步更新policy netwwork。

如上圖所示,為了利用前後向資訊,使用雙向RNN預訓練語言模型,訓練目標是下一個單詞的概率。通過下式計算各個單詞的reward。

Y是預測的壓縮結果。
另外,添加了 smooth reward function 以平衡壓縮率這一指標, R = RSLM + RCR
最後的loss更新如下:

at ∈ {RETAIN, REMOVE}
Experiment

依據LM輸出的複雜度作為reward,作者做了實驗證明其有效性,刪除了object,verb,subject(#2,#3,#4)之後,複雜度均上升。

Conclusion
本文采用強化學習的方法,驗證了語言模型作為監督器的有效性,值得我們借鑑。