1. 程式人生 > >Structural Features for Predicting the Linguistic Quality of Text: Applications to Machine Translation, Automatic Summarization and Human-Authored Tex

Structural Features for Predicting the Linguistic Quality of Text: Applications to Machine Translation, Automatic Summarization and Human-Authored Tex


abstract
句子結構是文字語言質量的關鍵,我們記錄了以下實驗結果:句法短語統計和其他結構特徵對文字方面的預測能力。手工評估的句子fluency流利度用於機器翻譯評估和文字摘要質量的評估是黃金準則。我們發現和短語長度相關的結構特徵是弱特徵,但是與fluency強相關,基於整個結構特徵的分類器可以在句子fluency成對比較和區分機器翻譯和人類翻譯上取得高準確率。我們也測試了這個假設即,學到的模型可以捕捉人類創作文字的普遍的fluency性質。實驗結果不支援這種假設。同時結構特徵和基於結構特徵的模型被證明是對多文字總結的語言質量自動評估具有robust魯棒性的。

2 Sentence Fluency and Machine Translation
實驗用的資料是the Linguistic Data Consortium的Chinese to English translations,每個句子有四個人工標註3個機器標註,fluency等級是1-5 (5: flawless English; 4: good English; 3: non-native English; 2: disfluent English;1: incomprehensible).我們強調4個任務:
a、區分人工和機器翻譯
b、區分流利和不流利的機器翻譯
c、在相同輸入部分的兩個翻譯之間,區分在fluency上更好的翻譯,這項任務和input-level的自動fluency評估有關。
d、使用在MT評估中的資料訓練後的模型來預測人為寫的華爾街日報文字的潛在的流利性問題
需要特別注意的是我們的研究目的不是評估機器翻譯而是更普遍意義上的,興趣點是找到句子流利度的predictors預測因子。由於沒有對人寫的文字的流利度評估的語料,所以使用之前機器翻譯背景下對流利度研究的評估結果對我們來說是有利的。然而,我們的發現也對機器翻譯句子級別的評估有潛在的意義。

2.1 features
我們感知到的句子流利度受很多因素影響。
a、句子契合上下文的環境的方式是一個明顯的因素
b、vocabulary詞彙的使用:不熟悉的難詞會給讀者帶來問題,也會降低文字的可讀性
但是這些對話和詞彙級別的特徵度量了粒度層面上的屬性,這不同於句子等級。
結構句子等級特徵沒有被作為單獨的一類研究過,這也就是為什麼我們將我們的研究限制在語義特徵,在機器翻譯資料的實驗中最初沒有討論對話和語言模型特徵。
在我們工作中,沒有關注句子中的語義結構例如使用的語義規則,我們使用句子長度和修飾語型別這些表面的統計特徵。我們用Charniak‘s parser來parse句子,從而計算這些特徵。

sentence length是句子中words的數量。像BLEU這樣的評估準則偏愛短句子翻譯。一般情況下,我們會認為句子越短,越容易閱讀,因此也覺得越fluent。為了直接測試這個對句子間接度偏好的假設我們加入了這個特徵。

parse tree depth和subordinating conjunctions (SBAR count)從屬連詞的數目也認為和noun phrases名詞短語、verb phrases和prepositional phrases一樣可以來度量句子複雜度。一般來說,句子越長,句法上更復雜,但是當句子相同長度時,parse tree depth就可以表示複雜度,因為複雜度的增加會減慢處理速度,會覺得句子不那麼流利了。

Number of fragment tags in the sentence parse句子parse後tags的數目,在headlines中fragment片段出現並不一定會導致fluency問題,例如“Cheney willing to hold bilateral talks if Arafat observes U.S. cease-fire arrangement”,但是在機器翻譯中,fragments的出現就預示著一個更嚴重的問題。

Phrase type proportion短語型別比例會計算prepositional phrases (PP), nounphrases (NP) and verb phrases (VP),計算方式是每個短語型別的單詞長度(lenght~猜測是字元長度)/句子的長度,embedded phrases也會包含在計算當中:例如一個名詞短語(NP1 ... (NP2))中, length(NP1) + length(NP2) 也會算在短語長度中。
Average phrase length平均短語長度是組成該型別短語的單詞的數目/給定型別的短語的數目 ,會計算r PP,NP, VP, ADJP, ADVP。計算了兩個版本的特徵:
a、FC1 計算中包含了embedded短語
b、FC2只計算了給定型別的最大的短語
一個句子中任何短語型別的平均長度也會被計算
Normalized average phrase length (FC3) 會計算PP, NP and VP,等於給定型別average phrase length/句子長度 ,這隻會計算最大的短語。

Phrase type rate會計算 PPs, VPs and NPs,等於句子中給定型別的短語的數量/句子長度,例如“The boy caught a huge fish this morning”這個句子中NP短語數目的rate=3/8,VP短語rate=1/8。

Phrase length (FC4) ,在PP,NP,VP中words的數目(沒有任何normalization),只計算最大的短語。Normalized phrase length是句子長度/the average phrase length (for VPs, NPs, PPs),這個有兩種計算方式
a、FC5-有相同型別的embedded短語的最長短語,只計算一次
b、FC6-每個短語不包括embedding。

Length of NPs/PPs (VP中),在一個動詞短語中組成NP或者PP的平均單詞數/動詞短語的長度,相似的也會計算the length of PP in NP。

Head noun modifiers. noun phrases名詞短語很複雜,可以用各種方式修飾head noun-pre-modifiers, prepositional phrase modifiers,apposition(前置定語,介詞短語修飾,同位語)。這些modifiers的單詞長度會被計算。每個特徵有一個變數,等於modifier的字長/句子長度,最後,在所有的modification中的兩個特徵都會被計算:一個是所有modifier的長度和,一個是normalized歸一化的modifier長度

2.2 feature analysis
這一部分我們會分析上面這些特徵和fluency的關係。分析的目的不是特徵選擇-所有的特徵都會在後面的實驗中用到,而是為了更好的理解哪些因素能預測good fluency。
資料集中的fluency得分分佈不是很均衡,主要評分集中在fluency3.
表二列舉了哪些特徵值和fluency評定之間的Pearson’s相關係數更高。
a、MT評估給出的fluency和adequacy是高度相關的。這驚人的高,考慮到分別fluency和adequacy評估被引出是由於這些在翻譯當中相互獨立的。fluency是直接由assessors評分者判斷的,adequacy用來在和人類標準的對比下評估句子的內容。但是,這兩個方面的評估常常是一樣的-句子的可讀性/fluency對理解句子是重要的。只有在assessors已經理解了句子可以判斷它是如何和人類模型做比較後,就會總結道:使得系統產生流利的文字的fluency/可讀性模型是發展成功的機器翻譯系統的關鍵。
b、句子長度。更短的句子更容易,也比更長的句子感覺上更fluent。偏愛簡短在寫作和語音對話的計算語言學工作中都是有效的。注意,即使相關性很弱。在sub-sentential子句(短語)中也會考慮句子長度。
c、Noun phrase length名詞短語長度和句子長度有一樣的相關性,名詞短語越長,句子越不fluent。長名字短語需要花更久區解釋,降低了句子的fluency/可讀性。
– [The dog] jumped over the fence and fetched the ball.
– [The big dog in the corner] fetched the ball.
上面這個例子表明,長名詞短語讀起來更難,特別實在主語的位置。相近的動詞短語長度意味著潛在的fluency問題,這可以在我們語料的例子中看出,也就是假設我們人工的翻譯都是認為理想的,即評分為5,但是這在assessors看來有時會被評為低分。

d、
– Most of the US allies in Europe publicly [object to invading Iraq]V P .
– But this [is dealing against some recent remarks of Japanese financial minister,
Masajuro Shiokawa]V P .
VP距離(分開的兩個動詞短語的平均詞數)適合句子fluency負相關的。在機器翻譯中,明顯的問題就是在長文字中可能沒有包含一個動詞,但是即使在人類寫的文字總,更多的動詞的出現會影響fluency,看下面兩個句子:
– In his state of the Union address, Putin also talked about the national development plan for this fiscal year and the domestic and foreign policies.
– Inside the courtyard of the television station, a reception team of 25 people was formed to attend to those who came to make donations in person.

e、非歸一化的動詞短語長度是和fluency強相關的。在計算相關性時發現,不去歸一化短語句子長度特徵是最好的。

上面沒有特徵是和noun modification--apposition length, number of appositions, number of pre-modifiers同位語長度、同位語數量、前置修飾語的數量有關係的,但是noun modification在0.95的置信度下是和fluency非常相關的。