NLP年度盛宴EMNLP/CoNLL 2018最精彩論文精選(摘要+評論)
EMNLP和CoNLL大會堪稱自然語言處理(NLP)領域的年度盛宴。
每年,全球最頂尖的NLP研究者們會在這兩個大會上展示最前沿的NLP科研成果。然而,動輒上千篇的論文卻令很多關注NLP領域最新動態的小夥伴望而卻步。
幸運的是,來自亞利桑那大學的NLP研究者Mithun Paul 精心挑選出了20餘篇精彩論文,並逐一作出評價。
EMNLP和CoNLL 2018究竟出現了哪些重量級作品?讓我們跟著Mithun的名單一起來讀。
CoNLL
利用對抗正則化後的神經網路自然語言推斷模型(NLI)來整合邏輯背景知識
ofollow,noindex" target="_blank">https://aclanthology.coli.uni-saarland.de/papers/K18-1007/k18-1007
摘要:對抗樣本作為機器學習模型的輸入,旨在使模型出錯。對抗樣本有助於我們理解機器學習模型的缺點,並幫助我們找到對模型的合理性解釋以及對模型正則化的方法。但是在NLP中,大多數樣本的生成策略是通過使用已知的、預先指定的語義轉換來生成輸入文字,這就需要大量的人工操作,並且深入理解研究的問題和資料集。
在本文中,我們研究了在自然語言推斷(NLI)中如何自動生成對抗樣本,並保證這些樣本違反給定的一階邏輯約束。我們通過最大化度量違反約束條件的程度以及使用語言模型,來生成語句合理的樣本,將識別這種對抗樣本的問題轉化為到組合優化問題。在此基礎上,我們提出了對神經自然語言推斷模型進行對抗正則化來整合背景知識的方法。結果表明,雖然所提出的方法並不總能改善SNLI和MultiNLI資料集的結果,但它顯著並持續地提高了對抗資料集的預測準確性 - 相對改善高達79.6% - 同時大幅減少違反背景知識的數量。此外,我們展示了對抗樣本在模型體系結構之間轉移,並且所提出的對抗性訓練過程提高了NLI模型對對抗樣本的魯棒性。
評論:將FOL規則納入到基於神經網路的NLI模型訓練過程是個巧妙的想法。 他們在損失函式的正則化中添加了“不一致性損失”項,用於衡量違背規則的程度。
BlackboxNLP專題討論會
非常棒的專題討論會。這個專題討論會的會議記錄如下:
http://aclweb.org/anthology/W18-5400
通過稀疏注意機制得到可解釋的結構歸納法
http://aclweb.org/anthology/W18-5450
評論:通過強化神經網路產生稀疏概率使得神經網路更具可解釋性,這可以追溯到輸入中最相關部分。
理解基於卷積神經網路的文字分類
https://arxiv.org/pdf/1809.08037.pdf
摘要:本文分析了卷積神經網路(CNNs)處理文字的內部工作原理。用於計算機視覺的CNN可以通過將濾波器(filter)投影到影象空間來解釋,但對於離散序列輸入,CNN仍然無法很好的解釋。 我們的目標是理解網路處理和文字分類的方法。本文研究了以下問題的常見假設:將濾波器(filter)和全域性最大池化層(max-pooling)一起用作ngram檢測器。本文發現filter可以通過使用不同的啟用模式捕獲ngrams的一些不同語義類,並且max-pooling會將關鍵的ngrams與其餘ngrams分開。最後,本文以模型可解釋性和預測可解釋性(解釋預測)的形式展示了研究結果中的實際用例情況(通過給每個過濾器推匯出具體標識來解釋已訓練的模型,增加中視覺化工具和NLP之間的聯絡)。
評論:確定CNN背後相關的n-grams。 直觀上來說,涵蓋資訊的n-grams是根據它和相應的卷積濾波器的相關性來選擇的。
利用規則歸納法對訓練模型進行全域性解釋
https://arxiv.org/abs/1808.09744
摘要:瞭解已訓練網路的行為併為其輸出的找到合理性解釋,這對於提高網路的效能和泛化能力,以及確保在自動化系統中正常執行非常重要。了目前有一些方法,是通過分析已訓練的網路來識別和視覺化最重要的特徵。但是在大多數情況下,不同特徵和類別之間的關係都會丟失。本文提出了一種技術用來歸納if-then-else規則集,這個規則集能捕獲特徵類別之間的關係,進一步地在全域性範圍內解釋網路的預測。我們首先計算已訓練網路中特徵的重要性。然後,我們利用這些特徵重要性得到的分數來衡量原始輸入,並且簡化變換後的輸入空間,最後擬合規則歸納模型來解釋模型預測。我們發現輸出規則集可以成功解釋包含4個類別的文字分類的神經網路預測結果,這4個類別的文字分類樣本包括從20個新聞組資料集到0.80的巨集觀平均F分數。
評論:與我們的“Snap to Grid”論文類似的想法。 但他們最後還有額外的一步——從重要的特徵中歸納出規則模型。
你應該問多少? 關於問答系統中的問題結構
https://arxiv.org/pdf/1809.03734.pdf
摘要:資料集能夠提升問答(QA)系統中的回答質量,這證明我們可以用自然語言方式提問。但是,目前使用者仍然習慣用類似查詢的系統,這樣的系統支援使用者輸入關鍵字來搜尋答案。 在本次研究中,我們驗證問題中哪些部分對於獲得有效答案至關重要。為了說明這一點,我們利用了LIME——一種通過區域性近似來解釋預測的框架。 我們發現QA不支援語法和自然語言。 即使只有幾個單詞,最新模型就可以利用高效計算的LIME做出正確的回答。 據我們所知,這是LIME首次解釋QA模型。
評論:將SQUAD問題中的文字減少到1或只是幾個單詞,DrQA仍然有效......
它關心你問什麼嗎? 理解動詞在深度學習QA系統中的重要性
https://arxiv.org/abs/1809.03740
摘要:本文提出了在SQUAD資料集上訓練的深度學習QA系統中,動詞重要性調查的結果。 我們證明問題中的主要動詞對系統做出的決定幾乎沒有影響 - 超過90%的研究案例表明用動詞的反義詞做替代並沒有改變系統決策。我們追蹤這種現象到網路的內部,分析self-attention的機制和RNN隱藏層中包含的值。 最後,我們認識到SQuAD資料集的特徵是問題的根源。我們的研究參考了最近流行的NLP中的對抗樣本,同時還結合了深層網路結構的研究。
評論:在SQUAD問題中打亂動詞並沒有改變答案......
槍械和老虎是危險的,菜刀和斑馬不是:測試詞嵌入向量(Word Embedding)是否可以分辨這些詞語
https://arxiv.org/abs/1809.01375
摘要:本文提出了一種通過word embedding方法來捕獲語義資訊的性質的研究方法。我們提出了一種方法,使用群體判斷得到的大量負樣本,擴充套件了現有人為引用的語義屬性資料集。我們的實驗方法測試了監督分類器識別詞嵌入向量中的語義特徵的能力,並將其與基於全向量餘弦相似度的特徵識別方法進行比較。這種方法背後的想法是通過embedding獲得的屬性是由分類器識別的,而不是通過全向量比較識別的。如果一個屬性無法被任何方法所識別,那麼它就不是一個真正的屬性。我們的研究結果初步表明,與實體互動方式(例如危險)相關的語義屬性會被捕獲,而表示感知資訊(例如,顏色)則不會。我們初步得出結論我們的方法適用於識別哪些屬性是可以被embedding捕獲的。
評論:研究哪些屬性是可通過簡單的word-embedding捕獲的。術語:"diagnostic classifier"(診斷分類器”)
EMNLP Day 1
新增常識性知識推理行為與狀態變化
http://aclweb.org/anthology/D18-1006
摘要:理解程式文字,例如描述光合作用的段落,需要建模及其產生的狀態變化,以便回答不同時間點的實體的問題。雖然最近幾個系統在這項任務中取得了令人矚目的進展,但它們的預測可能是全域性不一致或極不可能的。
在本文中,我們展示瞭如何通過兩種方式改進段落上下文中的行為的預測效果:(1)通過結合全域性,常識約束(例如,不存在的實體不能被銷燬),以及(2)通過偏好閱讀大型語料庫(例如,樹不移動)。與早期方法不同,我們將問題視為神經結構預測任務,允許硬約束和軟約束來引導模型遠離不太可能的預測。結果表明,在文字理解上,新模型在基準資料集上明顯優於基礎系統(+ 8%相對增益),並且它還避免了早期系統所做的一些無意義預測。
評論:過程問題的問答,也就是說,答案是一系列的動作。可以將其視為結構化預測,用常識性知識精簡搜尋空間,反過來可以從大型語料庫中提取常識性知識。這種方法類似於一個完整過程中的記憶體網路
收集多樣化的自然語言推斷問題進行句子評價
http://aclweb.org/anthology/D18-1007
論文摘要:我們呈現了一個體量很大的自然語言推斷資料集,這些資料集可以幫助我們瞭解一個句子的表達是如何得到不同型別的推斷。這個集合是通過將7種語義現象中的13個現有資料集重鑄成一個通用的NLI(自然語言推斷)結構而得到的,總共產生了超過50萬個標記好的文字與假設對。我們將這個集合稱為“DNC”(多樣化的自然語言推斷集合),你可以在http://www.decomp.net網站上檢視,我們會不斷完善和拓建這個集合。
評論:一個多樣化的自然語言推理資料集。如果你在自然語言推理領域工作,值得好好讀這篇論文,並應用到工作中。
短語索引的問答任務:可拓展文件閱讀理解的新挑戰
http://aclweb.org/anthology/D18-1052
論文摘要:我們將文件編碼器從問題編碼器中分離,組建了一個新的問答任務模組。這對於機器閱讀理解是一個關鍵性的挑戰,它要求文件對話內容獨立表示出來。我們發現這樣設定可以使問答任務具有明顯的可伸縮性優勢,因為待選答案的編碼結果可以被提前計算出來,並離線建立索引,提高檢索效率。我們用基線模型對新任務進行了檢驗,結果表明,雖然該模型的正確率在可接受範圍內,但卻明顯低於無約束的問答模型,所以我們在問答研究專案論壇釋出了任務,邀請大家一起參與短語索引問答專案(PIQA,pika),希望可以提高這個新模型的正確率。請檢視:nlp.cs.washington.edu/piqa
評論:只檢索短語(NPs和NEs)而不是整篇文件。為每個短語生成編碼,並使用與問題向量最近的作為答案。這篇論文不錯,但這個模型目前表現還不是很好。
通過段落排序提高開放域問答中的答案提取效能
http://aclweb.org/anthology/D18-1053
論文摘要:最近,開放域問答通過與機器理解模型結合的形式,從大規模知識集中尋找答案。開放域問答需要從文字語料庫中檢索相關文件來回答問題,其效能在很大程度上取決於文件檢索器的效能。然而,由於傳統的資訊檢索系統不能有效地獲取可能包含答案的檔案,這降低了問答系統的效能。,單純提取更多數量的文件也會增加不相關文件的數量,也會降低問答系統的效能。本文引入了段落排序器,它對檢索到的文件的段落進行排序並獲得了更高的召回率。我們在四個開放域問答資料集中對段落進行排序並使用段落排序器聚合答案,結果平均提高了7.8%。
評論:在問答系統中訓練段落排序器。侷限性:段落排序器受到監督;只關注簡單的問題(它在複雜的問答問題上表現得怎麼樣?);專注於在段落排序過程中提高答案提取效率(我們是否應該關注F1)?
深度問答自適應文件檢索
http://aclweb.org/anthology/D18-1055
論文摘要:目前最流行的深度問答流程如下:(1)初始文件檢索相關文件;(2)用神經網路進行處理,提取最終答案。然而,人們對這兩個元件之間的相互作用知之甚少,特別是關於候選檢索文件的數量。我們發現,選擇資料固定的文件(正如我們先前研究中使用的那樣)會導致資訊淹沒在噪聲中,產生不理想的結果。因此,我們提出了一種自適應文件檢索模型,它將根據語料庫和查詢量的大小確定最佳候選檢索文件數量。我們進行了多次實驗,結果顯示我們的自適應方法在多個基準資料集上的表現優於目前最流行的方法,以及在不同量級的語料庫中也是如此。
評論:這個主意不錯,根據我們對IR系統的信心確定QA問題的候選檢索文件數量(信心越大,候選檢索文件越少)。很棒,但是它把IR系統當成了一個黑盒了。
一種基於上下文的深度神經網路句子層次分類方法
http://aclweb.org/anthology/D18-1107
論文摘要:在句子分類任務中,被分類的句子與相鄰的句子所構成的上下文可以為分類提供重要的資訊。然而,這個語境卻經常被忽略。有的方法雖然使用語境,但範圍受到侷限,很難評價效果好壞。我們提出了一種新的句子分類方法,Context-LSTM-CNN,它嘗試大範圍使用上下文。該方法也利用了被分類的句子中的遠端依賴關係,使用LSTM,短時特性,以及堆疊式CNN。我們的實驗表明,在兩個不同的資料集上,這種方法比以前的更勝一籌。
評論:一種很有效的編譯大範圍上下文的方法(例如,進行句子分類時,對句子所在的整個文件進行編碼)。用FOFE編碼(固定長度依次遺忘編碼)會很高效。如果你需要使用大量文字來進行句子分類,請閱讀本文。
RESIDE:利用輔助資訊改進遠端監督的神經關係提取
http://aclweb.org/anthology/D18-1157
論文摘要:遠端監督的關係提取(RE)方法通過將知識庫(KB)中的關係例項與非結構化文字自動關聯來訓練提取器。除了關係例項之外,知識庫通常包含其他相關的輔助資訊,例如別名之間的關聯關係(例如,創立和聯合創立,實際上都是公司創始人)。
關係提取模型經常忽略這些現成的次要資訊。在本文中,我們提出了一種遠端監督神經關係的提取方法,叫做RESIDE,它利用知識庫中的次要資訊改進關係提取的結果。它同時使用實體型別和別名關聯資訊進行軟約束,在預測關係時雙重保險。RESIDE方法使用圖形卷積網路(GCN)從文字中對語法資訊進行編碼,這樣即使次要資訊數量有限,也可以保證效率。通過對基準資料集的大量實驗,我們證明了RESIDE方法的有效性。我們已經公開了RESIDE方法的原始碼,希望可以鼓勵後續研究。
評論:遠端監督關係提取的新方法,使用知識庫中的相關關係別名,將PCNN與圖形卷積網路(GCN)連線起來。
EMNLP會議第2天
QuAC:語境中的問答
http://aclweb.org/anthology/D18-1241
論文摘要:在這篇論文中我們研究了QuAC,一個用於語境問答的資料集,它包含1.4萬個資訊搜尋問答對話(總共10萬個問題)。這些對話涉及兩個群體:(1)一個學生提出一系列自由式問題,以便儘可能多地學習隱藏在維基百科文字的詞法;(2)一個教師用文字中的簡短片段來回答問題。QuAC發現了一個現有機器閱讀理解還沒有遇到的挑戰:它的問題往往是更開放的、無法回答的,或者只有在對話文字語境中才有意義,我們會在本文中展示一個詳細的定性評估。我們也研究了一些參考模型的結果,包括最近的最流行的被用於建立對話語境模型的閱讀理解架構。我們最好模型的F1仍然比人類的表現差了20 個點,這表明在這些資料上還有很大的研究空間。資料集、基線和排行榜可在以下網址檢視:http://quac.ai
評論:對話式問答的新資料集。
從釋義中學習標量形容詞強度
http://aclweb.org/anthology/D18-1202
論文摘要:諸如“溫的”、“熱的”和“滾燙的”等形容詞都在描述溫度,但強度不同。理解形容詞之間的這些差異是自然語言推理的必要部分。我們提出了一種新的基於釋義的方法,來學習一對標量形容詞之間的相對強度關係。我們分析了超過3.6萬個釋義資料集中的形容詞對,其中有一些假設邏輯,例如,將“真的熱”和“滾燙的”配對,可以判斷出“熱的”的強度要弱於“滾燙的”。實驗證明,將這種釋義結果與現有的、互補的基於模式和詞彙的方法相結合,可以提高自動排序標量形容詞集的系統質量,並推斷出是/否問題的間接回答的極性。
評論:從釋義中學習形容詞的排序。
MemoReader:神經記憶控制器實現大規模閱讀理解
http://aclweb.org/anthology/D18-1237
摘要:機器閱讀理解幫助機器學習以文字形式為載體的大部分人類知識。雖然目前存在的方法與人類水平表現相比取得了重大的進步,但這些方法仍受限於理解力,往往不能正確理解連續幾段的冗長文章。在本文中,我們提出了一種新的深度神經網路架構來處理RC任務中的遠端依賴(LRD, long-range dependency)問題。具體來說,我們提出的方法有兩個方面的創新:(1)先進的儲存器增強架構(2)密集連線的擴充套件門迴圈單元——用於降低記憶體中發生的潛在資訊失真的情況。此架構同樣適用於其他模型。我們利用知名的基準資料集(如TriviaQA,QUASAR-T和SQuAD)進行了大量實驗。 實驗結果表明,該方法的效能表現優於現有方法,特別是在處理冗長文件方面效果更為明顯。
評論:擴充套件記憶網路更擅長閱讀理解。
交叉對文字表示用於問答系統答案句的選取
http://aclweb.org/anthology/D18-1240
摘要:高階語義任務涉及文字對的建模,例如釋義、文字含義或問答。在神經網路出現之前,主要是使用內部文字對的特徵來實現的,其中包含在同一文字對之間相似性得分或重寫計算規則。在本文中,我們計算表示不同文字對間向量表達相似性之間的標量積,而不是簡單地為每個文字對使用單個向量。這讓我們可以獲得特定的任何一對文字的表示,能提供最好的句子回答。最重要的是,我們的方法比基於神經網路的更復雜的演算法還要好。
評論:kernels對QA依然非常有效。.
使用圖狀態LSTM的N元關係提取方法
http://aclweb.org/anthology/D18-1246
摘要:跨句關係提取用於檢測多個句子中n個實體之間的關係。常規的方法是將輸入表示為文件圖,文件圖包含了各種句內和句子間依賴關係。當前最先進的方法是將輸入圖分成兩個DAG,每個DAG採用DAG結構的LSTM。雖然能夠通過利用圖形邊緣來模擬豐富的語言知識,但是在分割過程中可能會丟失重要資訊。我們提出了一個圖形狀態LSTM模型,它使用並行狀態來模擬每個單詞,通過訊息傳遞方式反覆豐富狀態值。與DAG LSTM相比,我們的圖形LSTM保留了原始圖形結構,並通過允許更多並行操作來提升計算速度。在基準測試中,我們的模型相比文獻中的各種方法取得了最佳結果。
評論:隨時間監視句子中的每個詞是處理圖LSTMs的一個很好的想法。應用於nary關係的提取。
神經關係分類體系架構的大規模探索
http://aclweb.org/anthology/D18-1250
摘要:使用深度神經網路體系架構,關係分類任務的實驗效能得到了普遍提升。研究報告的一個主要缺點是,由於個別模型在非常有限的資料集範圍內進行的評估,難以和參考方法進行效能比較,引發了對架構適應性的質疑。在這項工作中,我們基於六個基準資料集的不同特徵展示了對神經關係分類架構的大規模系統分析,提出了一種多通道LSTM模型與CNN相結合的新方法,它充分利用了當前所有流行語言和架構特徵。我們的“Man for All Seasons”方法在兩個資料集上取得了最優的效能。更重要的是,在我們看來,該模型使我們能夠直接瞭解神經語言模型在此任務中面臨的持續挑戰。示例資料和原始碼可從以下網址獲得:https://github.com/aidantee/ MASS。
評論:該文章做的工作是:結合了特徵,WordNet資訊,POS標籤和Fastext的新穎word embedding方法。常規的方法有:position embeddings,biLSTMs,CNNs。
盔甲可以導電嗎?一個開卷問答的新資料集
http://aclweb.org/anthology/D18-1260
摘要:我們提出了一種新的問答資料集,OpenBookQA,以開放式書籍評測為模型,用於評估人類對主題的理解。我們的問題附帶的開放式書籍是一套1326個基礎科學事實。大約6000個問題探討了對這些事實及其在新場景中應用的理解。這需要將開放式書籍事實(例如,金屬能導電)與從其他來源獲得的普遍常識(例如,一套盔甲由金屬製成)結合起來。
雖然建立在文件或知識庫上現有的QA資料集通常是獨立的,專注於語言理解,但OpenBookQA對常識內容的主題和所需表達的語言進行了更深入的理解 。OpenBookQA的人類表現接近92%,但是許多最先進的預訓練QA方法的表現出奇差,比我們開發的幾個簡單的神經基線還差。我們的實驗目的是避免知識檢索瓶頸,同時展示了開放式書籍和其他事實的價值。目前,我們將其作為一個挑戰,來解決這個多跳設定中的檢索問題並嘗試縮小與人類表現的巨大差距。
評論:一個很好的自由文字語言推理資料集。
深度概率性邏輯:間接監督的統一框架
http://aclweb.org/anthology/D18-1215
摘要:由於深度學習表現出的出色的學習能力,已成為各種NLP任務的通用工具。但是它的適用性受到了註釋樣本的依賴限制,因為這些樣本難以大規模產生。間接監督已經成為解決這一瓶頸的最有希望的方法,要麼通過引入標籤函式來自動生成未標記文字的噪音樣本,要麼通過對相互依賴的標籤決策施加約束。雖然目前已經提出了許多解決這一問題的方法,但是每種方法都有各自的優點和侷限性。
概率邏輯提供了一種統一的語言來表示間接監督,但由於其難以推理和學習,因此使用概率邏輯的端到端建模通常是不可行的。在本文中,我們通過結合深度學習和概率邏輯,提出以深度概率邏輯(DPL)作為間接監督的通用框架。DPL模型將決策標記為隱變數,使用加權的一階邏輯公式表示其關係的先驗知識,並在深度神經網路和細化間接監督中不確定公式權重之間交替使用EM演算法。該框架將此前的間接監督方法作為特殊情況包含在內,並通過輸入豐富的領域和語言知識實現新的組合。生物醫學機器閱讀的實驗證明了這種方法的前瞻性。
評論:將邏輯推理與深度學習相結合!
生成自然語言對抗樣本
http://aclweb.org/anthology/D18-1316
摘要:深度神經網路(DNN)對對抗樣本的表現極為敏感,如果對正確分類的樣本的加入細微擾動就可能導致模型錯誤分類。在影象領域,這些擾動通常人類感知無法分辨,導致人類和最先進的模型都束手無策。然而,在自然語言領域中,細微擾動是明顯可感知的,而且單詞的替換可以極大地改變文件的語義。
鑑於目前存在的挑戰,我們使用基於黑盒子群體的優化演算法來生成語義和語法相似的對抗樣本,這些樣本“欺騙”經過良好訓練的情緒分析和文字內容模型,成功率分別達到了97%和70%。我們還證明了92.3%的成功的情緒分析對抗樣本被20個人類註釋者歸類為原始標籤,並且這些樣本明顯非常相似。最後,我們討論了使用對抗訓練作為“防禦者”的嘗試,但未能產生效能改善,表明了我們的對抗樣本的“抵抗力”和多樣性。我們希望研究結果能夠鼓勵研究人員在自然語言領域提升DNNS的魯棒性。
評論: 生成有意義的對抗樣本好方法。
最後,你可以在下面的連結找到EMNLP和CoNLL2018的全部論文。
EMNLP:https://aclanthology.coli.uni-saarland.de/events/emnlp-2018
CoNLL:https://aclanthology.coli.uni-saarland.de/events/conll-2018
相關報道:https://github.com/clulab/nlp-reading-group/blob/master/conference_summaries/emnlp2018.md