自然語言處理頂級會議EMNLP2016最佳論文出爐

自然語言頂級會議EMNLP2016（Conference on Empirical Methods in Natural Language Processing，自然語言處理實證方法大會）即將在美國召開，最佳論文，榮譽最佳論文，最佳短篇論文及最佳資源論文現已公開，機器之心編譯并與大家分享。論文下載請點擊文末網盤鏈接。

最佳論文：

Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning

摘要：大部分成功的信息提取系統運行時都接入一個大型的文件集。在這個研究中，我們探索了獲取并結合外部證據的任務，以在訓練數據量稀缺的領域中提高提取的精確度，這個過程需要重復發布搜索查詢，從新的來源中提取以及使提取值一致，直到收集到足夠的證據。我們使用強化學習框架來解決這個問題，在此框架中，我們的模型可以學習基于上下文來選擇最優行動。我們應用了一個深度 Q-network，訓練它來優化能反應提取精度同時還能懲罰多余工作的獎勵函數。我們的試驗用到了兩個數據庫——槍擊事件數據和食品摻假情況數據——證明了我們的系統明顯優于傳統的提取器和一個元分類基準。

2.Global Neural CCG Parsing with Optimality Guarantees

摘要：我們介紹了第一種全局遞歸神經解析模型，它是實時解碼的最佳保證。為了支持全局特性，我們放棄了動態程序，用直接在所有可能子樹中搜索的方式代替。盡管這樣會導致句長指數性地增長，我們展示了達到學習效率 A 解析器的可能性。我們增大了已知解析模型，它存在外界評分的信息界限，通過一個寬松界限并只需非局性現象建模的全局模型。全局模型因此在新的目標下進行訓練，這可以鼓勵解析器更精確有效地進行搜索。這種方式適用于 CCG 解析，通過 0.4F1 獲得了可觀的精確性提升。解析器可為 99.9% 的停止句（held-out sentence）找到最佳解析，僅需搜索平均 190 個子樹。

最佳論文榮譽提名

1.Span-Based Constituency Parsing with a Structure-Label System and Provably Optimal Dynamic Oracles

摘要：由于神經網絡的出現，使用有效的轉換系統的解析精確度已得到巨大提升。盡管依存關系語法分析的結果驚人，神經模型還沒有超過 constituency 分析中的最佳方法。為了彌補這個缺陷，我們引進了一個新的位移減少系統，該系統的堆棧只包含了句子跨度，通過最低限度的長短期記憶網絡特征來表征。我們還為 constituency 分析方法設計出首個可查驗的最優的 dynamic oracle，相比于進行依存分析的 O(n3)oracles，它在 amortized O(1)time 內運行。在此 Oracle 上訓練，我們在英語和法語中任何不適用 reranking 和外部數據的解析器上，都取得了最好的 F1 得分。

2.Sequence-to-Sequence Learning as Beam-Search Optimization

摘要：Sequence-to-Sequence（seq2seq）建模已經成為了一種重要的多用途自然語言處理工具，它已被證明在很多文本生成和排序任務中被證明有效。Seq2seq 建立在深度神經語言建模之上，并在局部的下一個詞分布的估計中延續了其良好的精確度。在本研究中，我們介紹了一種模型和訓練方式，基于 Daum'e III 和 Marcu（2005）的成果，同時擴展了 seq2seq 方式，使它可以學習全局序列分數。這種結構方式在證明了已有 seq2seq 模型架構能夠進行有效訓練的情況下，避免了傳統方式上局部訓練（local training）的常見偏差，同時通過測試使用時間使訓練損失一致。我們發現與高度優化的基于注意的 seq2seq 系統以及其他系統相比，在三種不同的 sequence to sequence 任務中（詞序，解析和機器翻譯），我們的系統存在明顯優勢。

最佳短篇論文：

Learning a Lexicon and Translation Model from Phoneme Lattices

摘要：語言文件始于對語音的收集。在詞上的手動或自動轉錄幾乎不可能實現，因為缺乏正字法（orthography）或先前詞匯，而且盡管手動音素轉錄是可能的，卻相當的慢。此外，將小語種轉譯為主要語言更容易掌握。我們提出一種方法能掌握這樣的翻譯技能，從而改進自動音素識別。該方法假設沒有先前詞匯或翻譯模型，而是從音素網格和被轉錄的語音翻譯中進行學習。實驗表明在兩個基線上對音素錯誤率有了極大改進，也改進了該模型學習有用雙語詞匯入構項的能力。

最佳資源論文：

SQuAD: 100,000 Questions for Machine Comprehension of Text

摘要：我們展現了斯坦福問答數據集（SQuAD），這是一個新的包含 10 萬條問題的閱讀理解數據集，由眾包工作人員在一系列 Wikipedia 文章上提出，面向每個問題的答案是相應閱讀文章的分割文本。我們分析了該數據集來理解回答這些問題所需的推理類型，及其依賴 dependency 和 constituency 樹。我們建立了一個邏輯回歸模型，取得了 51% 的 F1 得分，這是對基線成果（20%）的極大改進。然而，人類水平卻更高（86.8%），表明該數據集展示了未來研究的一大挑戰。數據集免費開放地址： https://stanford-qa.com/。

論文下載網盤： http://pan.baidu.com/s/1jIqG1P8

Tags: 自然語言處理

文章來源：http://www.jiqizhixin.com/article/1639

自然語言處理頂級會議EMNLP2016最佳論文出爐

最佳論文：

最佳論文榮譽提名

最佳短篇論文：

最佳資源論文：

相關文章