自然語言處理頂級會議EMNLP2016最佳論文出爐

分類:技術 時間:2016-10-18

自然語言頂級會議EMNLP2016(Conference on Empirical Methods in Natural Language Processing,自然語言處理實證方法大會)即將在美國召開,最佳論文,榮譽最佳論文,最佳短篇論文及最佳資源論文現已公開,機器之心編譯并與大家分享。論文下載請點擊文末網盤鏈接。

最佳論文:

  1. Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning

摘要:大部分成功的信息提取系統運行時都接入一個大型的文件集。在這個研究中,我們探索了獲取并結合外部證據的任務,以在訓練數據量稀缺的領域中提高提取的精確度,這個過程需要重復發布搜索查詢,從新的來源中提取以及使提取值一致,直到收集到足夠的證據。我們使用強化學習框架來解決這個問題,在此框架中,我們的模型可以學習基于上下文來選擇最優行動。我們應用了一個深度 Q-network,訓練它來優化能反應提取精度同時還能懲罰多余工作的獎勵函數。我們的試驗用到了兩個數據庫——槍擊事件數據和食品摻假情況數據——證明了我們的系統明顯優于傳統的提取器和一個元分類基準。

2.Global Neural CCG Parsing with Optimality Guarantees

摘要:我們介紹了第一種全局遞歸神經解析模型,它是實時解碼的最佳保證。為了支持全局特性,我們放棄了動態程序,用直接在所有可能子樹中搜索的方式代替。盡管這樣會導致句長指數性地增長,我們展示了達到學習效率 A 解析器的可能性。我們增大了已知解析模型,它存在外界評分的信息界限,通過一個寬松界限并只需非局性現象建模的全局模型。全局模型因此在新的目標下進行訓練,這可以鼓勵解析器更精確有效地進行搜索。這種方式適用于 CCG 解析,通過 0.4F1 獲得了可觀的精確性提升。解析器可為 99.9% 的停止句(held-out sentence)找到最佳解析,僅需搜索平均 190 個子樹。

最佳論文榮譽提名

1.Span-Based Constituency Parsing with a Structure-Label System and Provably Optimal Dynamic Oracles

摘要:由于神經網絡的出現,使用有效的轉換系統的解析精確度已得到巨大提升。盡管依存關系語法分析的結果驚人,神經模型還沒有超過 constituency 分析中的最佳方法。為了彌補這個缺陷,我們引進了一個新的位移減少系統,該系統的堆棧只包含了句子跨度,通過最低限度的長短期記憶網絡特征來表征。我們還為 constituency 分析方法設計出首個可查驗的最優的 dynamic oracle,相比于進行依存分析的 O(n3)oracles,它在 amortized O(1)time 內運行。在此 Oracle 上訓練,我們在英語和法語中任何不適用 reranking 和外部數據的解析器上,都取得了最好的 F1 得分。

2.Sequence-to-Sequence Learning as Beam-Search Optimization

摘要:Sequence-to-Sequence(seq2seq)建模已經成為了一種重要的多用途自然語言處理工具,它已被證明在很多文本生成和排序任務中被證明有效。Seq2seq 建立在深度神經語言建模之上,并在局部的下一個詞分布的估計中延續了其良好的精確度。在本研究中,我們介紹了一種模型和訓練方式,基于 Daum'e III 和 Marcu(2005)的成果,同時擴展了 seq2seq 方式,使它可以學習全局序列分數。這種結構方式在證明了已有 seq2seq 模型架構能夠進行有效訓練的情況下,避免了傳統方式上局部訓練(local training)的常見偏差,同時通過測試使用時間使訓練損失一致。我們發現與高度優化的基于注意的 seq2seq 系統以及其他系統相比,在三種不同的 sequence to sequence 任務中(詞序,解析和機器翻譯),我們的系統存在明顯優勢。

最佳短篇論文:

Learning a Lexicon and Translation Model from Phoneme Lattices

摘要:語言文件始于對語音的收集。在詞上的手動或自動轉錄幾乎不可能實現,因為缺乏正字法(orthography)或先前詞匯,而且盡管手動音素轉錄是可能的,卻相當的慢。此外,將小語種轉譯為主要語言更容易掌握。我們提出一種方法能掌握這樣的翻譯技能,從而改進自動音素識別。該方法假設沒有先前詞匯或翻譯模型,而是從音素網格和被轉錄的語音翻譯中進行學習。實驗表明在兩個基線上對音素錯誤率有了極大改進,也改進了該模型學習有用雙語詞匯入構項的能力。

最佳資源論文:

SQuAD: 100,000 Questions for Machine Comprehension of Text

摘要:我們展現了斯坦福問答數據集(SQuAD),這是一個新的包含 10 萬條問題的閱讀理解數據集,由眾包工作人員在一系列 Wikipedia 文章上提出,面向每個問題的答案是相應閱讀文章的分割文本。我們分析了該數據集來理解回答這些問題所需的推理類型,及其依賴 dependency 和 constituency 樹。我們建立了一個邏輯回歸模型,取得了 51% 的 F1 得分,這是對基線成果(20%)的極大改進。然而,人類水平卻更高(86.8%),表明該數據集展示了未來研究的一大挑戰。數據集免費開放地址: https://stanford-qa.com/。

論文下載網盤: http://pan.baidu.com/s/1jIqG1P8


Tags: 自然語言處理

文章來源:http://www.jiqizhixin.com/article/1639


ads
ads

相關文章
ads

相關文章

ad