NAACL 2019最佳論文揭曉,谷歌BERT獲最佳長論文
以下是機器之心對獲獎論文的摘要介紹,其中最佳可解釋 NLP 論文還未公開。
最佳專題論文(Best Thematic Paper)
-
What's in a Name? Reducing Bias in Bios Without Access to Protected Attributes
-
作者:Alexey Romanov, Maria De-Arteaga, Hanna Wallach, Jennifer Chayes, Christian Borgs, Alexandra Chouldechova, Sahin Geyik, Krishnaram Kenthapadi, Anna Rumshisky and Adam Kalai(CMU、微軟研究院、領英)
-
論文連結:https://128.84.21.199/abs/1904.05233
摘要:越來越多的研究提出了減少機器學習系統中偏見的方法。這些方法通常依賴於對受保護屬性(如人種、性別或年齡)的獲取。然而,這引發了兩大問題:1)受保護的屬性可能無法獲取或不能合法使用;2)通常需要同時考慮多個受保護屬性及其交集。為了減少職業分類中的偏見,本文作者提出了一種可以抑制某人真實職業預測概率與其姓名詞嵌入之間關係的方法。
該方法利用了編碼在詞嵌入中的社會偏見,消除了對受保護屬性的需要。重要的是,該方法僅在訓練時需要獲取人名,部署時並不需要。作者使用一個大型的線上傳記資料集評估了該方法的兩種變體,發現二者都能同時減少種族和性別偏見,而且幾乎不降低分類器的真正率(true positive rate)。
最佳可解釋 NLP 論文
-
CNM: An Interpretable Complex-valued Network for Matching
-
作者:Qiuchi Li, Benyou Wang and Massimo Melucci
-
論文連結:https://arxiv.org/abs/1904.05298
最佳長論文
-
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
-
作者:Jacob Devlin, Ming-Wei Chang, Kenton Lee and Kristina Toutanova(谷歌 AI)
-
論文連結:https://arxiv.org/pdf/1810.04805.pdf
摘要:本文介紹了一種新的語言表徵模型 BERT ,意為來自 Transformer 的雙向編碼器表徵(Bidirectional Encoder Representations from Transformers)。與最近的語言表徵模型(Peters et al., 2018; Radford et al., 2018)不同,BERT旨在基於所有層的左、右語境來預訓練深度雙向表徵。因此,預訓練的BERT表徵可以僅用一個額外的輸出層進行微調,進而為很多工(如問答和語言推斷任務)建立當前最優模型,無需對任務特定架構做出大量修改。
BERT的概念很簡單,但實驗效果很強大。它重新整理了 11 個 NLP 任務的當前最優結果,包括將 GLUE基準提升至 80.4%(7.6% 的絕對改進)、將 MultiNLI 的準確率提高到 86.7%(5.6% 的絕對改進),以及將 SQuAD v1.1 的問答測試 F1 得分提高至 93.2 分(提高 1.5 分)——比人類表現還高出 2 分。
BERT、OpenAIGPT 和ELMo的預訓練模型架構對比。
參考文章:
最佳短論文
-
Probing the Need for Visual Context in Multimodal Machine Translation
-
作者:Ozan Caglayan, Pranava Madhyastha, Lucia Specia and Loïc Barrault(勒芒大學、帝國理工學院)
-
論文連結:https://arxiv.org/abs/1903.08678
摘要:當前關於多模態機器翻譯(MMT)的研究表明,視覺模態要麼是非必需的,要麼作用有限。本文作者假設這是因為該任務唯一可用資料集 Multi30K 使用的句子太簡單、簡短和重複,這些語句將源文字渲染為充分的語境。然而,通常情況下,我們認為可以將視覺和文字資訊結合起來,以實現基礎翻譯(ground translation)。
本文通過系統的分析來探討視覺模態對當前最佳 MMT 模型的貢獻,分析時作者部分地刪除了源文字語境,使模型無法接收到完整的文字。結果表明,在有限的文字語境下,模型能夠利用視覺輸入生成更好的翻譯結果。當前的研究認為視覺模態對 MMT 模型來說並不重要,要麼是因為影象特徵的質量,要麼是因為將它們整合進模型的方式,但本研究顛覆了這一看法。
最佳資源論文
-
CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge
-
作者:Alon Talmor, Jonathan Herzig, Nicholas Lourie and Jonathan Berant(以色列特拉維夫大學、艾倫人工智慧研究所)
-
論文連結:https://arxiv.org/abs/1811.00937
摘要:人們通常利用豐富的世界知識和特定語境來回答問題。近期研究主要聚焦於基於關聯文件或語境來回答問題,對基礎知識幾乎沒有要求。為了研究使用先驗知識的問答,我們提出了一個關於常識問答的新型資料集 CommonsenseQA。為了捕捉關聯之外的常識,我們從 ConceptNet (Speer et al., 2017) 中抽取了多個目標概念,它們與某個源概念具備同樣的語義關係。
我們讓眾包工人編寫提及源概念的選擇題,並區分每個目標概念之間的差別。這鼓勵眾包工人編寫具備複雜語義的問題,而問答這類問題通常需要先驗知識。我們通過該步驟建立了 12,247 個問題,並用大量強基線模型做實驗,證明該新型資料集是有難度的。我們的最優基線基於BERT-large (Devlin et al., 2018),獲得了 56% 的準確率,低於人類準確率(89%)。
構建 CommonsenseQA 資料集的過程示例。
表 5: 所有模型的測試集準確率。
NAACL 論文接收列表: https: //naacl2019.org/program/accepted/