1. 程式人生 > >我們為你精心整理了2018年最重要的10項AI研究

我們為你精心整理了2018年最重要的10項AI研究

https://mp.weixin.qq.com/s/kQ0VFSh1HCqPwlKlGyS-QA

 

作者 | Mariya Mao

譯者 | 馬卓奇

編輯 | Natalie

AI 前線導讀: 想跟上 AI 研究的論文會讓人覺得這是徒勞無益的,因為這個領域發展得太迅速了,新論文層出不窮。光算 arXiv.org,AI 領域每週會更新 100 餘篇論文,這樣算下來一年就有 5000+ 新論文,要將這些論文全部看完無疑是天方夜譚。我們從 2018 年的海量 AI 論文中精心整理出了最重要的 10 篇,如果你沒有足夠的時間去看成堆的論文,那麼你可以從這篇文章開始看起,一睹今年 AI 研究的精華。本文是 AI 前線第 60 篇論文導讀,也是對今年 AI 論文的專題小結,希望可以對各位的工作有所幫助。

更多優質內容請關注微信公眾號“AI 前線”(ID:ai-front)

我們總結了 2018 年發表的 10 篇最重要的 AI 論文,大致概括了今年機器學習領域的進展。除了這 10 篇,今年還有很多具有突破性進展的論文,但是可以從這 10 篇開始看起。

1. UNIVERSAL LANGUAGE MODEL FINE-TUNING FOR TEXT CLASSIFICATION(文字分類的通用語言模型微調)

https://arxiv.org/abs/1801.06146

論文摘要

歸納式遷移學習對計算機視覺有很大的影響,但是現有的神經語言處理(NLP)方法仍然需要從零開始訓練,並且針對 NLP 任務進行修改。我們提出了通用語言模型微調(ULMFiT)方法,一種可以應用於 NLP 中所有任務的遷移學習方法,並介紹了微調語言模型的關鍵技術。我們的方法在六個文字分類任務上顯著優於現有技術,在大多數資料集上減少了 18%-24% 的誤差。此外,在僅有 100 個標記示例的情況下,它的表現與訓練資料超過 100 倍的情況不相上下。我們開源了預訓練模型和程式碼。

個人總結

作者在這篇論文中提出用預訓練模型來解決 NLP 問題。用作者的方法,不需要從頭開始訓練整個模型,而是隻需要微調原始模型。他們的通用語言模型微調(ULMFiT)方法超過了現有的結果,將誤差降低了 18%-24%。並且,只需要 100 個標註樣本,ULMFiT 就能達到在 10K 個標註樣本上訓練的模型的效果。

核心思想

  • 為了解決標註資料的缺乏,並使 NLP 分類更加簡單和高效,作者提出將遷移學習應用於 NLP 問題。不必從頭開始訓練模型,而是可以使用類似問題的預訓練模型作為基礎,然後微調原始模型以解決特定問題。

  • 然而,這種微調應該考慮幾個重要因素:

    • 由於不同的層捕獲不同的資訊,因此應該對它們進行不同程度的微調;

    • 讓學習率先線性增加,然後線性衰減,能夠讓模型引數更有效的適應特定任務;

    • 同時微調所有層可能導致災難性遺忘。因此,從最後一層開始逐步解凍模型會更好。

主要成果

  • 效能顯著超越現有方法:將誤差降低了 18%-24%。

  • 僅需要少量標註資料:僅需要 100 個標註樣本和 50000 個未標註樣本,ULMFiT 就可以達到其他方法在 100 倍資料量上進行訓練的效果。

AI 社群評價

  • 預訓練的 ImageNet 模型改變了計算機視覺領域。而 ULMFiT 方法對於 NLP 問題具有相同的重要意義。

  • 這種方法可以應用於任何語言中的任何 NLP 任務。來自世界各地的研究者們報告了該方法在多種語言任務中(包括德語、波蘭語、印地語、印尼語、漢語和馬來語)相對於現有技術有顯著提升。

未來研究內容

  • 改進語言模型的預訓練和微調。

  • 將這種新方法應用於新的任務和模型(例如,序列標籤、自然語言生成、蘊含或問題回答)。

潛在商業應用

  • ULMFiT 能夠更有效地解決 各種 NLP 問題:

    • 識別垃圾郵件、機器人、攻擊性評論;

    • 按特定特徵對文章分組;

    • 對正面和負面評論進行分類;

    • 查詢相關檔案等。

  • 這種方法可能可以應用於序列標記和自然語言生成。

2. OBFUSCATED GRADIENTS GIVE A FALSE SENSE OF SECURITY: CIRCUMVENTING DEFENSES TO ADVERSARIAL EXAMPLES(混淆梯度給人一種虛假的安全感:規避對抗樣本的防禦)

https://arxiv.org/abs/1802.00420

論文摘要

我們定義了混淆梯度,一種梯度掩模,是一種在防禦對抗樣本時導致虛假的安全感的現象。雖然導致混淆梯度的防禦方法看起來可以防禦基於迭代優化的攻擊,但我們發現依賴於這種效果的防禦是可以規避的。我們描述了表現出這種效果的防禦的特徵行為,並且對於我們發現的三種類型的混淆梯度,我們研究了對應的攻擊技術來克服它。在一個案例研究中,在檢查 ICLR 2018 未認證的白盒安全防禦時,我們發現混淆梯度是常見的情況,9 種防禦中有 7 種依賴於混淆梯度。我們的新攻擊在每篇論文的原始威脅模型中,成功地完全避開了 6 種防禦,部分避開 1 種防禦。

個人總結

研究人員發現,對抗樣本的防禦方法通常使用混淆梯度,這會產生虛假的安全性,因為這種防禦方法可以很容易被規避。這項研究描述了三種對抗混淆梯度的方法,並展示了哪些技術可以規避防禦。這些發現可以幫助那些使用基於混淆梯度的防禦方法的組織加強他們當前的防禦體系。

核心思想

  • 對抗混淆梯度有三種常用方法:

    • 破碎梯度是指由防禦者有意地 (通過不可微操作) 或無意地 (通過數值不穩定性) 引起的不存在或不正確的梯度;

    • 隨機梯度是由隨機防禦引起的;

    • 消失 / 爆炸梯度是在極深的神經網路測試中出現的。

  • 梯度出現問題可能有以下幾個表現:

    • 一步攻擊優於迭代攻擊;

    • 黑盒攻擊比白盒攻擊更有效;

    • 無界攻擊未達 100% 成功;

    • 隨機取樣查詢對抗例項;

    • 增加失真約束不會導致成功率的增加。

主要成果

  • 論文展示瞭如今使用的大多數防禦技術實際上都很脆弱:

    • ICLR2018 接收的 9 篇論文中有 7 篇都會引起混淆梯度。

    • 作者研究出的新的攻擊技術能夠成功完全規避 6 種防禦方法,部分規避 1 種防禦方法。

AI 社群評價

  • 該論文取得了 ICML2018(機器學習頂級會議)的最佳論文獎。

  • 該論文強調了 現在科技的優點和缺點。

未來研究內容

  • 用全面的評價方法來建立防禦機制,讓它們不僅可以防禦現有的攻擊方法,更可以防禦未來可能出現的攻擊方法。

潛在商業應用

  • 通過論文提出的方法,組織機構可以鑑別他們的防禦機制是否也是基於混淆梯度的,並更換成更魯棒的防禦方法。

3.DEEP CONTEXTUALIZED WORD REPRESENTATIONS(深度語境化詞表示)

https://arxiv.org/abs/1802.05365

論文摘要

我們介紹了一種新型的深度語境化的詞向量表示,可以對(1)詞語用法的複雜特徵(例如語法和語義),以及(2)這些用法如何在語言環境中變化(多義性)進行建模。我們的詞向量是從深度雙向語言模型(biLM)內部狀態中學習得到的函式,模型是在大型文字語料庫上預訓練的。我們發現這些詞表示可以很容易地加入現有模型,並且在六個具有挑戰性的 NLP 問題(問題回答、文字蘊涵和情感分析)上顯著超越現有方法。我們的分析表明揭示預訓練網路的內部是至關重要的,能夠讓下游模型混合不同型別的半監督訊號。

個人總結

艾倫人工智慧研究所的研究小組介紹了一種新型的深度語境化詞向量表示——從語言模型中得到的特徵向量(ELMo)。在 ELMo 增強模型中,每個單詞都是基於其整體語境進行向量化。在現有的 NLP 系統中新增 ELMo 能夠 1) 相對誤差減少 6%-20%,2) 訓練模型所需的時間顯著減少,3) 達到基線效能所需的訓練資料顯著減少。

核心思想

  • 用在較大語料庫上預訓練的深度雙向語言模型 (biLM) 的內部狀態的加權和生成詞向量。

  • 使用了來自 biLM 的所有層的表示,因為不同的層可以表示不同型別的資訊。

  • 基於字元構建 ELMo 的詞向量表示,以便網路能夠利用形態學線索“理解”訓練中未出現的詞條。

主要成果

  • 向模型中新增 ELMo 可以得到最優表現,在諸如問題回答、文字蘊涵、語義角色標記、共指解析、命名實體提取和情感分析等 NLP 任務中,相對誤差可以減少 6%-20%。

  • 用 ELMo 增強模型可以顯著減少達到最優效能所需的更新次數。因此,帶有 ELMo 的語義角色標註(SRL)模型只需要 10 個 epoch 就可以超過基線模型經過 486 個 epoch 訓練後達到的最優表現。

  • 向模型引入 ELMo 還顯著減少了實現相同效能水平所需的訓練資料量。例如,對於 SRL 任務,ELMo 增強模型只需要訓練集的 1% 就可以獲得與基準模型在 10% 的資料上進行訓練得到的相同效能。

AI 社群評價

  • 該論文獲得了 NAACL 會議(NLP 領域頂級會議)“傑出論文獎”。

  • 該論文中介紹的 ELMo 方法被認為是 2018 年最大的科學突破之一,以及 未來幾年 NLP 領域的主要議題。

未來研究內容

  • 通過將 ELMo 與獨立文字的詞向量表示進行連線,將該方法與特定任務相結合。

  • 進行 ELMo 與輸出結合的實驗

潛在商業應用

  • ELMo 顯著推進了現有 NLP 系統的表現:

    • 使聊天機器人更好地理解人類和回答問題;

    • 對正面和負面評論進行分類;

    • 查詢相關資訊和文獻等等。

4.AN EMPIRICAL EVALUATION OF GENERIC CONVOLUTIONAL AND RECURRENT NETWORKS FOR SEQUENCE MODELING(序列建模的通用卷積和遞迴網路的經驗評估)

https://arxiv.org/abs/1803.01271

論文摘要

對於大多數深度學習實踐者來說,序列建模是遞迴網路的代名詞。然而,最近的結果表明,卷積結構在諸如音訊合成和機器翻譯等任務上的表現超過了遞迴網路。給定一個新的序列建模任務或資料集,應該使用哪種體系結構?我們對用於序列建模的通用卷積和遞迴網路結構進行了系統評價。我們在標準任務上對模型進行評估,這些標準任務通常用於對遞迴網路進行基準測試。我們的結果表明,一個簡單的卷積結構在多種任務和資料集上的效能優於標準遞迴網路,如 LSTM,同時具有更長的記憶力。我們認為應該重新考慮序列建模和遞迴網路之間的共同關聯,卷積網路應該被選作序列建模任務的自然起點。我們已經開源了程式碼:http://github.com/locuslab/TCN。

個人總結

這篇論文的作者對一個常見假設提出了質疑,即迴圈網路結構通常是序列建模任務的預設起點。他們的結果表明,通用時間卷積網路(TCN)在序列建模任務中的表現超越了常規的迴圈網路結構,如長短時記憶網路(LSTM)和門控迴圈單元網路(GRU)。

核心思想

  • 時態卷積網路(TCN)使用了最新提出的最佳實踐(如膨脹卷積和殘差連線)設計,在序列建模任務中的表現顯著優於通用遞迴網路。

  • TCN 具有比遞迴結構更長的記憶力,因此更適合需要長曆史的任務。

    主要成果

  • 對序列建模任務中的卷積結構和遞迴結構進行了廣泛的系統比較。

  • 設計了一個卷積結構,可以作為序列建模任務的便捷且仍然強大的起點。

    AI 社群評價

  • “永遠在使用 RNN 之前嘗試一下 CNN,你會驚訝於你所獲得的結果。”——Andrej Karpathy,Tesla AI 總監。

未來研究內容

  • 需要進一步的改進結構和演算法細節來提高 TCN 在不同序列建模任務中的效能。

潛在商業應用

  • TCN 提升了依靠遞迴結構完成序列建模任務的 AI 系統的表現。因此潛在應用包括:

    • 機器翻譯;

    • 語音識別;

    • 音樂和聲音合成。

5.DELAYED IMPACT OF FAIR MACHINE LEARNING(合理機器學習的延遲影響)

https://arxiv.org/abs/1803.04383

論文摘要

機器學習中的公平性主要在靜態分類設定中進行研究,而不關心決策會如何隨時間改變潛在的人群。傳統智慧認為,公平標準應該促進他們意圖保護的群體的長期福祉。

我們研究靜態公平標準如何與幸福感的時間指標相互作用,如利益變數長期的改善、停滯、以及衰退。我們證明,即使在一步反饋模型中,普通的公平性標準一般來說並不會隨時間而帶來改善,而實際上可能造成損害,而不受約束的目標則不會。我們完整地總結了三個標準規則的延遲影響,對比了這些規則在質量上表現出的不同行為。此外,我們發現,測量誤差的自然形式拓寬了公平性準則能夠良好執行的範圍。

我們的結果強調了測度和時間建模在公平標準評估中的重要性,提出了一系列新的挑戰和取捨。

個人總結

這篇文章的目標是在使用基於分數的機器學習演算法來決定誰獲得機會(例如貸款、獎學金、工作)以及誰不能獲得機會時,確保不同人口統計群體的公平對待。來自伯克利人工智慧研究實驗室的研究人員表明,使用共同的公平標準實際上可能會由於某些延遲的結果而傷害到未被充分代表或處於不利地位的群體。因此,在設計一個“公平”的機器學習系統時,他們鼓勵人們著眼於長期的結果。

核心思想

  • 考慮實施公平標準的延遲結果顯示,這些標準可能對其意圖保護的那些群體的長期福祉產生不利影響(例如,當借款人無法償還在無約束設定下本不予發放的貸款時,使借款人的信用評分惡化。)

  • 由於公平標準可能會主動傷害弱勢群體,解決辦法可以是使用決策規則,包括結果的顯式最大化,或者使用結果模型。

主要成果

  • 提出諸如人口均等和機會均等之類的公平標準會導致弱勢群體的任何可能結果,包括改善、停滯和衰退。而遵循機構的最佳無約束選擇政策 (例如利潤最大化),則永遠不會為弱勢群體帶來衰退的效果(主動危害)。

  • 通過 FICO 信用評分資料實驗支援理論預測。

  • 提出了硬公平約束的替代方案。

AI 社群評價

  • 該論文獲得了 ICML2018(機器學習頂級會議)最佳論文獎。

  • 該研究揭示了 正向判別有時也有可能適得其反。

未來研究內容

  • 考慮除人口均值變化之外的其他影響(方差、個體級別的結果)。

  • 研究結果優化對建模和衡量誤差的魯棒性。

潛在商業應用

  • 通過由公平規則帶來的約束轉換為對結果建模,公司可以開發用於借貸或招聘的機器學習系統,在帶來更多利潤的同時保持公平性。

6. WORLD MODELS(世界模型)

https://arxiv.org/abs/1803.10122

論文摘要

我們探索在流行的強化學習環境建立的生成神經網路模型。我們提出的世界模型可以用無監督的方式快速訓練,以學習環境的壓縮空間和時間表示。通過使用從世界模型中提取的特徵作為代理的輸入,我們可以訓練一個非常緊湊和簡單的策略來解決既定任務。我們甚至可以完全在代理的世界模型生成的空間中訓練代理,並將這一策略遷移到實際環境中。這篇論文的互動式版本可以在 https://worldmodels.github.io 檢視。

個人總結

作者開發了一個世界模型,該模型可以用無監督的方式快速訓練,來學習環境的空間和時間表示。在賽車任務中,這個代理成功地在賽道上導航,並在 VizDom 實驗中避免了怪物射出的火球。這些任務對於以前的方法來說太具有挑戰性。

核心思想

  • 該解決方案由三個不同的部分組成:

    • 一種用於捕獲視覺資訊的變分自動編碼器(VAE)。它將 RGB 輸入影象壓縮為遵循高斯分佈的 32 維隱向量。因此,代理可以使用更小的向量表示,也因此可以達到更高效的學習。

    • 負責正向思維的遞迴神經網路(RNN)。這是一個記憶元件,它根據前面的圖片和之前的動作預測由視覺化元件捕獲的下一幅圖片。

    • 一個 負責選擇動作(action)的控制器。這是一個簡單的神經網路,將 VAE 的輸出和 RNN 的隱藏狀態連線起來並選擇好的動作。

主要成果

  • 這是首個能夠解決強化學習環境中“賽車”任務的代理。

  • 研究證明了在模擬的隱空間內訓練代理執行任務的可能性。

AI 社群評價

  • 這篇論文在學術界引起了熱烈的討論,在強化學習中利用神經網路,並且在代理 自己構建的“盜夢空間” 中進行訓練,是一個很棒的工作。

未來研究內容

  • 通過將小的 RNN 替換為更高容量的模型或合併外部儲存器模組,使代理能夠探索更復雜的世界。

  • 用更通用的方法進行實驗,該方法允許層級規劃,而不是這裡提出的“時間序列”方法。

潛在商業應用

  • 當執行計算密集型遊戲引擎時,現在可以在其模擬環境中根據需要多次訓練代理,而不是在實際環境中浪費大量計算資源來訓練代理。

7. TASKONOMY: DISENTANGLING TASK TRANSFER LEARNING(任務學:理解任務遷移學習)

https://arxiv.org/abs/1804.08328

論文摘要

視覺任務之間有關係嗎?或者它們是無關的?例如,表面法線可以被用來簡化估計影象的深度嗎?直覺給出了積極答案,這也意味著視覺任務之間存在著一種結構。掌握這種結構是意義重大的:它是遷移學習的基礎概念,並且為識別任務之間的冗餘性提供了一種原則性的方法,例如,它允許我們在相關任務之間的無縫重複使用監督資訊,或者在一個系統中解決多個任務而不增加複雜性。

我們提出了一個計算性的方法來模擬視覺任務的空間結構。通過從 26 個 2D、2.5D、3D 和隱空間的語義任務字典中提取遷移學習的相關性關係來完成的。我們得到的是任務遷移學習的計算分類圖。我們研究了這種結構的作用,例如非平凡的出現關係,並利用它們來減少對標註資料的需求。例如,解決一組 10 項任務所需的標註資料點的總數可以減少大約 2/3(與獨立訓練相比),同時保持效能幾乎相同。我們提供了一組用於計算和探測這個分類結構的工具,包括解決方案,使用者可以用來為他們的用例設計高效的監督策略。

個人總結

自從現代電腦科學的早期時代,許多研究人員就認為視覺任務之間存在一種結構關係。現在 Amir Zamir 和他的團隊試圖找到這個結構。他們使用完全計算的方法對其進行建模,發現不同視覺任務之間存在許多有用的關係,包括複雜任務。利用這些相互依存性,可以在標註資料量減少 2/3 的情況下實現相同的模型效能。

核心思想

  • 如果模型掌握了不同視覺任務之間的關係,那麼它只需要較少的監督,使用較少的計算,並且其表現更易預測。

  • 最好採用完全計算的方法來發現視覺任務之間的關係,因為它避免了強加的先驗,以及可能錯誤的假設:先驗知識來源於人類的直覺或知識,而神經網路的表現可能基於不同的原則。

主要成果

  • 識別 26 個常見視覺任務之間的關係,例如目標識別、深度估計、邊緣檢測和姿態估計。

  • 展示這種結構如何幫助 發現對每個視覺任務最有效的遷移學習型別。

AI 社群評價

  • 這篇論文獲得了 CVPR2018(計算機視覺頂級會議)最佳論文獎

  • 這篇論文的結果十分重要,因為對於大多數真實場景的任務來說,沒有 可用的大規模標註資料集。

未來研究內容

  • 擺脫完全由人類定義的視覺任務模型,並嘗試將人類定義的視覺任務視為由計算髮現的潛在子任務組成的觀察樣本。

  • 探索將研究結果遷移到不完全視覺任務的可能性,例如機器人操作。

    潛在商業應用

  • 本文中發現的關係可用於構建更有效的視覺系統,需要標註資料更少,計算成本更低。

8. KNOW WHAT YOU DON’T KNOW: UNANSWERABLE QUESTIONS FOR SQUAD(知道你不知道的事:無法回答問題資料集 SQuAD)

https://arxiv.org/abs/1806.03822

論文摘要

摘要式閱讀理解系統通常可以在文件中找到問題的正確答案,但是對於文中沒有直接給出正確答案的問題,它們往往會做出不可靠的猜測。現有的資料集要麼只關注能夠回答的問題,要麼使用自動生成的易於識別但難以回答的問題。為了解決這些缺點,我們提出了 SQuAD 2.0,斯坦福問答資料集(SQuAD)的最新版本。SQuAD 2.0 將現有的 SQuAD 資料與 5 萬多個無法回答的問題結合在一起,這些問題由工作人員用相反的方式撰寫,看起來與可答問題類似。為了在 SQuAD 2.0 上取得良好表現,系統不僅必須儘可能回答問題,而且還必須確定上下文沒有給出答案的情況,並且避免回答。SQuAD 2.0 對於現有模型來說是一個具有挑戰性的自然語言理解任務:在 SQuAD 1.1 資料集上 F1 評分達到 86% 的強神經系統,在 SQuAD 2.0 上 F1 評分僅達到 66%。

個人總結

斯坦福大學的一個研究小組擴充套件了著名的斯坦福問題回答資料集(SQuAD),增加了 50000 多個無法回答的問題。這些問題的答案在支援段落中沒有直接給出,但是這些問題看起來與可回答的問題很像。甚至有些支援段落包含合理的(但不正確的)答案。這使得新的 SQuAD 2.0 對現有最先進的模型極具挑戰性:在引入無法回答的問題之後,在之前版本的 SQuAD 資料集上達到 86% 準確率的強神經系統只能在新的資料集上得到 66% 的準確率。

核心思想

  • 當前的自然語言理解(NLU)系統離真正的語言理解還很遠,其根源之一是現有的問答資料集中的問題一定能在上下文中找到正確答案。

  • 要真正具有挑戰性,應該建立不可回答的問題資料集:

    • 它們與相關段落有關;

    • 該段落包含貌似合理的答案,其中包含與問題型別相同的資訊,但是是不正確的。

主要成果

  • 在原有 SQuAD 資料集上增加了 53777 個新的、無法回答的問題,構建了一個具有挑戰性的大規模資料集,使自然語言理解(NLU)系統瞭解哪些問題無法回答。

  • 為 NLU 系統帶來新的挑戰:現有模型(準確率為 66%)與基線精度(48.9%)更接近,而與人類精度(89.5%)更遠。

  • 貌似合理的答案確實是 NLU 系統的有效干擾源。

AI 社群評價

  • 該論文被計算語言學協會(ACL)評選為 2018 年最佳短篇論文。

  • 新的資料集增加了 NLU 領域複雜性,並且對 該領域的研究 產生了巨大的推動力。

未來研究內容

  • 開發新的模型,“知道他們不知道什麼”,更好地理解自然語言。

    潛在商業應用

  • 在真實場景中,一些問題的答案一般都不能直接從原文中得到。在這個資料集上訓練閱讀理解模型能夠提升模型在真實場景下的表現。

9. LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS(用於高精度自然影象合成的大規模 GAN 訓練)

https://arxiv.org/abs/1809.11096

論文摘要

儘管最近生成影象模型取得了一定進展,但是從諸如 ImageNet 之類的複雜資料集中成功生成高解析度且具有多樣性的樣本仍然是一個難以實現的目標。為此,我們訓練了迄今為止規模最大的生成對抗網路,並研究了在這種規模下特有的不穩定性。我們發現,對生成器應用正交正則化使其能夠服從簡單的“截斷技巧”,可以通過隱空間的截斷來精細控制樣本保真度和多樣性之間的權衡。我們的模型在類別條件影象合成任務中達到了最先進水平。當在 ImageNet 上以 128×128 解析度進行訓練時,我們的模型(BigGAN)的起始分數(IS)為 166.3,Frechet 起始距離(FID)為 9.6,比之前的最優 IS 52.52 和 FID18.65 有了顯著提升。

個人總結

DeepMind 團隊發現,當前的技術足以從現有資料集,例如 ImageNet 和 JFT-300M 中合成高解析度且多樣化的影象。他們特別指出,如果在大規模資料集上進行訓練,生成對抗網路 (GANs) 可以生成看起來非常逼真的影象,即使這意味著用到比以前實驗多 2 到 4 倍的引數和 8 倍的批尺寸。這些大規模的 GAN,或 BigGAN,達到了類別條件影象合成的最先進水平。

核心思想

  • 當增加批尺寸和引數數量時,GAN 的表現也會大幅提高。

  • 對生成器應用正交正則化約束可以讓模型響應特定的技術(截斷技巧),該技術可用於控制樣本保真度和多樣性之間的權衡。

主要成果

  • 證明 GAN 可以從規模擴充套件中獲益。

  • 構建允許顯式、細粒度地控制樣本多樣性和保真度之間權衡的模型。

  • 發現了大規模 GAN 的不穩定性並且將其特徵化。

  • BigGAN 用 ImageNet 128×128 解析度影象進行訓練:初始得分(IS)為 166.3,之前的最佳 IS 為 52.52;Frechet Inception Distance (FID) 為 9.6,之前最好的 FID 為 18.65。

AI 社群評價

  • 該論文投稿至 ICLR 2019

  • 自從 TF Hub 上線 BigGAN 生成器後,全世界的 AI 領域研究人員用 BigGAN 生成了狗、手錶、比基尼、蒙娜麗莎、海岸和很多其他主題影象。

未來研究內容

  • 用更大的資料集來減輕 GAN 的穩定性問題。

  • 探索減少 GAN 產生奇怪樣本數量的可能性。

潛在商業應用

  • 取代廣告和電子商務中昂貴的手工媒體創作。

10. BERT: PRE-TRAINING OF DEEP BIDIRECTIONAL TRANSFORMERS FOR LANGUAGE UNDERSTANDING(BERT:用於語言理解的深度雙向轉換器預訓練)

https://arxiv.org/abs/1810.04805

論文摘要

我們介紹了一種新的語言表示模型,稱為 BERT,表示轉換器的雙向編碼器表示(Bidirectional Encoder Representations from Transformers)。與最近的語言表示模型不同,BERT 在所有層中聯合前後上下文來預訓練深度雙向表示。只需要一個額外的輸出層,就可以對預訓練的 BERT 表示進行微調,從而為各類任務建立最先進的模型,例如問題回答和語言推理,而無需對特定任務的體系結構進行大量修改。

BERT 概念簡單,但經驗強大。它在 11 個自然語言處理任務中獲得了最佳結果,包括將 GLUE 基準提升到 80.4%(7.6% 的絕對增長)、MultiNLI 精度提升至到 86.7(5.6% 的絕對增長),以及 SQuAD v1.1 問題回答測試的 F1 分數提高到 93.2(1.5% 的絕對增長),超過了人類水平 2.0%。

個人總結

谷歌 AI 團隊提出了一個新的前沿自然語言處理模型 BERT。它的設計允許模型從左右兩邊考慮每個單詞的上下文。在概念簡單的同時,BERT 在 11 個 NLP 任務上獲得了最先進的結果,這些任務包括回答問題、命名實體識別以及其他與語言理解相關的任務。

核心思想

  • 通過隨機遮蔽一定比例的輸入詞條來訓練深層雙向模型,可以避免 單詞可以間接“看到自己”的迴圈。

  • 預訓練語句關係模型,通過構建一個簡單的二元分類任務,預測句子 B 是否緊跟著句子 A,從而讓 BERT 更好地理解語句之間的關係。

  • 訓練一個非常大的模型(24 個 Transformer 塊,1024 隱層,340M 引數)和大量資料(33 億詞語料庫)。

主要成果

  • 在 11 項 NLP 任務上達到了最先進水平:

    • GLUE 分數達到 80.4%,比之前的最佳結果提升 7.6%;在 SQuAD 1.1 上的準確率達到 93.2%,超過人類水平 2%。

  • 提出一個預訓練的模型,它不需要任何實質性的架構修改就可以應用於特定的 NLP 任務。

AI 社群評價

  • BERT 模型代表著 NLP 的新時代。

  • 兩個 無監督任務一起訓練(“填空”和“句子 B 是不是緊接句子 A”)對於很多 NLP 任務都取得了很好的結果。

  • 預訓練語言模型 成為新標準。

未來研究內容

  • 在更多工上測試模型。

  • 研究 BERT 能或不能捕捉到的語言學現象。

潛在商業應用

  • BERT 可以幫助企業解決大量 NLP 問題:

    • 提升聊天機器人的使用者體驗;

    • 分析顧客點評;

    • 查詢相關資訊。

檢視英文原文:

https://www.topbots.com/most-important-ai-research-papers-2018/