1. 程式人生 > >年度必讀:2018最具突破性人工智慧論文Top 10

年度必讀:2018最具突破性人工智慧論文Top 10

 

文章釋出於公號【數智物語】 (ID:decision_engine),關注公號不錯過每一篇乾貨。

 

 

 

來源 | topbots.com、Reddit

轉自 | 新智元

 

 

本文總結了2018年以來最重要的10篇AI研究論文,讓你對今年機器學習的進展有一個大致的瞭解。當然,還有很多具有突破性的論文值得一讀,但本文作者認為這是一個很好的目錄,你可以從它開始。

 

今天,Reddit上的一條帖子火了:

 

對於初學者來說,在機器學習和人工智慧領域必須的論文有哪些?

 

想必這個問題引起了許多人的共鳴。

 

網友推薦的Statistical Modeling: The Two Cultures大受好評,強調經典統計資料和ML預測/建模之間的重要區別。 

 

https://projecteuclid.org/euclid.ss/1009213726

 

也有網友表示,對於初學者,最好還是可以從書籍入手,而不是文獻。並推薦了Norvig & Russell的Artificial Intelligence,以及Goodfellow的Deep Learning 。並強調若是沒有良好的基礎,直接讀單個的論文是十分困難的,因為論文通常在頁數上是有限的,所以在上下文理解上還是有一定侷限性。

 

而近期,作者Mariya Yao在Topbots上發表一篇文章,對今年AI論文Top10做了大盤點。

 

考慮到AI領域的快速發展,試圖跟上AI的最新研究可能非常困難。如果你埋頭於那些你還沒來得及閱讀的論文,那麼本文能助你一力。

 

為了幫助你趕上進度,我們總結了2018年以來最重要的10篇AI研究論文,讓你對今年機器學習的進展有一個大致的瞭解。當然,還有很多具有突破性的論文值得一讀,但我們認為這是一個很好的列表,你可以從它開始。

 

此外,我們計劃在未來幾周釋出自然語言處理(NLP)和計算機視覺方面的重要論文,敬請期待。

 

以下是我們推薦的2018必讀Top 10論文:

 

Universal Language Model Fine-tuning for Text Classification

Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

Deep Contextualized Word Representations

An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling

Delayed Impact of Fair Machine Learning

World Models

Taskonomy: Disentangling Task Transfer Learning

Know What You Don’t Know: Unanswerable Questions for SQuAD

Large Scale GAN Training for High Fidelity Natural Image Synthesis

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

 

1、文字分類的通用語言模型微調

 

標題:Universal Language Model Fine-tuning for Text Classification

作者:Jeremy Howard & Sebastian Ruder (2018)

https://arxiv.org/abs/1801.06146

 

論文摘要

遷移學習已經對計算機視覺領域產生了很大的影響,但NLP領域的現有方法仍然需要針對任務進行修改和從零開始進行訓練。本文提出一種有效的遷移學習方法——通用語言模型微調(Universal Language Model Fine-tuning, ULMFiT),該方法可應用於任何NLP任務,並介紹了對語言模型進行微調的關鍵技術。

 

我們的方法在六個文字分類任務上顯著優於最先進的技術,在大多數資料集上將錯誤率降低了18-24%。此外,僅使用100個標記示例,它的效能不比在100倍以上的資料上從零開始訓練的模型的效能差。我們將開源預訓練模型和程式碼。

 

概要總結

這篇論文建議使用預訓練的模型來解決廣泛的NLP問題。使用這種方法,你不需要從頭開始訓練模型,只需要對原始模型進行微調。他們的方法稱為通用語言模型微調(ULMFiT),其效能優於最先進的結果,誤差降低了18-24%。更重要的是,只使用100個標記示例,ULMFiT的效能與在10K標記示例上從零開始訓練的模型的效能相當。

 

核心思想

為了解決標記資料的缺乏的困難,使NLP分類任務更容易、更省時,研究人員建議將遷移學習應用於NLP問題。因此,你不用從頭開始訓練模型,而是可以使用另一個經過訓練的模型作為基礎,然後只對原始模型進行微調來解決特定問題。

 

但是,為了取得成功,微調應考慮幾個重要因素:

1.不同的層應該被微調到不同的程度,因為它們分別捕獲不同型別的資訊。

2.當學習率先線性增加後線性衰減時,使模型引數適應特定任務的特徵會更有效。

3.同時對所有層進行微調可能會導致災難性遺忘;因此,最好從最後一層開始逐層解凍模型。

 

最重要的成果

1.顯著優於最先進的技術:誤差減少了18-24%。

2.需要的標記資料更少:只有100個標記示例和50K未標記示例,效能與從零開始學習100倍以上的資料的效能相當。

 

AI社群的評價

在計算機視覺領域,經過預處理的ImageNet模型的可用性已經改變了這一領域,ULMFiT對於NLP問題也同樣重要。

 

該方法適用於任何語言的任何NLP任務。來自世界各地的報告表明,該方法在德語、波蘭語、北印度語、印度尼西亞語、漢語和馬來語等多種語言方面,都取得了顯著進步。

 

未來研究方向

1.改進語言模型的預處理和微調。

2.將這種新方法應用於新的任務和模型(如序列標記、自然語言生成、蘊涵或問題回答)。

 

可能的應用

ULMFiT可以更好地解決廣泛的NLP問題,包括:

1.識別垃圾郵件、機器人、攻擊性評論;

2.按照特定的特徵對文章進行分組;

3.對正面和負面評論進行分類;

4.尋找相關檔案等。

 

這種方法還可能有助於序列標記和自然語言生成。

 

2、混淆梯度

 

標題:Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

作者:Anish Athalye, Nicholas Carlini, David Wagner

https://arxiv.org/abs/1802.00420

 

論文摘要

我們發現“混淆梯度”(obfuscated gradients)作為一種梯度掩碼(gradient masking),會在防禦對抗樣本中導致一種錯誤的安全感。雖然造成混淆梯度的防禦似乎可以擊敗基於迭代優化的攻擊,但我們發現依賴這種效果的防禦可以被規避。我們描述了表現出這種效應的防禦特徵行為,對於我們發現的三種混淆梯度,我們都開發了攻擊技術來克服它。在一個案例中,我們檢查了發表在ICLR 2018的論文的未經認證的白盒安全防禦,發現混淆梯度是常見的情況,9個防禦中有7個依賴於混淆梯度。在每篇論文所考慮的原始威脅模型中,我們的新攻擊成功地完全規避了6個,部分規避了1個。

 

概要總結

研究人員發現,針對對抗性樣本的防禦通常使用混淆梯度,這造成了一種虛假的安全感,實際上這種防禦很容易被繞過。該研究描述了三種防禦混淆梯度的方法,並展示了哪些技術可以繞過防禦。這些發現可以幫助那些依賴混淆梯度來防禦的組織強化他們當前的方法。

 

 

核心思想

防禦混淆梯度有三種常見的方法:

1.破壞梯度是由防禦方有意(通過不可微操作)或無意(通過數值失穩)造成的不存在或不正確的梯度;

2.隨機梯度是由隨機防禦引起的;

3.消失/爆炸梯度是由極深的神經網路評估引起的。

 

有很多線索表明梯度有問題,包括:

1.一步攻擊比迭代攻擊更有效;

2.黑盒攻擊比白盒攻擊更有效;

3.無界攻擊沒有100%成功;

4.隨機抽樣發現對抗性樣本;

5.增加扭曲約束無法增加成功。

 

最重要的成果

說明目前使用的大部分防禦技術容易受到攻擊,即:

1.ICLR 2018接受的論文中,9種防禦技術中有7種造成了混淆梯度;

2.研究人員開發的新攻擊技術能夠成功地完全繞開6個防禦,部分繞開1個防禦。

 

AI社群的評價

1.這篇論文獲得了ICML 2018最佳論文獎,這是最重要的機器學習會議之一。

2.論文強調了當前技術的優勢和劣勢。

 

未來研究方向

在仔細且全面的評估下構建防禦,這樣它們不僅可以防禦現有的攻擊,而且還可以防禦未來可能發生的攻擊。

 

可能的應用

通過使用研究論文中提供的指導,組織可以識別他們的防禦是否依賴於混淆梯度,並在必要時改用更強大的方法。

 

3、ELMo:最好用的詞向量

 

標題:Deep contextualized word representations

作者:Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer

https://arxiv.org/abs/1802.05365

 

論文摘要

我們提出一種新的深層語境化的詞表示形式,它既模擬了詞使用的複雜特徵(如語法和語義),也模擬了這些用法在不同語言語境中的變化(即,一詞多義)。我們的詞向量是一個深度雙向語言模型(biLM)內部狀態的學習函式,該模型是在一個大型文字語料庫上預訓練的。我們證明,這些表示可以很容易地新增到現有的模型中,並在六個具有挑戰性的NLP問題(包括問題回答、文字蘊涵和情感分析)中顯著地提升了技術的最先進水平。我們還提供了一項分析,表明暴露預訓練網路的深層內部結構是至關重要的,它允許下游模型混合不同型別的半監督訊號。 

 

概要總結

艾倫人工智慧研究所的團隊提出一種新型的深層語境化單詞表示——語言模型嵌入(Embeddings from Language Models, ELMo)。在ELMo增強的模型中,每個單詞都是基於它所使用的整個上下文向量化的。在現有的NLP系統中加入ELMo可以減少6-20%的相對誤差,顯著減少訓練模型所需的時間,以及顯著減少達到基線效能所需的訓練資料量。 

 

核心思想

1.以深度雙向語言模型(biLM)的內部狀態加權和的形式生成詞嵌入,該模型在大型文字語料庫上預訓練。

2.要包含來自所有biLM層的表示,因為不同的層代表不同型別的資訊。

3.將ELMo表示建立在字元的基礎上,以便網路可以使用形態學線索“理解”訓練中未見的詞彙表外的token。

 

最重要的成果

1.將ELMo新增到模型中可以得到state-of-the-art的結果,在問題回答、文字蘊涵、語義角色標記、相關引用解析、命名實體提取和情緒分析等NLP任務中,相對誤差降低了6 - 20%。

2.使用ELMo增強模型可以顯著減少達到最先進效能所需的更新次數。因此,使用ELMo的語義角色標記(SRL)模型只需要10 epochs就可以超過486 epochs訓練後達到的基線最大值。

3.將ELMo引入模型還可以顯著減少實現相同效能水平所需的訓練資料量。例如,對於SRL任務,ELMo增強模型只需要訓練集的1%就可以實現與基線模型相同的效能,而基線模型需要10%的訓練資料。

 

AI社群的評價

1.這篇論文在全球最具影響力的NLP會議之一——NAACL上被評為Outstanding paper。

2.論文提出的ELMo方法被認為是2018年NLP領域最大的突破之一,也是NLP未來幾年的重要成果。

 

未來研究方向

1.通過將ELMos與上下文無關的詞嵌入連線起來,將這種方法合併到特定的任務中。

2.將ELMos與輸出連線。

 

可能的應用

1.ELMo顯著改善了現有NLP系統的效能,從而增強:

2.聊天機器人的效能,使其能夠更好地理解人類和回答問題;

3.對客戶的正面和負面評價進行分類;

4.查詢相關資訊和檔案等。

 

4、序列建模:時間卷積網路取代RNN

 

標題:An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling

作者:Shaojie Bai, J. Zico Kolter, Vladlen Koltun

https://arxiv.org/abs/1803.01271

 

論文摘要

對於大多數深度學習實踐者來說,序列建模與迴圈網路是同義詞。然而,最近的研究結果表明,卷積架構在語音合成和機器翻譯等任務上的表現優於迴圈網路。給定一個新的序列建模任務或資料集,應該使用哪種架構?我們對序列建模的一般卷積和迴圈架構進行了系統的評價。我們在廣泛的標準任務中評估這些模型。我們的結果表明,一個簡單的卷積架構在不同的任務和資料集上的表現優於LSTM等典型的迴圈網路。我們的結論是,需要重新考慮序列建模和迴圈網路之間的共同關聯,卷積網路應該被視為序列建模任務的一個自然起點。我們提供了相關程式碼:http://github.com/locuslab/TCN

 

概要總結

本文的作者質疑了一個常見假設,即迴圈架構應該是序列建模任務的預設起點。他們的結果表明,時間卷積網路(TCNs)在多個序列建模任務中明顯優於長短期記憶網路(LSTMs)和門控迴圈單元網路(GRUs)等典型的迴圈架構。

 

核心思想

1.時間卷積網路(TCN)是基於最近提出的最佳實踐(如擴張卷積和殘差連線)設計的,它在一系列複雜的序列建模任務中表現得明顯優於通用的迴圈架構。

2.TCN表現出比迴圈架構更長的記憶,因此更適合需要較長的歷史記錄的任務。

 

最重要的成果

1.在序列建模任務上提供了卷積架構和迴圈架構的廣泛、系統的比較。

2.設計了一個卷積架構,它可以作為序列建模任務的一個方便且強大的起點。

 

AI社群的評價

在使用RNN之前,一定要先嚐試CNN。你會驚訝於你能走多遠。——特斯拉人工智慧主管Andrej Karpathy。

 

未來研究方向

為了提高TCN在不同序列建模任務中的效能,需要進一步精化架構和演算法。

 

可能的應用

TCN的提出可以提高依賴於迴圈架構的AI系統的序列建模能力,包括:

1.機器翻譯;

2.語音識別;

3.音樂和語音產生。

 

5、探索機器學習的公平性

 

標題:Delayed Impact of Fair Machine Learning

By Lydia T. Liu, Sarah Dean, Esther Rolf, Max Simchowitz, Moritz Hardt (2018)

https://arxiv.org/abs/1803.04383

 

論文摘要

機器學習中的公平性主要是在靜態的分類設定進行研究,而不考慮決策如何隨時間改變基礎樣本總體。傳統觀點認為,公平性標準能夠促進它們所保護的群體的長期利益。

 

我們研究了靜態公平標準與幸福感的時間指標是如何相互作用的,如長期改善、停滯和利益變數下降。我們證明,即使在單步反饋模型中,一般的公平標準也不會隨著時間的推移而促進改善,並且不受約束的目標不僅不會促進改善,甚至可能造成損害。我們描述了三個標準的延遲影響,對比了這些標準表現出不同行為的機制。此外,我們還發現一種自然形式的測量誤差擴大了公平標準發揮有利作用的機制。

 

我們的結果突出了測量和時間建模在公平標準評估中的重要性,提出了一系列新的挑戰和權衡取捨。

 

概要總結 

當使用基於分數的機器學習演算法來決定誰可以獲得機會(例如貸款、獎學金、工作),誰得不到機會時,目標是確保不同人口群體被公平對待。伯克利人工智慧研究實驗室的研究人員表明,由於某些延遲的結果,使用共同的公平標準實際上可能會損害代表性不足或處境不利的群體。因此,他們鼓勵在設計一個“公平”的機器學習系統時考慮長期結果。

 

核心思想

考慮實施公平標準的延遲結果顯示,這些標準可能對他們旨在保護的群體的長期利益有不利影響。由於公平標準可能會對弱勢群體造成主動的傷害,解決的辦法可以是使用結果最大化的決策規則,或者一個結果模型。

 

最重要的成果

1.表明了人口均等、機會均等等公平標準可以為弱勢群體帶來任何可能的結果,包括改善、停滯或惡化,而遵循最優無約束選擇政策(如利潤最大化),則永遠不會給弱勢群體帶來惡化的結果(主動傷害)。

2.通過FICO信用評分資料的實驗支援了理論預測。

3.考慮了硬公平約束的替代方案。

 

AI社群的評價

1.這篇論文獲得了ICML 2018最佳論文獎,ICML是最重要的機器學習會議之一。

2.該研究表明,有時正面的歧視會適得其反。

 

未來研究方向

1.考慮超出群體平均變化影響的其他特徵(如方差、個體水平結果)。

2.研究結果優化對建模和測量誤差的魯棒性。

 

可能的應用

通過從公平性標準強加的約束轉向結果建模,企業可能會開發出更有利可圖、也“更公平”的ML系統,用於放貸或招聘。

 

6、世界模型

 

標題:World Model

By David Ha,Jurgen Schmidhuber(2018)

https://worldmodels.github.io

 

論文摘要

我們探索並建立了流行的強化學習環境的生成神經網路模型。我們的world model可以以無監督的方式快速訓練,用來學習環境的壓縮空間和時間表示。通過使用從world model中提取的特徵作為agent的輸入,我們可以訓練一個非常緊湊和簡單的策略,可以解決所需的任務。我們甚至可以完全在智慧體自身的world model所產生的“幻覺夢境(hallucinated dream)”中訓練智慧體,並將該策略轉換回實際環境中。  

 

概覽

Ha和Schmidhuber開發了一種world model,這種模型可以在無監督的情況下快速訓練,以學習環境的時空表現形式。在賽車任務中,智慧體成功的在賽道上行駛,避開了VizDom實驗中怪物射擊的火球。這些任務對以前的方法來說太具有挑戰性了。

 

核心思想

該解決方案由三個不同的部分組成:

 

1.變分自動編碼器(VAE),負責捕獲視覺資訊。 它將RGB輸入影象壓縮成遵循高斯分佈的32維隱向量。 智慧體可以使用更小的環境表示,因此可以更有效地學習。

2.遞迴神經網路(RNN),負責前瞻性思維。這是一個記憶體元件,它試圖預測可視元件捕獲的下一張圖片在考慮前一張圖片和上一張圖片時可能會是什麼樣子。

3.控制器,負責選擇操作。這是一個簡單的神經網路,連線VAE的輸出和RNN的隱藏狀態,並選擇良好的行動。

 

最重要的成果

1.這是第一個已知的智慧體解決流行的“賽車”強化學習環境。

2.該研究證明了完全在智慧體模擬的潛在空間夢境世界中訓練它,並且執行任務的可能性。

 

AI社群的評價

這篇論文在人工智慧社群中得到了廣泛的討論,被認為是一篇利用神經網路在“幻覺”世界中強化學習和訓練智慧體的傑出作品。

 

未來研究方向

1.通過將小型RNN替換為更高容量的模型或合併外部記憶體模組,使智慧體能夠探索更復雜的世界。

2.使用更通用的方法進行試驗,這些方法允許分層規劃(hierarchical planning )。

 

可能的應用

在執行計算密集型遊戲引擎時,現在可以在模擬環境中儘可能多地訓練智慧體,而不是在實際環境中浪費大量的計算資源來進行訓練。

 

7、分解任務遷移學習

 

標題:Taskonomy: Disentangling Task Transfer Learning

By Amir R. Zamir,Alexander Sax,William Shen,Leonidas J. Guibas,Jitendra Malik,Silvio Savarese(2018)

https://arxiv.org/abs/1804.08328

 

論文摘要

視覺任務之間有關聯嗎?例如,表面法線可以簡化對影象深度的估計嗎?直覺回答了這些問題,暗示了視覺任務中存在結構。瞭解這種結構具有顯著的價值;它是遷移學習的基本概念,提供了一種原則性的方法來識別任務之間的冗餘。

 

我們提出了一種完全計算的視覺化任務空間結構建模方法。 這是通過在潛在空間中的二十六個2D,2.5D,3D和語義任務的字典中查詢(一階和更高階)傳遞學習依賴性來完成的。該產品是用於任務遷移學習的計算分類對映。我們研究這種結構的結果,例如出現的非平凡關係,並利用它們來減少對標記資料的需求。例如,我們展示了在保持效能幾乎相同的情況下,解決一組10個任務所需的標記資料點的總數可以減少大約2/3(與獨立訓練相比)。我們提供了一組用於計算和探測這種分類結構的工具,包括一個解決程式,使用者可以使用它來為他們的用例設計有效的監督策略。

 

概覽

自現代電腦科學的早期以來,許多研究人員就斷言視覺任務之間存在一個結構。現在Amir Zamir和他的團隊試圖找到這個結構。他們使用完全計算的方法建模,並發現不同視覺化任務之間的許多有用關係,包括一些重要的任務。他們還表明,通過利用這些相互依賴性,可以實現相同的模型效能,標記資料要求大約減少2/3。

 

 

核心思想

1.瞭解不同視覺化任務之間關係的模型需要更少的監督、更少的計算和更可預測的行為。

2.一種完整的計算方法來發現視覺任務之間的關係是可取的,因為它避免了強加的、可能是不正確的假設:先驗來自於人類的直覺或分析知識,而神經網路可能在不同的原理上運作。

 

最重要的成果

1.識別26個常見視覺任務之間的關係,如目標識別、深度估計、邊緣檢測和姿態估計。

2.展示這個結構如何幫助發現對每個視覺任務最有效的遷移學習型別。

 

AI社群的評價

1.該論文在計算機視覺與模式識別重要會議CVPR 2018上獲得了最佳論文獎。

2.結果非常重要,因為對於大多數實際任務,大規模標記資料集不可用。

 

未來研究方向

1.從一般的視覺任務完全由人類定義的模型,轉向將人類定義的視覺任務視為由計算髮現的潛在子任務組成的觀察樣本的方法。

2.探索將發現轉化為不完全是視覺任務的可能性。

 

可能的應用

在本文中發現的關係可以用來構建更有效的視覺系統,這個系統將需要更少的標記資料和更低的計算成本。

 

8、SQuAD無法解決的問題

 

標題: Know What You Don't Know: Unanswerable Questions For SQuAD

By Pranav Rajpurkar,Robin Jia,Percy Liang

https://arxiv.org/abs/1806.03822

 

論文摘要

摘要抽取式閱讀理解系統通常可以在上下文文件中找到問題的正確答案,但對於沒有在上下文中陳述正確答案的問題,它們往往會做出不可靠的猜測。現有的資料集要麼只關注可回答的問題,要麼使用自動生成的容易識別的不可回答的問題。為了解決這些缺點,我們提供了SQuAD 2.0,這是斯坦福問答資料集(SQuAD)的最新版本。SQuAD 2.0結合了現有的SQuAD資料和超過50000個由眾包工人以對抗性方式寫下的無法回答的問題,使其看起來與能夠回答的問題相似。為了在SQuAD 2.0上做得好,系統不僅必須儘可能回答問題,還要確定段落何時不支援答案並且不回答問題。 對於現有模型,SQuAD 2.0是一項具有挑戰性的自然語言理解任務:在SQUAD 1.1上獲得86%F1的強大神經系統在SQuAD 2.0上僅獲得66%的F1。

 

概覽

斯坦福大學的一個研究小組擴充套件了著名的斯坦福問答資料集(SQUAD),提出了超過50,000個難以回答的問題。這些問題的答案不能在支援段落(supporting paragraph)中找到,但是這些問題看起來與可回答的問題非常相似。更重要的是,支援段落包含了對這些問題的合理(但不正確)的回答。這使得新的SQuAD 2.0對於現有的最先進的模型來說極具挑戰性。

 

核心思想

1.當前的自然語言理解(NLU)系統遠非真正的語言理解,其根本原因之一是現有的Q&A資料集關注的問題是保證在上下文文件中存在正確答案的問題。

2.為了真正具有挑戰性,應該提出一些無法回答的問題,以便:它們與支援段落相關;這一段包含了一個貌似合理的答案,它包含了與問題所要求的資訊相同的資訊,但是是不正確的。

 

最重要的成果

1.通過53,777個新的無法回答的問題擴充套件SQuAD,從而構建具有挑戰性的大規模資料集,迫使NLU系統瞭解何時無法根據上下文回答問題。

2.這給NLU系統帶來了新的挑戰,因為現有的模型(66%的準確率)較低於人類的準確率(89.5%)。

3.這表明貌似合理的答案確實對NLU系統起到了有效的干擾作用。

 

AI社群的評價

1.該論文被計算語言學協會(ACL)評為2018年度最佳短文。

2.新的資料集增加了NLU領域的複雜性,並且實際上可以在這一研究領域促進效能訓練。

 

未來研究的方向

開發“瞭解他們不知道的東西”的新模型,從而更好地理解自然語言。

 

可能的應用

在這個新的資料集上訓練閱讀理解模型,可以提高它們在現實場景中的效能,在這些場景中,答案通常不是直接可用的。

 

9、用於高保真自然影象合成的大規模GAN訓練

 

標題:Large Scale GAN Training For High Fidelity Natural Image Synthesis

By Andrew Brock,Jeff Donahue,Karen Simonyan(2018)

https://arxiv.org/abs/1809.11096

 

論文摘要

儘管生成影象建模最近取得了進展,但從ImageNet等複雜資料整合功生成高解析度、多樣化的樣本仍然是一個難以實現的目標。為此,我們在最大的規模下進行了生成對抗網路的訓練,並研究了這種規模下的不穩定性。我們發現,將正交正則化應用於發生器,使其服從於一個簡單的“截斷技巧”,可以允許通過截斷潛在空間來精細控制樣本保真度和多樣性之間的權衡。 我們的修改使得模型在類條件影象合成中達到了新的技術水平。 當我們在ImageNet上以128×128解析度進行訓練時,我們的模型(BigGAN)的初始得分(IS)為166.3,Frechet初始距離(FID)為9.6。

 

概覽

DeepMind團隊發現,當前的技術足以從現有資料集(如ImageNet和JFT-300M)合成高解析度、多樣化的影象。他們特別指出,生成對抗網路(GANs)可以生成看起來非常逼真的影象,如果它們在非常大的範圍內進行訓練,即使用比以前實驗多2到4倍的引數和8倍的批處理大小。這些大規模的GAN,或BigGAN,是類條件影象合成的最新技術。

 

 

核心思想

1.隨著批(batch)大小和引數數量的增加,GAN的效能更好。

2.將正交正則化應用到生成器中,使模型響應特定的技術(“截斷技巧”),該技術提供了對樣本保真度和多樣性之間的權衡的控制。

 

最重要的成果

1.證明GAN可以從scaling中獲益;

2.構建允許顯式、細粒度地控制樣本多樣性和保真度之間權衡的模型;

3.發現大規模GAN的不穩定性;

4.BigGAN在ImageNet上以128×128解析度進行訓練:初始得分(IS)為166.3,之前的最佳IS為52.52;Frechet Inception Distance (FID)為9.6,之前最好的FID為18.65。

 

AI社群的評價

1.該論文正在為ICLR 2019做準備;

2.自從Big Hub上線BigGAN發生器之後,來自世界各地的AI研究人員正在玩BigGAN,來生成狗,手錶,比基尼影象,蒙娜麗莎,海濱以及更多主題。

 

未來研究方向

1.遷移到更大的資料集以減少GAN穩定性問題;

2.探索減少GAN產生的奇怪樣本數量的可能性。

 

可能的應用

取代昂貴的手工媒體創作,用於廣告和電子商務的目的。

 

10、BERT:深度雙向變換器語言理解的預訓練

 

標題:BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding

By Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova(2018)

https://arxiv.org/abs/1810.04805

 

論文摘要

我們介紹了一種新的語言表示模型,稱為BERT,它代表轉換器的雙向編碼器表示。與最近的語言表示模型不同,BERT的設計是通過在所有層中對左右上下文進行聯合條件作用來預先訓練深層雙向表示。因此,只需要一個額外的輸出層,就可以對預訓練的BERT表示進行微調,從而為廣泛的任務(如回答問題和語言推斷)建立最先進的模型,而無需對特定於任務的體系結構進行大量修改。

 

BERT概念簡單且功能豐富。它在11項自然語言處理任務中獲得了最新的結果,包括將GLUE基準提高到80.4%,多項精度提高到86.7,以及將SQuAD v1.1答題測試F1提高到93.2,比人類表現高出2.0%。

 

概覽

谷歌AI團隊提出了一種新的最前沿的自然語言處理(NLP)模型——BERT,Bidirectional Encoder Representations from Transformers。它的設計允許模型從左右兩邊考慮每個單詞的上下文。在概念簡單的同時,BERT在11個NLP任務上獲得了最新的最先進的結果,這些任務包括回答問題、命名實體識別和其他與一般語言理解相關的任務。

 

核心思想

1.通過隨機遮蔽一定比例的輸入tokens來訓練一個深層雙向模型,從而避免單詞可以間接“看到自己”的迴圈;

2.此外,通過構建一個簡單的二元分類任務,預測句子B是否緊跟著句子A,對句子關係模型進行預處理,從而讓BERT更好地理解句子之間的關係。

3.訓練一個非常大的模型(24個Transformer塊,1024個hidden,340M引數)和大量資料(33億字語料庫)。

 

最重要的成果

1.為11項NLP任務提供最先進的技術,包括:GLUE分數80.4%,比之前的最佳成績有7.6%的提升;在SQuAD 1.1上達到93.2%的準確率,超過人類水平2%。

2.建議一個預訓練的模型,它不需要任何實質性的架構修改就可以應用於特定的NLP任務。

 

AI社群的評價

1.BERT模型標誌著NLP的新時代;

2.兩個無人監督的任務在一起為許多NLP任務提供了很好的結果;

3.語言模型的預訓練成為一種新標準。

 

未來研究方向

在更廣泛的任務中測試該方法;

 

可能的應用

BERT可以幫助企業解決一系列的NLP問題,包括:為聊天機器人提供更好的客戶體驗;客戶評論分析;查閱相關資料等等。

 

參考連結:

https://www.topbots.com/most-important-ai-research-papers-2018/

https://www.reddit.com/r/MachineLearning/comments/a21d0q/what_are_the_must_read_papers_for_a_beginner_in/