1. 程式人生 > >騰訊技術工程 | 騰訊 AI Lab 11篇論文精選:圖像描述、NMT 模型、圖卷積神經網絡等

騰訊技術工程 | 騰訊 AI Lab 11篇論文精選:圖像描述、NMT 模型、圖卷積神經網絡等

騰訊 AI 論文

背景:AAAI 2018 將於2月2日至 7日在美國新奧爾良舉行,在本屆大會上,騰訊 AI Lab 有 11 篇論文被錄用,涉及圖像描述、更低計算成本的預測表現、NMT 模型中的特定翻譯問題、自適應圖卷積神經網絡、DNN面對對抗樣本的優化問題等,本文精選了11篇論文的精彩內容。(本文轉自公眾號新智元)


1. 學習用於圖像描述的引導解碼(Learning to Guide Decoding for Image Captioning)

圖像描述領域近來取得了很多進展,而且已經有一種編碼器-解碼器框架在這一任務上得到了出色的表現。在本論文中,我們提出了一種編碼器-解碼器框架的擴展——增加了一個名叫引導網絡(guiding network)的組件。這種引導網絡會建模輸入圖像的屬性特性,其輸出會被用於組成解碼器在每個時間步驟的輸入。這種引導網絡可以插入到當前的編碼器-解碼器框架中,並且可以以一種端到端的方式訓練。因此,該引導向量可以根據來自解碼器的信號而自適應地學習得到,使其自身中嵌入來自圖像和語言兩方面的信息。此外,還能使用判別式監督來進一步提升引導的質量。我們通過在 MS COCO 數據集上的實驗驗證了我們提出的方法的優勢。


2. 發現和區分多義詞的多個視覺含義(Discovering and Distinguishing Multiple Visual Senses for Polysemous Words)

為了減少對有標簽數據的依賴,利用網絡圖像學習視覺分類器的研究工作一直在不斷增多。限制他們的表現的一個問題是多義詞問題。為了解決這個問題,我們在本論文中提出了一種全新的框架——該框架可通過允許搜索結果中特定於含義的多樣性來解決該問題。具體而言,我們先發現一個用於檢索特定於含義的圖像的可能語義含義列表。然後,我們使用檢索到的圖像來合並視覺上相似的含義並剪枝掉噪聲。最後,我們為每個被選中的語義含義訓練一個視覺分類器並使用學習到的特定於含義的分類器來區分多個視覺含義。我們在按含義給圖像分類和重新排序搜索結果上進行了大量實驗,結果表明了我們提出的方法的優越性。

點此查看論文原文


3. 使用穩定化Barzilai-Borwein 步長的隨機非凸序數嵌入(Stochastic Non-convex Ordinal Embedding with Stabilized Barzilai-Borwein Step Size)

技術分享圖片


根據相對相似度比較來學習表征的方法通常被稱為序數嵌入(ordinal embedding),該方法在近些年得到了越來越多的關註。大多數已有的方法都是主要基於凸優化而設計的批處理方法,比如投影梯度下降法(projected gradient descent method)。但是,由於更新過程中通常采用了奇異值分解(SVD),所以這些方法往往非常耗時,尤其是當數據量非常大時。


為了克服這一難題,我們提出了一種名叫 SVRG-SBB 的隨機算法,該算法有以下特性:(a)通過丟棄凸性而不再需要 SVD,而且通過使用隨機算法(即方差縮減隨機梯度算法(SVRG))而實現了優良的擴展性能;(b)引入一種新的具有自適應的步長選擇的穩定化 Barzilai-Borwein(SBB)方法,由於凸問題的原始版本可能無法用於所考慮的隨機非凸優化問題。此外,研究表明我們提出的算法能在我們的設置中以技術分享圖片的速度收斂到一個穩定解,其中 T是總叠代次數。我們還進行了許多模擬和真實數據實驗,並通過與當前最佳方法的比較而證明了我們提出的算法的有效性;尤其值得一提的是我們的算法使用遠遠更低的計算成本也能實現優良的預測表現。點此查看論文原文


4. 降秩線性動態系統(Reduced-Rank Linear Dynamical Systems)

線性動態系統(LDS)在研究多變量時間序列的基本模式方面有廣泛的應用。這些模型的一個基本假設是高維時間序列可以使用一些基本的、低維的和隨時間變化的隱含狀態來表征。但是,已有的 LDS 建模方法基本上是學習一個規定了維數的隱含空間。當處理長度較短的高維時間序列數據時,這樣的模型會很容易過擬合。我們提出了降秩線性動態系統(RRLDS),可以在模型學習過程中自動檢索隱含空間的固有維數。


我們觀察到的關鍵是 LDS 的動態矩陣的秩中包含了固有的維數信息,而使用降秩正則化的變分推理最終會得到一個簡明的、結構化的且可解釋的隱含空間。為了讓我們的方法能處理有計數值的數據,我們引入了離散性自適應分布(dispersion-adaptive distribution)來適應這些數據本身具備的過離散性/等離散性/欠離散性。在模擬數據和實驗數據上的結果表明我們的模型可以穩健地從長度較短的、有噪聲的、有計數值的數據中學習隱含空間,並且還顯著超越了當前最佳的方法的預測表現。


5. 使用重構模型翻譯代詞脫落語言(Translating Pro-Drop Languages with Reconstruction Models)

在漢語等代詞脫落語言(pro-drop language)中,代詞常會被省略,這通常對翻譯結果的完整性造成極大的不良影響。到目前為止,很少有研究關註神經網絡機器翻譯(NMT)中的代詞脫落(DP)問題*。在這項研究中,我們提出了一種全新的基於重構的方法,用於緩解NMT 模型中代詞脫落所引起的翻譯問題。首先,利用雙語語料庫中提取的對齊信息,將所有源句子中脫落的代詞進行自動標註。然後,再使NMT模型中的隱藏層的表示重構回被標註的源句子。使用重構分數來輔助訓練目標,用於鼓勵隱藏層表征盡可能地嵌入標註的DP信息,從而引導與該NMT模型相關的參數來產生增強的隱藏層表征。我們在漢語-英語和日語-英語對話翻譯任務上進行實驗,結果表明本方法顯著地、持續地超過了強大的NMT基準系統,該基準系統直接建立在標註了DP的訓練數據上。


註:論文第一作者王龍躍(查看微博)將 dropped pronoun (DP) problem 稱為代詞缺失問題。但中文語言學的文獻將其稱為代詞脫落問題,詳細例子見此。為了與Pro-Drop Language術語統一,這裏使用後者。


6. 改進序列到序列的成分句法分析(Improving Sequence-to-Sequence Constituency Parsing)

序列到序列的成分句法分析,通過自上而下的樹線性化(tree linearization),將結構預測轉化成一般的序列到序列的問題來處理,因此它可以很容易地利用分布式設備進行並行訓練。這種模型依賴於一種概率註意機制,盡管這種機制在一般的序列到序列問題取得了成功,但在句法分析特定場景中它無法保證選擇充分的上下文信息。之前的研究工作引入了一種確定性註意(deterministic attention)機制來為序列到序列的句法分析選擇有信息量的上下文,但這種方法只能適用於自下而上的線性化,而且研究者也已經觀察到:對標準的序列到序列的成分句法分析而言,自上而下的線性化優於自下而上的線性化。在這篇論文中,我們對該確定性註意力機制進行了拓展,使其可以適用於自上而下的樹線性化。我們進行了大量實驗,結果表明我們的句法分析器相比於自下而上的線性化取得了顯著的準確度提升;在不使用重排序(reranking)或半監督訓練的情況下,我們的方法在標準的英文PTB 和 中文CTB數據集上分別達到了92.3 和 85.4 Fscore。


7. 用於眾包配對排名聚合的使用信息最大化的 HodgeRank(HodgeRank with Information Maximization for Crowdsourced Pairwise Ranking Aggregation)

眾包近來已經成為了許多領域解決需要人力的大規模問題的有效範式。但是,任務發布者通常預算有限,因此有必要使用一種明智的預算分配策略以獲得更好的質量。在這篇論文中,我們在 HodgeRank 框架中研究了用於主動采樣策略的信息最大化原理;其中 HodgeRank 這種方法基於多個眾包工人(worker)的配對排名數據的霍奇分解(Hodge Decomposition)。該原理給出了兩種主動采樣情況:費希爾信息最大化(Fisher information maximization)和貝葉斯信息最大化(Bayesian information maximization)。其中費希爾信息最大化可以在無需考慮標簽的情況下基於圖的代數連接性(graph algebraic connectivity)的序列最大化而實現無監督式采樣;貝葉斯信息最大化則可以選擇從先驗到後驗的過程有最大信息增益的樣本,這能實現利用所收集標簽的監督式采樣。實驗表明,相比於傳統的采樣方案,我們提出的方法能提高采樣效率,因此對實際的眾包實驗而言是有價值的。點此查看論文原文


8. 自適應圖卷積神經網絡(Adaptive Graph Convolutional Neural Networks)

圖卷積神經網絡(Graph CNN)是經典 CNN 的方法,可用於處理分子數據、點雲和社交網絡等圖數據。Graph CNN 領域當前的過濾器是為固定的和共享的圖結構構建的。但是,對於大多數真實數據而言,圖結構的規模和連接性都會改變。本論文提出了一種有泛化能力的且靈活的Graph CNN,其可以使用任意圖結構的數據作為輸入。通過這種方式,可以在訓練時為每個圖數據都學習到一個任務驅動的自適應圖。為了有效地學習這種圖,我們提出了一種距離度量學習。我們在九個圖結構數據集上進行了大量實驗,結果表明我們的方法在收斂速度和預測準確度方面都有更優的表現。


9. 多維長時數據的隱含稀疏模型(Latent Sparse Modeling of Longitudinal Multi-dimensional Data)

技術分享圖片


我們提出了一種基於張量的模型,可用於對由多樣本描述單個對象的多維數據進行分析。該模型能同時發現特征中的模式以及揭示會影響到當前結果的過去時間點上的數據。其模型系數,一個 k-模的張量,可分解為 k 個維數相同的張量的總和。為了完成特征選擇,我們引入了張量的“隱含F-1模”作為我們的公式中的分組懲罰項。此外,通過開發一個基於張量的二次推斷函數(quadratic inference function, QIF),我們提出的模型還能考慮到每個對象的所有相關樣本的內部關聯性。我們提供了當樣本量趨近於無窮大時對模型的漸進分析(asymptotic analysis)。為了解決對應的優化問題,我們開發了一種線性化的塊坐標下降算法(linearized block coordinate descent algorithm),並證明了其在樣本量固定時的收斂性。在合成數據集以及真實數據集:功能性磁共振成像( fMRI) 和 腦電圖(EEG) 上的計算結果表明我們提出的方法比已有的技術有更優的表現。點擊查看論文原文


10. 使用用戶-物品聯合自回歸模型的協同過濾(Collaborative Filtering with User-Item Co-Autoregressive Models)

技術分享圖片


深度神經網絡已經表現出了在協同過濾(CF)方面的潛力。但是,已有的神經方法要麽是基於用戶的,要麽就是基於項目的,這不能明確地利用所有的隱含信息。我們提出了 CF-UIcA,這是一種用於 CF 任務的神經聯合自回歸模型,其利用了用戶和物品兩個域中的結構相關性。這種聯合自回歸允許為不同的任務集成其它額外的所需特征。此外,我們還開發了一個有效的隨機學習算法來處理大規模數據集。我們在 MovieLens 1M 和 Netflix 這兩個流行的基準上對 CF-UIcA 進行了評估,並且在評級預測和推薦最佳 N 項的任務上都實現了當前最佳的表現,這證明了 CF-UIcA 的有效性。點擊查看論文原文


11. EAD:通過對抗樣本實現對深度神經網絡的彈性網絡攻擊(EAD: Elastic-Net Attacks to Deep Neural Networks via Adversarial Examples)


技術分享圖片


近來的一些研究已經突出說明了深度神經網絡(DNN)面對對抗樣本時的脆弱性——我們可以輕松創造出在視覺上難以區分,卻能讓經過良好訓練的模型分類錯誤的對抗圖像。已有的對抗樣本創造方法是基於 L2 和 L∞ 失真度量的。但是,盡管事實上 L1 失真就能說明整體的變化情況且鼓勵稀疏的擾動,但在創造基於 L1 的對抗樣本上的發展則很少。


在本論文中,我們將使用對抗樣本攻擊 DNN 的過程形式化為了使用彈性網絡正則化的優化問題。我們對 DNN 的彈性網絡攻擊(EAD)使用了面向 L1 的對抗樣本,並且還包含了當前最佳的 L2 攻擊作為特例。在 MNIST、CIFAR10 和 ImageNet 上的實驗結果表明 EAD 可以得到一組明確的具有很小 L1 失真的對抗樣本,並且能在不同攻擊場景中實現與當前最佳方法近似的攻擊表現。更重要的是,EAD 能改善攻擊可遷移性以及幫補 DNN 的對抗訓練,這為在對抗機器學習中利用 L1 失真以及 DNN 的安全意義提供了全新的見解。點擊查看論文原文

技術分享圖片


騰訊技術工程 | 騰訊 AI Lab 11篇論文精選:圖像描述、NMT 模型、圖卷積神經網絡等