1. 程式人生 > >15.Relational inductive biases, deep learning, and graph networks

15.Relational inductive biases, deep learning, and graph networks

關係歸納偏置、深度學習、圖網路

摘要

人工智慧(AI)最近經歷了一次復興,在視覺、語言、控制和決策等關鍵領域取得了重大進展。這在一定程度上要歸因於廉價的資料和廉價的計算資源,因為這些資源符合深度學習的自然優勢。然而,在不同的壓力下發展起來的人類智力的許多決定性特徵,仍然是當前方法無法實現的。特別是,超越個人經驗的概括——從嬰兒時期開始的人類智慧的標誌——仍然是現代人工智慧的一項艱鉅挑戰。

以下是部分工作研究,部分回顧和部分統一。我們認為組合泛化必須是AI實現類似人類能力的首要任務,結構化表示和計算是實現這一目標的關鍵。就像生物學使用自然和培養合作一樣,我們拒絕“手工工程”和“端到端”學習之間的錯誤選擇,而是倡導一種從其互補優勢中獲益的方法

。我們探索如何在深度學習架構中使用關係歸納偏差來促進對實體,關係和組成它們的規則的學習。我們為AI工具包提供了一個新的構建模組,具有強大的關係歸納偏差 - 圖網路 - 它概括泛化和擴充套件了在圖形上執行的神經網路的各種方法,併為操縱結構化知識和生成結構化行為提供了直接的介面。我們討論圖網路如何支援關係推理和組合泛化,為更復雜,可解釋和靈活的推理模式奠定基礎。

 

引言

人類智慧的一個關鍵特徵是能夠“無限地使用有限的方法”(Humboldt,1836; Chomsky,1965),其中一小部分元素(如文字)可以以無限的方式有效地組合在一起(例如,組成新句子)。這反映了組合泛化的原則,即從已知構建塊構建新的推論,預測和行為。在這裡,我們探討如何通過將學習偏向於結構化表示和計算,特別是在圖上執行的系統來提高現代AI的組合泛化能力。

人類組合泛化的能力,在很大程度上取決於我們表達關係結構和推理關係的認知機制。我們將複雜系統表示為實體及其相互作用的組合(Navon,1977; McClelland and Rumelhart,1981; Plaut et al.,1996; Marcus,2001; Goodwin and Johnson-Laird,2005; Kemp and Tenenbaum,2008),如判斷一個不規則物體的堆疊是否穩定(Battaglia et al.,2013)。我們使用層次結構來抽象出細微差異,並捕捉表徵和行為之間更普遍的共性(Botvinick,2008; Tenenbaum et al.,2011),例如一個物體的一部分,一個場景中的物體,一個城鎮中的社群,和一個國家中的城鎮。我們通過撰寫熟悉的技能和慣例來解決新問題(Anderson,1982),例如通過編寫熟悉的程式和目標去一個新的地點旅行,例如“乘飛機旅行”,“飛往聖地亞哥”,“在那吃飯”,以及“一家印度餐館”。我們通過對齊兩個域之間的關係結構來繪製類比,並基於對另一個域的相應知識得出關於一個域的推論

(Gentner and Markman,1997; Hummel and Holyoak,2003)。

Kenneth Craik的“解釋的本質”(1943)將世界的構成結構與我們內在心理模型的組織方式聯絡起來:

...[人類心智模型]與其模仿的過程具有相似的關係結構。我所使用的“關係 - 結構”,並不是指某個模糊的非物理實體會出現在模型中,而是說它是一個可以工作的物理模型,其工作方式與它所對應的過程是一樣的…構建了物理現實,顯然,從一些基本型別的單位屬性確定的許多屬性最複雜的現象,這似乎是對這些組合之間關係結構的機制和相似性之間類比的出現的充分解釋,而這些組合沒有任何客觀共性理論的必要性(Craik,1943,第51-55頁)。

也就是說,世界是組合而成的,或者至少我們在構成方面可以這麼理解它。 在學習時,我們要麼將新知識應用到我們現有的結構化表示中,要麼調整結構本身以更好地適應(和利用)新舊結構(Tenenbaum et al.,2006; Griffiths et al.,2010; Ullman et al.,2017)。

如何建立展示組合泛化的人工系統的問題一直是人工智慧的核心,並且是許多結構化方法的核心,包括邏輯,語法,經典規劃,圖形模型,因果推理,貝葉斯非引數和概率規劃(Chomsky,1957; Nilsson and Fikes,1970; Pearl,1986,2009; Russell and Norvig,2009; Hjort et al.,2010; Goodman et al.,2012; Ghahramani,2015)。整個子領域都側重於以現實的實體和關係為中心的學習,例如關係增強學習(Dzeroski et al.,2001)和統計關係學習(Getoor and Taskar,2007)。結構化方法在以前的時代對機器學習如此重要的一個關鍵原因,部分是因為資料和計算資源很昂貴,並且結構化方法強大的歸納偏差對改進樣本複雜性是非常有價值的。

與過去的人工智慧方法相比,現代深度學習方法(LeCun et al.,2015; Schmidhuber,2015; Goodfellowet al.,2016)經常遵循“端到端”設計理念,強調最小的先驗表徵和計算假設,並試圖避免顯式結構和“手工工程”。這種強調更適合由當前豐富的廉價資料和廉價計算資源,這使得用樣本效率更靈活的學習成為一種理性的選擇。從影象分類(Krizhevsky et al. ,2012; Szegedy et al.,2017)到許多具有挑戰性的領域的顯著和快速進展,關於自然語言處理(Sutskever et al.,2014; Bahdanau et al.,2015),到玩遊戲(Mnih et al.,2015; Silver et al.,2016;Moravc'ık et al.,2017),這些證明了這種極簡主義原則。一個突出的例子來自語言翻譯,其中不使用顯式的解析樹或語言實體之間的複雜關係,序列到序列的方法(Sutskever et al.,2014; Bahdanau et al.,2015)已經證明是非常有效。

然而,儘管深度學習取得了成功,但仍存在重要的批判(Marcus,2001; Shalev-Shwartz et al.,2017; Lake et al.,2017; Lake and Baroni,2018; Marcus,2018a,b; Pearl,2018; Yuille and Liu, 2018)強調了它在複雜的語言和場景理解中所面臨的主要挑戰,對結構化資料的推理,在訓練條件之外的遷移學習,從少量經驗中學習。這些挑戰需要組合泛化,因此避免組合性和顯式結構的方法難以實現,這些挑戰也許並不令人感到驚訝。

當深度學習的聯結主義者(Rumelhart et al.,1987),前輩們面臨著來自結構化的 ,象徵性立場的類似批評時(Fodor and Pylyshyn,1988; Pinker and Prince,1988),有一個建設性的成就(Bobrow and Hinton,1990; Marcus,2001)直接和謹慎地應對挑戰。在類比製造,語言分析,符號操縱和其他形式的關係推理等領域中,開發創新了各種用於表示和推理結構化物件的子符號方法(Smolensky,1990; Hinton,1990; Pollack,1990; Elman,1991; Plate,1995; Eliasmith,2013),以及關於大腦如何工作的更綜合的理論(Marcus,2001)。這些工作還有助於培養更近期的深度學習進展,這些進步使用分散式向量表示來捕獲文字中豐富的語義內容(Mikolov et al.,2013; Pennington et al.,2014),圖(Narayanan et al.,2016,2017),代數和邏輯表示式(Allamanis et al.,2017; Evans et al.,2018)和程式(Devlin et al.,2017; Chen et al.,2018b)。

我們認為,現代人工智慧的一個關鍵路徑是將組合泛化作為首要任務,我們提倡採用綜合方法來實現這一目標。正如生物學不在先天與後天之間做出選擇- 它共同使用先天和後天,建立大於其各部分總和的整體-我們也拒絕結構和靈活性在某種程度上不一致或不相容的觀念,共同擁有兩者,旨在獲得互補的優勢。 本著最近的許多基於結構化的方法和深度學習的原則混合的精神(Reed and De Freitas,2016; Garnelo et al.,2016; Ritchie et al.,2016; Wu et al.,2017; Denil et al.,2017; Hudson and Manning,2018),我們看到了通過利用完整的AI工具包,並將今天的最佳方法與資料和計算時非常重要的方法相結合來合成新技術的巨大希望。

最近,在深度學習和結構化方法的交叉點上出現了一類模型,其模型側重於對顯式結構化資料進行推理的的方法,特別是圖(Scarselli et al.,2009b; Bronstein et al.,2017; Gilmer et al.,2017; Wang et al.,2018c; Li et al.,2018; Kipf et al.,2018; Gulcehre et al.2018)。這些方法的共同之處在於,在離散實體上執行計算的能力以及它們之間的關係。與傳統的方法區別開來的是,如何學習實體和關係的表示和結構以及相應的計算,從而減輕了需要提前指定它們的負擔。至關重要的是,這些方法帶有強烈的關係歸納偏置,以特定的架構假設的形式,引導這些方法學習實體和關係(Mitchell,1980),我們加入了許多其他方法(Spelke et al.,1992; Spelke and Kinzler,2007; Marcus,2001; Tenenbaum et al.,2011; Lake et al.,2017; Lake and Baroni,2018; Marcus,2018b),建議是類人工智慧的重要組成部分。

在本文的其餘部分,我們通過其關係歸納偏置的視角來研究各種深度學習方法,表明現有方法通常帶有關係假設,這些假設並不總是顯式的或立即可見的。 然後,我們提出了基於實體和關係的推理的一般框架,我們稱之為圖網路,用於統一和擴充套件現有的對圖進行操作的方法,並描述了使用圖網路作為構建塊構建強大架構的關鍵設計原則。

方框1:關係推理

我們將結構定義為組成一組已知構建塊的產物。“結構化表示”捕獲這個組成(即元素的排列),“結構化計算”作為整體對元素及其組成進行的操作。關係推理涉及操縱實體和關係的結構化表示,使用關於如何組成它們的規則。我們使用這些術語來捕獲認知科學,理論電腦科學和AI的概念,如下所示:

◦實體是具有屬性的元素,例如具有大小和質量的物理物件。

◦關係是實體之間的屬性。兩個物體之間的關係可能包括相同的尺寸,重量和距離。關係也可以具有屬性。超過X倍的關係取一個屬性X,它決定了關係的相對權重閾值是真是假。關係也可能對全域性上下文敏感。對於一個石頭和一根羽毛,這種關係的下降速度要大於上下文是在空氣中還是在真空中。在這裡,我們關注實體之間的配對關係。

◦規則是一個函式(如非二進位制邏輯謂詞),它將實體和關係對映到其他實體和關係,例如像實體X那樣的比例比較?實體X是否比實體Y更重?這裡我們考慮採用一個或兩個引數(一元和二元)的規則,並返回一元屬性值。

作為機器學習中關係推理的一個示例,圖模型(Pearl,1988; Koller and Friedman,2009)可以通過在隨機變數之間進行顯式隨機條件獨立來表示複雜的聯合分佈。這些模型非常成功,因為它們捕獲稀疏結構,這是許多現實世界生成過程的基礎,並且因為它們支援用於學習和推理的高效演算法。例如,隱馬爾可夫模型在給定前一時間的狀態下將潛伏狀態約束為條件獨立於其他狀態,並且考慮到當前時間的潛在狀態,觀察值是條件獨立的,這與以下關係結構完全匹配許多真實世界的因果過程。明確地表達變數之間的稀疏依賴關係提供了各種有效的推理和推理演算法,例如訊息傳遞,它們在圖模型內的各個地方之間應用通用的訊息傳遞過程,從而產生可組合的和部分可並行的推理過程,應用於不同尺寸和形狀的圖形模型。

 

關係歸納偏差

機器學習和AI中有許多具有關係推理能力的方法(框1)使用關係歸納偏差。雖然不是一個精確的,正式的定義,但我們使用這個術語來指代歸納偏置(框2),它對學習過程中對實體之間的關係和相互作用施加約束。

框2:歸納偏置

學習是通過觀察和與訊息互動來理解有用知識的過程。它涉及搜尋一個解決方案的空間,以期提供更好的資料解釋或獲得更高的回報。但在許多情況下,有多種解決方案同樣出色(Goodman,1955)。歸納偏置允許學習演算法將一種解決方案(或解釋)優先於另一種解決方案(或獨立於觀察到的資料)(Mitchell,1980)。在貝葉斯模型中,歸納偏置通常通過先驗分佈的選擇和引數化來表達(Griffi ths et al.,2010)。在其他情況下,歸納偏置可能是一個正則化項(McClelland,1994),用以避免過擬合,或者它可能在演算法本身的架構中編碼。歸納偏置通常會以犧牲靈活性為代價,提高樣本的複雜性,並且可以根據偏差-方差權衡來理解(Geman et al.,1992)。理想情況下,歸納偏置既可以改善對解決方案的搜尋,又不會明顯降低效能,還可以幫助找到以理想方式推廣的解決方案;然而,不匹配的歸納偏置也可能通過引入過於強大的約束而導致次優效能。

歸納偏差可以表達關於資料生成過程或解決方案空間的假設。例如,當將一維函式擬合到資料時,線性最小二乘遵循約束函式是線性模型,並且在二次懲罰下近似誤差應該是最小的。這反映了一種假設,即資料生成過程可以簡單地解釋為,因為線性過程被加性高斯噪聲破壞。類似地,L2正則化優先考慮其引數具有較小值的解決方案,並且可以針對其他不適合的問題引入獨特的解決方案和全域性結構。這可以解釋為關於學習過程的假設:當解決方案之間的模糊程度較小時,搜尋到好的解決方案會更容易。注意,這些假設不需要是顯式的-它們反映了模型或演算法如何與訊息相連線。

創新的新機器學習架構近年來迅速發展,(本文的主題可能並令人驚訝)實踐者經常遵循組成基本構建模組的設計模式,以形成更復雜,更深的計算層次結構和圖形。諸如“完全連線”層的構建塊被堆疊成“多層感知器”(MLP),“卷積層”被堆疊到“卷積神經網路”(CNN),並且用於影象處理網路的標準配方通常是一些由MLP組成的各種CNN。這種層的組合提供了特定型別的關係歸納偏置- 分層處理-其中分階段進行計算,通常導致輸入訊號中的資訊之間的長距離互動。正如我們在下面探討的那樣,構建塊本身也帶有各種關係歸納偏置(表1)。雖然超出了本文的範圍,但深度學習中也使用了各種非關係歸納偏置:例如,啟用非線性,權重衰減,丟失(Srivastava et al.,2014),批量和層歸一化(Io ff e and Szegedy,2015; Ba et al.,2016),資料增強,訓練課程和優化演算法都對學習的軌跡和結果施加了限制。

為了探索在各種深度學習方法中表達的關係歸納偏置,我們必須確定幾個關鍵要素,類似於框1中的那些:實體是什麼,關係是什麼,構成實體和關係的規則是什麼,以及計算它們的意義?在深度學習中,實體和關係通常表示為分散式表示,而規則表示為神經網路函式逼近器;然而,實體,關係和規則的精確形式因架構而異。為了理解架構之間的這些差異,我們可以通過探測進一步詢問每個架構如何支援關係推理:

◦規則函式的引數(例如,哪些實體和關係作為輸入提供)。

◦規則函式如何在計算圖中重複使用或共享(例如,跨越不同的實體和關係,跨越不同的時間或處理步驟等)。

◦架構如何定義表示之間的互動與隔離(例如,通過應用規則來得出關於相關實體的結論,而不是單獨處理它們)。

 

標準深度學習構建塊中的關係歸納偏置

全連線層

也許最常見的構建塊是全連線層(Rosenblatt,1961)。通常作為向量輸入的非線性向量值函式實現,輸出向量的每個元素或“單位”是權重向量之間的點積,後跟增加的偏置項,最終是非線性的點積作為修正線性單元(ReLU)。因此,實體是網路中的單元,關係是全部到全部的(層i中的所有單元都連線到層j中的所有單元),並且規則由權重和偏置指定。該規則的論證是完整的輸入訊號,沒有重用,並且沒有資訊隔離(圖1a)。 因此,完全連線層中的隱式關係歸納偏置非常弱:所有輸入單元可以相互作用以確定任何輸出單元的值,獨立地跨輸出(表1)。

卷積層

另一個常見的構建塊是卷積層(Fukushima,1980; LeCun et al.,1989)。它通過將輸入向量或張量與相同等級的卷積核進行卷積,新增偏置項並應用逐點非線性來實現。這裡的實體仍然是單獨的單元(或網格元素,例如畫素),但是這些關係更稀疏。全連線層和卷積層之間的差異強加了一些重要的關係歸納偏差:區域性性和平移不變性(圖1b)。區域性性反映出關係規則的論證是在輸入訊號的座標空間中彼此靠近的實體,與遠端實體隔離。平移不變性反映了輸入中跨地區重用相同的規則。這些偏差對於處理自然影象資料非常有效,因為在區域性鄰域記憶體在較高的協方差,其隨著距離增加而減小,並且因為統計資料在影象上大部分是靜止的(表1)。

迴圈層

第三個常見構建塊是迴圈層(Elman,1990),它是通過一系列步驟實現的。 在這裡,我們可以將每個處理步驟中的輸入和隱藏狀態視為實體,並將前一隱藏狀態和當前輸入的隱藏狀態的馬爾可夫依賴性視為關係。組合實體的規則將步驟的輸入和隱藏狀態作為引數來更新隱藏狀態。該規則在每個步驟中被重複使用(圖1c),這反映了時間不變性的關係歸納偏置(類似於CNN在空間中的平移不變性)。例如,一些事件的物理順序的結果不應該取決於一天的時間。RNNs也通過它們的馬爾可夫結構對序列中的位置產生偏差(表1)。

 

集和圖的計算

雖然標準深度學習工具包包含具有各種形式的關係歸納偏置的方法,但是沒有“預設”深度學習元件在任意關係結構上執行。我們需要具有實體和關係的明確表示的模型,以及用於計算其互動的規則的學習演算法,以及將它們置於資料中的方法。重要的是,世界上的實體(如物件和代理人)沒有自然秩序; 相反,排序可以通過他們關係的屬性來定義。例如,一組物體的大小之間的關係可以用來對它們進行排序,它們的質量,年齡,毒性和價格也可以。除了面對關係之外,順序不變性是理想情況下應該通過關係推理的深度學習元件反映的屬性。

集合是用於由其順序是不確定的或不相關的實體描述的系統的自然表示;特別的,他們的關係歸納偏差不是來自某事物的存在,而是來自缺乏。為了說明,考慮預測由n個行星組成的太陽系質心的任務,其屬性(例如,質量,位置,速度等)由{x1,x2,...,xn}表示。對於這樣的計算,我們認為行星的順序無關緊要,因為狀態可以僅用匯總的平均數量來描述。然而,如果我們使用一個MLP來完成此任務,那麼學習某個特定輸入(x1,x2,...,xn)的預測就不一定會轉化為在不同的排序下對相同輸入進行預測(xn ,x1,...,x2)。既然有n!中可能的排序,在最壞的情況下,MLP可以將每個排序視為不同,因此需要指數數量的輸入/輸出訓練示例來學習近似函式。處理這種組合爆炸的一種自然方法是隻允許預測依賴於輸入屬性的對稱函式。這可能意味著計算共享的每個物件特徵{f(x1),...,f(xn)},然後以對稱的方式進行聚合(例如,通過取其平均值)。這種方法是Deep Sets模型的本質(Zaheer et al.,2017),我們將在4.2.3節進一步探討。

當然,在許多問題中,置換不變性不是唯一重要的基本結構形式。例如,一個集合中的每個物件都可能受到與集合中的其他物件的成對互動而帶來的影響。 在我們的行星場景中,現在考慮在一個時間間隔Δt之後預測每個行星位置的任務。在這種情況下,使用聚合的平均資訊是不夠的,因為每個行星的運動取決於其他行星對其施加的力。相反,我們可以將每個物件的狀態計算為x‘i = f(xi,∑jg(xi,xj)),其中g可以計算第j個行星在第i個行星上引起的力,f可以計算由力和動力學產生的第i個行星的未來狀態。我們在任何地方使用相同的g的事實也是系統的全域性置換不變性的結果; 然而,它也支援不同的關係結構,因為g現在需要兩個引數而不是一個引數

上述太陽系例項說明了兩種關係結構:一種是不存在的關係,一種包含所有配對關係。許多現實世界的系統(如圖2所示)在這兩個極端之間的某處具有一個關係結構,然而,一些實體擁有一個關係而另一些實體沒有關係。在我們的太陽系例子中,如果系統由行星和它們的衛星組成,那麼人們可能會試圖通過忽略不同行星的衛星之間的相互作用來近似它。在實際中,這意味著僅計算一些物件之間的互動作用,即x‘i = f(xi,∑j∈δ(i)g(xi,xj)),其中δ(i)⊆{1,...,n} 是節點i的鄰域。這對應於一個圖,因為第i個物件僅與其鄰域描述的其他物件的子集互動。注意,更新後的狀態仍然不依賴於我們描述鄰域的順序

通常,圖是支援任意(成對)關係結構的表示,並且圖上的計算可以是強大的關係歸納偏差,超出卷積層和迴圈層可以提供的強關係式感應偏差。

圖網路

在圖形神經網路的保護下,神經網路在圖形上執行並相應地構建其計算,已經被廣泛開發和探索了十多年(Gori et al.,2005; Scarselli et al.,2005,2009a; Li et al.,2016),但近年來在範圍和流行性方面發展迅速。我們在下一小節(3.1)中對這些方法的文獻進行了調查。然後在剩下的部分中,我們展示了我們的圖網路框架,該框架概括並擴充套件了該領域的工作。

 

背景

圖神經網路家族中的模型(Gori et al.,2005; Scarselli et al.,2005,2009a; Li et al.,2016)已經在各種問題領域中進行了探索,涵蓋監督,半監督,無監督和強化學習等環境。他們對於被認為具有豐富關係結構的任務非常有效,例如視覺場景理解任務(Raposo et al.,2017; Santoro et al.,2017)和少數學習(Garcia and Bruna,2018)。它們也被用來學習物理系統的動力學(Battaglia et al.,2016; Chang et al.,2017; Watters et al.,2017; van Steenkiste et al.,2018; Sanchez-Gonzalez et al.,2018) )和多智慧體系統(Sukhbaatar et al.,2016; Hoshen,2017; Kipf et al.,2018),推理知識圖(Bordes et al.,2013; On ~oro-Rubio et al.,2017; Hamaguchi et al.,2017)預測分子的化學性質(Duvenaud et al.,2015; Gilmer et al.,2017),以預測道路上的交通(Cui et al.,2018),對視訊進行分類和分類(Wang et al.,2018c)和3D網格和點雲(Wang et al.,2018d),對影象中的區域進行分類(Chen et al.,2018a),以執行半監督文字分類(Kipf and Welling,2017)和機器翻譯(Vaswani et al.,2017; Shaw et al.,2018; Gulcehre et al.,2018)。它們已被用於無模型(Wang et al.,2018b)和基於模型(Hamrick et al.,2017; Pascanu et al.,2017; Sanchez-Gonzalez et al.,2018)的連續控制,用於模型 - 免費強化學習(Hamrick et al.,2018; Zambaldi et al.,2018),以及更經典的規劃方法(Toyer et al.,2017)。

許多傳統的電腦科學問題,包括關於離散實體和結構的推理,也已經用圖神經網路進行了探索,例如組合優化(Bello et al.,2016; Nowak et al.,2017; Dai et al.,2017) ,布林滿意度(Selsam et al.,2018),程式表示和驗證(Allamanis et al.,2018; Li et al.,2016),細胞自動機和圖靈機的建模(Johnson,2017),並在圖模型中進行推理(Yoon et al.,2018)。最近的工作還集中在構建圖的生成模型(Li et al.,2018; De Cao and Kipf,2018; You et al.,2018; Bojchevski et al.,2018),以及圖形嵌入的無監督學習(Perozzi et al.,2014; Tang et al.,2015; Grover and Leskovec,2016;Garc'ıa-Dura'n and Niepert,2017)。

上面引用的作品絕不是詳盡的列表,而是提供了圖神經網路已經被證明有用的域的廣度的代表性橫截面。我們將感興趣的讀者指向一些現有的評論,這些評論更深入地研究了圖神經網路的工作主體。特別是,Scarselli等人(2009a)提供了早期圖神經網路方法的權威概述。布朗斯坦等人(2017)提供了非歐幾里德資料深度學習的優秀調查,並探索了圖神經網路,圖卷積網路和相關的頻譜方法。最近,吉爾默等人(2017)引入了訊息傳遞神經網路(MPNN),其統一了各種圖神經網路和圖卷積網路的方法(Monti et al.,2017; Bruna et al.,2014; Hena ff et al.,2015; Defferrard et al.,2016; Niepert et al.,2016; Kipf and Welling,2017; Bronstein et al.,2017),類比於圖模型中的訊息傳遞。同樣,Wang等人(2018c)引入了非區域性神經網路(NLNN),它通過類比方法統一了各種“自我關注”式方法(Vaswani et al.,2017; Hoshen,2017; Velickovi'c et al.,2018)。從計算機視覺和圖模型中捕獲訊號中的長距離依賴性。

 

圖網路(GN)塊

我們現在展示我們的圖網路(GN)框架,它為圖形結構表示定義了一類關係推理的函式。我們的GN框架概括和擴充套件了各種圖形神經網路,MPNN和NLNN方法(Scarselli et al.,2009a; Gilmer et al.,2017; Wang et al.,2018c),並支援從簡單的構建塊構建複雜的體系結構。注意,我們避免在“圖網路”標籤中使用術語“神經”來反映它們可以用除神經網路之外的函式來實現,儘管這裡我們關注的是神經網路實現。

GN框架中的主要計算單元是GN塊,即“圖形到圖形”的模組,它將圖形作為輸入,對結構執行計算,並返回圖形作為輸出。如方框3所述,實體由圖的節點,邊緣的關係和全域性屬性的系統級屬性表示。GN框架的塊組織強調可定製性併合成表達所需關係歸納偏差的新架構。關鍵設計原則是:靈活的表示(見4.1節); 可配置的塊內結構(見4.2節); 和可組合的多塊體系結構(參見第4.3節)。

我們介紹了一個激勵性的例子來幫助使GN形式主義更具體。考慮在一個任意重力場中預測一組橡膠球的運動,這些橡膠球不是相互彈跳,而是每個都有一個或多個彈簧將它們連線到其他一些(或全部)彈簧上。我們將在下面的定義中引用這個執行的例子,以激勵圖形表示和在其上執行的計算。圖2描繪了一些其他常見場景,可以用圖表表示並推理使用圖網路。

“圖”的定義

在我們的GN框架中,圖形被定義為三元組G=(u,V,E)(有關圖形表示的詳細資訊,請參見框3)。u是一個全域性屬性; 例如,u可能代表引力場。V ={vi}i = 1:Nv是節點集合(基數Nv),其中每個vi是節點的屬性。例如,V可能代表每個球,具有位置,速度和質量的屬性。E={(ek,rk,sk)}k = 1:Ne是邊緣集合(基數Ne),其中每個ek是邊緣的屬性,rk是接收者節點的索引,sk是傳送者節點的索引。例如,E可能表示不同球之間存在彈簧,以及它們相應的彈簧常數。

GN塊的內部結構

φe被對映到所有邊緣以計算每個邊緣更新,φv被對映到所有節點以計算每個節點更新,並且φu被應用一次作為全域性更新。ρ函式每個都將一個集合作為輸入,並將其減少為表示聚合資訊的單個元素。至關重要的是,ρ函式必須對其輸入的排列不變,並且應該採用可變數量的引數(例如,元素求和,平均值,最大值等)

GN塊中的計算步驟

當提供圖形G作為GN塊的輸入時,計算從邊緣,到節點,到全域性級別。圖3顯示了在每個計算中呼叫哪些圖元素的描述,圖4a顯示了具有更新和聚合功能的完整GN塊。演算法1顯示了以下計算步驟:

1.每個邊應用φe,帶引數(ek,vrk,vsk,u),並返回e`k。在我們的彈簧示例中,這可能對應於兩個連線球之間的力或勢能。每個節點的結果每邊輸出的集合i是,E‘i={(e’k,rk,sk)}rk=i,k=1:Ne。並且E‘=∪iE’i={(e‘k,rk,sk)} k = 1:Ne是所有每邊緣輸出的集合。

2.ρe→v應用於E’i,並將投影到頂點i的邊緣更新聚合到¯e‘i中,這將用於下一步的節點更新。在我們的執行示例中,這可能對應於對作用在第i個球上的所有力或勢能進行求和。

3.φv應用於每個節點i,以計算更新的節點屬性v’i。在我們的執行示例中,φv可以計算類似於每個球的更新位置,速度和動能等資訊。得到的每節點輸出的集合是,V‘= {v‘i}i=1:Nv。

4.ρe→u應用於E‘,並將所有邊緣更新聚合成¯e‘,然後將用於下一步的全域性更新。在我們的執行示例中,ρe→u可以計算總和力(在這種情況下應該為零,由於牛頓第三定律)和彈簧的勢能。

5.ρv→u應用於V‘,並將所有節點更新聚合到v¯‘中,然後將用於下一步的全域性更新。在我們的執行示例中,ρv→u可能會計算出系統的總動能。

6.每個圖形應用φu一次,並計算全域性屬性u‘的更新。在我們的執行示例中,φu可能會計算出與物理系統的淨力和總能量類似的東西。

注意,雖然我們假設這裡的步驟順序,但是沒有嚴格執行順序:例如,可以反轉更新函式以從全域性,每節點到每邊緣更新。 Kearnes et al.(2016)以類似的方式計算來自節點的邊緣更新。

圖網路中的關係歸納偏差

我們的GN框架在用作學習過程中的元件時會產生一些強大的關係歸納偏差。 首先,圖形可以表示實體之間的任意關係,這意味著GN的輸入決定了如何表示互動和隔離,而不是由固定的體系結構決定的那些選擇。 例如,假設兩個實體具有關係,由實體的對應節點之間的邊緣表示,因此這應該表示的是相互作用。類似地,沒有邊緣表示假設節點之間沒有關係,並且不應該直接相互影響。

其次,圖表將實體及其關係表示為集合,這些集合對於排列是不變的。這意味著GNs對於這些元素的順序是不變的,這通常是可取的。例如,場景中的物件沒有自然順序(參見2.2節)。

第三,GN的每條邊和每個節點函式分別在所有邊和節點上重用。這意味著GNs自動支援一種組合泛化形式(參見5.1節):因為圖形由邊,節點和全域性特徵組成,所以單個GN可以在不同大小(邊和節點的數量)和形狀(邊緣)的圖形上執行連線)。

 

圖網路體系結構的設計原則

GN框架可以用於實現各種體系結構,符合上面3.2節中列出的設計原則,這些原則也對應於下面的子部分(4.1,4.2和4.3)。通常,框架與特定的屬性表示和功能形式無關。然而,在這裡,我們主要關注深度學習架構,它允許GNs充當可學習的圖形到圖形函式逼近器。

 

靈活的表示

圖網路以兩種方式支援高度靈活的圖形表示:首先,就屬性的表示而言; 第二,就圖本身的結構而言。

屬性

GN塊的全域性,節點和邊緣屬性可以使用任意表示格式。在深度學習實現中,實值向量和張量是最常見的。但是,也可以使用其他資料結構,例如序列,集合甚至圖形。

問題的要求通常會確定應該為屬性使用哪些表示。例如,當輸入資料是影象時,屬性可以表示為影象塊的張量; 然而,當輸入資料是文字文件時,屬性可以是與句子對應的單詞序列。

對於更廣泛架構內的每個GN塊,邊緣和節點輸出通常對應於向量或張量的列表,每個邊緣或節點一個,並且全域性輸出對應於單個向量或張量。這允許將GN的輸出傳遞給其他深度學習構建塊,例如MLP,CNN和RNN。GN塊的輸出也可以根據任務的需求進行定製。尤其是,

 ◦邊緣聚焦GN,使用邊緣作為輸出,例如,決定實體之間的相互作用(Kipf et al.,2018; Hamrick et al.,2018)。

 ◦以節點為中心的GN,使用節點作為輸出,例如推理物理系統(Battaglia et al.,2016; Chang et al.,2017; Wang et al.,2018b; Sanchez-Gonzalez et al.,2018) 。

 ◦以圖形為中心的GN,使用全域性變數作為輸出,例如預測物理系統的潛在能量(Battaglia et al.,2016),分子的屬性(Gilmer et al.,2017),或問題的答案關於視覺場景(Santoro et al,,2017)。

節點,邊和全域性輸出也可以根據任務進行混合和匹配。例如,Hamrick等(2018)使用輸出邊緣和全域性屬性來計算策略而不是動作。

圖結構

在定義輸入資料如何表示圖形時,通常有兩種情況:首先,輸入明確指定關係結構; 第二,必須推斷或假設關係結構。這些不是硬性的區別,而是連續統一的極端。

具有更明確指定的實體和關係的資料的示例包括知識圖,社交網路,解析樹,優化問題,化學圖,道路網路和具有已知互動的物理系統。圖2a-d示出了這些資料如何表示圖形。

關係結構未明確且必須推斷或假設的資料示例包括視覺場景,文字語料庫,程式語言原始碼和多代理系統。在這些型別的設定中,資料可以被格式化為沒有關係的一組實體,或甚至僅僅是向量或張量(例如,影象)。如果實體未明確指定,則可以假設它們,例如,通過將句子中的每個單詞(Vaswani et al.,2017)或CNN的輸出特徵對映中的每個區域性特徵向量視為節點(Watters et al.,2017; Santoro et al.,2017; Wang et al.,2018c)(圖2e-f)。或者,可能使用單獨的學習機制來推斷來自非結構化訊號的實體(Luong et al.,2015; Mnih et al.,2014; Eslami et al.,2016; van Steenkiste et al.,2018)。如果關係不可用,最簡單的方法是例項化實體之間所有可能的有向邊(圖2f)。然而,這對於大量實體來說可能是禁止的,因為可能的邊緣的數量隨著節點的數量而呈二次方增長。因此,開發更復雜的方法來推斷非結構化資料的稀疏結構(Kipf et al.,2018)是未來的重要方向。

 

塊內結構的配置

GN塊中的結構和功能可以以不同的方式配置,靈活地提供哪些資訊作為其功能的輸入,以及如何產生輸出邊緣,節點和全域性更新。特別地,等式1中的每個φ必須用一些函式f來實現,其中f的引數確定它需要什麼資訊作為輸入;在圖4中,每個φ的輸入箭頭描述了u,V和E是否作為輸入。Hamrick等(2018)和Sanchez-Gonzalez等(2018)使用圖4a中所示的完整GN塊。他們的φ實現使用神經網路(在下面表示為NNe,NNv和NNu,表示它們是具有不同引數的不同函式)。他們的ρ實現使用元素和,但也可以使用平均和最大或最小,

其中[x,y,z]表示向量或張量連線。對於向量的屬性,MLP通常用於φ,而對於諸如影象特徵對映的張量,CNN可能更合適。

φ函式也可以使用RNN,這需要額外的隱藏狀態作為輸入和輸出。圖4b顯示了一個非常簡單的GN塊的版本,其中RNN為φ函式:在這個公式中沒有訊息傳遞,這種型別的塊可能用於一些動態圖狀態的迴圈平滑。當然,作為φ函式的RNN也可以用在完整的GN塊中(圖4a)。

GN框架中可以表達各種其他體系結構,通常作為不同的函式選擇和塊內配置。剩下的小節探討了GN的塊內結構如何以不同的方式進行配置,以及使用這種配置的已發表作品的例子。有關詳細資訊,請參閱附錄。

訊息傳遞神經網路(MPNN)

Gilmer等(2017)MPNN歸納了許多以前的架構,可以自然地轉換成GN形式。遵循MPNN論文的術語(參見Gilmer等(2017),第2-4頁):

◦訊息函式Mt扮演GN的φe角色,但不將u作為輸入,

◦元素求和用於 GN的ρe→v,

◦更新函式Ut扮演GN的φv的角色,

◦讀出函式R扮演GN的φu的角色,但不將u或E‘作為輸入,因此不需要與GN的ρe→u類似;

◦dmaster與GN的u大致相似,但是被定義為連線到所有其他節點的額外節點,因此不會直接影響邊緣和全域性更新。然後它可以在GN的V中表示。

圖4c顯示了根據GN框架如何構建MPNN。有關詳細資訊和各種MPNN體系結構,請參閱附錄。

非區域性神經網路(NLNN)

Wang等(2018c)的NLNN,其統一了各種“內/自/頂點/圖注意”方法(Lin et al.,2017; Vaswani et al.,2017; Hoshen,2017; Velickovi'c et al.,2018; Shaw et al.,2018),也可以轉換成GN形式。標籤“注意”是指節點如何更新:每個節點更新基於其鄰居的節點屬性的(某些函式)的加權和,其中節點與其鄰居之間的權重由一個標量計算得到。標量成對函式在它們的屬性之間(然後在鄰居之間標準化)。已釋出的NLNN形式主義並未明確包含邊緣,而是計算所有節點之間的成對關注度。但是各種NLNN相容模型,例如頂點注意互動網路(Hoshen,2017)和圖注意網路(Velickovi'c et al.,2018),能夠通過有效地將不共享邊緣的節點之間的權重設定為零來處理顯式邊緣。

如圖4d和5所示,φe被分解為標量成對相互作用函式,其返回非標準化注意項,表示為αe(vrk,vsk=a’k,以及向量值非成對項,表示為βe(vsk)=b’k。在ρe→v聚合中,a’k項在每個接收器的邊緣上進行歸一化,b’k和元素求和:

在NLNN論文的術語中(參見Wang等(2018c),第2-4頁):

◦他們的f扮演上述α的角色,

◦他們的g扮演上述β的角色。

該公式可能有助於僅關注與下游任務最相關的那些互動,特別是當輸入實體是一組時,通過在它們之間新增所有可能的邊來形成圖。

Vaswani等(2017)的多頭自我關注機制增加了一個有趣的特徵,其中φe和ρe→v由一組並行函式實現,其結果作為ρe→v的最後步驟連線在一起。這可以解釋為使用型別邊,其中不同的型別索引到不同的φe分量函式,類似於Li等(2016)。有關詳細資訊和各種NLNN體系結構,請參閱附錄。

其他圖形網路變體

完整的GN(公式2)可用於預測完整圖或(u‘,V‘,E‘)的任何子集,如第4.1.1節所述。例如,要預測圖形的全域性屬性,可以忽略V’和E’。類似地,如果輸入中未指定全域性,節點或邊緣屬性,那些向量可以是零長度,即不作為顯式輸入引數。同樣的想法適用於不使用全套對映(φ)和縮減(ρ)函式的其他GN變體。例如,互動網路(Battaglia et al.,2016; Watters et al.,2017)和神經物理引擎(Chang et al.,2017)使用完整的GN,但缺少全域性更新邊緣屬性(詳見附錄)。

各種模型,包括CommNet(Sukhbaatar et al.,2016),structure2vec(Dai et al.,2016)(在(Dai et al.,2017)的版本中)和門控圖序列神經網路(Li et al., 2016)已使用不直接計算成對互動的φe,而是忽略接收節點,僅在傳送方節點上操作,在某些情況下僅操作邊緣屬性。這可以通過具有以下簽名的φe的實現來表達,例如:有關詳細資訊,請參閱附錄。

 

可組合的多塊體系結構

圖網路的一個關鍵設計原則是通過組合GN塊來構建複雜的體系結構。我們定義了一個GN塊,因為它始終將包含邊,節點和全域性元素的圖作為輸入,並返回一個與輸出具有相同組成元素的圖(當這些元素未明確更新時,只需將輸入元素傳遞給輸出)。這種圖形到圖形的輸入/輸出介面確保一個GN塊的輸出可以作為輸入傳遞給另一個,即使它們的內部配置不同,類似於標準深度學習工具包的張量到張量介面。在最基本的形式中,兩個GN塊GN1和GN2可以通過將第一個輸出作為輸入傳遞給第二個來組成GN1◦GN2:G’ = GN2(GN1(G))。

可以組成任意數量的GN塊,如圖6a所示。塊可以是非共享的(不同的功能和/或引數,類似於CNN的層),GN1≠GN2≠ ...≠GNM,或共享(重用的功能和引數,類似於展開的RNN),GN1=GN2=···= GNM。圖6a中GNcore周圍的白框表示M個重複的內部處理子步驟,具有共享或非共享GN塊。共享配置類似於訊息傳遞(Gilmer et al.,2017),其中迭代地應用相同的本地更新過程以在整個結構中傳播資訊(圖7)。如果我們排除全域性u(其聚合來自節點和邊緣的資訊),則在m個傳播步驟之後節點可以訪問的資訊由最多m跳的節點和邊緣集確定。這可以解釋為將複雜計算分解為更小的基本步驟。這些步驟還可用於及時捕獲順序性。在我們的彈簧示例中,如果每個傳播步驟預測持續時間Δt的一個時間步長上的物理動態,那麼M個傳播步驟導致總模擬時間M·Δt。

常見的架構設計就是我們所說的編碼-處理-解碼配置(Hamrick et al.(2018);也見圖6ba):輸入圖形,Ginp由編碼器GNenc轉換成潛在表示G0; 共享核心塊GNcore應用M次以返回GM; 最後,輸出圖Gout由GNdec解碼。例如,在我們的執行示例中,編碼器可能計算球之間的初始力和相互作用能量,核心可能應用基本動態更新,並且解碼器可能從更新的圖形狀態讀出最終位置。

與編碼-處理-解碼設計類似,可以通過維護隱藏圖形Gthid來構建基於GN的迴圈體系結構,將每個步驟作為輸入觀察圖形Gtinp並返回輸出圖形Gtout(參見圖6c))。這種型別的架構對於預測圖的序列特別有用,例如預測動態系統隨時間的軌跡(例如Sanchez-Gonzalez et al.,2018)。由GNenc輸出的編碼圖必須具有與Gthid相同的結構,並且在傳遞給GNcore之前,可以通過連線它們對應的ek,vi和u向量(其中向上箭頭合併到圖6c中的左手水平箭頭)來容易地組合它們。對於輸出,複製Gthid(右手水平箭頭分成圖6c中的向下箭頭)並由GNdec解碼。這個設計以幾種方式重用GN塊:GNenc,GNdec和GNcore在每個步驟t中共享;在每個步驟中,GNcore可以執行多個共享子步驟。

用於設計基於GN的體系結構的各種其他技術可能是有用的。例如,圖形跳過連線會在進行進一步計算之前將GN塊的輸入圖Gm與其輸出圖Gm+1連線起來。 如圖6c所示,合併和平滑輸入和隱藏圖形資訊可以使用LSTM或GRU樣式的門控方案,而不是簡單的連線(Li et al.,2016)。或者,可以在其他GN塊之前和/或之後組成不同的,重複的GN塊(例如圖4b),以改善多個傳播步驟中的表示的穩定性(Sanchez-Gonzalez et al.,2018)。

 

在程式碼中實現圖形網路

類似於CNN(參見圖1),它們是自然可並行化的(例如在GPU上),GN具有自然的並行結構:因為公式1中的φe和φv函式分別在邊和節點上共享,所以它們可以分開平行計算。實際上,這意味著對於φe和φv,節點和邊緣可以像典型的小批量訓練方案中的批量維度一樣對待。此外,通過將幾個圖形視為較大圖形的不互斥分量,可以自然地將幾個圖形組合在一起。通過一些額外的簿記,這允許將在幾個獨立圖上進行的計算批處理。

複用φe和φv也可以提高GNs的樣本效率。同樣,類似於卷積核,用於優化GN的φe和φv函式的樣本數是分別在所有訓練圖中的邊和節點的數量。例如,在Sec3.2的球示例中,在圖3.2中,具有四個球的場景全部通過彈簧連線將提供十二(4×3)個它們之間的接觸相互作用的示例。

 

概要

在本節中,我們討論了圖形網路背後的設計原則:靈活的表示,塊內結構的配置和可組合的多塊體系結構。這三個設計原則結合在我們的框架中,該框架非常靈活,適用於從感知,語言和符號推理等廣泛領域。而且,正如我們將在本文的其餘部分中看到的那樣,圖網路所具有的強關係歸納偏差支援組合泛化,從而使其成為實現和理論方面的強大工具。

 

討論

在本文中,我們分析了深度學習架構(如MLP,CNN和RNN)中存在關係歸納偏差的程度,並得出結論,雖然CNN和RNN確實包含關係歸納偏差,但它們無法自然地處理更多結構化表示,如集合或圖表。我們主張通過強調未充分利用的深度學習構建塊(稱為圖形網路)來構建更強的關係歸納偏向深度學習架構,該構建塊對圖形結構資料執行計算。我們的圖形網路框架統一了現有的方法,這些方法也可以在圖形上執行,並提供了一個簡單的介面,用於將圖形網路組裝成複雜,複雜的體系結構。

 

圖網路中的組合泛化

GNs的結構自然支援組合泛化,因為它們不在系統級別嚴格執行計算,而且還應用跨實體和跨關係的共享計算。這允許對前所未有的系統進行推理,因為它們是由熟悉的元件構建的,其方式反映了Humboldt的“有限使用有限手段”(Humboldt,1836; Chomsky,1965)。

許多研究探討了GNs組合泛化的能力。Battaglia等(2016)發現受過訓練以進行一步物理狀態預測的GNs可以模擬數千個未來的時間步長,並且還表現出精確的零射擊轉移到物理系統,具有訓練期間經歷的實體數量的兩倍或一半。 Sanchez-Gonzalez等(2018)在更復雜的物理控制設定中發現了類似的結果,包括在模擬多關節代理上訓練為正向模型的GN可以擴充套件到具有新數量關節的代理。Hamrick等(2018年)和Wang等(2018b)各自發現基於GN的決策制定政策也可以轉移到新的實體數量。在組合優化問題中,Bello等(2016)表明,GNs可以很好地概括到比他們接受過訓練的大小不同的問題。同樣,Toyer等 (2017)顯示了對不同規模問題的概括,Hamilton等(2017)顯示了為以前看不見的資料生成有用的節點嵌入的概括。關於布林SAT問題,Selsam等 (2018)證明了對不同問題大小和跨問題分佈的推廣:他們的模型在強烈修改輸入圖的分佈及其典型的區域性結構時保持了良好的效能。

鑑於GNs的實體和以關係為中心的組織,這些組合泛化的顯著例子並不完全令人驚訝,但仍然為這種觀點提供了重要的支援,即採用顯式結構和靈活學習是實現更好的樣本效率和現代化人工智慧的可行方法。

 

圖網路的侷限性

GNs'和MPNNs學習訊息傳遞形式的一個限制是(Shervashidze et al.,2011),它不能保證解決某些類別的問題,例如區分某些非同構圖。Kondor等 (2018)提出協方差(Cohen and Welling,2016; Kondor and Trivedi,2018),而不是對節點和邊緣的排列的不變性是優選的,並且提出了可以保留結構資訊的“協變組成網路”,並允許它只有在需要時才被忽略。

更一般地說,雖然圖表是表示結構資訊的有效方式,但它們具有限制。例如,遞迴,控制流和條件迭代等概念不能直接用圖表表示,並且最低限度地需要額外的假設(例如,在解釋抽象語法樹時)。程式和更多“類似計算機”的處理可以提供關於這些概念的更強的代表性和計算表現力,並且一些人認為它們是人類認知的重要組成部分(Tenenbaum et al.,2011; Lake et al.,2015; Goodman et al.,2015)。

 

開啟問題

雖然我們對圖網路可能產生的潛在影響感到興奮,但我們提醒說這些模型只是向前邁出了一步。實現圖網路的全部潛力可能比在一個框架下組織其行為更具挑戰性,事實上,關於使用圖形網路的最佳方式存在許多未解決的問題。

一個迫切的問題是:圖表來自哪個圖網路執行?深度學習的標誌之一是它能夠對原始感官資料(如影象和文字)執行復雜計算,但目前尚不清楚將感官資料轉換為更加結構化的表示(如圖形)的最佳方法。一種方法(我們已經討論過)假設空間或語言實體之間存在完全連通的圖形結構,例如關於自我關注的文獻(Vaswani et al.,2017; Wang et al.,2018c)。然而,這樣的表示可能不完全對應於“真實”實體(例如,卷積特徵不直接對應於場景中的物件)。此外,許多底層圖形結構比完全連線圖形更稀疏,如何引發這種稀疏性是一個懸而未決的問題。幾項積極的研究正在探索這些問題(Watters et al.,2017; van Steenkiste et al.,2018; Li et al.,2018; Kipf et al.,2018),但到目前為止還沒有單一的方法可以從感覺資料中可靠地提取離散實體。開發這樣一種方法對於未來的研究來說是一個激動人心的挑戰,一旦解決,很可能會為更強大,更靈活的推理演算法開啟大門。

一個相關的問題是如何在計算過程中自適應地修改圖形結構。例如,如果一個物件分成多個部分,則表示該物件的節點也應該分成多個節點。類似地,僅表示接觸的物件之間的邊緣可能是有用的,因此需要能夠根據上下文新增或移除邊緣。關於如何支援這種適應性的問題也正在積極研究中,特別是,用於識別圖的基礎結構的一些方法可能是適用的(Li et al.,2018; Kipf et al.,2018)。

人類認知強烈假設世界是由物件和關係組成的(Spelke and Kinzler,2007),並且由於GNs做出了類似的假設,他們的行為往往更容易被解釋。GN執行的實體和關係通常對應於人類理解的事物(例如物理物件),因此支援更可解釋的分析和視覺化(Selsam et al.,2018)。未來工作的一個有趣方向是進一步探索圖網路行為的可解釋性。

 

學習和結構的綜合方法

雖然我們的重點是圖表,但本文的一個內容是關於圖形本身,而不是關於將強大的深度學習方法與結構化表示相結合的方法。我們對相關方法感到興奮,這些方法已經探索了這種思想用於其他型別的結構化表示和計算,例如語言樹(Socher et al.,2011a,b,2012,2013; Tai et al.,2015; Andreas et al., 2016),狀態 - 行動圖中的部分樹遍歷(Guez et al.,2018; Farquhar et al.,2018),等級行動政策(Andreas et al.,2017),“膠囊”(Sabour et al.,2017)和程式(Parisotto et al.,2017)。其他方法試圖通過模仿計算機中的關鍵硬體和軟體元件以及它們如何在彼此之間傳遞資訊來捕獲不同型別的結構,例如永續性時隙儲存,暫存器,儲存器I/O控制器,堆疊和佇列(Dyer et al.,2015;Grefenstette et al.,2015;Joulin and Mikolov,2015; Sukhbaatar et al.,2015;Kurach et al.,2016;Graves et al.,2016)。

 

結論

在深度學習的推動下,人工智慧的最新進展已經在許多重要領域發生了變革。儘管如此,人類和機器智慧之間仍存在巨大差距,特別是在高效,普遍化的學習方面。我們主張將組合泛化作為人工智慧的首要任務,並提倡採用綜合方法,這些方法利用人類認知,傳統電腦科學,標準工程實踐和現代深度學習的思想。在這裡,我們探索了靈活的基於學習的方法,這些方法實現了強大的關係歸納偏差,以利用明確的結構化表示和計算,並提出了一個稱為圖網路的框架,它概括和擴充套件了應用於圖形的神經網路的各種最新方法。圖網路旨在使用可定製的圖形到圖形構建塊來促進構建複雜的體系結構,並且它們的關係歸納偏差促進了組合泛化,並提高了樣本效率,超過了其他標準機器學習構建塊。

然而,儘管它們具有好處和潛力,但在圖形上執行的可學習模型只是走向類似人類智慧的道路上的踏腳石。我們對許多其他相關的,也許是未被充分認識的研究方向持樂觀態度,包括將基於學習的方法與計劃相結合(Ritchie et al.,2016; Andreas et al.,2016; Gaunt et al.,2016; Evans and Grefenstette,2018; Evans et al.,2018),開發基於模型的方法,重點是抽象(Kansky et al.,2017; Konidaris et al.,2018; Zhang et al.,2018; Hay et al.,2018),更多地投入元學習(Wang et al.,2016,2018a; Finn et al.,2017),並探索多智慧體學習和互動作為高階智慧的關鍵催化劑(Nowak,2006; Ohtsuki et al.,2006)。這些方向各自涉及豐富的實體概念,關係和組合泛化,並且可以從與通過明確結構化表示學習關係推理的方法的更大互動中獲益並且有益。