Wasserstein is all you need:構建無監督表示的統一框架
瑞士洛桑聯邦理工學院的研究者提出,通過將每個物件與分佈估計和點估計(向量嵌入)相關聯來構建單個物件或實體(及其組合)的無監督表示的統一框架。該方法可用於具有共現結構的任何無監督或監督問題(文字或其他模態)。該框架的關鍵工具是 Wasserstein 距離和 Wasserstein 重心。
近期自然語言處理和機器學習突然備受關注和成功的主要驅動因素之一是開發了更好的資料模態表示方法,比如,語言的連續向量表示 (Mikolov et al., 2013; Pennington et al., 2014)、基於卷積神經網路(CNN)的文字表示 (Kim, 2014; Kalchbrenner et al., 2014; Severyn and Moschitti, 2015; Deriu et al., 2017),或通過其它神經架構(如 RNN、LSTM)的文字表示,它們都共享一個核心思路——在保留輸入語義的同時,將輸入實體對映到位於低維潛在空間的密集向量嵌入。
現有方法是將每個感興趣的實體(如一個單詞)表示為空間中的單個點(如其嵌入向量),而該論文提出了一種完全不同的方法。研究者基於上下文的直方圖來表示每個實體(與之共現),其中上下文是合適度量空間中的點。這允許研究者將與實體相關的直方圖之間的距離轉換為最佳傳輸問題的例項 (Monge, 1781; Kantorovich, 1942; Villani, 2008)。例如,在單詞作為實體的情況下,得到的框架可以直觀地尋求從給定單詞的上下文移動到另一個單詞的上下文的成本最小化。這裡的上下文可以是與我們要表示的物件共現的單詞、短語、句子或一般實體,這些物件還可以是從序列資料中提取的任何型別的事件,包括電影或網路廣告之類的產品 (Grbovic et al., 2015)、圖中的節點 (Grover and Leskovec, 2016),或其他實體 (Wu et al., 2017)。任何共現結構都允許構建直方圖資訊,這是本研究提出方法的關鍵構建塊。
本研究提出方法的強烈動機來自於自然語言領域,其中實體(單詞、短語或句子)通常具有多種語義,實體被呈現為語義。因此,考慮能夠有效捕獲這種固有的不確定性和多義性的表示是很重要的,研究者將論證嵌入的直方圖(或概率分佈)能夠比單獨的逐點嵌入捕獲更多的資訊。研究者將直方圖稱為感興趣物件的分佈估計,將單個上下文的各個嵌入稱為點估計。
接下來,為了清晰起見,研究者將通過文字表示的具體用例討論該框架,當上下文只是單詞時,通過使用常見的正點互資訊(PPMI)矩陣來計算每個單詞的直方圖資訊。
藉助最佳傳輸的強大力量,本研究展示了該框架如何有效用於 NLP 中的各種重要任務,包括單詞和句子表示以及上下位關係(蘊涵)檢測,該框架還可以在上下文的現有預訓練嵌入的基礎上輕鬆使用。
該框架與單詞和上下文層次的最佳傳輸之間的聯絡為 NLP 應用中更好地利用其龐大的工具包(如 Wasserstein 距離、重心等)打下了基礎,這在過去主要限於文件距離 (Kusner et al., 2015; Huang et al., 2016)。
本研究證明了構建所需的直方圖幾乎不需要額外的成本,因為共現計數是通過語料庫的單次傳輸獲得的。由於 Cuturi(2013)引入的熵正則化,我們可以在 GPU 上並行化、批量化地高效計算最佳傳輸距離。最後,獲得的傳輸圖(圖 1)也提供了該框架的可解釋性。
圖 1:大象和哺乳動物直方圖之間最佳傳輸的圖示。這裡,研究者從兩個直方圖的前 20 個上下文的列表(就 PPMI 而言)中隨機選擇四個上下文。然後使用正則化的 Wasserstein 距離(如公式(4)所示),繪製所獲得的傳輸矩陣(或通常稱為傳輸圖)T,如上所述。
論文:Wasserstein is all you need
論文連結: ofollow,noindex" target="_blank">https://arxiv.org/pdf/1808.09663v1.pdf
摘要:我們提出了通過將每個物件與分佈估計和點估計(向量嵌入)相關聯,來構建單個物件或實體(及其組合)的無監督表示的統一框架。這可以通過使用最佳傳輸來實現,這使我們能夠在利用背景空間(ground space)的基礎幾何結構的同時建立這些相關估計。我們的方法為構建豐富而強大的特徵表示提供了新的視角,這些表示可以同時(通過分佈估計)捕獲不確定性和(使用最佳傳輸圖)捕獲可解釋性。作為一個指導性的例子,我們為文字制定了無監督表示,特別是對於句子表示和蘊涵檢測。實驗結果顯示我們提出的框架獲得了很大的優勢。該方法可用於具有共現結構的任何無監督或監督問題(文字或其他模態),例如任何序列資料。該框架的關鍵工具是 Wasserstein 距離和 Wasserstein 重心(因此才有了現在的論文標題!)。
圖 2:三個單詞的圖示,每個單詞都有其分佈估計(左)、相關上下文的點估計(中),以及聯合表示(右)。
表 2:蘊涵向量(entailment vector)和最佳運輸/基於 Wasserstein 的蘊涵測量(WE)之間的比較。得分為 AP @ all(%)。超引數 α 指的是平滑指數,s 指 PPMI 計算中的位移。附錄 A 中的表 4 列出了更多資料集。
表 3:蘊涵向量,最佳運輸/基於 Wasserstein 的蘊涵測量(WE)和其他當前最優方法之間的比較。GE + C 和 GE + KL 分別是具有餘弦相似度和負 KL 散度的高斯嵌入。當我們使用相同的評估設定時,GE + C、GE + KL 和 DIVE + C·ΔS 的得分取自 (Chang et al., 2017),分數是 AP @ all(%)。
結論
總而言之,我們得出將分佈估計和點估計相關聯作為每個實體的表示。我們展示了該方法允許在共現結構問題中使用與這些實體相關聯的上下文集合的最優傳輸。此外,該框架能夠與現有的指標估計和嵌入有效地結合,並且在多個 NLP 任務上展示了它的效能。最後,我們的方法為構建豐富的特徵表示提供了獨特的視角,這些表示能夠同時捕獲不確定性和可解釋性。