CoNLL 2018 | 最佳論文揭曉:詞嵌入獲得的資訊遠比我們想象中的要多得多

ofollow,noindex" target="_blank">機器之心 翻譯
參與:李亞洲、路雪 作者:Mikel Artetxe
CoNLL 2018 | 最佳論文揭曉:詞嵌入獲得的資訊遠比我們想象中的要多得多
CoNLL 是自然語言處理領域的頂級會議,每年由 SIGNLL 組織舉辦。CoNLL 2018 大會將於 10 月 31 日-11 月 1 日在比利時布魯塞爾舉行,地點與 EMNLP 2018 一樣(EMNLP 2018 將於 10 月 31 日-11 月 4 日舉行)。
昨日,CoNLL 公佈了最佳論文,由來自西班牙巴斯克大學 IXA NLP 組的 Mikel Artetxe 等人獲得。該論文展示了詞嵌入模型能夠捕獲不同層面的資訊(如語義/句法和相似度/相關度),為如何編碼不同的語言資訊提供了新的視角,該研究還研究了內外部評估之間的關係。
近年來,詞嵌入成為自然語言處理的核心主題。業內提出了多種無監督方法來高效地訓練單詞的密集型向量表徵,且成功地應用到語法解析、主題建模、文件分類等多類任務。
雖然從理論角度理解這些模型是更加活躍的研究路線,但這些研究背後的基本思路都是為類似的單詞分配類似的向量表徵。由此,大部分詞嵌入模型依賴來自大型單語語料庫的共現統計資訊(co-occurrence statistics),並遵循分佈假設,也就是相似單詞傾向於出現在相似語境中。
然而,上述論點沒有定義「相似單詞」的含義,且詞嵌入模型實際中應該捕捉哪種關係也不完全清楚。因此一些研究者在真正相似度(如 car - automobile)與關聯度(如 car - road)之間進行區分。從另一個角度來說,詞語相似度可聚焦在語義(如 sing-chant)或者句法(如 sing-singing)上。我們把這兩個方面作為相似度的兩個座標軸,且每一個座標軸的兩端為兩種性質:語義/句法軸和相似度/關聯度軸。
本論文提出了一種新方法來調整給定的任意嵌入向量集,使其在這些座標軸中靠近特定端點。該方法受一階和二階共現研究的啟發,可推廣為詞嵌入向量線性變換的連續引數,我們稱之為相似度階(similarity order)。雖然業內提出了多種學習特定詞嵌入的方法,但之前的研究明確地改變了訓練目標,且總是依賴知識庫這樣的外部資源。而本論文提出的方法可用做任意預訓練詞嵌入模型的後處理,不需要任何額外資源。同樣,該研究表明,標準的詞嵌入模型能夠編碼不同的語言資訊,但能夠直接應用的資訊有限。此外,該研究也分析了該方法與內部評估和下游任務的關係。該論文主要貢獻如下:
1. 提出了一個具備自由引數的線性變換,能夠調整詞嵌入在相似度/關聯度和語義/句法座標軸中的效能,並在詞彙類推資料集和相似度資料集中進行了測試。
2. 展示了當前詞嵌入方法的效能受到無法同時顯現不同語言資訊(例如前面提到的座標軸)的限制。該研究提出的方法表明,詞嵌入能夠捕獲的資訊多於表面顯現出的資訊。
3. 展示了標準的內部評估只能給出一個靜態的不完整圖景,加上該研究提出的方法能夠幫助我們更好地理解詞嵌入模型真正編碼哪些資訊。
4. 展示了該方法也能運用到下游任務中,但相比於使用一般詞嵌入作為輸入特徵的監督系統,其效果在直接使用詞嵌入相似度的無監督系統上更顯著,因為監督系統有足夠的表達能力來學習最優變換。
總之,該研究揭示了詞嵌入如何表示不同語言資訊,分析了它在內部評估和下游任務中所扮演的角色,為之後的發展開創了新機遇。
論文:Uncovering divergent linguistic information in word embeddings with lessons for intrinsic and extrinsic evaluation
論文連結:https://arxiv.org/abs/1809.02094
摘要:隨著詞嵌入最近取得成功,有人認為根本不存在詞的理想表徵,因為不同的模型傾向於捕捉不同且往往互不相容的方面,如語義/句法和相似性/相關性。本論文展示了每個詞嵌入模型捕獲的資訊多於直接顯現的資訊。線性轉換無需任何外部資源就能調整模型的相似度階,因此能夠調整模型以在這些方面獲得更好的結果,這為詞嵌入編碼不同的語言資訊提供了新的視角。此外,我們還探索了內、外部評估的關係,我們在下游任務中的變換效果在無監督系統中的效果優於監督系統。
內部評估
表 1:原始嵌入以及具備對應 α 值的最佳後處理模型的內部評估結果。評估指標是詞彙類比任務的準確率和詞語相似度的斯皮爾曼等級相關係數。
圖 1:詞彙類比任務中,不同 α 值所對應的相對誤差減少,原始嵌入的 α = 0。
外部評估
表 2:原始嵌入和具備對應 α 值的最佳後處理模型的語義文字相似度結果,衡量標準為皮爾遜相關係數。DAM 分數是 10 次執行的平均得分。
圖 3:不同 α 值對應的語義文字相似度結果。DAM 分數是 10 次執行的平均得分。
討論
我們認為該研究為嵌入編碼不同語言資訊提供了新的視角,其與內外部評估之間的關係如下所示:
-
標準內部評估提供的是不同詞嵌入模型編碼的靜態、不完整資訊圖。
-
使用預訓練嵌入作為特徵的監督系統具備足夠的表達能力來學習任務的最優相似度階。
-
儘管我們的研究展示了嵌入捕獲的預設相似度階對較大的學習系統影響較小,但它未必是最優的整合策略。如果研究者認為某個相似度階可能更適合某個下游任務,則他/她設計的整合策略很可能鼓勵這個相似度階,我們認為這是未來一個有趣的研究方向。例如,研究者可以設計正則化方法去懲罰預定義相似度階的較大偏差。
理論 自然語言處理 詞嵌入 COLING 2018
相關資料
Regularization
當模型的複雜度增大時,訓練誤差會逐漸減小並趨向於0;而測試誤差會先減小,達到最小值後又增大。當選擇的模型複雜度過大時,過擬合現象就會發生。這樣,在學習時就要防止過擬合。進行最優模型的選擇,即選擇複雜度適當的模型,以達到使測試誤差最小的學習目的。
來源:李航著 統計學習方法 清華大學出版社