1. 程式人生 > >Glove:Global Vectors for Word Representation.

Glove:Global Vectors for Word Representation.

related work 1)global matric factorization 例如LSA(latent semantic analysis)雖然利用了statistics of the corpus,但在word analogy task上表現不好;LSA應用SVD的矩陣分解技術對大矩陣降維,但對所有單詞的統計權重都是一樣大的,而且計算代價很大。 2) local context window method 例如skip-gram,雖然better on analogy task,但只在local context window中訓練而忽略gloval co-ocurrence counts。 在這裡插入圖片描述

由上圖推斷,由概率的比值而不是概率本身去學習詞向量可能是一個更恰當的方法。 在這裡插入圖片描述

雖然很多人聲稱GloVe是一種無監督(unsupervised learing)的學習方式(因為它確實不需要人工標註label),但其實它還是有label的,這個label就是損失函式中的log(Xij)log( X_{ij} )。 最終學習到的是wwwˉ\bar w ,因為X是對稱的,以從原理上講wwwˉ\bar w是也是對稱的,他們唯一的區別是初始化的值不一樣,而導致最終的值不一樣。所以這兩者其實是等價的,都可以當成最終的結果來使用。但是為了提高魯棒性,我們最終會選擇兩者之和w

+wˉw + \bar w作為最終的vector(兩者的初始化不同相當於加了不同的隨機噪聲,所以能提高魯棒性)。 reference:https://blog.csdn.net/coderTC/article/details/73864097 https://www.fanyeong.com/2018/02/19/glove-in-detail/ https://zhuanlan.zhihu.com/p/42073620