詞嵌入：探索解釋和利用

詞嵌入定義：對於一系列語言建模和特徵學習技術的集合名稱，在自然語言處理領域中文字庫中詞或短語被對映到一個實值向量。
這個向量反映了就形態學/ 詞-內容表達/ 全域性語料統計/ 詞層次結構/文字建的關係和他們包含的項之間的詞結構。
所有詞嵌入的思想是去捕獲其語義/形態/內容/層次資訊等等。在實踐中特定任務中可能某一個方法會比其他的都好，例如LSA在處理低維空間來自相同領域的文字，其已經被處理成term-document矩陣。

one-hot encoding (CountVectorizing)
最基本和樸素的方法對於轉化詞到向量是數數在每個文字中詞的出現頻次。這個稱為countvectorizing或者one-hot encoding。思想是首席一系列文件（可以是詞，句子，段落，或者文章）並數數每個詞的出現頻次。得到的結果矩陣中列是詞，行是文字。

from sklearn.feature_extraction.text import CountVectorizer
# create CountVectorizer object
vectorizer = CountVectorizer()
corpus = [
‘This is the first document’,
‘This is the second document’,
‘This is the last document’
]
X = vectorizer.fit_transform(corpus)
vectorizer.get_feature_names() == (
[‘first’, ‘second’, ‘last’, ‘the’, ‘document’]
)
X.toarray()
vectorizer.transform([‘This is a new document’]).toarray()

這種方式的輸出有時候稱為稀疏矩陣，當X大多數元素都是0。
TF-IDF 轉化
這個方法的思想是通過利用有用的統計度量稱為tf-idf來權衡term。有大量語料時，例如’a’, ‘the’, ‘is’這些出現很頻繁但沒有具體含義。使用Onehot 編碼方法我們會看到這些詞不是那麼稀疏，這些詞很重要並帶有大量資訊。一種方法去解決這個問題是停用詞過濾，但這個解是離散的，對領域不固定。
對停用詞的一個樸素解是使用統計量，
tfidf(term,document)=tf(term,document)⋅idf(term)
第一項稱為term frequency詞頻，也就是簡單的平均在所有文件中該詞出現的次數：

tf(term,document)=ni∑Vk=1nk
第二項是idf,表示文件頻率的逆，也就是文件數的倒數，取個對數:
idf(term)=logNnt
在之前方法中，我們i行j列的詞在文件出現n次，我們採用相同的CountVectorizer矩陣計算，使用tf-idf分數來代替之前所有元素。

from sklearn.feature_extraction.text import TfidfTransformer
# create tfidf object
transformer = TfidfTransformer(smooth_idf = False)
#X 從之前片段中使用X.toarray()轉化得到
X = [[4,0,1], [2,0,2], [3,4,0],[2,0,2], [3,1,0], [3,0,2]]
#從詞彙表中學習並存儲tf-idf稀疏矩陣
tfidf = transformer.fit_transform(counts)
tfidf.toarray()

Word2Vec
Word2Vec是第一個神經嵌入模型，被大家廣泛使用。它演化出Doc2Vec,也是對段落表達很流行的模型。
有三種Word2vec型別的引數學習，所有都是基於神經網路模型。
One-word context
這個思想是我們考慮每個上下文環境考慮一個詞（我們基於給定的一個詞來預測一個詞），這個方法經常指的是CBOW模型，神經網路架構是我們有one-hot 編碼的向量作為V*1的輸入，輸入層到隱藏層的權重矩陣W 大小為V*N，隱藏層到輸出層權重W’ 大小為N*V, 最後一步啟用使用softmax函式。我們目標是計算下面的概率分佈，下標I詞的向量表達：p(wj|wI)
我們假設輸入向量x, 全為0，並且在k位置有一個1，隱藏層h為：h=WTx=vTWI
現在我們可以稱h為詞x的輸入向量。詞彙表中每個詞都有輸入和輸出表達；權重W的i行是詞i的輸入向量表達。
神經網路的下一步，我們使用h向量並做以下運算:
uj=v′Twjh
v’表示詞w下標為j的輸出向量，對於每個實體u下標為j我們做這個乘法操作。
啟用步驟使用標準softmax函式（之後會替代為負取樣或者層次softmax技術）：

p(wj|wI)=yj=exp(uj)∑Vj′=1exp(uj′)
這裡寫圖片描述

Multi-word context
這個模型和one-word context沒有差別，除了我們想得到的概率分佈型別和隱藏層的型別。多詞上下文的解讀是我們希望預測多項式分佈給定超過一個context次而且許多儲存了關於目標詞和其他詞之間的關係。
我們的概率分佈：p(wO|w1,1,⋅⋅⋅,wi,c)
我們改變隱藏層函式為：h=1CW(x1+x2+⋅⋅⋅+xC)

代價函式為：

−logp(wO|w1,1,⋅⋅⋅,wi,c)
這裡寫圖片描述

skip-gram model
和CBOW多詞模型相反：我們預測c個上下文詞，只有一個目標詞作為輸入。然後我們的目標函式為:1T∑t=1T∑−c≤j≤clogp(wt+j|wt)

-c和c表示上下文視窗的限制，下標t的詞是遍歷語料庫中每個詞。
我們的第一步是得到隱藏層：h=WTx=vTwI
輸出層（沒有啟用）得到:

uc,j=uj=v′Twjh
在輸出層，我們計算c個多項式分佈；每個輸出平面共享相同的權重從隱藏層到輸出層權重W’，輸出值的啟用函式使用softmax，根據c個平面改變一點記號：p(wc,j=wO,c|wI)=yc,j=exp(uc

詞嵌入：探索解釋和利用

詞嵌入：探索解釋和利用

機器學習：探索資料和資料預處理

pytorch：詞嵌入和n-gram

NLP之WE之Skip-Gram：基於TF利用Skip-Gram模型實現詞嵌入並進行視覺化、過程全記錄

前沿綜述：細數2018年最好的詞嵌入和句嵌入技術

Angular4.0踩坑之路：探索子路由和懶加載

C#_關鍵字：Lock的解釋和使用

前面一篇,我們介紹如何下載和利用jsonorg提中興：堅持就是勝利

區塊鏈在認證領域的應用案例：公證通Factom利用區塊鏈構建可信賴的認證和公證服務

C++：探索std::map和std::unordered_map中的新增操作

搜尋框架搭建1：elasticsearch安裝和視覺化工具kibana、分詞外掛jieba安裝

C++：探索std::map和std::unordered_map中最高效的新增操作

《利用Python進行資料分析》——Chapter9：資料聚合和分組

Kubernetes（k8s）中文文件名詞解釋：Security Context和PSP_Kubernetes中文社群

無監督學習：詞嵌入or詞向量（Word Embedding）

吳恩達Coursera深度學習課程 deeplearning.ai (5-2) 自然語言處理與詞嵌入--程式設計作業(一)：詞向量運算

詞嵌入向量（Word Embedding）的原理和生成方法

[機器學習入門] 李巨集毅機器學習筆記-15 （Unsupervised Learning: Word Embedding；無監督學習：詞嵌入）

Android系統資訊獲取之三：IMSI號和IMEI解釋

吳恩達Coursera深度學習課程 deeplearning.ai (5-2) 自然語言處理與詞嵌入--程式設計作業(二)：Emojify表情包

詞嵌入：探索解釋和利用

相關推薦