1. 程式人生 > >從頭開始學習自然語言處理

從頭開始學習自然語言處理

處理 節點 ica 一個 word 兩種 學習 where 字符

Wording Embedding

  1. word2vec
    基於只含有一個隱層的神經網絡,隱層的節點數就是embedding的維度。並提出了CBOW和Skip-Grams這兩種語言模型。並針對詞典過大而導致計算softmax分母復雜度太高的問題提出了Hierarchical Softmax和 Negative Sampling方法。
  2. glove
    並不是基於神經網絡的方法,更類似於對文本中單詞的共現性的矩陣進行矩陣分解,然後對每個單詞求一個embedding向量。
  3. fasttext
    基於word2vec的改進方法,之前的方法沒有考慮單詞的形態學特征。比如there和where看起來是非常像的,但是在學習時卻是獨立來學習的。fasttext考慮將每個單詞用 bag of character n-gram 來表示。就是對每個單詞基於字符層面切分,比如where 的 3-gram為 {whe,eer,ere},(bag我自己的理解是集合的意思),單詞w與其他單詞的相關性可以表示成w的n-grams與其他單詞的相關性的和

http://www.quest.dcs.shef.ac.uk/wmt16_files_mmt/training.tar.gz

從頭開始學習自然語言處理