1. 程式人生 > >word2vec、doc2vec 訓練詞向量 引數說明

word2vec、doc2vec 訓練詞向量 引數說明

利用 gensim 模組 訓練詞向量

  1. 用 word2vec 訓練詞向量,主要語句:
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence

model = Word2Vec(LineSentence(wiki_news), sg=0,size=192, window=5, min_count=5, workers=9)

引數說明:
0)第一個引數 wiki_news 是預處理後的訓練語料庫。
1)sg=0 表示使用CBOW模型 訓練詞向量;
      sg=1 表示使用Skip-gram 訓練詞向量;
2)size 表示 詞向量的維度;
3)window 表示 當前詞和預測詞可能的最大距離;
      windows越大所需要列舉的預測詞越多,計算時間越長。
4)min_count 表示最小出現的次數,
      如果一個詞出現的次數小於min_count,那麼直接忽略該詞語。
5)workers 表示訓練詞向量時 使用的執行緒數。