1. 程式人生 > >gensim版word2vec的使用

gensim版word2vec的使用

sg 定義訓練演算法,預設是sg=0,採用CBOW,否則sg=1採用skip-gram
size 是特徵向量的維數
window 設定當前詞彙與上下文詞彙的最大間距
alpha 是最初學習速率
seed 用於隨機數生成器
min_count  設定最低有效詞頻
max_vocab_size  設定詞向量訓練期間的最大RAM,如果詞彙量超過這個就減掉詞頻最小的那個,設定None則不限制,每1000萬字大概需要1Gb記憶體
sample 設定高頻詞隨機下采樣的閾值,預設值為1e-3,有效範圍為(0,1e-5)
workers 設定幾個工作執行緒來訓練模型(有效利用多核機器)
hs  如果設定為1,將用於模型訓練。如果設定為0(預設),同時negative設定為非零,將使用負取樣
negative 如果> 0,將使用負取樣,該數值指定應取出多少“噪聲字”(通常在5-20之間)。預設值為5,如果設定為0,則不使用負取樣
cbow_mean = 如果設定為0,使用上下文詞向量的和。如果設為1(預設),則使用平均值,僅適用於使用cbow時。
hashfxn 雜湊函式,用於隨機初始化權重以增加訓練的可重複性。預設是Python的基本內建雜湊函式
iter  語料庫中的迭代次數(epochs),預設值為5
trim_rule 詞彙修剪規則,指定某些詞是否應保留在詞彙表中,被修剪掉或使用預設值處理(如果字計數<min_count則捨棄)。可以為None(將使用min_count)或接受引數(word,count,min_count)的可呼叫並返回utils.RULE_DISCARD,utils.RULE_KEEP或utils.RULE_DEFAULT。注意:規則(如果給出)僅在build_vocab()期間用於修剪詞彙表,不會作為模型的一部分儲存。
sorted_vocab  如果設為1(預設),在分配詞索引之前,通過降序對詞彙表進行排序。
batch_words  傳遞給工作執行緒(以及此cython例程)的示例批次的目標大小(以字為單位)。預設值為10000.(如果單個文字長度大於10000個字,則會傳遞更大的批次,但標準的cython程式碼會截斷到最大值。)