Gensim Word2vec 使用教程

阿新 • • 發佈：2019-02-09

本文主要基於Radim Rehurek的Word2vec Tutorial.

準備輸入

Gensim的word2vec的輸入是句子的序列. 每個句子是一個單詞列表

程式碼塊

例如：

>>> # import modules & set up logging
>>> import gensim, logging
>>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
>>>
>>>  
sentences = [['first', 'sentence'], ['second', 'sentence']]
>>> # train word2vec on the two sentences
>>> model = gensim.models.Word2Vec(sentences, min_count=1)

將輸入視為Python的內建列表很簡單, 但是在輸入很大時會佔用大量的記憶體. 所以Gensim只要求輸入按順序提供句子, 並不將這些句子儲存在記憶體, 然後Gensim可以載入一個句子, 處理該句子, 然後載入下一個句子.

例如, 如果輸入分佈在硬碟上的多個檔案中, 檔案的每一行是一個句子, 那麼可以逐個檔案, 逐行的處理輸入:

>>> class MySentences(object):
...     def __init__(self, dirname):
...         self.dirname = dirname
... 
...     def __iter__(self):
...         for fname in os.listdir(self.dirname):
...             for line in open(os.path.join(self.dirname, fname)):
...                 yield line.split()
>>>
>>>  
sentences = MySentences('/some/directory') # a memory-friendly iterator
>>> model = gensim.models.Word2Vec(sentences)

如果需要對檔案中的單詞做其他處理, 比如轉換為unicode, 轉換大小寫, 刪除數字, 抽取命名實體等, 所有這些都可以在MySentence迭代器中進行處理.

注意, word2vec會在整個句子序列上跑兩遍, 第一遍會收集單詞及其詞頻來夠愛走一個內部字典樹結構. 第二遍才會訓練神經網路. 如果你只能遍歷一邊資料, 則可以參考以下做法

>>> model = gensim.models.Word2Vec() # an empty model, no training
>>> model.build_vocab(some_sentences)  # can be a non-repeatable, 1-pass generator
>>> model.train(other_sentences)  # can be a non-repeatable, 1-pass generator

訓練

**
Word2vec有很多可以影響訓練速度和質量的引數.

第一個引數可以對字典做截斷. 少於min_count次數的單詞會被丟棄掉, 預設值為5

python
model = Word2Vec(sentences, min_count=10)  # default value is 5

另外一個是神經網路的隱藏層的單元數:

model = Word2Vec(sentences, size=200)  # default value is 100

大的size需要更多的訓練資料, 但是效果會更好. 推薦值為幾十到幾百.

最後一個主要的引數控制訓練的並行:

model = Word2Vec(sentences, workers=4) # default = 1 worker = no parallelization

worker引數只有在安裝了Cython後才有效. 沒有Cython的話, 只能使用單核.

記憶體

word2vec的引數被儲存為矩陣(Numpy array). array的大小為#vocabulary 乘以 #size大小的浮點數(4 byte)矩陣.

記憶體中有三個這樣的矩陣, 如果你的輸入包含100,000個單詞, 隱層單元數為200, 則需要的記憶體大小為100,000 * 200 * 4 * 3 bytes, 約為229MB.

另外還需要一些記憶體來儲存字典樹, 但是除非你的單詞是特別長的字串, 大部分記憶體佔用都來自前面說的三個矩陣.
評測

Gensim也支援相同的評測集:

>>> model.accuracy('/tmp/questions-words.txt')
-02-01 22:14:28,387 : INFO : family: 88.9% (304/342)
-02-01 22:29:24,006 : INFO : gram1-adjective-to-adverb: 32.4% (263/812)
-02-01 22:36:26,528 : INFO : gram2-opposite: 50.3% (191/380)
-02-01 23:00:52,406 : INFO : gram3-comparative: 91.7% (1222/1332)
-02-01 23:13:48,243 : INFO : gram4-superlative: 87.9% (617/702)
-02-01 23:29:52,268 : INFO : gram5-present-participle: 79.4% (691/870)
-02-01 23:57:04,965 : INFO : gram7-past-tense: 67.1% (995/1482)
-02-02 00:15:18,525 : INFO : gram8-plural: 89.6% (889/992)
-02-02 00:28:18,140 : INFO : gram9-plural-verbs: 68.7% (482/702)
-02-02 00:28:18,140 : INFO : total: 74.3% (5654/7614)

切記, 要根據自己的應用了需求來確定演算法的效能.

儲存和載入模型

儲存、載入模型的方法如下:

>>> model.save('/tmp/mymodel')
>>> new_model = gensim.models.Word2Vec.load('/tmp/mymodel')

另外, 可以直接載入由C生成的模型:

model = Word2Vec.load_word2vec_format('/tmp/vectors.txt', binary=False)
 # using gzipped/bz2 input works too, no need to unzip:
model=Word2Vec.load_word2vec_format('/tmp/vectors.bin.gz', binary=True)

線上訓練

可以在載入模型之後使用另外的句子來進一步訓練模型

model = gensim.models.Word2Vec.load('/tmp/mymodel')
model.train(more_sentences)

但是不能對C生成的模型進行再訓練.
使用模型
Word2vec支援數種單詞相似度任務:

model.most_similar(positive=['woman', 'king'], negative=['man'], topn=1)
[('queen', 0.50882536)]
model.doesnt_match("breakfast cereal dinner lunch".split())
'cereal'
model.similarity('woman', 'man')
.73723527

可以通過以下方式來得到單詞的向量:

model['computer']  # raw NumPy vector of a word
array([-0.00449447, -0.00310097,  0.02421786, ...], dtype=float32)

Gensim Word2vec 使用教程

本文主要基於Radim Rehurek的Word2vec Tutorial. ** 準備輸入 ** Gensim的word2vec的輸入是句子的序列. 每個句子是一個單詞列表程式碼塊例如： >>> # import modules & set

基於python的gensim word2vec訓練詞向量

準備工作當我們下載了anaconda後，可以在命令視窗通過命令 conda install gensim 安裝gensim gensim介紹 gensim是一款強大的自然語言處理工具，裡面包括N多常見模型，我們體驗一下： interfa

Word2Vec教程

這個教程包含訓練word2vec的 skip-gram 模型。通過這個教程，我希望跳過常規Word2Vec 的介紹和抽象理解，而是去討論一些細節。特別是skip gram的網路結構。模型 skipgram model 常常讓人驚訝於它的簡單結構

gensim Word2Vec 訓練和使用

訓練模型利用gensim.models.Word2Vec(sentences)建立詞向量模型該建構函式執行了三個步驟：建立一個空的模型物件，遍歷一次語料庫建立詞典，第二次遍歷語料庫建立神經網路模型可以通

使用gensim word2vec訓練英文預料---最簡潔版

使用gensim word2vec訓練英文預料—最簡潔版直接上程式碼： # -*- coding: utf-8 -*- import gensim.models.word2vec as wor

Gensim官方教程翻譯（二）——語料庫與向量空間（Corpora and Vector Spaces）

====================正==========文==================== 如果你想記錄日誌，請不要忘記設定： >>> import logging >>> logging.basicConfig(for

Gensim官方教程翻譯（五）——英文維基百科的實驗

僅供個人學習之用，如有錯誤，敬請指正。原文地址為了測試gensim的效能，我們在維基百科英文版上運行了一些實驗。這個頁面描述了獲取與處理維基百科的過程，以便任何人都能再現這個結果。本教程要求已經正確安裝了gensim。譯者注：維基百科的內容

gensim word2vec把訓練好的模型儲存成txt

import gensim import codecs from gensim.models import word2vec import re from gensim.corpora.dictionary import Dictionary import pickle i

Vector Representations of Words -- TensorFlow官網word2vec教程翻譯

本文為Tensorflow Tutorials 詞向量教程的翻譯版本，翻譯過程即學習過程，同時也會在日後根據當前階段的理解，重新翻閱更新。在此教程中，我們借用Mikolov等人論文中提到的word2vec模型，此模型可將單詞對映成特定的向量，這

python實現gensim.word2vec模型訓練例項

word2vec在NLP領域的運用比較多，最近看了網上的例子覺得挺有意思的，就自己動手實踐了一下。簡單總結：所謂的word vector，就是指將單詞向量化，將某個單詞用特定的向量來表示。將單詞轉化成對應的向量以後，就可以將其應用於各種機器學習的演算法中去。一般來講，詞向量主

Gensim進階教程：訓練word2vec與doc2vec模型

本篇部落格是Gensim的進階教程，主要介紹用於詞向量建模的word2vec模型和用於長文字向量建模的doc2vec模型在Gensim中的實現。 Word2vec Word2vec並不是一個模型——它其實是2013年Mikolov開源的一款用於計算詞向量的工具。關於Word2vec更多的原理性的介紹，可以參見

用gensim學習word2vec

logs rar split() des eric conf com for ipy 　　　　在word2vec原理篇中，我們對word2vec的兩種模型CBOW和Skip-Gram，以及兩種解法Hierarchical Softmax和Negative Sampling做

win7 python3.5 採用gensim訓練word2vec，生成wiki.zh.text.model

0，如果您覺得操作麻煩，可以直接直接下載生成好的wiki.zh.text.model模型 https://download.csdn.net/download/luolinll1212/10640451 1，下載中文維基百科 https://

【python gensim使用】word2vec詞向量處理中文語料

word2vec介紹 word2vec官網：https://code.google.com/p/word2vec/ word2vec是google的一個開源工具，能夠根據輸入的詞的集合計算出詞與詞之間的距離。它將term轉換成向量形式，可以把對文字內容的處理簡化為向量空間中的向量運算，計算出向

【NLP】【五】gensim之Word2Vec

【一】整體流程綜述 gensim底層封裝了Google的Word2Vec的c介面，藉此實現了word2vec。使用gensim介面非常方便，整體流程如下： 1. 資料預處理（分詞後的資料） 2. 資料讀取 3.模型定義與訓練 4.模型儲存與載入 5.模型使用（相似度計算，詞向

使用gensim訓練中文語料word2vec

使用gensim訓練中文語料word2vec 目錄使用gensim訓練中文語料word2vec 1、專案目錄結構 1.1 檔案說明： 1.2 專案下載地址 2、使用jieba中文切詞工具進行切詞 2.1 新增自定義詞典 2.2 新增停

Gensim中word2vec和doc2vec的基本用法

一、 word2vec： from gensim.models.word2vec import Word2Vec model = Word2Vec(lines, sg=1, size=100, wi

Kaggle word2vec NLP 教程第二部分：詞向量

第二部分：詞向量程式碼第二部分的教程程式碼在這裡。分散式詞向量簡介本教程的這一部分將重點介紹使用 Word2Vec 演算法建立分散式單詞向量。（深度學習的概述，以及其他一些教程的連結，請參閱“什麼是深度學習？”頁面）。第 2 部分和第 3 部分比第

Kaggle word2vec NLP 教程第三部分：詞向量的更多樂趣

第三部分：詞向量的更多樂趣程式碼第三部分的程式碼在這裡。單詞的數值表示現在我們有了訓練好的模型，對單詞有一些語義理解，我們應該如何使用它？如果你看它的背後，第 2 部分訓練的 Word2Vec 模型由詞彙表中每個單詞的特徵向量組成，儲存在一個名為sy

gensim中word2vec的使用

一、遇見的坑： 1、Word2Vec和word2vec不是一個東西，word2vec包含了所有的方法，Word2Vec是word2vec檔案下的一個類，用於模型相關的方法 2、word2vec匯入資料集只能用word2vec.Text8Corpus(path)的方式去匯入 3、儲存、載入

Gensim Word2vec 使用教程

準備輸入

程式碼塊

訓練

記憶體

儲存和載入模型

線上訓練

相關推薦