基於python的gensim word2vec訓練詞向量

阿新 • • 發佈：2018-12-30

準備工作

當我們下載了anaconda後，可以在命令視窗通過命令

conda install gensim

安裝gensim

gensim介紹

gensim是一款強大的自然語言處理工具，裡面包括N多常見模型，我們體驗一下：

interfaces – Core gensim interfaces
utils – Various utility functions
matutils – Math utils
corpora.bleicorpus – Corpus in Blei’s LDA-C format
corpora.dictionary – Construct word<->id mappings
corpora.hashdictionary 
 – Construct word<->id mappings
corpora.lowcorpus – Corpus in List-of-Words format
corpora.mmcorpus – Corpus in Matrix Market format
corpora.svmlightcorpus – Corpus in SVMlight format
corpora.wikicorpus – Corpus from a Wikipedia dump
corpora.textcorpus – Building corpora with dictionaries
corpora.ucicorpus 
 – Corpus in UCI bag-of-words format
corpora.indexedcorpus – Random access to corpus documents
models.ldamodel – Latent Dirichlet Allocation
models.ldamulticore – parallelized Latent Dirichlet Allocation
models.ldamallet – Latent Dirichlet Allocation via Mallet
models.lsimodel – Latent Semantic Indexing
models.tfidfmodel 
 – TF-IDF model
models.rpmodel – Random Projections
models.hdpmodel – Hierarchical Dirichlet Process
models.logentropy_model – LogEntropy model
models.lsi_dispatcher – Dispatcher for distributed LSI
models.lsi_worker – Worker for distributed LSI
models.lda_dispatcher – Dispatcher for distributed LDA
models.lda_worker – Worker for distributed LDA
models.word2vec – Deep learning with word2vec
models.doc2vec – Deep learning with paragraph2vec
models.dtmmodel – Dynamic Topic Models (DTM) and Dynamic Influence Models (DIM)
models.phrases – Phrase (collocation) detection
similarities.docsim – Document similarity queries
How It Works
simserver – Document similarity server

我們可以看到：
- 基本的語料處理工具
- LSI
- LDA
- HDP
- DTM
- DIM
- TF-IDF
- word2vec、paragraph2vec

以後用上其他模型的時候再介紹，今天我們來體驗：

word2vec

#encoding=utf-8
from gensim.models import word2vec
sentences=word2vec.Text8Corpus(u'分詞後的爽膚水評論.txt')
model=word2vec.Word2Vec(sentences, size=50)

y2=model.similarity(u"好", u"還行")
print(y2)

for i in model.most_similar(u"滋潤"):
    print i[0],i[1]

txt檔案是已經分好詞的5W條評論，訓練模型只需一句話：

model=word2vec.Word2Vec(sentences,min_count=5,size=50)

第一個引數是訓練語料，第二個引數是小於該數的單詞會被剔除，預設值為5,
第三個引數是神經網路的隱藏層單元數，預設為100

model.similarity(u"好", u"還行")#計算兩個詞之間的餘弦距離

model.most_similar(u"滋潤")#計算餘弦距離最接近“滋潤”的10個詞

執行結果：

0.642981583608
保溼 0.995047152042
溫和 0.985100984573
高 0.978088200092
舒服 0.969187200069
補水 0.967649161816
清爽 0.960570812225
水水 0.958645284176
一般 0.928643763065
一款 0.911774456501
真的 0.90943980217

效果不錯吧，雖然只有5W條評論的語料

當然還可以儲存和載入咱們辛辛苦苦訓練好的模型：

model.save('/model/word2vec_model')

new_model=gensim.models.Word2Vec.load('/model/word2vec_model')

也可以獲取每個詞的詞向量

model['computer']

訓練詞向量時傳入的兩個引數也對訓練效果有很大影響，需要根據語料來決定引數的選擇，好的詞向量對NLP的分類、聚類、相似度判別等任務有重要意義哦！

基於python的gensim word2vec訓練詞向量

準備工作當我們下載了anaconda後，可以在命令視窗通過命令 conda install gensim 安裝gensim gensim介紹 gensim是一款強大的自然語言處理工具，裡面包括N多常見模型，我們體驗一下： interfa

基於word2vec訓練詞向量(一)

1.回顧DNN訓練詞向量上次說到了通過DNN模型訓練詞獲得詞向量，這次來講解下如何用word2vec訓練詞獲取詞向量。回顧下之前所說的DNN訓練詞向量的模型： DNN模型中我們使用CBOW或者Skip-gram模式結合隨機梯度下降，這樣每次都只

Windows下執行C語言版Word2Vec訓練詞向量

在Word2vec模型中，演算法可以通過無監督的方法為每個詞計算出一個d維的向量，即將每個詞對映為d維的空間中的一個點，d維空間中點之間的距離（即每個詞對應的d維向量的距離）可反映詞之間的相似性。 dav/word2vec是一個經典的利用多執行緒訓練詞向量的程

文本分布式表示（二）：用tensorflow和word2vec訓練詞向量

sig 財經 left 調用采樣 cto imp gensim average 博客園的markdown用起來太心塞了，現在重新用其他編輯器把這篇博客整理了一下。目前用word2vec算法訓練詞向量的工具主要有兩種：gensim 和 tensorflow。gensim

文字分類實戰（一）—— word2vec預訓練詞向量

1 大綱概述　　文字分類這個系列將會有十篇左右，包括基於word2vec預訓練的文字分類，與及基於最新的預訓練模型（ELMo，BERT等）的文字分類。總共有以下系列：　　word2vec預訓練詞向量　　textCNN 模型　　charCNN 模型　　Bi-LSTM 模型　　Bi-LST

文字分類實戰（四）—— Bi-LSTM模型文字分類實戰（一）—— word2vec預訓練詞向量

文字分類實戰（七）—— Adversarial LSTM模型文字分類實戰（一）—— word2vec預訓練詞向量

Windows下使用Word2vec繼續詞向量訓練

2. 下載word2vec，下載地址為：http://word2vec.googlecode.com/svn/trunk/ 將下載的所有檔案放入word2vec資料夾下。補充： word2vec的原版程式碼是google code上的，也有改寫的其他兩個版本： (1) c++11版本：（jdeng/wo

文字分類實戰（十）—— BERT 預訓練模型文字分類實戰（一）—— word2vec預訓練詞向量

word2vec、doc2vec 訓練詞向量引數說明

利用 gensim 模組訓練詞向量用 word2vec 訓練詞向量，主要語句： from gensim.models import Word2Vec from gensim.models.wor

word2vec預訓練詞向量

NLP中的Word2Vec講解　　word2vec是Google開源的一款用於詞向量計算的工具，可以很好的度量詞與詞之間的相似性；　　word2vec建模是指用CBoW模型或Skip-gram模型來計算不同詞語的向量（word vector）　　CBoW是給定上下文來預測輸入詞、Ski

CountVectorizer，Tf-idfVectorizer和word2vec構建詞向量的區別

tor 兩種方法閾值出現使用方法詞典 idfv 情感 CountVectorizer和Tf-idfVectorizer構建詞向量都是通過構建字典的方式，比如在情感分析問題中，我需要把每一個句子（評論）轉化為詞向量，這兩種方法是如何構建的呢？拿CountVector

訓練詞向量

1 def word_vector_gener(): 2 """ 3 幾種不同的方法來生成詞向量 4 :return: 5 """ 6 from gensim.models import Word2Vec 7 from gensim.test

Spark Mlib(三)用spark訓練詞向量

自然語言處理中，在詞的表示上，向量的方式無疑是最流行的一種。它可以作為神經網路的輸入，也可直接用來計算。比如計算兩個詞的相似度時，就可以用這兩個詞向量的距離來衡量。詞向量的訓練需要大規模的語料，從而帶來的是比較長的訓練時間。spark框架基於記憶體計算，有忘加快詞向量的訓練速度。以下是sp

word2vec的詞向量&&神經網路的embedding層的關係

自己之前學習了一波word2vec的詞向量&&神經網路的embedding，關於這2者的原理和實踐，可以參看我之前的部落格：利用神經網路的embedding層處理類別特徵（一）理解word2vec：原理篇（二）理解word2vec：實踐篇這篇文章

使用 rnn 訓練詞向量模型

詞向量說明如下：詞向量模型表徵的是詞語與詞語之間的距離和聯絡，詞向量也叫詞嵌入 word embedding CBOW 模型: 根據某個詞的上下文，計算中間詞出現的概率,預測的是中心詞 Skip-Gram 模型: 跟據中間詞，分別計算它的上下文概率，與 CBOW 模型相反

文字深度表示模型——word2vec&doc2vec詞向量模型（轉）

　　深度學習掀開了機器學習的新篇章，目前深度學習應用於影象和語音已經產生了突破性的研究進展。深度學習一直被人們推崇為一種類似於人腦結構的人工智慧演算法，那為什麼深度學習在語義分析領域仍然沒有實質性的進展呢？　　引用三年前一位網友的話來講：　　“Steve Renals算了一下icassp錄取文章題目中包含

[Algorithm & NLP] 文字深度表示模型——word2vec&doc2vec詞向量模型

　　深度學習掀開了機器學習的新篇章，目前深度學習應用於影象和語音已經產生了突破性的研究進展。深度學習一直被人們推崇為一種類似於人腦結構的人工智慧演算法，那為什麼深度學習在語義分析領域仍然沒有實質性的進展呢？　　引用三年前一位網友的話來講：　　“Steve Renals算了一下icassp錄取文章題目中

自然語言處理之word2vec原理詞向量生成

前言 word2vec是如何得到詞向量的？這個問題比較大。從頭開始講的話，首先有了文字語料庫，你需要對語料庫進行預處理，這個處理流程與你的語料庫種類以及個人目的有關，比如，如果是英文語料庫你可能需要大小寫轉換檢查拼寫錯誤等操作，如果是中文日語語料庫你需

tensorflow ：使用預訓練詞向量

目前使用深度網路進行文字任務模型訓練時，第一步應該是將文字轉為詞向量進行處理。但一般詞向量的效果跟語料的大小有關，而處理任務的語料不足支援我們的實驗，這時就需要使用網上公開的大規模語料訓練詞向量。 1、下載網上公開的詞向量下載地址：https://gi

基於python的gensim word2vec訓練詞向量

準備工作

gensim介紹

以後用上其他模型的時候再介紹，今天我們來體驗：

word2vec

訓練詞向量時傳入的兩個引數也對訓練效果有很大影響，需要根據語料來決定引數的選擇，好的詞向量對NLP的分類、聚類、相似度判別等任務有重要意義哦！

相關推薦