python 環境下gensim中的word2vec的使用筆記

阿新 • • 發佈：2018-12-31

centos 7, python2.7, gensim (0.13.1)

語料：

程式：

# -*- coding: utf-8 -*-
'''
Created on 2016年8月29日
測試gensim使用
@author: root
'''

from gensim.models import word2vec
import logging
import numpy as np
# 主程式
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = word2vec.Text8Corpus(u"/media/sf_workspace/nlp-workspace/nltk-test/word2vec/data/text8" 
)  # 載入語料
n_dim=200
model = word2vec.Word2Vec(sentences, size=n_dim)  # 訓練skip-gram模型; 預設window=5
# n_dim = 300
# #Initialize model and build vocab
# imdb_w2v = Word2Vec(size=n_dim, min_count=1)
# imdb_w2v.build_vocab(sentences)

# #Train the model over train_reviews (this may take several minutes)
# imdb_w2v.train(sentences) 

# obtain the word vectors as follows:
text=["hi","no"]
vec = np.zeros(n_dim).reshape((1, n_dim))
print type(vec)
count = 0.
for word in text:
    try:
        vec += model[word].reshape((1, n_dim))
        print vec
        count += 1.
    except KeyError:
        continue
if count != 0:
    vec /= count
print 
 count
print vec


# 計算兩個詞的相似度/相關程度
y1 = model.similarity("woman", "man")
print u"woman和man的相似度為：", y1
print "--------\n"

# 計算某個詞的相關詞列表
y2 = model.most_similar("good", topn=20)  # 20個最相關的
print u"和good最相關的詞有：\n"
for item in y2:
    print item[0], item[1]
print "--------\n"

# 尋找對應關係
print ' "boy" is to "father" as "girl" is to ...? \n'
y3 = model.most_similar(['girl', 'father'], ['boy'], topn=3)
for item in y3:
    print item[0], item[1]
print "--------\n"

more_examples = ["he his she", "big bigger bad", "going went being"]
for example in more_examples:
    a, b, x = example.split()
    predicted = model.most_similar([x, b], [a])[0][0]
    print "'%s' is to '%s' as '%s' is to '%s'" % (a, b, x, predicted)
print "--------\n"

# 尋找不合群的詞
y4 = model.doesnt_match("breakfast cereal dinner lunch".split())
print u"不合群的詞：", y4
print "--------\n"

# 儲存模型，以便重用
model.save("text8.model")
# 對應的載入方式
# model_2 = word2vec.Word2Vec.load("text8.model")

# 以一種C語言可以解析的形式儲存詞向量
model.save_word2vec_format("text8.model.bin", binary=True)
# 對應的載入方式
# model_3 = word2vec.Word2Vec.load_word2vec_format("text8.model.bin", binary=True)

if __name__ == "__main__":
    pass

中文

語料格式示例：

一一
一一列舉
一一對應一丁點一丁點兒一萬年
一丈紅
一下
一下子
一不做
一不小心
一專多能
一世
一丘之貉
一業
一叢
一絲一毫
一絲不掛
一絲不苟
一個
一個勁
一個樣
一中
一中一臺
一中全會
一舉
一舉一動
一舉兩得
一舉多得

# -*- coding: utf-8 -*-
'''
Created on 2016年8月29日
測試gensim使用，處理中文語料
@author: root
'''

from gensim.models import word2vec
import logging
import sys
reload(sys) #重新載入sys
sys.setdefaultencoding("utf8") #設定預設編碼格式
# 主程式
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = word2vec.Text8Corpus(u"/media/sf_workspace/nlp-workspace/nltk-test/word2vec/data/test1.txt")  # 載入語料
model = word2vec.Word2Vec(sentences,min_count=1, size=200)  # 訓練skip-gram模型

# 計算兩個詞的相似度/相關程度
y1 = model.similarity(u"淮南子", u"淮南子")
print  y1
print "--------\n"

# 計算某個詞的相關詞列表
y2 = model.most_similar(u"淮南子", topn=20)  # 20個最相關的
for item in y2:
    print item[0], item[1]
print "--------\n"

# 尋找對應關係
print u"書-不錯，質量-"
y3 = model.most_similar([u'質量', u'不錯'], [u'書'], topn=3)
for item in y3:
    print item[0], item[1]
print "--------\n"

# 尋找不合群的詞
y4 = model.doesnt_match(u"書 書籍 教材 很".split())
print u"不合群的詞：", y4
print "--------\n"

# 儲存模型，以便重用
model.save(u"書評.model")
# 對應的載入方式
# model_2 = word2vec.Word2Vec.load("text8.model")

# 以一種C語言可以解析的形式儲存詞向量
model.save_word2vec_format(u"書評.model.bin", binary=True)
# 對應的載入方式
# model_3 = word2vec.Word2Vec.load_word2vec_format("text8.model.bin", binary=True)

# if __name__ == "__main__":
#     pass

參考：

python 環境下gensim中的word2vec的使用筆記

centos 7, python2.7, gensim (0.13.1) 語料：程式： # -*- coding: utf-8 -*- ''' Created on 2016年8月29日測試gensim使用 @author: root ''

gensim中word2vec python原始碼理解（一）

gensim中word2vec python原始碼理解（一）使用Hierarchical Softmax方法構建單詞表 gensim中word2vec python原始碼理解（二）Skip-gram模型訓練本文主要談一談對gensim包中封裝的word2vec python原始碼

4.8 Sublime Text3 中配置 Python環境 --下之下載安裝Sublime與配置Python環境

main 代碼 col 編程 als 數據 -- print 安裝返回總目錄目錄： 1.沒有配置之前 2.安裝Package Control插件 3.安裝其他庫： 4.配置其他操作：（一）沒有配置之前：我們試著運行以下，會效果怎麽樣？ 1.首先選擇Python作

[ZZ] 如何在多版本anaconda python環境下轉換spyder

過程 pda 名稱 -- idt anaconda rip gin div https://www.zhihu.com/people/alexwhu/answers 使用anaconda的話，可以參考以下步驟： 1、打開anaconda navigator

多python環境下使用pip安裝包

pip筆記本上安裝了2.7和3.5兩個版本的python，在使用3.5版本的pip安裝keras時出現了failed to create process錯誤。解決方法如下：1.由於我在環境變量中同時配置了2.7和3.5的路徑，所以我可以直接在命令行下執行python3來啟動3.5版本的python；2.通過p

python 環境下安裝 gdal

.cn ram 剛才 strac bst org 方框疑惑 AC 起因：需要做一個城市擴張的東西，然後再GitHub上下載了一段代碼，不過作者沒怎麽說清楚要怎麽用，早上琢磨半天，歸結到我需要先下載python的gdal模塊。關於：搜索下來，發現gdal(Geospati

python環境下實現OrangePi Zero寄存器訪問及GPIO控制

adc map函數操作 pack 模式更改 truct 不可共享　　最近入手OrangePi Zero一塊，程序上需要使用板子上自帶的LED燈，在網上一查，不得不說OPi的支持跟樹莓派無法相比。自己摸索了一下，實現簡單的GPIO控制方法，作者的Zero安裝的是Arm

python環境下使用mysql數據及數據結構和二叉樹算法（圖）

結點 sel 連續編號 binary 樹搜索 pass 技術分享種類 python環境下使用mysql數據及數據結構和二叉樹算法（圖）：1 python環境下使用mysql2使用的是 pymysql庫3 開始-->創建connection-->獲取curso

Ubuntu18.04 環境下g++ 中出現error: stray ‘\357’ in program問題

環境：程式設計環境：Ubuntu18.04 程式設計工具：vim 編譯工具：g++ 輸入法：搜狗錯誤：編譯報錯：error: stray '\357' in program 原因：在程式中打入了全形字元具體分析產生原因：在程式設計中，由於打字的快速，按下

關於python環境下的opencv安裝

吐槽: 　　這一天我終於記起了這個部落格。今天搞python環境下的opencv，又弄了一天，很煩躁。之前配置VS的opencv也是花了好久的時間，然後突然發現之前記錄在電腦上的文件都找不到了，於是決定還是寫寫部落格吧，之後應該會把之前做過的一些東西也發上來，以作儲存。這篇興致所作，寫的就隨意些了。環境

Python環境下安裝GDAL

1.在https://www.lfd.uci.edu/~gohlke/pythonlibs/#gdal下載GDAL安裝包，拷貝至相應的環境中，開啟shell 輸入以下程式碼安裝GDAL pip install GDAL‑2.3.2‑cp35‑cp35m‑win_amd64.whl 2.在An

Gensim中word2vec和doc2vec的基本用法

一、 word2vec： from gensim.models.word2vec import Word2Vec model = Word2Vec(lines, sg=1, size=100, wi

Python環境下使用OpenStreetMap下載的.osm資料

引言最近在專案中需要使用地理空間資訊來輔助進行聚類工作，除了常規的經緯度資訊之外，還需要更重要的地理層級資訊，如對於“都江堰”來進行查詢，期望獲得“都江堰，成都，中國”這樣一個完整的地理層級關係。因此，在這兩天筆者便研究了一下如何獲得這樣的資訊。使用geopy包來實現工程中

python環境下的記憶體分析

1.記憶體分析 python原始碼[字尾名為.py的文字檔案] 執行在直譯器中，得到運算結果問題：怎麼執行的？計算機執行一個程式程式/軟體的執行[核心機制] 原始碼程式[語義化的定義了資料、流程

gensim中word2vec的使用

一、遇見的坑： 1、Word2Vec和word2vec不是一個東西，word2vec包含了所有的方法，Word2Vec是word2vec檔案下的一個類，用於模型相關的方法 2、word2vec匯入資料集只能用word2vec.Text8Corpus(path)的方式去匯入 3、儲存、載入

Windows環境下vscode-go安裝筆記

一、介紹這款外掛的特性包括： Colorization 程式碼著彩色Completion Lists 程式碼自動完成（使用gocode）Snippets 程式碼片段Quick Info 快速提示資訊（使用godef）Goto Definition 跳轉到定義（使用godef）Find Referenc

Python環境下安裝pip 及常見問題

可能的原因1：安裝的不是對應python版本的庫，下載的庫名中cp27代表python2.7,我這裡下的是跟我電腦安裝的python的版本相對應的cp36,即python3.6版本的。可能的原因2：個別情況　　我下載到的pygame-1.9.3-cp36-cp36m-win_amd64.whl庫檔

如何在多版本anaconda python環境下轉換spyder？

1、開啟anaconda navigator，選擇左側的環境選單 Environments，在中間會列出當前已經配置好的各種環境名稱，如root、tensorflow等 2、在中間環境列表框下邊，選擇建立 Create，建立新的環境和對應配置，在這裡，你可以命名自己的環境名稱，選擇python的版本等，然後

解決pip安裝的包無法在anaconda 的python 環境下使用的問題

由於一不小心使用sudo pip install keras 安裝了keras後進入python （由於之前安裝了anaconda）此時進入的python 是anaconda 環境下的python>>import keras報錯　no module named k

python環境下運用kafka對資料實時傳輸

背景：為了滿足各個平臺間資料的傳輸，以及能確保歷史性和實時性。先選用kafka作為不同平臺數據傳輸的中轉站，來滿足我們對跨平臺資料傳送與接收的需要。 kafka簡介： Kafka is a distributed,partitioned,replicated comm

python 環境下gensim中的word2vec的使用筆記

語料：

程式：

中文

參考：

相關推薦