Python Word2Vec訓練和測試詞向量

阿新 • • 發佈：2019-01-12

train_word2vec_model.py:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
 
import logging
import os
import sys
import multiprocessing
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
 
if __name__ == '__main__':
    program = os.path.basename(sys.argv[0])
    logger = 
 logging.getLogger(program)
 
    logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
    logging.root.setLevel(level=logging.INFO)
    logger.info("running %s" % ' '.join(sys.argv))
 
    # check and process input arguments
    if len(sys.argv) < 4:
        print(globals()['__doc__' 
] % locals())
        sys.exit(1)
    inp, outp1, outp2 = sys.argv[1:4]
 
    model = Word2Vec(LineSentence(inp), size=800, window=10, min_count=5,sg=1,hs=1,
                     workers=multiprocessing.cpu_count())
    #window:skip-gram通常在10附近，CBOW通常在5附近
    #hs: 如果為1則會採用hierarchica softmax技巧。如果設定為0（defaut），則negative sampling會被使用。 

    # trim unneeded model memory = use(much) less RAM
    # model.init_sims(replace=True)
    model.save(outp1)
    model.wv.save_word2vec_format(outp2, binary=False)

執行 "python train_word2vec_model.py v6_EN.txt v6_EN.model v6_EN.vector"即可訓練詞向量

train_word2vec_model.py為訓練詞向量的程式程式碼，v6_EN.txt是我訓練的語料庫的名稱，v6_EN.model為我訓練出來的詞向量模型名稱，v6_EN.vector為格式化儲存詞向量模型的檔案（一般用不到，但執行語句必須包含這一項）

訓練出的檔案有五個：

中間3個.npy檔案在load詞向量模型時都必須和v6_EN.model放在同一資料夾下

In [1]: import gensim
 
In [2]: model = gensim.models.Word2Vec.load("v6_EN.model")
 
In [3]: result = model.most_similar("足球")
 
In [4]: for e in result:
    print e[0], e[1]
   ....:     
聯賽 0.65538161993
甲級 0.653042972088
籃球 0.596754670143
俱樂部 0.587228953838
乙級 0.58406317234
足球隊 0.556015253067
亞足聯 0.530800580978
allsvenskan 0.52497625351
代表隊 0.521494746208
甲組 0.51778960228

test.py:

import gensim
import numpy as np
import xlwt
model_EN = gensim.models.Word2Vec.load("../v6_EN_SG/v6_EN_SG_800.model")
model_FR = gensim.models.Word2Vec.load("../v6_FR_SG/v6_FR_SG.model")
workbook = xlwt.Workbook(encoding = 'utf-8')
worksheet = workbook.add_sheet('Result')
Thta = np.load("GT/ThtaEN-FR/Thta0.07/ThtaEN-FR0.07_7000.npy")
test = np.load("GT/test1000EN-FR.npy")
font1 = xlwt.Font()
font1.height=0x00E8
font1.name = '宋體'
style1 = xlwt.XFStyle()
style1.font = font1
worksheet.write(0, 0, label = '英文測試單詞', style = style1)
worksheet.col(0).width = 3333
worksheet.write(0, 1, label = '預測的法語譯文', style = style1)
worksheet.col(1).width = 4000
worksheet.write(0, 2, label = '詞典給出的法語譯文', style = style1)
worksheet.col(2).width = 4400
worksheet.write(0, 3, label = '對錯', style = style1)
worksheet.col(3).width = 4400
num = 0
true_Word=0.0
while num < 1000:
    word_EN = test[num][0]
    word_FR = test[num][1]
    vec_Test = model_EN.wv[word_EN]
    vec_Test.shape = (1,800)
    b = np.dot(vec_Test,Thta)
    b.shape = (200,)
    e = model_FR.wv.similar_by_vector(b, topn=5, restrict_vocab=None)
    print(e[0][0])
    worksheet.write(num+1, 0, label = word_EN)
    worksheet.write(num+1, 1, label = [e[k][0]+'  ' for k in range(5)])
    worksheet.write(num+1, 2, label = word_FR)
    for i in range(5):
        if e[i][0] == word_FR:
            worksheet.write(num+1, 3, label = '✔️')
            true_Word+=1
            break
        elif i == 4:
            worksheet.write(num+1, 3, label = '×')
    print('測試完成%d個單詞'%(num+1))
    num += 1

worksheet.write(num+1, 0, label = '正確率', style = style1)
worksheet.write(num+1, 1, label = str(true_Word/num*100)+'%')
print(str(true_Word/num*100)+'%')
workbook.save('GT/test/testEN-FR/Thta0.07/[email protected]_7000.xls')

Python Word2Vec訓練和測試詞向量

train_word2vec_model.py: #!/usr/bin/env python # -*- coding: utf-8 -*- import logging import os import sys import multiprocessing from gensim.

word2vec訓練好的詞向量

雖然早就對NLP有一丟丟接觸，但是最近真正對中文文字進行處理才深深感覺到自然語言處理的難度，主要是機器與人還是有很大差異的，畢竟人和人之間都是有差異的，要不然不會講最難研究的人嘞 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~不華麗的分割線~~~~~~~~~~

word2vec 和 doc2vec 詞向量表示

ron 中心 con 線性如果存在但是標簽 word Word2Vec 詞向量的稠密表達形式（無標簽語料庫訓練） Word2vec中要到兩個重要的模型，CBOW連續詞袋模型和Skip-gram模型。兩個模型都包含三層：輸入層，投影層，輸出層。 1.Skip-Gr

【深度學習】120G+訓練好的word2vec模型（中文詞向量）

很多人缺少大語料訓練的word2vec模型，在此分享下使用268G+語料訓練好的word2vec模型。訓練語料：百度百科800w+條，26G+ 搜狐新聞400w+條，13G+ 小說：229G+ image.png 模型引數： window=5

文字情感分析(二)：基於word2vec和glove詞向量的文字表示

上一篇部落格用詞袋模型，包括詞頻矩陣、Tf-Idf矩陣、LSA和n-gram構造文字特徵，做了Kaggle上的電影評論情感分類題。這篇部落格還是關於文字特徵工程的，用詞嵌入的方法來構造文字特徵，也就是用word2vec詞向量和glove詞向量進行文字表示，訓練隨機森林分類器。一、訓練word2vec詞

Caffe上用SSD訓練和測試自己的數據

輸出 makefile b數 text play cal 上下 lba san 學習caffe第一天，用SSD上上手。我的根目錄$caffe_root為/home/gpu/ljy/caffe 一、運行SSD示例代碼 1.到https://github.com

機器不學習：word2vec是如何得到詞向量的？

梯度 true day loss class win dex 得到 word2vec 機器不學習 jqbxx.com -機器學習、深度學習好網站 word2vec是如何得到詞向量的？這個問題比較大。從頭開始講的話，首先有了文本語料庫，你需要對語料庫進行預處理，這個處理流

ssd物體檢測模型訓練和測試總結

http max cti https 都得硬件 obj git detection 參考網址：github:https://github.com/naisy/realtime_object_detection2018.10.16ssd物體檢測總結：切記粗略地看一遍備註就開

【12】Caffe學習系列：訓練和測試自己的圖片

一、準備資料有條件的同學，可以去imagenet的官網http://www.image-net.org/download-images，下載imagenet圖片來訓練。驗證碼始終出不來需要翻牆（是google網站的驗證碼）。但是我沒有下載，原因是資料太大了。。。我去網上找了一些其它的圖片

Pytorch求索(3)：使用訓練好的詞向量

nn.Embedding Pytorch自帶Embedding模組，可以方便使用 self.embed = nn.Embedding(vocab_size, embedding_dim) 那麼，如何使用已經訓練好的詞向量呢？詞向量其實是模型的embedding層的權重，所

pytorch代碼中同時包含訓練和測試代碼時顯存爆炸

evaluate 表現驗證 tor lua 查看包含測試 mode 原因在於沒有使用torch.no_grad()函數。在查看驗證集和測試集表現時，應使用類似這樣的代碼 def evaluate(data_loader): with torch.no_grad

pytorch程式碼中同時包含訓練和測試程式碼時視訊記憶體爆炸

原因在於沒有使用torch.no_grad()函式。在檢視驗證集和測試集表現時，應使用類似這樣的程式碼 def evaluate(data_loader): with torch.no_grad(): mean_acc, mean_iou = 0, 0 for i,

yolo的訓練和測試過程中踩過的坑

1.執行main.py,報錯：SyntaxError: Missing parentheses in call to 'print' 錯誤原因：因為安裝的是python3的版本但是這個程式是2.

FCN製作自己的資料集並訓練和測試

前言這篇部落格記錄的是如何製作自己的資料集，並使用FCN模型訓練資料，前提要搭建caffe框架，可以參考這篇部落格，我製作的資料集是仿照voc2012資料集來在做的製作影象標籤這一部分是最難的部分，在製作標籤之前要搞清楚你的影象共分為幾類調整影象尺寸

pytorch: 準備、訓練和測試自己的圖片資料

大部分的pytorch入門教程，都是使用torchvision裡面的資料進行訓練和測試。如果我們是自己的圖片資料，又該怎麼做呢？一、我的資料我在學習的時候，使用的是fashion-mnist。這個資料比較小，我的電腦沒有GPU，還能吃得消。關於fashion-mnist資料，可以百度，也可以點此瞭解

Caffe學習筆記1：linux下建立自己的資料庫訓練和測試caffe中已有網路

本文是基於薛開宇《學習筆記3：基於自己的資料訓練和測試“caffeNet”》基礎上，從頭到尾把實驗跑了一遍~對該文中不清楚的地方做了更正和說明。主要工作如下： 1、下載圖片建立資料庫 2、將圖片轉化為256*256的lmdb格式 3、計算影象均值 4、定義網路修改部分引

用自己的資料訓練和測試“caffenet”

本次實驗本來參考examples/imagenet下的readme.txt進行，但因為資料集過於龐大，所以模擬學習，參考薛開宇的學習方式，模仿搭建自己的資料庫。首先在caffe/data下新建資料夾myself，然後在網上下載貓、鳥、狗的訓練圖片各50張，測

不要慫，就是GAN (生成式對抗網路) （四）：訓練和測試 GAN

在 /home/your_name/TensorFlow/DCGAN/ 下新建檔案 train.py，同時新建資料夾 logs 和資料夾 samples，前者用來儲存訓練過程中的日誌和模型，後者用來儲存訓練過程中取樣器的取樣圖片，在 train.py 中輸入如下程式碼：

（薛開宇學習筆記（三））用自己的資料訓練和測試“CaffeNet”

1.資料準備原文是用ImageNet1000類的資料庫，本文是自己模仿一個小的資料庫進行下去的，在caffe下新建一個myself資料夾，並在網上下載了訓練貓的圖片60張，測試貓10張，訓練狗的圖片60張，測試狗10張，如圖：為了方便，對下載的圖片名進行修改，修改

BatchNorm層訓練和測試的注意事項

1：BatchNormal層： BN層的設定一般是按照conv->bn->scale->relu的順序來形成一個block。關於bn，有一個注意點，caffe實現中的use_glo

Python Word2Vec訓練和測試詞向量

相關推薦