使用預訓練的word2vec詞向量

阿新 • • 發佈：2019-02-08

以谷歌開源google news（bin）為例。下載地址：https://code.google.com/p/word2vec

更多模型下載地址：https://github.com/xgli/word2vec-api

之前被這個問題困擾了挺長時間，一直找不到有效的方法，可能是我太菜……

在網上找資料也只找到了一種把bin轉換成txt 檔案的方式，但是效率出奇的低，無法想象，本地一執行程式就宕機，伺服器上也得等很長時間。多虧了有一顆優化模型的心……

山重水複疑無路，柳暗花明又一村啊。

在一篇paper裡面，作者用theano直接對二進位制bin檔案進行了處理。速度上有天壤之別，一種是拖拉機，一種是火箭，遂把它進行改動用到了自己的模型裡。

一、先介紹直接對txt進行處理的方法，該方法缺點，速度太慢，而且兩篇博文裡都是從placeholder裡傳入詞向量資料，對於這種方式，我持保留意見。原因：

1，如果從placeholder裡傳入資料，那在實際應用中，每一個batch都要傳入全部的詞向量，這對於稍複雜的模型來說顯然很吃力，額外增加了很多計算量。

2，在模型訓練過程中可以控制詞向量可訓練與不可訓練，從palceholdler傳入，降低了靈活性。

3，bin檔案轉換成txt格式，檔案大小變為原來的兩倍，還需要解碼，又增加了讀取時間。

對於該方法不在贅述，將兩篇博文地址貼上到下面：

http://blog.csdn.net/lxg0807/article/details/72518962（中文）[作者最後提到的unk情況，其實可有可無，看你在對資料進行預處理的時候是否考慮了這種情況，如果已經考慮到了unk則在此處不需要]

二、直接對bin檔案進行處理

1,這種方式跟上面的方式有很大不同，首先是在分離word的時候，是採用從每一行的開始挨個單詞讀到第一個空格處為止，便是一個單詞，每一行都重複這種動作，直到整個檔案讀完。

        for line in xrange(vocab_size):
            word = []
            while True:
                ch = f.read(1)
                #print ch
                if ch == ' ':
                    word = ''.join(word)
                    #print 'single word:',word
                    break
                if ch != '\n':
                    word.append(ch)
                    #print word

2，第二步是從大的詞向量表中，來找到與單詞相對應的詞向量

            if word in vocab:
               word_vecs[word] = np.fromstring(f.read(binary_len), dtype='float32')
               pury_word_vec.append(word_vecs[word])
               if i==0:
                   print 'word',word
                   i=1
            else:
                f.read(binary_len)

3，對於詞表中沒有的單詞進行處理，這裡採用的是uniform隨機初始化

def add_unknown_words(word_vecs, vocab, min_df=1, k=300):
    """
    For words that occur in at least min_df documents, create a separate word vector.
    0.25 is chosen so the unknown vectors have (approximately) same variance as pre-trained ones
    """
    for word in vocab:
        if word not in word_vecs and vocab[word] >= min_df:
            word_vecs[word] = np.random.uniform(-0.25,0.25,k)

4,在應用之前，也就是傳入embedding lookup之前，需要取出對應詞表，並進行一定預處理。

def get_W(word_vecs, k=300):
    """
    Get word matrix. W[i] is the vector for word indexed by i
    """
vocab_size = len(word_vecs)
    word_idx_map = dict()
    W = np.zeros(shape=(vocab_size+1, k), dtype='float32')
    W[0] = np.zeros(k, dtype='float32')
    i = 1
for word in word_vecs:
        W[i] = word_vecs[word]
        word_idx_map[word] = i
        i += 1
return W, word_idx_map

5，在main函式中呼叫的過程：

if __name__=="__main__":
    w2v_file = "GoogleNews-vectors-negative300.bin"#Google news word2vec bin檔案
    print "loading data...",
    vocab = Wordlist('vocab.txt')#自己的資料集要用到的詞表
    w2v,pury_word2vec = load_bin_vec(w2v_file, vocab.voc)
    add_unknown_words(w2v, vocab.voc)
    W, word_idx_map = get_W(w2v)

    '''embedding lookup簡單應用'''
    Wa = tf.Variable(W)
    embedding_input = tf.nn.embedding_lookup(Wa, [0,1,2])#正常使用時要替換成相應的doc

    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())
        input = sess.run(Wa)
        #print np.shape(Wa)

此處僅做了使用的簡單示例，如果應用到自己的專案中去，還需要優化一下結構。以適應自己專案的需要。

剛開始寫部落格不久，發現在表達的時候會說不清楚，有不明白的地方，歡迎留言討論。

補充：關於txt格式的檔案，也找到了速度很快的處理方式，glove和word2vec只要是一樣的格式，程式碼可以通用，可以移步這裡：http://lichangsong.win/?post=22

文中相關程式碼，已經上傳到github，歡迎大家相互交流，共同進步。

Github: https://github.com/pkulics/use-pretrained-word2vec

如何使用“預訓練的詞向量”，做文字分類

不多比比了，看程式碼！！！ def train_W2V(w2vCorpus, size=100): w2vModel = Word2Vec(sentences=w2vCorpus, hs=0, negative=5, min_count=5, window=8, iter=1, size=si

在Keras模型中使用預訓練的詞向量

轉自：wuwt.me/2017/08/21/pre-trained-embedding-keras/ “詞向量”(詞嵌入)是將一類詞的語義對映到向量空間中的自然語言處理技術。即將一個詞用特定的向量來表示，向量之間的距離(例如，任意兩個向量之間的L2正規化距離或更常用的餘

使用Keras和預訓練的詞向量訓練新聞文字分類模型

from __future__ import print_function import os import sys import numpy as np from keras.preprocessing.text import Tokenizer from keras.p

使用預訓練的word2vec詞向量

以谷歌開源google news（bin）為例。下載地址：https://code.google.com/p/word2vec更多模型下載地址：https://github.com/xgli/word2vec-api之前被這個問題困擾了挺長時間，一直找不到有效的方法，可能是我

word2vec詞向量訓練及gensim的使用

一、什麼是詞向量詞向量最初是用one-hot represention表徵的，也就是向量中每一個元素都關聯著詞庫中的一個單詞，指定詞的向量表示為：其在向量中對應的元素設定為1，其他的元素設定為0。採

word2vec詞向量訓練及中文文字相似度計算

本文是講述如何使用word2vec的基礎教程，文章比較基礎，希望對你有所幫助！官網C語言下載地址：http://word2vec.googlecode.com/svn/trunk/官網Python下載地址：http://radimrehurek.com/gensim/mod

python下word2vec詞向量訓練與載入方法

專案中要對短文字進行相似度估計，word2vec是一個很火的工具。本文就word2vec的訓練以及載入進行了總結。word2vec的原理就不描述了，word2vec詞向量工具是由google開發的，輸入為文字文件，輸出為基於這個文字文件的語料庫訓練得到的詞向量模型。通過該模型

機器學習之路： python 實踐 word2vec 詞向量技術

fetch 分離 ext .com work bsp re.sub 最終 mat git: https://github.com/linyi0604/MachineLearning 詞向量技術 Word2Vec 每個連續詞匯片段都會對後面有一定制約稱為上下

word2vec詞向量處理中文語料

word2vec介紹 word2vec官網：https://code.google.com/p/word2vec/ word2vec是google的一個開源工具，能夠根據輸入的詞的集合計算出詞與詞之間的距離。它將term轉換成向量形式，可以把對文字內容的處理簡化為向量空間中的向量運算，計算出向

word2vec詞向量處理英文語料

word2vec介紹 word2vec官網：https://code.google.com/p/word2vec/ word2vec是google的一個開源工具，能夠根據輸入的詞的集合計

【python gensim使用】word2vec詞向量處理中文語料

比賽必備︱省力搞定三款詞向量訓練 + OOV詞向量問題的可性方案

本篇為資源彙總，一些NLP的比賽在抽取文字特徵的時候會使用非常多的方式。傳統的有：TFIDF/LDA/LSI等偏深度的有：word2vec/glove/fasttext等還有一些預訓練方式：elmo / bert 1 之前的幾款詞向量介紹與訓練

第二講 cs224n系列之word2vec & 詞向量

本系列是一個基於深度學習的NLP教程，2016年之前叫做CS224d: Deep Learning for Natural Language Processing，之後改名為CS224n: Natural Language Processing with

NLP—word2vec詞向量簡介

NLP處理的資料都是文字，而文字是無法直接被計算機計算的，於是人們想出了使用獨熱編碼的方式來表示單詞。浙江 [0,0,0,0,0,0,0,1,0,......0,0,0,0,0,0,0] 江蘇 [0,0

rword2vec開源演算法包實現word2vec詞向量生成

R語言中rword2vec包和wordVectors包均能實現word2vec詞向量生成，目前尚未研究兩者之間的優劣(但從演算法包的description來看，建議用rword2vec) rword2vec包是R與Google的word2vec介面，rword2vec將

自然語言處理Word2Vec詞向量模型

1.自然語言處理與深度學習 2.語言模型 3.N-gram模型 4.詞向量 5.神經網路模型 6.Hierarchical Softmax 7.CBOW模型例項 8.CBOW求解目標 9.梯度上升求解

Word2Vec詞向量（一）

一、詞向量基礎（一）來源背景　　word2vec是google在2013年推出的一個NLP工具，它的特點是將所有的詞向量化，這樣詞與詞之間就可以定量的去度量他們之間的關係，挖掘詞之間的聯絡。雖然原始碼是開源的，但是谷歌的程式碼庫國內無法訪問， &

用gensim匯入word2vec詞向量bin檔案，出現字元編碼

首先丟擲我遇到的問題。我訓練了一個詞向量檔案，得到了一個二進位制檔案，model.bin，然後準備呼叫gensim來測試bin檔案裡面的詞向量效果怎麼樣，於是就匯入這個模型。 import gensim # 匯入模型 model = gensim.models.Key

自然語言處理中傳統詞向量表示VS深度學習語言模型（三）：word2vec詞向量

在前面的部落格中，我們已經梳理過語言表示和語言模型，之所以將這兩部分內容進行梳理，主要是因為分散式的詞向量語言表示方式和使用神經網路語言模型來得到詞向量這兩部分，構成了後來的word2vec的發展，可以說是word2vec的基礎。1.什麼是詞向量

字和詞語聯合訓練的詞向量模型

今天又讀了一篇劉知遠老師團隊2015年在頂會Ijcai上發表的論文《Joint Learning of Character and Word Embeddings》，同樣是有關於在詞向量生成部分進行了改進，引入了詞語組成成分的單個漢字的資訊（論文主要針對的是中文

使用預訓練的word2vec詞向量

相關推薦