tensorflow如何正確加載預訓練詞向量

阿新 • • 發佈：2019-01-10

global color news doc ... elf import loading initial

使用預訓練詞向量和隨機初始化詞向量的差異還是挺大的，現在說一說我使用預訓練詞向量的流程。

　　一、構建本語料的詞匯表，作為我的基礎詞匯

　　二、遍歷該詞匯表，從預訓練詞向量中提取出該詞對應的詞向量

　　三、初始化embeddings遍歷，將數據賦值給tensor

樣例代碼：

 1 #-*- coding: UTF-8 -*-
 2 import numpy as np
 3 import tensorflow as tf
 4 ‘‘‘本程序只是對word2vec進行了簡單的預處理，應用到復雜模型中還需要根據實際情況做必要的改動‘‘‘
 5 
 6 class Wordlist(object):
 
 7     def __init__(self, filename, maxn = 100000):
 8         lines = map(lambda x: x.split(), open(filename).readlines()[:maxn])
 9         self.size = len(lines)
10 
11         self.voc = [(item[0][0], item[1]) for item in zip(lines, xrange(self.size))]
12         self.voc = dict(self.voc)
13 
14     def 
 getID(self, word):
15         try:
16             return self.voc[word]
17         except:
18             return 0
19 
20 def get_W(word_vecs, k=300):
21     """
22     Get word matrix. W[i] is the vector for word indexed by i
23     """
24     vocab_size = len(word_vecs)
25     word_idx_map = dict()
26 
     W = np.zeros(shape=(vocab_size+1, k), dtype=‘float32‘)
27     W[0] = np.zeros(k, dtype=‘float32‘)
28     i = 1
29     for word in word_vecs:
30         W[i] = word_vecs[word]
31         word_idx_map[word] = i
32         i += 1
33     return W, word_idx_map
34 
35 def load_bin_vec(fname, vocab):
36     """
37     Loads 300x1 word vecs from Google (Mikolov) word2vec
38     """
39     i=0
40     word_vecs = {}
41     pury_word_vec = []
42     with open(fname, "rb") as f:
43         header = f.readline()
44         print ‘header‘,header
45         vocab_size, layer1_size = map(int, header.split())
46         print ‘vocabsize:‘,vocab_size,‘layer1_size:‘,layer1_size
47         binary_len = np.dtype(‘float32‘).itemsize * layer1_size
48         for line in xrange(vocab_size):
49             word = []
50             while True:
51                 ch = f.read(1)
52                 #print ch
53                 if ch == ‘ ‘:
54                     word = ‘‘.join(word)
55                     #print ‘single word:‘,word
56                     break
57                 if ch != ‘\n‘:
58                     word.append(ch)
59                     #print word
60             #print word
61             if word in vocab:
62                word_vecs[word] = np.fromstring(f.read(binary_len), dtype=‘float32‘)
63                pury_word_vec.append(word_vecs[word])
64                if i==0:
65                    print ‘word‘,word
66                    i=1
67             else:
68                 f.read(binary_len)
69        #np.savetxt(‘googleembedding.txt‘,pury_word_vec)
70     return word_vecs,pury_word_vec
71 
72 def add_unknown_words(word_vecs, vocab, min_df=1, k=300):
73     """
74     For words that occur in at least min_df documents, create a separate word vector.
75     0.25 is chosen so the unknown vectors have (approximately) same variance as pre-trained ones
76     """
77     for word in vocab:
78         if word not in word_vecs and vocab[word] >= min_df:
79             word_vecs[word] = np.random.uniform(-0.25,0.25,k)
80 
81 if __name__=="__main__":
82     w2v_file = "GoogleNews-vectors-negative300.bin"#Google news word2vec bin文件
83     print "loading data...",
84     vocab = Wordlist(‘vocab.txt‘)#自己的數據集要用到的詞表
85     w2v,pury_word2vec = load_bin_vec(w2v_file, vocab.voc)
86     add_unknown_words(w2v, vocab.voc)
87     W, word_idx_map = get_W(w2v)
88 
89     ‘‘‘embedding lookup簡單應用‘‘‘
90     Wa = tf.Variable(W)
91     embedding_input = tf.nn.embedding_lookup(Wa, [0,1,2])#正常使用時要替換成相應的doc
92 
93     with tf.Session() as sess:
94         sess.run(tf.global_variables_initializer())
95         input = sess.run(Wa)
96         #print np.shape(Wa)

tensorflow如何正確加載預訓練詞向量

global color news doc ... elf import loading initial 使用預訓練詞向量和隨機初始化詞向量的差異還是挺大的，現在說一說我使用預訓練詞向量的流程。　　一、構建本語料的詞匯表，作為我的基礎詞匯　　二、遍歷該詞匯表，從預訓練詞

tensorflow ：使用預訓練詞向量

目前使用深度網路進行文字任務模型訓練時，第一步應該是將文字轉為詞向量進行處理。但一般詞向量的效果跟語料的大小有關，而處理任務的語料不足支援我們的實驗，這時就需要使用網上公開的大規模語料訓練詞向量。 1、下載網上公開的詞向量下載地址：https://gi

tensorflow使用預訓練詞向量

目前使用深度網路進行文字任務模型訓練時，第一步應該是將文字轉為詞向量進行處理。但一般詞向量的效果跟語料的大小有關，而處理任務的語料不足支援我們的實驗，這時就需要使用網上公開的大規模語料訓練詞向量。1、下載網上公開的詞向量下載地址：https://github.com/xgli

文字分類實戰（一）—— word2vec預訓練詞向量

1 大綱概述　　文字分類這個系列將會有十篇左右，包括基於word2vec預訓練的文字分類，與及基於最新的預訓練模型（ELMo，BERT等）的文字分類。總共有以下系列：　　word2vec預訓練詞向量　　textCNN 模型　　charCNN 模型　　Bi-LSTM 模型　　Bi-LST

文字分類實戰（四）—— Bi-LSTM模型文字分類實戰（一）—— word2vec預訓練詞向量

文字分類實戰（七）—— Adversarial LSTM模型文字分類實戰（一）—— word2vec預訓練詞向量

文字分類實戰（十）—— BERT 預訓練模型文字分類實戰（一）—— word2vec預訓練詞向量

word2vec預訓練詞向量

NLP中的Word2Vec講解　　word2vec是Google開源的一款用於詞向量計算的工具，可以很好的度量詞與詞之間的相似性；　　word2vec建模是指用CBoW模型或Skip-gram模型來計算不同詞語的向量（word vector）　　CBoW是給定上下文來預測輸入詞、Ski

Tensorflow實戰學習(十八)【詞向量、維基百科語料庫訓練詞向量模型】

詞向量嵌入需要高效率處理大規模文字語料庫。word2vec。簡單方式，詞送入獨熱編碼(one-hot encoding)學習系統，長度為詞彙表長度的向量，詞語對應位置元素為1,其餘元素為0。向量維數很高，無法刻畫不同詞語的語義關聯。共生關係(co-occurre

文本分布式表示（二）：用tensorflow和word2vec訓練詞向量

sig 財經 left 調用采樣 cto imp gensim average 博客園的markdown用起來太心塞了，現在重新用其他編輯器把這篇博客整理了一下。目前用word2vec算法訓練詞向量的工具主要有兩種：gensim 和 tensorflow。gensim

vue-cli的webpack打包，icon無法正確加載

onf 發現 pan ont 資源 ash ons 大小 mit 今天vue-cli打包完發現加載不出font awesome;路經和奇怪，js,css，img都正確加載；首先正確加載靜態資源需要將config中的index.js中publicPath:‘./‘; 而fo

VS2017 添加引用時報錯未能正確加載ReferenceManagerPackage包的解決方法

gacutil log 添加引用目錄安裝 evel shel nag dll 最近對安裝完visual studio 2017 ，在添加引用總是提示未能加載包ReferenceManagerPackage。這個問題一直沒有解決，最近在網上發現了解決方案： 1、打開V

vs2012 提示未能正確加載 "Visual C++ Language Manager Package" 包

com 未能 nag ger ack setup 提示菜單 Language 1.點擊vs2012菜單欄工具-> Visual Studio 命令提示打開命令窗口 2.輸入命令 "devenv /Setup" 3.重新打開vs2012 via:

vs2015未能正確加載“ProviderPackage”包。

art n) csdn data cal edi 解決方案找到未能原文:vs2015未能正確加載“ProviderPackage”包。出現以下錯誤的解決方案 --------------------------- Microsof

【unity實用技能】unity編輯器工具之加載預制（Prefab）和場景（Scene）

無在unity裏做打包或者幫策劃美術做工具的時候經常會需要把Prefab拉出來或者場景打開做檢驗工作其實這個在上一篇在ui打包的文章裏有提到，不過重點不同，上篇重點是打包，這篇的重點是把裏面的一個小知識點拉出來講一講接下來就講講兩者分別怎麽做一、把預制Prefab拉出來就是像我們平時把預制拉到這個地方

在web.xml正確加載spring配置文件的方式

正常 div 示例 star extc 自定義 nco AR 導入 ssm框架整合時一直報出沒有創建實例bean的錯誤，一直以為是代碼原因，反復測試了很久，才找到原因是spring配置文件沒有正確導入，下圖是我的錯誤示例 web.xml加載spring配置文件的方式主

Visual studio 2017添加引用時報錯未能正確加載ReferenceManagerPackage包的解決方法

博客 CA reserve shell. html 引用 cache ide manager vs2017添加引用時報錯未能正確加載“ReferenceManagerPackage”包。 - AusonSir - 博客園https://www.cnb

卸載TwinCat3之後vs未能正確加載包錯誤解決

use 未能正確加載 sina 解決人員 user 加載 img rda 如上圖所示錯誤。使用vs開發人員命令提示，輸入以下代碼。會清除所有用戶設置，然後就沒有錯誤提示了。 devenv /resetuserdata卸載TwinCat3之後vs未能正確加載包錯誤解

用node.js搭建一個靜態資源站 html,js,css正確加載跳轉也完美實現！

都在加載簡單 pipe tps color exec create 包含昨天剛買了一個服務器想著用來測試一些自己的項目，由於是第一次建站，在tomcat,linux,node.js間想了好久最終因為node搭建比較方便沒那麽麻煩就決定用node.js來搭建網站項目。

訓練詞向量

1 def word_vector_gener(): 2 """ 3 幾種不同的方法來生成詞向量 4 :return: 5 """ 6 from gensim.models import Word2Vec 7 from gensim.test

tensorflow如何正確加載預訓練詞向量

相關推薦