tensorflow ：使用預訓練詞向量

阿新 • • 發佈：2019-01-06

目前使用深度網路進行文字任務模型訓練時，第一步應該是將文字轉為詞向量進行處理。但一般詞向量的效果跟語料的大小有關，而處理任務的語料不足支援我們的實驗，這時就需要使用網上公開的大規模語料訓練詞向量。

1、下載

網上公開的詞向量下載地址：https://github.com/xgli/word2vec-api
glove的檔案說明如何使用預訓練詞向量，檔案格式如下：每行為一個單詞和其對應的詞向量，以空格分隔。
glove對應的詞向量，非二進位制檔案
glove
word2vec對應的詞向量，非二進位制檔案

2、裝載

glove詞向量的裝載

filename = 'glove.6B.50d.txt' 

def loadGloVe(filename):
    vocab = []
    embd = []
    vocab.append('unk') #裝載不認識的詞
    embd.append([0]*emb_size) #這個emb_size可能需要指定
    file = open(filename,'r')
    for line in file.readlines():
        row = line.strip().split(' ')
        vocab.append(row[0])
        embd.append(row[1:])
    print('Loaded GloVe!' 
)
    file.close()
    return vocab,embd
vocab,embd = loadGloVe(filename)
vocab_size = len(vocab)
embedding_dim = len(embd[0])
embedding = np.asarray(embd)

word2vec詞向量的裝載

def loadWord2Vec(filename):
    vocab = []
    embd = []
    cnt = 0
    fr = open(filename,'r')
    line = fr.readline().decode('utf-8' 
).strip()
    #print line
    word_dim = int(line.split(' ')[1])    
    vocab.append("unk")
    embd.append([0]*word_dim)
    for line in fr :
        row = line.strip().split(' ')
        vocab.append(row[0])
        embd.append(row[1:])
    print "loaded word2vec"
    fr.close()
    return vocab,embd

vocab,embd = loadGloVe(filename)
vocab_size = len(vocab)
embedding_dim = len(embd[0])
embedding = np.asarray(embd)

vocab：為詞表
embed：為詞的詞向量

3、詞向量層

構建網路時候的詞向量層

W = tf.Variable(tf.constant(0.0, shape=[vocab_size, embedding_dim]),
                trainable=False, name="W")
embedding_placeholder = tf.placeholder(tf.float32, [vocab_size, embedding_dim])
embedding_init = W.assign(embedding_placeholder)

在網路結構中宣告詞向量矩陣W

sess.run(embedding_init, feed_dict={embedding_placeholder: embedding})

在將embedding傳給網路賦值。

4、詞表

此部分對某些任務不適用，比如對話，序列標註等問題，就是這個內建的函式會自動的過濾掉標點符號，但是標點符號也是一些任務需要的資訊。

tf.nn.embedding_lookup(W, input_x)

該程式碼將輸入對映為詞向量，但input_x為詞的id。因此我們需要將輸入文字對映為詞id序列。

from tensorflow.contrib import learn
#init vocab processor
vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)
#fit the vocab from glove
pretrain = vocab_processor.fit(vocab)
#transform inputs
input_x = np.array(list(vocab_processor.transform(your_raw_input)))

使用tensorflow自帶的詞處理api進行處理，將詞對映成為詞id，同時會過濾掉標點符號。

目前寫這麼多，當時自己寫的時候，進了很多坑，這次寫的也不詳細，如果有不理解的，歡迎評論交流，或發郵件給我（郵件比較及時）。

tensorflow使用預訓練詞向量

目前使用深度網路進行文字任務模型訓練時，第一步應該是將文字轉為詞向量進行處理。但一般詞向量的效果跟語料的大小有關，而處理任務的語料不足支援我們的實驗，這時就需要使用網上公開的大規模語料訓練詞向量。1、下載網上公開的詞向量下載地址：https://github.com/xgli

tensorflow ：使用預訓練詞向量

目前使用深度網路進行文字任務模型訓練時，第一步應該是將文字轉為詞向量進行處理。但一般詞向量的效果跟語料的大小有關，而處理任務的語料不足支援我們的實驗，這時就需要使用網上公開的大規模語料訓練詞向量。 1、下載網上公開的詞向量下載地址：https://gi

tensorflow如何正確加載預訓練詞向量

global color news doc ... elf import loading initial 使用預訓練詞向量和隨機初始化詞向量的差異還是挺大的，現在說一說我使用預訓練詞向量的流程。　　一、構建本語料的詞匯表，作為我的基礎詞匯　　二、遍歷該詞匯表，從預訓練詞

文本分布式表示（二）：用tensorflow和word2vec訓練詞向量

sig 財經 left 調用采樣 cto imp gensim average 博客園的markdown用起來太心塞了，現在重新用其他編輯器把這篇博客整理了一下。目前用word2vec算法訓練詞向量的工具主要有兩種：gensim 和 tensorflow。gensim

文字分類實戰（一）—— word2vec預訓練詞向量

1 大綱概述　　文字分類這個系列將會有十篇左右，包括基於word2vec預訓練的文字分類，與及基於最新的預訓練模型（ELMo，BERT等）的文字分類。總共有以下系列：　　word2vec預訓練詞向量　　textCNN 模型　　charCNN 模型　　Bi-LSTM 模型　　Bi-LST

文字分類實戰（四）—— Bi-LSTM模型文字分類實戰（一）—— word2vec預訓練詞向量

文字分類實戰（七）—— Adversarial LSTM模型文字分類實戰（一）—— word2vec預訓練詞向量

文字分類實戰（十）—— BERT 預訓練模型文字分類實戰（一）—— word2vec預訓練詞向量

word2vec預訓練詞向量

NLP中的Word2Vec講解　　word2vec是Google開源的一款用於詞向量計算的工具，可以很好的度量詞與詞之間的相似性；　　word2vec建模是指用CBoW模型或Skip-gram模型來計算不同詞語的向量（word vector）　　CBoW是給定上下文來預測輸入詞、Ski

tensorflow利用預訓練模型進行目標檢測（一）：預訓練模型的使用

err sync numpy sna sta porting trac git int32 一、運行樣例官網鏈接：https://github.com/tensorflow/models/blob/master/research/object_detection/obje

tensorflow利用預訓練模型進行目標檢測（二）：將檢測結果存入mysql資料庫

mysql版本：5.7 ；資料庫：rdshare；表captain_america3_sd用來記錄某幀是否被檢測。表captain_america3_d用來記錄檢測到的資料。 python模組，包部分內容參考http://www.runoob.com/python/python-modules.html&

tensorflow利用預訓練模型進行目標檢測（四）：檢測中的精度問題以及evaluation

一、tensorflow提供的evaluation Inference and evaluation on the Open Images dataset：https://github.com/tensorflow/models/blob/master/research/object_detection/g

SiameseFC-TensorFlow 程式碼詳細註解（一）：預訓練模型下載轉換測試以及結果視覺化(轉載)

這篇部落格主要的目的就是簡單地跑一下實驗，讓下載的程式碼能用預訓練的模型去測試單個視訊，並對結果視覺化，從視覺上感受一下這個跟蹤演算法的效果，至於如果要自己訓練自己的模型該如何準備訓練資料，如何設計自己的模型，如何訓練自己的模型，以及如何評估自己的模型等，這些問題都將在後面的

Tensorflow實戰學習(十八)【詞向量、維基百科語料庫訓練詞向量模型】

詞向量嵌入需要高效率處理大規模文字語料庫。word2vec。簡單方式，詞送入獨熱編碼(one-hot encoding)學習系統，長度為詞彙表長度的向量，詞語對應位置元素為1,其餘元素為0。向量維數很高，無法刻畫不同詞語的語義關聯。共生關係(co-occurre

訓練詞向量

1 def word_vector_gener(): 2 """ 3 幾種不同的方法來生成詞向量 4 :return: 5 """ 6 from gensim.models import Word2Vec 7 from gensim.test

tensorflow 模型預訓練後的引數restore finetuning

之前訓練的網路中有一部分可以用到一個新的網路中，但是不知道儲存的引數如何部分恢復到新的網路中，也瞭解到有許多網路是通過利用一些現有的網路結構，通過finetuning進行改造實現的，因此瞭解了一下關於模型預訓練後部分引數restore和finetuning的內容更多內容參見： http

tensorflow利用預訓練模型進行目標檢測

一、安裝首先系統中已經安裝了兩個版本的tensorflow，一個是通過keras安裝的，一個是按照官網教程https://www.tensorflow.org/install/install_linux#InstallingNativePip使用Virtualenv 進行安裝的，第二個在根目錄下，做標記

Spark Mlib(三)用spark訓練詞向量

自然語言處理中，在詞的表示上，向量的方式無疑是最流行的一種。它可以作為神經網路的輸入，也可直接用來計算。比如計算兩個詞的相似度時，就可以用這兩個詞向量的距離來衡量。詞向量的訓練需要大規模的語料，從而帶來的是比較長的訓練時間。spark框架基於記憶體計算，有忘加快詞向量的訓練速度。以下是sp

深度學習：預訓練

遷移學習：可以使我們在他人訓練過的模型基礎上進行小改動便可投入使用。 1. 什麼是遷移學習？神經網路需要用資料來訓練，它從資料中獲得資訊，進而把它們轉換成相應的權重。這些權重能夠被提取出來，遷移到其他的神經網路中，我們“遷移”了這些學來的特徵，就不需要從零開始訓練一

TensorFlow 呼叫預訓練好的模型—— Python 實現

1. 準備預訓練好的模型 TensorFlow 預訓練好的模型被儲存為以下四個檔案 data 檔案是訓練好的引數值，meta 檔案是定義的神經網路圖，checkpoint 檔案是所有模型的儲存路

tensorflow ： 使用預訓練詞向量

1、下載

2、裝載

3、詞向量層

4、詞表

相關推薦

tensorflow ：使用預訓練詞向量