2 語言模型和詞向量 tensorflow詞向量

阿新 • • 發佈：2019-01-12

----------------------------大綱--------------------------

1 隨著模型不斷更新

2 直接使用預先訓練好的詞向量如word2vec， glove

3 測試檔案向量化

--------------------------------------------------------------

省去資料讀取以及預處理模組

1 隨著模型不斷更新

1.1 train檔案中輸入語句用index表示

#表示最長的句子長度max_document_length

max_document_length=max([len(x.split(" "))for xin x_text])

vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)

#拿到句子中的index向量表示（注意這裡是詞的index）

x = list(vocab_processor.fit_transform(x_text))

1.2 模型檔案中index向量轉化為詞向量

self.input_x = tf.placeholder(tf.int32, [None, sequence_length],name="input_x")

with tf.name_scope("embedding"):

#tf.random_uniform([vocab_size, embedding_size], -1.0,1.0)詞向量採用均勻分佈作為初始化

# trainable=Ture表示模型中不斷迭代更新詞向量的值，如果trainable=False表示採用第三方預先訓練好的詞向量結果

self.W = tf.Variable(tf.random_uniform([vocab_size, embedding_size], -1.0,1.0),trainable=True, name="W")

self.embedded_x = tf.nn.embedding_lookup(self.W,self.input_x)

2 直接使用預先訓練好的詞向量如word2vec， glove

如下以glove為例,格式如下，詞以及其對應的詞向量

2.1 train檔案中

# 讀檔案獲取glove中的詞彙，以及其對應的詞向量

vocab, embd = data_helpers.loadGloVe(FLAGS.embedding_file, FLAGS.embedding_dim)

embedding = np.asarray(embd)

def tokenizer(iterator):

for value in iterator:

yield re.split(r'\s', value)

# 將glove檔案中的詞轉化為index

vocab_processor = learn.preprocessing.VocabularyProcessor(max_sequence_length, tokenizer_fn=tokenizer)

vocab_processor.fit(vocab)

#拿到句子中的index向量表示（注意這裡是詞的index）

x = list(vocab_processor.fit_transform(x_text))

2.2 model檔案中

#傳入glove的初始值的佔位符

self.embedding_placeholder = tf.placeholder(tf.float32, [self.vocab_size,self.embedding_size],

name="embedding")

self.input_x = tf.placeholder(tf.int32, [None, sequence_length],name="input_x")

with tf.variable_scope("embedding"):

#trainable=False的設定如1.2設定

self.W = tf.Variable(tf.constant(0.0,shape=[self.vocab_size,self.embedding_size]), trainable=False, name="W")

# 把glove初始值給self.W

self.embedding_init = tf.assign(self.W,self.embedding_placeholder)

self.embedded_x = tf.nn.embedding_lookup(self.W,input_x )

3 測試的時候測試資料向量化

#讀取train時儲存的vocab檔案

vocab_path = os.path.join(FLAGS.checkpoint_dir, "..", "vocab")
vocab_processor = learn.preprocessing.VocabularyProcessor.restore(vocab_path)
x_combined_indexes = list(vocab_processor.transform(x_combined))

2 語言模型和詞向量 tensorflow詞向量

2 語言模型和詞向量 tensorflow詞向量

【中文分詞系列】 5. 基於語言模型的無監督分詞

語言模型和RNN CS244n 大作業 Natural Language Processing

【NLP】語言模型和遷移學習

語音識別語言模型和拼音字典檔案製作

Deep Learning in NLP （一）詞向量和語言模型

詞袋模型和詞向量模型

自然語言處理(四)神經網路語言模型及詞向量

詞向量及語言模型

NLP學習筆記(1)-詞向量與語言模型

Chisel 語言（Scala）學習 2 例項化模型和向量操作

自然語言處理中傳統詞向量表示VS深度學習語言模型（三）：word2vec詞向量

使用Keras和預訓練的詞向量訓練新聞文字分類模型

中文自然語言處理向量合集(字向量,拼音向量,詞向量,詞性向量,依存關係向量)

Python 自然語言處理（基於jieba分詞和NLTK）

深度學習課程之文字預處理、詞袋模型、word2vec、語言模型（1.9）

詞袋模型和TF-IDF

概率語言模型分詞方法

計算語言學概論複習筆記（分詞、語言模型、隱馬爾科夫、POS、ML、DL、MT）

轉：從頭開始編寫基於隱含馬爾可夫模型HMM的中文分詞器

2 語言模型和詞向量 tensorflow詞向量

相關推薦