21.【進階】流行庫模型--word2vec

阿新 • • 發佈：2019-01-03

詞的向量化表示

word2vec模型的採用的思想是，n元語法模型(n-gram model)，即假設一個詞只與周圍n個詞有關，而與文字中的其他詞無關

首先，我們要明確，句子中的連續詞彙片段，也被稱為上下文context，詞彙之間的聯絡就是通過無數個這樣的上下文建立的。以The cat is walking in the bedroom.為例，如果我們需要這句話中上下文數量為4（每一個片段中有4個詞彙）的欄位，那麼就有The cat is walking、cat is walking in 、is walking in the 、walking in the bedroom共4個context；

從語言模型的角度來講每個連續片段的最後一個單詞究竟可能是什麼，都會受到該片段中前面所有單詞的制約，因此這就形成了一個根據片段中前面單詞，預測最後一個單詞的監督學習系統；
以神經網路框架來描述，當context數量為n（每一個片段中有n個詞彙）時，提供給這個網路的輸入都是前(n-1)個詞彙片段，在下圖中用淺藍色矩形表示，最終指向的輸出就是片段中的最後一個單詞；
在網路中，需要計算的是這些詞彙的向量表示,如C(W_t-1)表示要計算的是輸入的片段中第(t-1)個單詞的向量表示，圖中每個紅色實心圓都代表了某個詞所對應的向量中的元素，實心圓的個數代表了詞向量的維度，且所有詞彙的維度是一致的；
通過不斷迭代、更新引數，迴圈往復，最終獲得每個詞彙獨特的向量表示。

實現程式碼：

#-*- coding:utf-8 -*-

#學習任務：使用genism工具包，對新聞文字進行詞向量訓練，並且通過抽樣幾個詞彙，查驗word2vec技術能否尋找到相似的詞彙

from sklearn.datasets import fetch_20newsgroups
news = fetch_20newsgroups(subset='all')
X,y = news.data,news.target

#從bs4裡匯入BeautifulSoup
from bs4 import BeautifulSoup
#匯入nltk,re工具包
import nltk,re
#定義一個函式名為news_to_sentences的方法，將每條新聞中的句子逐一剝離出來，並返回一個句子列表 

def news_to_sentences(news):
    #get_text(): Get all child strings, concatenated(串聯) using the given separator.
    news_text = BeautifulSoup(news).get_text()
    tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
    raw_sentences = tokenizer.tokenize(news_text)
    sentences = []
    for sent in raw_sentences:
        #Python的re模組提供了re.sub用於替換字串中的匹配項。
        #語法：re.sub(pattern, repl, string, count=0, flags=0)
        # pattern : 正則中的模式字串。
        # repl : 替換的字串，也可為一個函式。
        # string : 要被查詢替換的原始字串。
        # count : 模式匹配後替換的最大次數，預設 0 表示替換所有的匹配。
        sentences.append(re.sub('[^a-zA-Z]',' ',sent.lower().strip()).split())
    return sentences
#這裡必須空一行

sentences=[]
#將長篇新聞文字中的句子剝離出來，用於訓練
for x in X:
    sentences += news_to_sentences(x)
#此處要空一行，表示下一步程式碼寫在for迴圈外面

#從gensim.models匯入word2vec
from gensim.models import word2vec
#配置詞向量的維度
num_features=300
#被考慮的詞彙的頻度
#min-count 表示設定最低頻率，預設為5，如果一個詞語在文件中出現的次數小於該閾值，那麼該詞就會被捨棄 
min_word_count = 20
#設定並行化訓練使用CPU計算核心的數量
num_workers = 2
#定義上下文的視窗大小
context = 5
#定義下采樣的值為10^-3
downsampling=1e-3

#訓練詞模型 Word2Vec
#引數說明 轉自:(https://www.cnblogs.com/wuxiangli/p/7183476.html)：
# sentences：可以是一個·ist，對於大語料集，建議使用BrownCorpus,Text8Corpus或·ineSentence構建。
# sg： 用於設定訓練演算法，預設為0，對應CBOW演算法；sg=1則採用skip-gram演算法。
# size：是指特徵向量的維度，預設為100。大的size需要更多的訓練資料,但是效果會更好. 推薦值為幾十到幾百。
# window：表示當前詞與預測詞在一個句子中的最大距離是多少
# alpha: 是學習速率
# seed：用於隨機數發生器。與初始化詞向量有關。
# min_count: 可以對字典做截斷. 詞頻少於min_count次數的單詞會被丟棄掉, 預設值為5
# max_vocab_size: 設定詞向量構建期間的RAM限制。如果所有獨立單詞個數超過這個，則就消除掉其中最不頻繁的一個。每一千萬個單詞需要大約1GB的RAM。設定成None則沒有限制。
# sample: 高頻詞彙的隨機降取樣的配置閾值，預設為1e-3，範圍是(0,1e-5)
# workers:控制訓練的並行數。
# hs: 如果為1則會採用hierarchica·softmax技巧。如果設定為0（defau·t），則negative sampling會被使用。
# negative: 如果>0,則會採用negativesamp·ing，用於設定多少個noise words
# cbow_mean: 如果為0，則採用上下文詞向量的和，如果為1（defau·t）則採用均值。只有使用CBOW的時候才起作用。
# hashfxn： hash函式來初始化權重。預設使用python的hash函式
# iter： 迭代次數，預設為5
# trim_rule： 用於設定詞彙表的整理規則，指定那些單詞要留下，哪些要被刪除。可以設定為None（min_count會被使用）或者一個接受()並返回RU·E_DISCARD,uti·s.RU·E_KEEP或者uti·s.RU·E_DEFAU·T的函式。
# sorted_vocab： 如果為1（default），則在分配word index 的時候會先對單詞基於頻率降序排序。
# batch_words：每一批的傳遞給執行緒的單詞的數量，預設為10000
model = word2vec.Word2Vec(sentences,workers=num_workers,\
        size=num_features,min_count=min_word_count,\
        window=context,sample=downsampling)

#這個設定代表當前訓練好的詞向量為最終版，也可以加快模型的訓練速度
model.init_sims(replace=True)

#1.利用訓練好的模型，尋找訓練文字中與morning最相關的十個詞彙
model.most_similar('morning')

輸出：

[(u'afternoon', 0.8229345679283142), (u'weekend', 0.795312225818634), (u'evening', 0.747612476348877), (u'saturday', 0.7321940064430237), (u'night', 0.7067388296127319), (u'friday', 0.6979213356971741), (u'sunday', 0.6577881574630737), (u'monday', 0.6498968601226807), (u'summer', 0.649657666683197), (u'thursday', 0.6478739380836487)]

#2.利用訓練好的模型，尋找訓練文字中與love最相關的十個詞彙
model.most_similar('love')

輸出：

[(u'hate', 0.7348656058311462), (u'praise', 0.605739414691925), (u'pray', 0.5700856447219849), (u'die', 0.5681827068328857), (u'christ', 0.5652735829353333), (u'lord', 0.5511417388916016), (u'preach', 0.5481806397438049), (u'fear', 0.5467240810394287), (u'father', 0.5341935157775879), (u'eternal', 0.5326560735702515)]

總結：在不使用語言學詞典的前提下，詞向量技術仍然可以藉助上下文資訊，找出詞彙之間的相似性，這一技術可以作為基礎模型應用到更加複雜的自然語言處理中。

21.【進階】流行庫模型--word2vec

詞的向量化表示 word2vec模型的採用的思想是，n元語法模型(n-gram model)，即假設一個詞只與周圍n個詞有關，而與文字中的其他詞無關首先，我們要明確，句子中的連續詞彙片段，也被稱為上下文context，詞彙之間的聯絡就是通過無數個這樣的上

20.【進階】流行庫模型--NLTK(Nature Language Toolkit)

#-*- coding:utf-8 -*- #如何將下面兩行句子向量化 sentence1 = 'The cat is walking in the bedroom.' sentence2 = 'A dog was running across the kit

23.【進階】流行庫模型--Tensorflow&SKFlow

Tensorflow 用以編寫程式的計算機軟體；計算機軟體開發工具；可用於人工智慧、深度學習、高效能運算、分散式計算、虛擬化和機器學習這些領域；軟體庫可用於通用目的的計算、資料收集的操作、資料變換、輸入輸出、人工智慧等領域的建模和測試軟體可用作應用於

17.【進階】模型正則化--欠擬合與過擬合問題

#-*- coding:utf-8 -*- #學習目標：以“披薩餅價格預測”為例，認識欠擬合和過擬合的問題 #假定只考慮披薩的尺寸和售價的關係,X為尺寸，y代表售價 X_train = [[6],[8],[10],[14],[18]] y_train = [

18.【進階】模型正則化--L1&L2範數正則化

#-*- coding:utf-8 -*- #模型正則化：目的是提高模型在未知測試資料上的泛化力，避免參數過擬合 #常用方法：在原模型優化目標的基礎上，增加對引數的懲罰(penalty)項 #拓展一下L0範數、L1範數、L2範數的概念 #L0範數是指向量中非0

【SSH快速進階】——struts2的模型驅動—ModelDriven

上篇部落格《SSH快速進階——struts2簡單的例項》中，處理使用者登陸的action—LoginAction為： package com.danny.user.action; public cl

技術鄰學院直播預告｜【進階】simufact軟件焊接仿真工藝培訓

技術分享教學過程高級工程師力學案例評論代理電子技術鄰學院直播預告【進階】simufact軟件焊接仿真工藝培訓（6月10日）直播信息日期： 2017年6月10日（星期六）20：00--21：30 直播地址：熊貓直播http://pan

Docker極簡教程【進階】

原文連結：https://www.javazhiyin.com/20513.html 1. DockerFile建立映象建立檔案Dockerfile檔案，該檔名不可更改 vi Dockerfile 寫入文字 FROM alpine:latest MAINT

【連結串列面試題】【進階】

1、查詢倒數第 k 個連結串列題目描述：給定一個單向連結串列 List ，要你設計演算法找出倒數第 K 個結點並列印 struct ListNode { DataType m_Value; ListNode* m_pNext; }; ListNode* FindKt

【進階】RecyclerView原始碼解析(二)——快取機制

引言接著上一篇部落格分析完RecyclerView的繪製流程，其實對RecyclerView已經有了一個大體的瞭解，尤其是RecyclerView和LayoutManager和ItemDecoration的關係。本篇文章將對RecyclerVie

14.【進階】特徵提升之特徵抽取----DictVectorizer

說明：DictVectorizer的處理物件是符號化(非數字化)的但是具有一定結構的特徵資料，如字典等，將符號轉成數字0/1表示。 #-*- coding:utf-8 -*- #學習目標：使用DictVectorizer對使用字典儲存的資料進行特徵抽取和

【進階】從linux到android，程序的方方面面

最近在閱讀《Linux核心設計與實現》，這裡做一下linux中程序相關的知識點整理，以及android中程序的淺析。下面1，2小節整理自《Linux核心設計與實現》第三章《程序管理》和第四章《程序排程》。第3節整理android中程序的知識點。

【進階】RecyclerView原始碼解析(三)——深度解析快取機制

上一篇部落格從原始碼角度分析了RecyclerView讀取快取的步驟，讓我們對於RecyclerView的快取有了一個初步的理解，但對於RecyclerView的快取的原理還是不能理解。本篇部落格將從實際專案角度來理解RecyclerView的快取原理。

【進階】RecyclerView原始碼解析(一)——繪製流程

引言自從Google出了RecyclerView後，基本上列表的場景已經完全替代了原來的ListView和GridView，現在不僅僅是列表，多樣式（俗稱蓋樓），複雜頁面等，只要我們願意，RecyclerView幾乎可以代替實現80%的佈局，Git

19.【進階】超引數搜尋--網格搜尋&並行搜尋

超引數搜尋前面所提到的模型配置，我們一般統稱為模型的超引數，如K近鄰演算法中的k值、支援向量機中不同的核函式等，多數情況下，超引數等選擇是無限的，除了人工預設幾種超引數的組合以外，還可以通過啟發式的搜尋演算法對超引數組合進行調優。這種啟發式的搜尋演算法對

15.【進階】特徵提升之特徵抽取--CountVectorizer和TfidfVectorizer

#學習目標1:使用CountVectorizer和TfidfVectorizer對非結構化的符號化資料(如一系列字串)進行特徵抽取和向量化 from sklearn.datasets import fetch_20newsgroups #從網際網路上即時下載新

【python進階】自定義庫函式

在python使用過程中，在不同的專案裡，常常會出現頻繁地自定義同一個函式的情況。為了解決這個問題，我們可以選擇建立一個自定義的庫，並將其新增到系統路徑中具體操作如下：在任意位置新建一個專案my_libs，並在其中新建python檔案my_lib1和m

【Android進階】(3)Android圖像處理

progress chang etc geo xtend static ogr arch 取出 1. 概念色調/色相：物體傳遞的顏色飽和度：顏色的純度，從0（灰）到100%（飽和）來進行描寫敘述亮度/明度：顏色的相對明暗程度 2. 調整圖像小Demo 創建一個

【Android進階】Junit單元測試環境搭建以及簡單有用

rar theme 選擇 http 技術分享才幹 ack package family 單元測試的目的首先。Junit單元測試要實現的功能，就是用來測試寫好的方法是否可以正確的運行，一般多用於對業務方法的測試。單元測試的環境配置 1.在Andro

UOJ#21【UR #1】縮進優化

一個 amp getchar() esp 統計 efi == stream etc 傳送門 http://uoj.ac/problem/21 枚舉（調和級數？） $\sum_{i=1}^{n} (a_i / x + a_i \bmod x) =\su

21.【進階】流行庫模型--word2vec

詞的向量化表示

相關推薦