DL4J中文文件/語言處理/Word2Vec

阿新 • • 發佈：2018-11-19

Word2Vec, Doc2vec & GloVe: 用於自然語言處理的神經詞嵌入

內容

介紹
神經詞嵌入
有趣的Word2Vec結果
給我程式碼
Word2Vec 剖析
安裝，載入與訓練
程式碼示例
問題排查與Word2Vec除錯
Word2Vec用例
外語
GloVe(全域性向量)與Doc2Vec

Word2Vec介紹

Word2Vec是一個處理文字的兩層神經網路。它的輸入是一個文字語料庫，它的輸出是一組向量：語料庫中的單詞的特徵向量。Word2Vec不是一個深度神經網路

，它將文字轉換成一個深度網路可以理解的數值形式。DL4J實現了一個分散式的Word2Vec，用於Java和Scala，它在Spark的GPU上工作。

Word2Vec的應用擴充套件了自然界的句子解析。它也可以同樣地應用於基因、程式碼、喜歡、播放列表、社交媒體圖表和其他可以識別模式的語言或符號系列。

為什麼？因為單詞只是像上面提到的其他資料一樣的離散狀態，我們只是在尋找這些狀態之間的轉移概率：它們將同時發生的可能性。所以gene2vec，like2vec和follower2vec 都是可能的。記住這一點，下面的教程將幫助你理解如何為任意一組離散和共現狀態建立神經嵌入。

Word2Vec的目的和實用性是將相似詞的向量分組到向量空間中。也就是說，它在數學上檢測相似性。Word2Vec建立向量，這些向量是單詞特徵（例如單個單詞的上下文）的分散式數字表示。這樣做沒有人為干預。

給定足夠的資料、用法和上下文，Word2Vec可以基於過去的出現對單詞的意義做出高度準確的猜測。這些猜測可以用來建立一個單詞與其他單詞的關聯（例如，“男人”是“男孩”，“女人”是“女孩”），或者是聚類文件，並按主題分類。這些聚類可以構成搜尋的基礎、情感分析和在科學研究、法律發現、電子商務和客戶關係管理等多個領域的建議。

Word2Vec神經網路的輸出是一個詞彙表，其中每個專案都有一個附加到它的向量，它可以被送入深度學習網路或簡單地查詢以檢測詞之間的關係。

測量餘弦相似度，90度角表示沒有相似度，而總的相似度是1是0度角，完全重疊；即Sweden等於Sweden，而Norway到Sweden的餘弦距離是0.760124，是任何其他國家中最高的。

這是一個使用Word2Vec生成的與“Sweden”相關的單詞列表，按接近順序排序:

Cosine Distance

斯堪的納維亞的國家和幾個富裕的北歐、日耳曼國家躋身前九位。

神經詞嵌入

我們用來表示單詞的向量稱為神經詞嵌入，表示是奇怪的。一件事描述了另一件事，儘管這兩件事是根本不同的。正如Elvis Costello所說：“寫作對於音樂就像跳舞對於建築。”Word2Vec對單詞“向量化”，通過這樣做，它使得自然語言可以被計算機閱讀——我們可以開始對單詞執行強大的數學運算以檢測它們的相似性。

因此，神經詞嵌入用數字代表一個單詞。這是一個簡單但不太可能的翻譯。

Word2Vec類似於一個自動編碼器，將每個單詞編碼在一個向量中，而不是通過重建對輸入單詞進行訓練，Word2Vec在語料庫中將單詞和與它們相鄰的其他單詞進行訓練。

它以兩種方式中的其中一種來實現，或者使用上下文來預測目標單詞（一種稱為連續詞袋或CBOW的方法），或者使用單詞來預測目標上下文，即skip-gram。我們使用後一種方法，因為它對大資料集產生更精確的結果。

word2vec diagram

當分配給單詞的特徵向量不能用於精確預測該單詞的上下文時，向量的組成部分會被調整。語料庫中的每個單詞的上下文是老師，往回傳送錯誤訊號以調整特徵向量。通過調整在向量中數值湊在一起的上下文，單詞的向量被它們判斷為相似的。

正如梵高的向日葵畫是油畫布上的二維混合物，代表了1880年代末巴黎三維空間中的植物物質，所以以向量排列的500個數字可以代表一個詞或一組詞。

這些數字將每個單詞定位為500維向量空間中的一個點。超過三個維度的空間難以視覺化。（Geoff Hinton教授人們想象13維空間，建議學生首先想象3維空間，然後對自己說：“13、13、13”：）

一組訓練有素的單詞向量將在那個空間中放置相似的單詞。“橡樹”、“榆樹”和“樺樹”可能會聚集在一個角落，而戰爭、衝突和爭鬥則聚集在另一個角落。

類似的事情和想法被證明是“接近的”。它們的相對意義已經轉化為可測量的距離。質量變成數量，演算法可以完成他們的工作。但相似性只是Word2Vec可以學習的許多關聯的基礎。例如，它可以衡量一種語言的單詞之間的關係，並將它們對映到另一種語言。

word2vec translation

這些向量是更全面的詞彙幾何的基礎。如圖所示，像羅馬、巴黎、柏林和北京這樣的首都城市相互靠近，在向量空間上它們各自具有與其國家相似的距離，即羅馬-義大利=北京-中國。如果你只知道羅馬是義大利的首都，並想知道中國的首都，那麼等式羅馬-義大利+中國將返回北京。這不是玩笑。

capitals output

有趣的Word2Vec結果

讓我們看看Word2Vec可以產生的其他關聯。

我們將用邏輯類比的符號代替加減等號，給出結果，其中:是 “對於”的意思和::“等同”的意思，例如“羅馬對義大利就像北京對中國一樣”=羅馬:義大利::北京:中國。在最後一點，當給出前三個元素時，我們將給出Word2vec模型建議的單詞列表，而不是提供“答案”：

king:queen::man:[woman, Attempted abduction, teenager, girl] 
//很怪異，但你可以看到

China:Taiwan::Russia:[Ukraine, Moscow, Moldova, Armenia]
//兩個大國和他們小的遠離的鄰居

house:roof::castle:[dome, bell_tower, spire, crenellations, turrets]

knee:leg::elbow:[forearm, arm, ulna_bone]

New York Times:Sulzberger::Fox:[Murdoch, Chernin, Bancroft, Ailes]
//Sulzberger-Ochs家族擁有並經營NYT。
//Murdoch 家族擁有新聞公司，此家族有福克斯新聞。 
//Peter Chernin是新聞公司的13年的營運長。
//Roger Ailes是福克斯新聞的主席。 
//Bancroft家族把《華爾街日報》賣給了新聞集團。

love:indifference::fear:[apathy, callousness, timidity, helplessness, inaction]
//這首詩的詩集簡直令人驚歎。

Donald Trump:Republican::Barack Obama:[Democratic, GOP, Democrats, McCain]
//有趣的是，正如奧巴馬和麥凱恩是對手一樣
//同樣，Word2Vec認為特朗普與共和黨的觀點有對立。

monkey:human::dinosaur:[fossil, fossilized, Ice_Age_mammals, fossilization]
//人類是化石猴子？人類就是剩下的
//猴子？人類是打敗猴子的物種。
//就像冰河時代哺乳動物打敗恐龍一樣？貌似有理的。

building:architect::software:[programmer, SecurityCenter, WinPcap]

這個模型是在谷歌新聞vocab上進行訓練的，你可以匯入並玩一玩。考慮片刻，Word2Vec演算法從來沒有被教過一條英語語法規則。它對世界一無所知，與任何基於規則的符號邏輯或知識圖無關。然而，比在多年的人力學習後大的大多數知識圖的學習，它以更靈活和自動化的方式學習。它把Google新聞的文件看作一張白板，訓練結束後，它可以計算對人類有意義的複雜類推。

你還可以查詢Word2Vec模型進行其他關聯。並不是每件事都必須有兩個相互映象的類推。（我們解釋如下……）

地緣政治學：伊拉克-暴力=約旦
區分：人類-動物=倫理
總統-權力=總理
圖書館-圖書=大廳
類推：股票市場≈溫度計

通過構建一個單詞與其他類似單詞的鄰近場景，這些單詞不一定包含相同的字母，我們已經從硬標記，進入了更平滑和更普遍的意義的場景。

給我程式碼

DL4J中Word2Vec的剖析

這些是DL4J自然語言處理的元件：

SentenceIterator/DocumentIterator: 用於迭代一個數據集。 SentenceIterator 返回一個字串， DocumentIterator 與輸入流一起工作。
Tokenizer/TokenizerFactory: 用於對文字進行分詞。在NLP術語中，句子被表示為一系列詞。TokenizerFactory為一個句子建立一個分詞器的例項。
VocabCache: 用於跟蹤元資料，包括單詞計數、文件出現、詞集（本例中不是vocab，而是已經發生的令牌詞）、vocab（詞袋和單詞向量查詢表中包括的特性）
Inverted Index: 儲存有關單詞發生的元資料。可以用於理解資料集。自動建立具有Lucene實現（1）的Lucene索引。

Word2vec是指一系列相關演算法，該實現採用負取樣。

答：如果你所有的句子都被作為一個句子被載入，Word2Vec訓練可能需要很長的時間。這是因為Word2Vec是一個句子級別的演算法，所以句子邊界非常重要，因為共現統計是逐句收集的。（對於GloVe來說，句子邊界並不重要，因為它關注於語料庫範圍的共現。對於許多語料庫，平均句子長度為六個單詞。這意味著在視窗大小為5的情況下，有30個（隨機數）回合的skip-gram計算。如果你忘記指定句子的邊界，你可能載入一個“10000個單詞”長的句子。在這種情況下，Word2Vec將為整個10000個單詞“句子”嘗試全skip-gram迴圈。在DL4J的實現中，假定一行是一個句子。你需要插入你自己的句子迭代器和分詞器。通過要求你指定你的句子如何結束，DL4J仍然是語言不可知論者。UimaSentenceIterator是這樣做的一種方式。使用OpenNLP進行句子邊界檢測。

問：為什麼把整個文件作為一個“句子”而不是分割成句子時，在效能上有如此不同？

答：如果平均句子包含6個單詞，視窗大小為5，那麼理論上最多10個skipgram回合的次數是0字。句子不夠長，不能用文字表達完整的視窗。在這句話中所有單詞的粗略最大數目為5個skipgram回合。但如果你的“句子”有1000k個單詞的長度，這個句子中的每個單詞就有10個skipgram回合，不包括前5個和最後5個。因此，你將不得不花費大量時間來構建模型+由於缺少句子邊界，協同統計將會發生變化。

問：Word2Vec是如何使用記憶體的？

答：Word2Vec中的主要記憶體消耗是權重矩陣。數學是簡單的：單詞數x維度數x 2 x資料型別記憶體佔用。因此，如果使用浮點數和100維來構建100k字的Word2Vec模型，那麼記憶體佔用將是100kx100x2x4（浮點數大小）=80MB RAM，僅用於矩陣+用於字串、變數、執行緒等的一些空間。如果載入預構建的模型，則在構建時間中使用大約1/2的RAM，因此它是40MB RAM。目前使用的最流行的模型是谷歌新聞模型。有3百萬字，向量大小為300。這就使我們需要3.6G RAM僅載入模型。而且必須新增3M的字串，這些字串在Java中沒有固定的大小。所以，通常是大約4-6GB用於載入模型，這取決於JVM版本/供應商，GC狀態和月球的相位。

問：我做了你說的每一件事，結果還是不對頭。

答：確保你正遇到不是正常性問題。一些任務，如wordsNearest()，預設使用標準化的權重，而其他的則需要非標準化的權重。注意這個區別。

用例

谷歌學者儲存了論文記錄，這裡引用了Word2Vec的DL4J實現。

來自比利時的資料科學家Kenny Helsens將Word2Vec的DL4J實現應用於NCBI的線上孟德爾人類繼承(OMIM)資料庫。然後，他尋找與alk（一種已知的非小細胞肺癌的致癌基因）最相似的單詞，Word2vec返回：“nonsmall, carcinomas, carcinoma, mapdkd”。從那裡，他建立了其他癌症表型和基因型之間的類比。這只是Word2Vec在大型語料庫上可以學習的一個例子。發現重要疾病新方面的潛力才剛剛開始，在醫學之外，機會也同樣多樣。

Andreas Klintberg在瑞典訓練了Word2Vec的DL4J實現，並在媒體上寫下了一個完整的指導。

Word2Vec在資訊檢索準備基於文字的資料和問答系統中特別有用，DL4J通過深度自動編碼器來實現這些系統。

營銷人員可能尋求建立產品間的關係來建立推薦引擎。調查者可能會分析一個社會圖表，以顯示單個群體的成員，或者他們可能必須定位或資助的其他關係。

Google的 Word2vec 專利

Word2Vec是由Tomas Mikolov領導的谷歌研究團隊介紹的一種計算單詞向量表示的方法。谷歌託管了一個開源版本的Word2Vec，它是在Apache 2許可下發布的。在2014，Mikolov離開谷歌去了Facebook，並在2015年5月，谷歌被授予獲得此專利，已釋出的版本沒有廢除Apache許可證。

外語

雖然所有語言中的單詞都可以用Word2Vec轉換為向量，並且這些向量通過DL4J學習，但是NLP預處理可以非常特定於語言，並且需要超出我們庫的工具。斯坦福自然語言處理小組有許多基於Java的工具，用於語言的分詞、詞性標註和命名實體識別，例如普通話、阿拉伯語、法語、德語和西班牙語。對於日本人來說，像Kuromoji之類的NLP工具是有用的。其他的外語資源，包括文字語料庫，都在這裡。

GloVe: 全域性向量

載入和儲存GloVe模型到Word2Vec可以這樣做：

        WordVectors wordVectors = WordVectorSerializer.loadTxtVectors(new File("glove.6B.50d.txt"));

序列向量

DL4J具有一個名為SequenceVectors的類，它是單詞向量之上的抽象級別，並且允許你從任何序列中提取特徵，包括社交媒體概要、事務、蛋白質等。如果資料可以被描述為序列，它可以通過skip-gram和層次化的softmax與AbstractVectors類來學習。這與深度演算法相相容，也在DL4J中實現。

DL4L的Word2Vec特徵

模型序列化/反序列化被新增後的權重會更新。也就是說，你可以通過呼叫loadFullModel、向其中新增TokenizerFactory和SentenceIterator、以及呼叫還原的模型上的fit()來使用200GB的新文字更新模型狀態。
用於詞彙構建的多個數據源的選項被新增。
訓練和迭代可以單獨指定，儘管它們通常都是“1”。
Word2Vec.Builder 有這個選項: hugeModelExpected. 如果設為 true, 在構建過程中，詞彙將被週期性的截斷。
minWordFrequency 有助於忽略語料庫中的稀有詞，可以排除任何數量的詞來定製。
兩個新的WordVectorsSerialiaztion 方法已被介紹: writeFullModel 和 loadFullModel. 這些儲存和載入一個完整的模型狀態。
一個體面的工作站應該能夠處理一個有幾百萬單詞的詞彙量。DL4J的Word2Vec實現可以在一臺機器上對兆兆位元組的資料進行建模。大致來說，計算公式是：vectorSize * 4 * 3 * vocab.size()。

Doc2vec & 其它 NLP 資源

文學中的Word2Vec

It's like numbers are language, like all the letters in the language are turned into numbers, and so it's something that everyone understands the same way. You lose the sounds of the letters and whether they click or pop or touch the palate, or go ooh or aah, and anything that can be misread or con you with its music or the pictures it puts in your mind, all of that is gone, along with the accent, and you have a new understanding entirely, a language of numbers, and everything becomes as clear to everyone as the writing on the wall. So as I say there comes a certain time for the reading of the numbers.
    -- E.L. Doctorow, Billy Bathgate

DL4J中文文件/語言處理/Word2Vec

Word2Vec, Doc2vec & GloVe: 用於自然語言處理的神經詞嵌入

載入資料

資料分詞

訓練模型

模型視覺化

儲存，重新載入並使用模型

Doc2vec & 其它 NLP 資源

相關推薦