Google開源word2vec，文字相似度計算工具

阿新 • • 發佈：2019-01-26

谷歌已經使用Deep Learning技術開發了許多新方法來解析語言，目前，谷歌開源了一款基於Deep Learning的學習工具——word2vec，這是首款面向大眾的Deep Learning學習工具。

word2vec（word to vector）顧名思義，這是一個將單詞轉換成向量形式的工具。通過轉換，可以把對文字內容的處理簡化為向量空間中的向量運算，計算出向量空間上的相似度，來表示文字語義上的相似度。

word2vec為計算向量詞提供了一種有效的連續詞袋（bag-of-words）和skip-gram架構實現，word2vec遵循Apache License 2.0開源協議。

如何轉換？

word2vec主要是將文字語料庫轉換成詞向量。它會先從訓練文字資料中構建一個詞彙，然後獲取向量表示詞，由此產生的詞向量可以作為某項功能用在許多自然語言處理和機器學習應用中。

在舉例子之前，引入餘弦距離（Cosine distance）這個概念（摘自維基百科）：

通過測量兩個向量內積空間的夾角的餘弦值來度量它們之間的相似性。0度角的餘弦值是1，而其他任何角度的餘弦值都不大於1;並且其最小值是-1。從而兩個向量之間的角度的餘弦值確定兩個向量是否大致指向相同的方向。兩個向量有相同的指向時，餘弦相似度的值為1；兩個向量夾角為90°時，餘弦相似度的值為0；兩個向量指向完全相反的方向時，餘弦相似度的值為-1。在比較過程中，向量的規模大小不予考慮，僅僅考慮到向量的指向方向。餘弦相似度通常用於兩個向量的夾角小於90°之內，因此餘弦相似度的值為0到1之間。

然後可以通過distance工具根據轉換後的向量計算出餘弦距離，來表示向量（詞語）的相似度。例如，你輸入“france”，distance工具會計算並顯示與“france”距離最相近的詞，如下：

              Word             Cosine distance
      -------------------------------------------
                spain              0.678515
              belgium              0.665923
          netherlands              0.652428
                italy              0.633130
          switzerland              0.622323
           luxembourg              0.610033
             portugal              0.577154
               russia              0.571507
              germany              0.563291
            catalonia              0.534176

在word2vec中主要有兩種學習演算法：連續詞袋和連續skip-gram，switch-cbow允許使用者選擇學習演算法。這兩種演算法有助於預測其它句子的詞彙。

從詞轉換到句子或更長的文字

在一些特定的應用程式中，它還可以用於多個詞彙，例如，“san francisco”，這樣它就會通過預先處理資料集，讓其形成句子，找到與“san francisco”餘弦距離最近的內容：

              Word          Cosine distance
-------------------------------------------
          los_angeles              0.666175
          golden_gate              0.571522
              oakland              0.557521
           california              0.554623
            san_diego              0.534939
             pasadena              0.519115
              seattle              0.512098
                taiko              0.507570
              houston              0.499762
     chicago_illinois              0.491598

如何衡量詞向量質量

可能影響到詞向量質量的幾個因素：

訓練資料的數量和質量
向量的大小
訓練演算法

向量的質量對任何一個應用程式都非常重要，然而，根據複雜的任務來探索不同的超引數設定可能會過於苛刻。因此，我們設計了簡單的測試集，來快速評估向量詞的質量。

詞聚類（Word clustering）

詞向量也可以從巨大的資料集中匯出詞類，通過執行詞向量頂部的K-means聚類即可實現，指令碼演示地址：./demo-classes.sh，最後輸出的是一個詞彙表文件和與之對應的類ID標識，例如：

carnivores 234
carnivorous 234
cetaceans 234
cormorant 234
coyotes 234
crocodile 234
crocodiles 234
crustaceans 234
cultivated 234
danios 234
.
.
.
acceptance 412
argue 412
argues 412
arguing 412
argument 412
arguments 412
belief 412
believe 412
challenge 412
claim 412

效能

在多核CPU上（使用開關‘-threads N’），通過使用並行訓練可以顯著提高訓練速度，超引數選擇對效能也至關重要（包括速度和準確率），主要選擇有：

架構：skip-gram（慢、對罕見字有利）vs CBOW（快）
訓練演算法：分層softmax（對罕見字有利）vs 負取樣（對常見詞和低緯向量有利）
欠取樣頻繁詞：可以提高結果的準確性和速度（適用範圍1e-3到1e-5）
維度詞向量：通常情況下表現都很好
文字（window）大小：skip-gram通常在10附近，CBOW通常在5附近

去哪裡收集訓練資料

隨著訓練資料的增加，詞向量質量也顯著提升，如果以研究為目的的，可以考慮線上資料集：

快速入門

執行“make”編譯word2vec工具
執行demo指令碼：./demo-word.sh and ./demo-phrases.sh

Google開源word2vec，文字相似度計算工具

谷歌已經使用Deep Learning技術開發了許多新方法來解析語言，目前，谷歌開源了一款基於Deep Learning的學習工具——word2vec，這是首款面向大眾的Deep Learning學習工具。 word2vec（word to vector）顧名思義，這是

解析TF-IDF演算法原理：關鍵詞提取，自動摘要，文字相似度計算

Abstract：TF-IDF演算法是一種常用的詞頻統計方法，常被用於關鍵詞提取、文字摘要、文章相似度計算等。 TF-IDF的演算法思路 TF詞頻（Text Frequency）：統計出現次數最多的詞 IDF逆文件頻率（Inverse Document Frequ

word2vec詞向量訓練及中文文字相似度計算

本文是講述如何使用word2vec的基礎教程，文章比較基礎，希望對你有所幫助！官網C語言下載地址：http://word2vec.googlecode.com/svn/trunk/官網Python下載地址：http://radimrehurek.com/gensim/mod

nlp中文字相似度計算問題

文章的目的：文字相似度計算一直是nlp中常見的問題，本文的目標是總結並對比文字相似度計算方法。當然文字的相似度計算會有進一步的應用，比如文字的分類、聚類等。文章結構：本文先介紹最直接的字面距離相似度度量，而後介紹語義主題層面的度量，最後介紹目前一些新的相似度計算方法。一、字面距

基於神經網路的文字相似度計算【醫療大資料】

任務描述問句匹配是自然語言處理的最基本任務之一，是自動問答，聊天機器人，資訊檢索，機器翻譯等各種自然語言處理任務基礎。問句匹配的主要目的是判斷兩個問句之間的語義是否等價。判別標準主要根據主句（即提問者）所蘊含的意圖來判斷兩個語句是否等價，而不直接判斷兩個語句是否表達相

Python 文字挖掘：使用gensim進行文字相似度計算

index = similarities.MatrixSimilarity(corpus_tfidf)#把所有評論做成索引 sims = index[vec_tfidf]#利用索引計算每一條評論和商品描述之間的相似度 similarity = list(sims)#把相似度儲存成陣列，以便寫入txt 文件

文字相似度計算的幾個距離公式（歐氏距離、餘弦相似度、Jaccard距離、編輯距離）

本文主要講一下文字相似度計算的幾個距離公式，主要包括：歐氏距離、餘弦相似度、Jaccard距離、編輯距離。距離計算在文字很多場景下都可以用到，比如：聚類、K近鄰、機器學習中的特徵、文字相似度等等。接下來就一一介紹一下：假設兩個文字X=(x1, x2, x3,...xn)

pythonNLP-文字相似度計算-Demo

參照部落格[我愛自然語言處理]裡面的如何計算兩個文字的相似度系列，把程式碼自己實現了一遍，對整個流程有了瞭解。純屬個人記錄，新手想學習可直接去上面的部落格學習，講的非常好。程式碼 #-*- coding:utf-8 import gensim fr

螞蟻金服金融大腦的挑戰賽的實現程式碼 NLP文字相似度計算

近期做了一些NLP的研究，並基於6月份螞蟻金服金融大腦的挑戰賽，完成了文字相似度計算的驗證。主要思路是基於word2vec來進行訓練，並實現文字相似度的計算。所使用的語料，包括了公開的wiki語料，網友收集的微信語料，以及此大賽中的語料。其中微信語料的位置在https://s

文字相似度計算之餘弦定理

前言餘弦相似度，又稱為餘弦相似性，是通過計算兩個向量的夾角餘弦值來評估他們的相似度。餘弦相似度將向量根據座標值，繪製到向量空間中。用向量空間中兩個向量夾角的餘弦值作為衡量兩個個體間差異的大小。餘弦值越接近1，就表明夾角越接近0度，也就是兩個向量越相似，反之越接近0就表示兩個向量相似度越低，這就叫"餘弦

用gensim doc2vec計算文字相似度，Python可以跑通的程式碼

Python3.7版本，轉載自：https://blog.csdn.net/juanjuan1314/article/details/75124046 wangyi_title.txt檔案下載地址：連結:https://pan.baidu.com/s/1uL75P13t98YHMqgv3Kx7T

NLP點滴——文字相似度，計算文字間的距離

前言在自然語言處理過程中，經常會涉及到如何度量兩個文字之間的相似性，我們都知道文字是一種高維的語義空間，如何對其進行抽象分解，從而能夠站在數學角度去量化其相似性。而有了文字之間相似性的度量方式，我們便可以利用劃分法的K-means、基於密度的DBSCAN或者是基於模型的概率方法進行文字之間的聚類分析；另

計算句子文字相似度－編輯距離計算

本文轉載於：https://juejin.im/post/5b237b45f265da59a90c11d6 編輯距離，英文叫做 Edit Distance，又稱 Levenshtein 距離，是指兩個字串之間，由一個轉成另一個所需的最少編輯操作次數，如果它們的距離越大，說明它們越是不同。

Doc2Vec計算句子文件向量、求文字相似度

注：本文主要是記錄自己常用的關於Doc2Vec的簡單程式程式碼。因此不做過多的解釋，直接寫出程式碼，如有問題可以討論交流。一、doc2vec求文件向量 import sys import numpy as np import gensim from gensim.mod

DSSM演算法-計算文字相似度

轉載請註明出處： http://blog.csdn.net/u013074302/article/details/76422551 導語在NLP領域，語義相似度的計算一直是個難題：搜尋場景下query和Doc的語義相似度、feeds場景下Doc和Doc的語義相似度、機器翻譯場景下A句

計算文字相似度方法大全-簡單說

本編文章是方法論-主要給大家介紹原理思路簡單講解基於關鍵詞的空間向量模型的演算法，將使用者的喜好以文件描述並轉換成向量模型，對商品也是這麼處理，然後再通過計算商品文件和使用者偏好文件的餘弦相似度。文字相似度計算在資訊檢索、資料探勘、機器翻譯、文件複製檢測等領域

計算兩向量的歐式距離，餘弦相似度

來自：http://www.mtcnn.com >>> import numpy >>> vec1=[[1,1,1],[2,2,2]] >>> vec2=[[2,2,2],[1,1,1]] >>> vec1=numpy.

用gensim doc2vec計算文字相似度

最近開始接觸gensim庫，之前訓練word2vec用Mikolov的c版本程式，看了很久才把程式看明白，在gensim庫中，word2vec和doc2vec只需要幾個介面就可以實現，實在是方便。python，我越來越愛你了。這個程式很簡單，直接上程式了。 # codin

python實現機器學習中的各種距離計算及文字相似度演算法

在自然語言處理以及機器學習的分類或者聚類中會涉及到很多距離的使用，各種距離的概念以及適用範圍請自行百度或者參考各種距離 import numpy as np import math # 依賴包numpy、python-Levenshtein、scipy

lucene計算文字相似度演算法

Leveraging term vectors 所謂term vector, 就是對於documents的某一field,如title,body這種文字型別的, 建立詞頻的多維向量空間.每一個詞就是一維, 這維的值就是這個詞在這個field中的頻率.

Google開源word2vec，文字相似度計算工具

相關推薦