利用中文資料跑Google開源專案word2vec

阿新 • • 發佈：2019-02-07

一直聽說word2vec在處理詞與詞的相似度的問題上效果十分好，最近自己也上手跑了跑Google開源的程式碼（ https://code.google.com/p/word2vec/ ）。

1、語料

首先準備資料：採用網上部落格上推薦的全網新聞資料(SogouCA)，大小為2.1G。

從ftp上下載資料包SogouCA.tar.gz：

1 wget ftp://ftp.labs.sogou.com/Data/SogouCA/SogouCA.tar.gz --ftp-user=hebin_hit@foxmail.com --ftp-password=4FqLSYdNcrDXvNDi -r

解壓資料包：

1 gzip -d SogouCA.tar.gz
2 tar -xvf SogouCA.tar

再將生成的txt檔案歸併到SogouCA.txt中，取出其中包含content的行並轉碼，得到語料corpus.txt，大小為2.7G。

1 cat *.txt > SogouCA.txt
2 cat SogouCA.txt | iconv -f gbk -t utf-8 -c | grep "<content>" > corpus.txt

2、分詞

用 ANSJ對corpus.txt進行分詞，得到分詞結果resultbig.txt，大小為3.1G。

在分詞工具seg_tool目錄下先編譯再執行得到分詞結果resultbig.txt，內含426221個詞，次數總計572308385個。

分詞結果：

3、用word2vec工具訓練詞向量

1 nohup ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1 &

vectors.bin是word2vec處理resultbig.txt後生成的詞的向量檔案，在實驗室的伺服器上訓練了1個半小時。

4、分析

4.1 計算相似的詞：

1 ./distance vectors.bin

./distance可以看成計算詞與詞之間的距離，把詞看成向量空間上的一個點，distance看成向量空間上點與點的距離。

下面是一些例子：

4.2 潛在的語言學規律

在對demo-analogy.sh修改後得到下面幾個例子：

法國的首都是巴黎，英國的首都是倫敦， vector("法國") - vector("巴黎) + vector("英國") --> vector("倫敦")"

4.3 聚類

將經過分詞後的語料resultbig.txt中的詞聚類並按照類別排序：

1 nohup ./word2vec -train resultbig.txt -output classes.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500  &
2 sort classes.txt -k 2 -n > classes_sorted_sogouca.txt

例如：

4.4 短語分析

先利用經過分詞的語料resultbig.txt中得出包含詞和短語的檔案sogouca_phrase.txt，再訓練該檔案中詞與短語的向量表示。

1 ./word2phrase -train resultbig.txt -output sogouca_phrase.txt -threshold 500 -debug 2
2 ./word2vec -train sogouca_phrase.txt -output vectors_sogouca_phrase.bin -cbow 0 -size 300 -window 10 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1

下面是幾個計算相似度的例子：

5、參考連結：

1. word2vec：Tool for computing continuous distributed representations of words， https://code.google.com/p/word2vec/

6、後續準備仔細閱讀的文獻：

[4] Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J] . The Journal of Machine Learning Research, 2011, 12: 2493-2537.

利用中文資料跑Google開源專案word2vec

一直聽說word2vec在處理詞與詞的相似度的問題上效果十分好，最近自己也上手跑了跑Google開源的程式碼（ https://code.google.com/p/word2vec/ ）。 1、語料首先準備資料：採用網上部落格上推薦的全網新聞資料(SogouCA

利用中文數據跑Google開源項目word2vec

訓練數據 ear most text 處理 spa csdn 增量 archive word2vec註釋 1、多線程並行處理： 1、分配內存空間，創建多線程，執行多線程。malloc,pthread_create,pthread_join 2、每個多線程處理的訓練

scrapy採集論文資料（附開源專案原始碼）

最初做的是本碩博專業論文資料的採集，後來一直從事NLP工作。爬蟲是重要的環節，生怕後來遺忘了，這裡記錄一下之前的編碼專案，專案開源到了社群，需要的請移步GitHub檢視，不做過多說明解釋。原始

Android串列埠開發（使用Google開源專案）為什麼建立android_serialport_api的包名

引入：這個問題就涉及到Android中的NDK開發或者說JAVA中的JNI開發注：NDK是屬於 Android 的，與Java並無直接關係正題： 1)，以上問題其實是Android NDK開發生成.so庫後，在其他專案中使用的問題；要想其他直接使用.so庫，

google開源專案程式設計風格指南

http://zh-google-styleguide.readthedocs.org/en/latest/google-cpp-styleguide/contents/ 闡明瞭google開源專案使用的程式設計風格，值的借鑑

CNN-中文文字分類-開源專案-自定義資料集

最近參加學校的一個數據分析比賽，因為自己前面自學了一些基本的機器學習演算法，但其實還處於入門階段，便參加了。選擇了一道中文文字分類的題目。今日頭條使用者畫像選題背景：隨著機器創作能力越來越強，今後社會媒體上將會產生越來越多的機器創作者自動生產的內容。有效

小專案（Gensim庫）--維基百科中文資料處理

1.下載維基百科資料 https://dumps.wikimedia.org/zhwiki/latest/ 2.預處理檔案：將壓縮的檔案轉化成.txt檔案新增指令碼檔案process.py，程式碼如下： import logging import os.path import sys

開源專案方式提交資料-AsyncHttpClient

開源專案方式提交資料-AsyncHttpClient get提交引用android-async-http-1.4.5.jar private static final int TIME_OUT = 5000; protected static final int T

利用git工具向GitHub網頁提交資料夾的工程專案

2.首先，在GitHub網頁上面，新建好自己的倉庫。 2.然後，在git終端下面進入到你需要上傳的工程資料夾的目錄當中,這個LED_Demo就是我的工程根目錄。（我的目錄路徑：/D/STM32開發實戰學習/庫函式版/LED_Demo） 4、這一步執行結束後

Java 生成vCard名片二維碼（利用zxing開源專案）

宣告：其中部分內容來自其他博文！！！ package com.arcode; import java.io.File; import java.nio.file.Path; import java.util.HashMap; import java.util.Map; imp

Google的60款開源專案

1.機器學習系統 TensorFlow 詳情：https://github.com/tensorflow/tensorflow 2.material-design-icons 詳情：http://google.github.io/material-design-icons/ 3.前端開發工具組 MDL 詳情：

大資料相關開源專案彙總

排程與管理服務 **Azkaban **是一款基於Java編寫的任務排程系統任務排程，來自LinkedIn公司，用於管理他們的Hadoop批處理工作流。Azkaban根據工作的依賴性進行排序，提供友好的Web使用者介面來維護和跟蹤使用者的工作流程。 **YARN **是一種新的Hadoo

3天200個開源專案，Swift程式語言資料大合集以及43個優秀的Swift開源專案

Swift 基於C和Objective-C，是供iOS和OS X應用程式設計的全新語言，更加高效、現代、安全，可以提升應用效能，同時降低開發難度。 Swift仍然處於beta測試的階段，會在iOS 8釋出的時一同推出市場，用來取代現有的Objective-C語言。WWDC剛剛結束，在不到24小時的時

400多個開源專案以及43個優秀的Swift開源專案-Swift程式語言資料大合集

Swift 基於C和Objective-C，是供iOS和OS X應用程式設計的全新語言，更加高效、現代、安全，可以提升應用效能，同時降低開發難度。 Swift仍然處於beta測試的階段，會在iOS 8釋出的時一同推出市場，用來取代現有的Objective-C語言。

Google最熱門60款開源專案

0、機器學習系統 TensorFlow ★Star 62533 TensorFlow 是谷歌的第二代機器學習系統，按照谷歌所說，在某些基準測試中，TensorFlow的表現比第一代的DistBelief快了2倍。TensorFl

Google開源實時通訊專案WebRTC

最近，Google正式開源了WebRTC實時通訊專案，希望瀏覽器廠商能夠將該技術內建在瀏覽器中，從而使Web應用開發人員能夠通過HTML標籤和JavaScript API就實現Web音訊、視訊通訊功能。 WebRTC（Web Real Time Communication）並不是Google原來自己的技

3個開源專案讓Kubernetes使用更容易_Kubernetes中文社群

譯者注：本文介紹Heptio、Kubed和Kubicorn開發的配套工具，它們旨在填補Kubernetes在叢集狀態管理，快照，災難恢復方面的空白。以下為譯文： Kubernetes無疑是容器化領域裡一個優雅的解決方案。 Kubernetes能夠讓我們大規模地執行容器化應用程式，而不用淹沒在

google的開源專案總結（轉載）

轉自http://www.feng5166.com/blog/424.htmlgoogle的開源專案值得我們一用的，這些專案很有意義，甚至可以直接用在我們自己的工作上！學習程式設計的的一個比較好的方式就是閱讀優秀專案的原始碼，從而能夠了解作者的方法、思路、技巧，另外閱讀原始碼對於一些朋友是枯燥乏味

開源鉅獻：2017 年 Google 開源了這些超讚的專案

春節小長假，走親訪友之餘，還可以利用一些零碎的時間收集學習資料，給自己充充電，好在 2018 年成為更優秀的自己。我們知道在開源和貢獻開源方面，Google 一直是行業的典範。2017 年它開源了哪些優秀的軟體，有哪些值得我們借鑑學習呢？讓我們一起來看下： D

資源list：Github上關於大資料的開源專案、論文等合集

Awesome Big Data Your contributions are always welcome! Frameworks Apache Hadoop – framework for distributed processing. Integrates M

利用中文資料跑Google開源專案word2vec

相關推薦