Gensim訓練維基百科語料庫

阿新 • • 發佈：2018-11-10

說明

最終的模型檔案：
連結：https://pan.baidu.com/s/1acGhejPCw98Mx4iKozVZdw

提取碼：vsm1

原始碼github地址：https://github.com/datadevsh/wiki-gensim-word2vector
如果遇到編碼問題，參考《維基百科檔案解析成中文遇到的變數型別、編碼問題》
https://my.oschina.net/datadev/blog/1836529
如果使用pycharm，可能會發生記憶體不足。把兩個pycharm64.exe.vmoptions檔案的-Xmx引數調大。

執行時間

1 解析xml 13分鐘
2 繁體2簡體 1分鐘
3 jieba分詞 27分鐘
4 模型訓練 22分鐘
總計63分鐘。

1. 下載檔案

下載pages-articles.xml檔案。開啟下面的連結，選最近的日期，進入頁面後，搜尋“pages-articles.xml”。

下載地址：https://dumps.wikimedia.org/zhwiki/

2. 解析xml

# -*- coding: utf-8 -*-

# 解析xml

import logging
import os.path
import sys
from gensim.corpora import WikiCorpus
import time
begin = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())

if __name__ == '__main__':
    program = os.path.basename(sys.argv[0])
    logger = logging.getLogger(program)
    logging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s')
    logging.root.setLevel(level=logging.INFO)
    logger.info("running %s"% ' '.join(sys.argv))

    # if len(sys.argv) > 1:
    #     print(globals()['__doc__'] % locals())
    #     sys.exit(1)
    inp,outp = sys.argv[1:3]
    space = ' '
    i = 0
    output = open(outp,'w',encoding='utf-8')
    wiki = WikiCorpus(inp,lemmatize=False,dictionary={ })
    for text in wiki.get_texts():
        s = space.join(text)+"\n"
        output.write(s)
        i = i+1
        if(i% 10000 == 0):
            logger.info("Saved "+str(i) + " articles")
    output.close()
    logger.info("Finished Saved "+ str(i) +" articles")

    end = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
    print("begin",begin)
    print("end  ",end)

# python 1process-xml.py zhwiki-20180620-pages-articles.xml.1.49G.bz2 wiki.zh.1.49G.text

3. 繁體轉簡體

使用opencc。下載地址如下，下載opencc-1.0.1-win64.7z。
https://bintray.com/package/files/byvoid/opencc/OpenCC

.\pencc -i wiki_text.txt -o test.txt -c t2s.json
-i 輸入
-o 輸出

執行1分鐘左右。

4. jieba分詞

#-*- coding: utf-8 -*-

import jieba
import jieba.analyse
import codecs,sys
import time

begin = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())  #

def cut_words(sentence):
    return " ".join(jieba.cut(sentence)).encode('utf-8')

f=codecs.open('D:/soft/opencc-1.0.1-win64/wiki-ts.txt','r',encoding='utf8')
target = codecs.open("D:/soft/opencc-1.0.1-win64/wiki.jieba.txt",'w',encoding='utf8')
print(" open file")
line_num = 1
line = f.readline()
while line:
    if(line_num % 10000 == 0):
        print('---------------processing',line_num,'articles------------')
    line_seg=" ".join(jieba.cut(line))
    target.writelines(line_seg)
    line_num=line_num + 1
    line = f.readline()
f.close()
target.close()
end = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())  #
print("begin",begin)
print("end  ",end)
exit()

5. 模型訓練

#-*- coding: utf-8 -*-
# @Describe:
# @File    : word2vec-model.py

import logging
import os.path
import sys
import multiprocessing
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
import time
begin = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())

if __name__ == '__main__':
    program = os.path.basename(sys.argv[0])
    logger = logging.getLogger(program)
    logging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s')
    logging.root.setLevel(level=logging.INFO)
    logger.info("running %s" % ' '.join(sys.argv))

    # if len(sys.argv) < 4:
    #     print(globals()['__doc__'] % locals())
    #     sys.exit(1)
    # inp = "D:/soft/opencc-1.0.1-win64/wiki-jieba-test.txt"
    inp = "D:/soft/opencc-1.0.1-win64/wiki.jieba.txt"
    outp1 ='D:/soft/opencc-1.0.1-win64/wiki.model'
    outp2 = 'D:/soft/opencc-1.0.1-win64/wiki.vector'
    model = Word2Vec(LineSentence(inp),size=400,window=5,min_count=5,workers=multiprocessing.cpu_count())
    model.save(outp1)
    model.wv.save_word2vec_format(outp2,binary=False)

    end = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
    print("begin",begin)
    print("end  ",end)

#python word2vec-model.py txt model wiki.zh.text.vector
#opencc -i wiki_text.txt -o test.txt -c t2s.json

6.測試

#-*- coding: utf-8 -*-
# @Describe:
# @File    : test-model.py

from  gensim.models import Word2Vec
import time

begin = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
model = Word2Vec.load('D:/soft/opencc-1.0.1-win64/wiki.model')

# testwords = ['蘋果','數學','學術','白痴','籃球']
# for i in range(5):
#     res = model.most_similar(testwords[i])
#     print(testwords[i])
#     print(res)

# 二級類目  '日用百貨','收納整理','家紡','家庭清潔','綠植園藝','廚房用品'

# testwords = ['日用百貨','收納整理','家紡','家庭清潔','綠植園藝','廚房用品']
word = '被子'
for i in testwords:
     sim = model.n_similarity(word,i)
     print(i,sim)


testwords = ['蘋果','數學','學術','白痴','籃球']
for i in range(5):
    res = en_wiki_word2vec_model.most_similar(testwords[i])
    print(testwords[i])
    print(res)

print(model.most_similar(word))

end = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
print("begin",begin)
print("end  ",end)

# 收納整理 0.16833255
# 家紡 0.14426242
# 家庭清潔 0.066685855
# 綠植園藝 0.028275765
# 廚房用品 0.2936325

# 蘋果
# [('apple', 0.5410169363021851), ('蘋果公司', 0.4918888807296753), ('咬一口', 0.4741284251213074), ('洋蔥', 0.4696866571903229), ('冰淇淋', 0.4614587426185608), ('蘋果電腦', 0.45998817682266235), ('黑莓', 0.4557930827140808), ('水果', 0.4546721577644348), ('iphone', 0.44593721628189087), ('草莓', 0.4437388479709625)]
# 數學
# [('微積分', 0.7083343267440796), ('算術', 0.6934097409248352), ('數學分析', 0.663016140460968), ('概率論', 0.6389687061309814), ('數論', 0.6296793222427368), ('邏輯學', 0.6191371083259583), ('幾何學', 0.60764479637146), ('數理邏輯', 0.5989662408828735), ('物理', 0.5965093970298767), ('高等數學', 0.5895018577575684)]
# 學術
# [('學術研究', 0.7319201231002808), ('漢學', 0.5988526344299316), ('學術活動', 0.5887891054153442), ('科學研究', 0.5864561796188354), ('學術界', 0.5863242149353027), ('教學研究', 0.5767545700073242), ('教研', 0.5732147097587585), ('學術交流', 0.561274528503418), ('科研', 0.5595779418945312), ('醫學教育', 0.5571168661117554)]
# 白痴
# [('瘋子', 0.5986206531524658), ('書呆子', 0.5612877607345581), ('騙子', 0.538498044013977), ('怪胎', 0.5305827856063843), ('愛哭鬼', 0.5293511152267456), ('傻子', 0.5216787457466125), ('自戀', 0.5185167789459229), ('變態', 0.5165976285934448), ('自以為是', 0.516464114189148), ('蠢', 0.5106762051582336)]
# 籃球
# [('美式足球', 0.633753776550293), ('橄欖球', 0.6222437620162964), ('排球', 0.5964736938476562), ('棒球', 0.5949814319610596), ('男子籃球', 0.5927262306213379), ('冰球', 0.591292142868042), ('籃球員', 0.5610231161117554), ('籃球運動', 0.5576823353767395), ('足球', 0.5409365892410278), ('橄欖球隊', 0.5348620414733887)]

Gensim訓練維基百科語料庫

說明最終的模型檔案：連結：https://pan.baidu.com/s/1acGhejPCw98Mx4iKozVZdw 提取碼：vsm1 原始碼github地址：https://github.com/datadevsh/wiki-gensim-word2vector 如果遇到編碼

Tensorflow實戰學習(十八)【詞向量、維基百科語料庫訓練詞向量模型】

詞向量嵌入需要高效率處理大規模文字語料庫。word2vec。簡單方式，詞送入獨熱編碼(one-hot encoding)學習系統，長度為詞彙表長度的向量，詞語對應位置元素為1,其餘元素為0。向量維數很高，無法刻畫不同詞語的語義關聯。共生關係(co-occurre

用gensim對中文維基百科語料上的word2Vec相似度計算實驗

Word2vec 是Google在 2013年年中開源的一款將詞表徵為實數值向量的高效工具,其利用深度學習的思想，可以通過訓練，把對文字內容的處理簡化為 K 維向量空間中的向量運算，而向量空間上的相似度可以用來表示文字語義上的相似度。Word2vec輸出的詞向量可以被用來

wikipedia 維基百科語料獲取與提取處理 by python3.5

維基 spa name open 命令 XML window 需要 rac 英文維基百科 https://dumps.wikimedia.org/enwiki/ 中文維基百科 https://dumps.wikimedia.org/zhwiki/ 全部語言的列表 https

word2vec訓練維基百科中文詞向量

一、環境： win10+anaconda3+TensorFlow1.10 二、資料：三、word2vec步驟： 1. 將xml的wiki資料轉換成text資料先將zhwiki-latest-pages-articles.xml.bz2檔案複製到proces

word2vec實戰：獲取和預處理中文維基百科(Wikipedia)語料庫，並訓練成word2vec模型

前言傳統的方法是將詞彙作為離散的單一符號，這些符號編碼毫無規則，無法提供詞彙之間可能存在的關聯關係，而詞彙的向量表示將克服上述難題。向量空間模型（VSM）將詞彙表示在一個連續的向量空間中，語義近似的詞被對映為相鄰的資料點。VSM依賴於分散式假設思想，

小專案（Gensim庫）--維基百科中文資料處理

1.下載維基百科資料 https://dumps.wikimedia.org/zhwiki/latest/ 2.預處理檔案：將壓縮的檔案轉化成.txt檔案新增指令碼檔案process.py，程式碼如下： import logging import os.path import sys

windows下訓練中文維基百科的word2vec

包括四個步驟：1）下載中文維基百科語料；2）利用opencc進行繁簡轉換；3）對語料分詞；4）利用gensim訓練詞向量 1）中文維基百科 #!/usr/bin/env python # -*- coding: utf-8 -*- import logging impo

Gensim官方教程翻譯（五）——英文維基百科的實驗

僅供個人學習之用，如有錯誤，敬請指正。原文地址為了測試gensim的效能，我們在維基百科英文版上運行了一些實驗。這個頁面描述了獲取與處理維基百科的過程，以便任何人都能再現這個結果。本教程要求已經正確安裝了gensim。譯者注：維基百科的內容

維基百科

linux 內核 opensuse linu 編寫 pro 一個部分文本 linux 系統 1.什麽是 GNU/Linux？在 GNU/Linux 系統中，Linux 就是內核組件。而該系統的其余部分主要是由 GNU 工程編寫和提供的程序組成。因為單獨的 Linux

Sqlite3,維基百科中的練習：

ace pri weight 子結構 from blog post hit 1.3 https://en.wikibooks.org/wiki/SQL_Exercises/The_computer_store 兩個相連的表格 Manufactures: code, name

Jenkins + Github持續集成構建Docker容器，維基百科&人工自能（AI）模塊

tro mail topic 計劃任務 nts state all event feature 本文分兩部分，第一部分是手動計劃任務的方式構建Github上的Docker程序，第二部分是用Github webhook Trigger一個自動構建任務。 Jenkins采用2.

復數的輻角（維基百科）

alt 技術 src com mage nbsp 技術分享分享復數復數的輻角（維基百科）

Atitit Java製作VCARD vcf 以上就是關於vCard的基本介紹,維基百科(英文)https://en.wikipedia.org/wiki/VCard寫的比較全,可惜我看不懂。

Atitit Java製作VCARD vcf 以上就是關於vCard的基本介紹,維基百科(英文)https://en.wikipedia.org/wiki/VCard寫的比較全,可惜我看不懂。關於vCard格式介紹的文章網上也有很多,我

百度百科與維基百科

關於隨機事件的定義。在百度百科隨機事件條目中的定義（此條目下第一句話）：隨機事件是在隨機試驗中，可能出現也可能不出現，而在大量重複試驗中具有某種規律性的事件叫做隨機事件 (簡稱事件)。在維基百科事件_(概率論)的條目中定義（此條目下的第一句話）：在概

設計模式（1）——簡介（翻譯自維基百科wiki）

說明（Tips）翻譯維基百科對於設計模式的相關描述。後續會有對23中設計模式的實踐。表格內容處正在更新中（暫時只更新23個設計模式內容）此文章主要內容：設計模式發展歷史設計模式學習的價值所在書籍推薦。在“發展歷史（History）”章節

算術基本定理（維基百科）

算術基本定理，又稱為正整數的唯一分解定理，即：每個大於1的自然數，若不是本身就是質數，就是可寫為2個以上的質數的積，而且這些質因子按大小排列之後，寫法僅有一種方式。例如:{\displaystyle 6936=2^{3}\times 3\times 17^{2}}，{\displaystyle 12

半加器和全加器的維基百科

加法器摘自維基百科，自由的百科全書在電子學中，加法器（英語：adder）是一種用於執行加法運算的數位電路部件，是構成電子計算機核心微處理器中算術邏輯單元的基礎。在這些電子系統中，加法器主要負責計算地址、索引等資料。除此之外，加法器也是其他一些硬體，例如二進位

安裝使用離線版本的維基百科(Wikipedia)

1 相關背景平常大家在上網查詢一些基本概念的時候常常會參考維基百科上面的資料，但是由於方校長研製的GFW（長城防火牆系統）強大的遮蔽功能，好多連結開啟以後，不出意外會出現著名的“404NOT FOUND”,下載離線版的維基百科就可以輕鬆解決這個問題嘍，而且維基百科中文版和英文版查詢時都是十

維基百科中的資料科學：手把手教你用Python讀懂全球最大百科全書

編譯：狗小白、李佳、張弛、魏子敏沒人否認，維基百科是現代最令人驚歎的人類發明之一。幾年前誰能想到，匿名貢獻者們的義務工作竟創造出前所未有的巨大線上知識庫？維基百科不僅是你寫大學論文時最好的資訊渠道，也是一個極其豐富的資料來源。從自然語言處理到監督式機器學習，維

Gensim訓練維基百科語料庫

說明

執行時間

1. 下載檔案

2. 解析xml

3. 繁體轉簡體

4. jieba分詞

5. 模型訓練

6.測試

相關推薦