中文維基語料訓練獲取

阿新 • • 發佈：2019-01-20

參考：http://licstar.net/archives/262

https://flystarhe.github.io/2016/08/31/wiki-corpus-zh/

參考了上面兩篇文章，但是他們都是基於Linux + python2.7的，有一些老方法或連結行不通，這裡是windows + python3.5 + gensim。

首先把需要下載的東西都列出來

1. 語料：下載地址是https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2，或者在這裡找https://dumps.wikimedia.org/zhwiki/。這個檔案只包含了標題和正文，不包含詞條之間的連結資訊，大小約為1.3G。

2.WikiExtractor：用於從原始的xml檔案中提取出標題和正文。地址https://github.com/attardi/wikiextractor/blob/master/WikiExtractor.py。因為這個檔案不依賴其他檔案和庫，就直接在本地新建一個指令碼，再把WikiExtractor.py中的原始碼複製過來就行了。

3.繁體簡體轉換工具：由於詞條原文字中可能混雜了繁體和簡體，需要同意轉換為簡體。Linux下可以直接wget後在終端中使用，windows版本只能手動下載了，地址https://code.google.com/archive/p/opencc/downloads。下完直接解壓就可以了。

此時有三個檔案，分別是zhwiki-latest-pages-articles.xml.bz2，WikiExtractor.py，和資料夾opencc-0.4.2。

1.提取文字

命令列進入當前資料夾輸入

python WikiExtractor.py -b 500M -o extracted zhwiki-latest-pages-articles.xml.bz2

500M代表提取出來的單個檔案最大為500M。這是會產生目錄extracted/AA，其中有三個檔案分別是wiki_00，wiki_01，wiki_02。耗時大概20-30分鐘左右。

2.命令列進入AA資料夾，假設opencc.exe的絕對路徑是E:\下載\語料\opencc-0.4.2\opencc.exe，輸入

E:\下載\語料\opencc-0.4.2\opencc.exe -i wiki_00 -o zh_wiki_00 -c zht2zhs.ini

E:\下載\語料\opencc-0.4.2\opencc.exe -i wiki_01 -o zh_wiki_01 -c zht2zhs.ini

E:\下載\語料\opencc-0.4.2\opencc.exe -i wiki_02 -o zh_wiki_02 -c zht2zhs.ini

-i表示輸入檔案，-o表示輸出檔案，zht2zhs.ini表示繁體轉換為簡體，Traditional to Simplified。

3. 將檔案中的特殊符號替換掉，新建一個指令碼替換一下

# -*- coding: utf-8 -*-
import os
import re
import codecs


def replace_func(input_file):
    p1 = re.compile(r'-\{.*?(zh-hans|zh-cn):([^;]*?)(;.*?)?\}-')
    p2 = re.compile(r'[（\(][，；。？！\s]*[）\)]')
    p3 = re.compile(r'[「『]')
    p4 = re.compile(r'[」』]')
    outfile = codecs.open('std_' + input_file, 'w', 'utf-8')
    with codecs.open(input_file, 'r', 'utf-8') as myfile:
        for line in myfile:
            line = p1.sub(r'\2', line)
            line = p2.sub(r'', line)
            line = p3.sub(r'“', line)
            line = p4.sub(r'”', line)
            outfile.write(line)
    outfile.close()


def run():
    data_path = '.\\extracted\\AA\\'
    data_names = ['zh_wiki_00', 'zh_wiki_01', 'zh_wiki_02']
    for data_name in data_names:
        replace_func(data_path + data_name)
        print('{0} has been processed !'.format(data_name))

    
if __name__ == '__main__':
    run()

中文維基語料訓練獲取

中文維基語料訓練獲取

利用中文維基語料和Gensim訓練 Word2Vec 的步驟

word2vec實戰：獲取和預處理中文維基百科(Wikipedia)語料庫，並訓練成word2vec模型

windows下訓練中文維基百科的word2vec

用gensim對中文維基百科語料上的word2Vec相似度計算實驗

我的維基百科wikipedia的配置(中文維基百科配置)

wikipedia 維基百科語料獲取與提取處理 by python3.5

Gensim訓練維基百科語料庫

word2vec訓練維基百科中文詞向量

Tensorflow實戰學習(十八)【詞向量、維基百科語料庫訓練詞向量模型】

小專案（Gensim庫）--維基百科中文資料處理

維基媒體 Wikimedia 正全面遷移至 Kubernetes_Kubernetes中文社群

【使用者行為分析】用wiki百科中文語料訓練word2vec模型

gensim 中文語料訓練 word2vec

維基百科

關於8月31日維基解密被攻擊的觀察與分析

中文維基數據處理 - 1. 下載與清洗

Sqlite3,維基百科中的練習：

維基鏈將上線各大交易所後續表現值得期待

JAVA在泛型基類中獲取子類傳遞的泛型參數

中文維基語料訓練獲取

相關推薦