資料探勘文字分類（二）蒐集中文語料庫與ICTCLAS分詞

阿新 • • 發佈：2019-02-17

在上一篇部落格中簡單介紹了實驗環境和流程，這一篇我們繼續。

第一步，下載搜狗中文語料庫。連結：http://www.sogou.com/labs/dl/c.html

我們下載24M大小的精簡版（tar.gz格式）

下載完了，解壓縮，放到做本次實驗的目錄裡存好。（這不廢話嘛！）

開啟語料庫看下，它一共是9類，每類由編號為10到1999大約1900篇txt檔案構成。

手動將每一類的1900篇文章分開，分成兩份，一份存為訓練集，一份存為測試集。

我們點選上圖中的分類編碼對照表（txt格式）可以看每一類對應的中文分類。

第二步就是下載中科院張華平博士的漢語詞法分析系統ICTCLAS了。連結：http://ictclas.nlpir.org/downloads

          我們開啟下載包，進入這個路徑：20140926175340_ICTCLAS2014\ICTCLAS2014\sample\pythonsample

          這時pythonsample目錄下是這樣的：

       根據readme提示將data資料夾拷到pythonsample目錄下：



        然後我們就可以將pythonsample資料夾整個拷到我們做這個實驗的目錄中了。

第三步，嘗試分詞。

         我們用python自帶的IDLE開啟pythonsample中的nipir.py檔案。安裝python環境參考廖雪峰老師的網站：http://www.liaoxuefeng.com

開啟以後，發現示例檔案的最下方分詞舉例是這樣的：

也就是說，示例分詞是要把"Big News: @解放日報 [最右]【呼市鐵路局原副局長被判死緩最頭痛藏錢】2013年12月底，呼市鐵路局原副局長馬俊飛..."這段話做分詞。我們跑下試試，看看分詞效果。

調出命令列介面，進入pythonsample資料夾，執行nlpir.py。（我的pythonsample資料夾就在桌面上）。如圖：

第一次嘗試執行的時候，可能會報作業系統位數不匹配的錯，如下：

我們大概知道，肯定是作業系統位數的問題，常用的windows系統就是32位或者64位，我們根據提示去看看nlpir.py檔案第14行：

第14行是把libFile 指向nipir目錄下的NLPIR64.dll，我們開啟nlpir目錄，發現裡邊既有NLPIR64.dll又有NLPIR32.dll。這樣我們只需把第14行的64改為32，然後跑跑試試。

分詞成功了，但是輸出結果是亂碼。python的編碼問題困擾了很多人哈，因為我也是初學，對編碼理解的也不深，不過這個問題我們可以先解決，編碼問題以後有時間再深入研究。

解決辦法：將下面兩行程式碼貼到nlpir.py檔案頂端。

import sys
type = sys.getfilesystemencoding()

然後在檔案最下方將print （s）改為print s.decode('utf-8').encode(type)，如圖：

然後，我們在去嘗試執行nlpir.py。

OK! 成功啦！很開心有木有！！

資料探勘文字分類（二）蒐集中文語料庫與ICTCLAS分詞

在上一篇部落格中簡單介紹了實驗環境和流程，這一篇我們繼續。第一步，下載搜狗中文語料庫。連結：http://www.sogou.com/labs/dl/c.html 我們下載

資料探勘乾貨總結（二）--NLP進階-詳解Jieba分詞工具

NLP進階-詳解Jieba分詞工具一、Jieba分詞工具 1. 三種模式 • 精確模式：將句子最精確的分開，適合文字分析 • 全模式：句子中所有可以成詞的詞語都掃描出來，速度快，不能解決歧義 • 搜尋引擎模式：在精確模式基礎上，對長詞再次切分，提高召回 2.實現的演算法 • 基於Tri

資料探勘文字分類（七）特徵提取

上一篇我們做完了詞頻統計，下面就該提取文字特徵了。其實詞的頻率就是文字最重要的特徵了，但是我們如果只靠詞的頻率去判斷文字的分類的話，顯然正確率是很低的。當然，文字的特徵提取有很多辦法了，我上這門課程老師著重介紹的是TF-IDF和卡方校驗兩種

資料探勘文字分類（八）訓練和測試

今天來個大結局吧，我們有了chi值或者TF-IDF值以後，就可以拿他們用lib-svm工具進行訓練了。當然我們還要對資料進行一些標準化處理，我們需要將某詞與該詞對應的值作為一個向量處理，這個就是特徵向量了。舉個例子，

Python資料探勘學習筆記（1）文字挖掘入門

一、準備階段：（1）開啟cmd，pip安裝jieba（pip install jieba）（2）開啟python安裝目錄的Lib->site-packages->jieba，開啟dict.txt，可以看到這是jieba模組的詞典：每

MADlib——基於SQL的資料探勘解決方案（21）——分類之KNN

一、分類方法概要1. 分類的概念資料探勘中分類的目的是學會一個分類函式或分類模型，該模型能把資料庫中的資料項對映到給定類別中的某一個。分類可描述如下：輸入資料，或稱訓練集（Training Set），是由一條條資料庫記錄（Record）組成的。每一條記錄包含

Python資料探勘學習筆記（12）淘寶圖片爬蟲實戰

所謂圖片爬蟲，即是從網際網路中自動把對方伺服器上的圖片爬下來的爬蟲程式。一、圖片爬蟲前的網頁連結分析 1.首先開啟淘寶首頁，在搜尋框中輸入關鍵詞，如“神舟”，在搜尋結果介面中點選下一頁，分別開啟第一頁，第二頁，第三頁的搜尋結果，並記下每一頁結果的URL至記

MADlib——基於SQL的資料探勘解決方案（17）——迴歸之Cox比例風險迴歸

一、Cox比例風險迴歸簡介 Cox比例風險迴歸模型（Cox’s proportional hazards regression model），簡稱Cox迴歸模型，由英國統計學家D.R.Cox於1972年提出，主要用於腫瘤和其它慢性病的預後分析，也可用於佇列研究的

文字分類（二）：scrapy爬取網易新聞

文字分類的第一項應該就是獲取文字了吧。在木有弄懂scrapy的情況下寫的，純應用，或許後續會補上scrapy的原理。首先說一下我的環境：ubuntu14.10 scrapy安裝指南（肯定官網的最權威了）：[傳送門](http://scrapy-chs.rea

資料探勘乾貨總結（六）--推薦演算法之CF

本文共計1245字，預計閱讀時長八分鐘推薦演算法(二）--CF演算法一、推薦的本質推薦分為非個性化和個性化，非個性化推薦比如各類榜單，而本系列主要介紹個性化推薦，即：在合適的場景，合適的時機，通過合適的渠道，把合適的內容，推薦給合適的使用者二、推薦演算法的種類1. 基於內容C

MADlib——基於SQL的資料探勘解決方案（8）——資料探索之描述性統計

對資料進行統計是從定量的角度去探索資料，是最基本的資料探索方式，其主要目的是瞭解資料從統計學上反映的量的特徵，以便我們更好地認識這些將要被挖掘的資料。我們先要清楚兩個關於統計學的基本概念：總體和樣本。統計的總體是人們研究物件的全體，又稱母體，如

MADlib——基於SQL的資料探勘解決方案（26）——聚類之k-means方法

“物以類聚，人以群分”，其核心思想就是聚類。所謂聚類，就是將相似的事物聚集在一起，而將不相似的事物劃分到不同的類別的過程，是資料分析中十分重要的一種手段。比如古典生物學中，人們通過物種的形貌特徵將其分門別類，可以說就是一種樸素的人工聚類。如此，我們就可以將世界

資料探勘乾貨總結（一）--NLP基礎

本文共計1463字，預計閱讀時長八分鐘 NLP-基礎和中文分詞一、本質 NLP (Natural Language Processing)自然語言處理是一門研究計算機處理人類語言的技術二、NLP用來解決什麼問題語音合成（Speech synth

資料探勘乾貨總結（五）--推薦演算法之CB

本文共計927字，預計閱讀時長六分鐘推薦演算法(一)--CB演算法一、推薦的本質推薦分為非個性化和個性化，非個性化推薦比如各類榜單，而本系列主要介紹個性化推薦，即：在合適的場景，合適的時機，通過合適的渠道，把合適的內容，推薦給合適的使用者二、推薦演算法的種類1. 基於內容Co

Redis筆記整理（二）：Java API使用與Redis分布式集群環境搭建

數據庫 NoSQL Redis [TOC] Redis筆記整理（二）：Java API使用與Redis分布式集群環境搭建 Redis Java API使用（一）：單機版本Redis API使用 Redis的Java API通過Jedis來進行操作，因此首先需要Jedis的第三方庫，因為使用的是M

資料探勘之關聯分析二（頻繁項集的產生）

頻繁項集的產生格結構（lattice structure）常常用來表示所有可能的項集。發現頻繁項集的一個原始方法是確定格結構中每個候選項集的支援度。但是工作量比較大。另外有幾種方法可以降低產生頻繁項集的計算複雜度。 1. 減少候選項集的數目。如先驗

機器學習&資料探勘筆記_16（常見面試之機器學習演算法思想簡單梳理）

　　前言：　　找工作時（IT行業），除了常見的軟體開發以外，機器學習崗位也可以當作是一個選擇，不少計算機方向的研究生都會接觸這個，如果你的研究方向是機器學習/資料探勘之類，且又對其非常感興趣的話，可以考慮考慮該崗位，畢竟在機器智慧沒達到人類水平之前，機器學習可以作為一種重要手段，而隨著科技的不斷髮展，

機器學習（資料探勘十個重要演算法）

資料探勘中常用的十個重要演算法一、 C4.5 C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3 演算法. C4.5演算法繼承了ID3演算法的長處。並在下面幾方面對ID3演算法進行了改進： 1) 用資訊增益率來選擇屬性，克服了用資訊增

資料探勘一般流程（資料清洗，特徵提取，建模，調參）

最近一直在實習，好長時間沒更新部落格了。哎，懶惰之心不可有啊！！實習的崗位是資料探勘相關的，所以正好把到目前為止實習期間遇到的一些問題、學到的一些東西總結一下，並參考了一些部落格，自我提升。嘿嘿嘿~

opencv中的SVM圖像分類（二）

proc 文本 c_str lec 源碼 open right tle 特征描述 opencv中的SVM圖像分類（二）標簽： svm圖像 2015-07-30 08:45 8296人閱讀評論(35) 收藏舉報分類：【opencv應用】（5）版

資料探勘 文字分類（二）蒐集中文語料庫與ICTCLAS分詞

相關推薦

資料探勘文字分類（二）蒐集中文語料庫與ICTCLAS分詞