1. 程式人生 > >中文文檔預處理

中文文檔預處理

依賴庫 pytho python 分詞 目錄 這一 jieba 結構 量化

最近做個東西,需要對中文文檔進行預處理。

首先是統一編碼和刪除標點符號等操作,用ULTRAEDIT和EDITPLUS可以分別很快的做到這一點。UITRAEDIT的替換裏可以對一個文件夾目錄的所有文件同時替換,可以用來批處理。

然後是分句和分詞,分句一般是在去標點符號前(標點符號可以用停用表去),一般是用句號進行分句。分詞我用的是現成的庫,jieba分詞,對中文的支持比較好。而且它可以用自定義詞典限制分詞的結構。

當然需要進行批處理的話最好自己弄個python腳本。jieba好像有個依賴庫我給忘了。

然後是去停用詞。分詞以後去停用詞就很簡單了,自己寫個腳本。但是停用詞庫如果有特殊需求的話最好還是自己造一個,如果只是通用的停用詞的話網上隨便一搜都是。

去完了預處理大概就差不多了,如果是跟語義有關系的話最好用一個淺層的work2vec實現對詞義的向量化。(在有大量訓練集的前提下)python裏面有一個支持它的框架叫gensim。

over

中文文檔預處理