1. 程式人生 > >Python與自然語言處理(一)搭建環境

Python與自然語言處理(一)搭建環境

參考書籍《Python自然語言處理》,書籍中的版本是Python2和NLTK2,我使用的版本是Python3和NLTK3

安裝NLTK3,Natural Language Toolkit,自然語言工具包

安裝命令:pip install nltk

安裝完成後測試:import nltk


沒有報錯即表明安裝成功。

下載NLTK-Data,在Python中輸入命令:

>>>import nltk

>>>nltk.download()

彈出新的視窗,用於選擇下載的資源

點選File可以更改下載安裝的路徑。all表示全部資料集合,all-corpora表示只有語料庫和沒有語法或訓練的模型,book表示只有書籍中例子或練習的資料。需要注意一點,就是資料的儲存路徑,要麼在C盤中,要麼在Python的根目錄下,否則後面程式呼叫資料的時候會因為找不到而報錯。


【注意:軟體安裝需求:Python、NLTK、NLTK-Data必須安裝,NumPy和Matplotlin推薦安裝,NetworkX和Prover9可選安裝】

簡單測試NLTK分詞功能:

但是在詞性標註上就出現問題了,百度也沒有明確的解決辦法,若有大神知道是什麼原因請不吝賜教!


詞性標註功能就先暫且放一放。

下面看一下NLTK資料的幾種方法:

1.載入資料

from nltk.book import *

2.搜尋文字
print(text1.concordance('monstrous'))

3.相似文字
print(text1.similar('monstrous'))

4.共用詞彙的上下文
print(text2.common_contexts(['monstrous','very']))

5.詞彙分佈圖
text4.dispersion_plot(['citizens','democracy','freedom','duties','America'])

6.詞彙統計

#encoding=utf-8
import nltk
from nltk.book import *

print('~~~~~~~~~~~~~~~~~~~~~~~~~')
print('文件text3的長度:',len(text3))
print('文件text3詞彙和識別符號排序:',sorted(set(text3)))
print('文件text3詞彙和識別符號總數:',len(set(text3)))
print('單個詞彙平均使用次數:',len(text3)*1.0/len(set(text3)))
print('單詞 Abram在text3中使用次數:',text3.count('Abram'))
print('單詞Abram在text3中使用百分率:',text3.count('Abram')*100/len(text3))

暫時先練習到這裡,基本上對NLTK-Data有了一定的瞭解,以及學會了其基本使用方法。