1. 程式人生 > >Pyhon 自然語言處理(一)NLTK及語料庫下載

Pyhon 自然語言處理(一)NLTK及語料庫下載

Python 自然語言處理(一)NLTK及語料庫下載

NLTK是用來進行自然語言處理很強大的包,本文介紹Python下安裝NLTK及語料下載

1. 安裝 NLTK

pip install nltk
如果已經安裝了 Anaconda 則預設安裝了nltk,但是沒有安裝語料庫

2. 自動安裝語料庫

如果在引入nltk包後,發現沒有安裝語料庫,則可以自動下載安裝,命令:

import nltk
nltk.download()
showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml
True

這裡寫圖片描述

3. 手動匯入語料庫

下載後的語料庫可以匯入到以下目錄:
- ‘/home/zhanghc/nltk_data’
- ‘/usr/share/nltk_data’
- ‘/usr/local/share/nltk_data’
- ‘/usr/lib/nltk_data’
- ‘/usr/local/lib/nltk_data’

4. NLTK安裝包及語料庫安裝完成

import nltk
# NLTK自帶的語料庫展示
from nltk.corpus import brown
brown.categories()
[u'adventure',
 u'belles_lettres',
 u'editorial',
 u'fiction',
 u'government',
 u'hobbies',
 u'humor',
 u'learned',
 u'lore',
 u'mystery',
 u'news',
 u'religion',
 u'reviews',
 u'romance',
 u'science_fiction']
len(brown.sents())
57340
len(brown.words())
1161192

5. NLTK 常用函式

這裡寫圖片描述