Python與自然語言處理（一）搭建環境

阿新 • • 發佈：2018-12-30

參考書籍《Python自然語言處理》，書籍中的版本是Python2和NLTK2，我使用的版本是Python3和NLTK3

安裝NLTK3，Natural Language Toolkit，自然語言工具包

安裝命令：pip install nltk

安裝完成後測試：import nltk

沒有報錯即表明安裝成功。

下載NLTK-Data，在Python中輸入命令：

>>>import nltk

>>>nltk.download()

彈出新的視窗，用於選擇下載的資源

點選File可以更改下載安裝的路徑。all表示全部資料集合，all-corpora表示只有語料庫和沒有語法或訓練的模型，book表示只有書籍中例子或練習的資料。需要注意一點，就是資料的儲存路徑，要麼在C盤中，要麼在Python的根目錄下，否則後面程式呼叫資料的時候會因為找不到而報錯。

【注意：軟體安裝需求：Python、NLTK、NLTK-Data必須安裝，NumPy和Matplotlin推薦安裝，NetworkX和Prover9可選安裝】

簡單測試NLTK分詞功能：

但是在詞性標註上就出現問題了，百度也沒有明確的解決辦法，若有大神知道是什麼原因請不吝賜教！

詞性標註功能就先暫且放一放。

下面看一下NLTK資料的幾種方法：

1.載入資料

from nltk.book import *

2.搜尋文字

print(text1.concordance('monstrous'))

3.相似文字

print(text1.similar('monstrous'))

4.共用詞彙的上下文

print(text2.common_contexts(['monstrous','very']))

5.詞彙分佈圖

text4.dispersion_plot(['citizens','democracy','freedom','duties','America'])

6.詞彙統計

#encoding=utf-8
import nltk
from nltk.book import *

print('~~~~~~~~~~~~~~~~~~~~~~~~~')
print('文件text3的長度：',len(text3))
print('文件text3詞彙和識別符號排序：',sorted(set(text3)))
print('文件text3詞彙和識別符號總數：',len(set(text3)))
print('單個詞彙平均使用次數：',len(text3)*1.0/len(set(text3)))
print('單詞 Abram在text3中使用次數：',text3.count('Abram'))
print('單詞Abram在text3中使用百分率：',text3.count('Abram')*100/len(text3))

暫時先練習到這裡，基本上對NLTK-Data有了一定的瞭解，以及學會了其基本使用方法。

Python與自然語言處理（一）搭建環境

參考書籍《Python自然語言處理》，書籍中的版本是Python2和NLTK2，我使用的版本是Python3和NLTK3 安裝NLTK3，Natural Language Toolkit，自然語言工

Python與自然語言處理（二）基於Gensim的Word2Vec

繼續學習摸索，看到很多部落格都在研究Word2Vec，感覺挺有意思，我也來嘗試一下。實驗環境：Python3，Java8 Word2Vec的輸入是句子序列，而每個句子又是一個單詞列表，由於沒有這樣結構的現成輸入，所以決定自己動手對原始語料進行預處理。這裡還有一個自然語

python與自然語言處理（五）：中文文字詞雲

之前一直想要做一個文字的視覺化：詞雲，然後在網上搜到的一些製作詞雲的工具，有些是線上的就沒有使用，今天偶然看到python提供的wordcloud庫，可以方便製作詞雲，中英文皆可，趕緊試試，做個筆記，

python與自然語言處理（六）：中文文字轉影象

最近使用word2vec對文字進行向量化表示，然後模仿基於CNN的影象分類實現文字分類。既然是模仿影象，那就應該可以將文字用影象視覺化一下，看看量化後的文字是什麼樣子。python處理影象的基本模組是Image庫，由於實驗中使用的是python3，需要安裝的影象處理庫為Pil

Python與自然語言處理（三）：Tensorflow基礎學習

看了一段時間的TensorFlow，然而一直沒有思路，偶然看到一個講解TensorFlow的系列視訊，通俗易懂，學到了不少，在此分享一下，也記錄下自己的學習過程。教學視訊連結：點這裡在機器學習中，常見的就是分類問題，郵件分類，電影分類等等我這裡使用iris的

深度學習與自然語言處理（一）

自然語言處理主要研究用計算機來處理、理解以及運用人類語言（又稱自然語言）的各種理論和方法，屬於人工智慧領域的一個重要研究方向，是電腦科學與語言學的交叉學科，又常被稱為計算語言學。隨著網際網路的快速發展，網路文字尤其是使用者生成的文字成爆炸式增長，為自然語言處理帶來了巨大的應用

python自然語言處理（一）

1標識化處理何為標識化處理？實際上就是一個將原生字串分割成一系列有意義的分詞，其複雜性根據不同NLP應用而異，目標語言的複雜性也佔了很大部分，例如中文的標識化是要比英文要複雜。 word_tokenize()是一種通用的，面向所有語料庫的標識化方法，基本能應付絕大多數。 reg

python自然語言處理（一）之中文分詞預處理、統計詞頻

一個小的嘗試。。資料來源資料集一共200條關於手機的中文評論，以XML格式儲存。分詞工具 python-jieba預處理包括去停用詞、去標點符號和數字去停用詞：使用的是他人總結的停用詞表去標點符號和數字：用正則表示式。原本打算的是中文標點符號從網上覆制，英文標點符號用st

《使用Python進行自然語言處理（Nltk）》2

import nltk from nltk.corpus import * '''1、古騰堡語料庫''' gutenberg.fileids() #所有古騰堡語料庫中的文字 emma = nltk.corpus.gutenberg.words('austen-e

系統學習自然語言處理（一）--綜述

今天開始，進入NLP方向，目前在看《自然語言處理綜論》作為入門基礎，又不高興自己手打，所以，就參考了這篇部落格，作了一些修改。另外，這本書的第二版，還沒有討論深度學習在NLP的應用，因此，可以作為一個基礎讀物，搞明白NLP是什麼，做什麼，怎麼做這些問題，但它比一般的N

自然語言處理（一）——基礎

現在流行的自然語言處理方法中，主要分為基於統計的經典模型和基於火熱的深度學習模型.統計模型主要會涉及到概率論和資訊理論方面的知識，在這裡會首先對其進行回顧. 未完資訊理論噪聲通道模型在自然語言處理的過程中，常常類比於訊號傳輸的過程，將預處理

深度學習與自然語言處理（三）——深度學習運用到自然語言處理領域的成功案例

目錄 1.全連線前饋神經網路（MLP）的應用大部分情況下，全連線前饋神經網路（MLP）能被用來替代線性學習器。這包括二分類或多分類問題，以及更復雜的結構化預測問題。網路的非線性以及易於整合預訓練詞嵌入的能力經常帶來更高的分類精度。一系列工作通過簡單地將句

自然語言處理（一）

1、計算jieba和thula的P，R，F值。基於文字‘express.txt’，標準文字是人工切分。基本計算公式：精度（Precision）、召回率（Recall）、F值（F-mesure）。N ：標準分割的單詞數e ：分詞器錯誤標註的單詞數c ：分詞器正確標註的單詞數 P

Pyhon 自然語言處理（一）NLTK及語料庫下載

Python 自然語言處理（一）NLTK及語料庫下載 NLTK是用來進行自然語言處理很強大的包，本文介紹Python下安裝NLTK及語料下載 1. 安裝 NLTK pip install nltk 如果已經安裝了 Anaconda 則預設

使用 spacy 進行自然語言處理（一）

介紹自然語言處理(NLP) 是人工智慧方向一個非常重要的研究領域。自然語言處理在很多智慧應用中扮演著非常重要的角色，例如： automated chat bots, article summarizers, multi-lingual translat

初識NLP 自然語言處理（一）

系統語言數學實現一段這一如何其中 proc 接下來的一段時間，要深入研究下自然語言處理這一個學科，以期能夠帶來工作上的提升。學習如何實用python實現各種有關自然語言處理有關的事物，並了解一些有關自然語言處理的當下和新進的研究主題。 NLP，Natur

（初學者）用Python進行自然語言處理筆記一

Python程式設計連結串列list 在Python中連結串列的表示為：[](這是一個空連結串列)，或者[‘A’,’B’].list中的元素是允許重複的！ ##########有關列表的基本操作############## #定義一個空連結串列 li

1.自然語言處理（NLP）與Python

自然語言工具包（NLTK） NLTK 創建於 2001 年，最初是賓州大學計算機與資訊科學系計算語言學課程的一部分。從那以後，在數十名貢獻者的幫助下不斷髮展壯大。如今，它已被幾十所大學的課程所採納，並作為許多研究專案的基礎。NLTK模組及功能介紹如下：

python自然語言處理（二）

1詞性標註簡單的理解就是對詞性（POS）進行標註，但在不同的領域，詞性可能是不同的，Penn Treebank pos標記庫：https://blog.csdn.net/u010099495/article/details/46776617 其中程式需要安裝兩個依賴包 nlt

自然語言處理（NLP）- HMM+VITERBI演算法實現詞性標註（解碼問題）（動態規劃）（Python實現）

NLP- HMM+維特比演算法進行詞性標註（Python實現）維特比演算法針對HMM解碼問題，即解碼或者預測問題（下面的第二個問題），尋找最可能的隱藏狀態序列：對於一個特殊的隱馬爾可夫模型(HMM)及一個相應的觀察序列，找到生成此序列最可能的隱藏狀態序列。也就是說

Python與自然語言處理（一）搭建環境

相關推薦