Python NLTK 自然語言處理入門與例程

在這篇文章中，我們將基於 Python 討論自然語言處理（NLP）。本教程將會使用 Python NLTK 庫。NLTK 是一個當下流行的，用於自然語言處理的 Python 庫。

那麼 NLP 到底是什麼？學習 NLP 能帶來什麼好處？

簡單的說，自然語言處理（ NLP ）就是開發能夠理解人類語言的應用程式和服務。

我們生活中經常會接觸的自然語言處理的應用，包括語音識別，語音翻譯，理解句意，理解特定詞語的同義詞，以及寫出語法正確，句意通暢的句子和段落。

NLP的作用

正如大家所知，每天部落格，社交網站和網頁會產生數億位元組的海量資料。

有很多公司熱衷收集所有這些資料，以便更好地瞭解他們的使用者和使用者對產品的熱情，並對他們的產品或者服務進行合適的調整。

這些海量資料可以揭示很多現象，打個比方說，巴西人對產品 A 感到滿意，而美國人卻對產品 B 更感興趣。通過NLP，這類的資訊可以即時獲得（即實時結果）。例如，搜尋引擎正是一種 NLP，可以在正確的時間給合適的人提供適當的結果。

但是搜尋引擎並不是自然語言處理（NLP）的唯一應用。還有更好更加精彩的應用。

NLP的應用

以下都是自然語言處理（NLP）的一些成功應用：

搜尋引擎，比如谷歌，雅虎等等。谷歌等搜尋引擎會通過NLP瞭解到你是一個科技發燒友，所以它會返回科技相關的結果。
社交網站資訊流，比如 Facebook 的資訊流。新聞饋送演算法通過自然語言處理了解到你的興趣，並向你展示相關的廣告以及訊息，而不是一些無關的資訊。

語音助手，諸如蘋果 Siri。
垃圾郵件程式，比如 Google 的垃圾郵件過濾程式，這不僅僅是通常會用到的普通的垃圾郵件過濾，現在，垃圾郵件過濾器會對電子郵件的內容進行分析，看看該郵件是否是垃圾郵件。

NLP庫

現在有許多開源的自然語言處理（NLP）庫。比如：

Natural language toolkit (NLTK)
Apache OpenNLP
Stanford NLP suite
Gate NLP library

自然語言工具包（NLTK）是最受歡迎的自然語言處理（NLP）庫。它是用 Python 語言編寫的，背後有強大的社群支援。

NLTK 也很容易入門，實際上，它將是你用到的最簡單的自然語言處理（NLP）庫。

在這個 NLP 教程中，我們將使用 Python NLTK 庫。在開始安裝 NLTK 之前，我假設你知道一些 Python入門知識。

安裝 NLTK

如果你使用的是 Windows , Linux 或 Mac，你可以使用PIP 安裝NLTK： # pip install nltk。

在本文撰寫之時，你可以在 Python 2.7 , 3.4 和 3.5 上都可以使用NLTK。或者可以通過獲取tar 進行原始碼安裝。

要檢查 NLTK 是否正確地安裝完成，可以開啟你的Python終端並輸入以下內容：Import nltk。如果一切順利，這意味著你已經成功安裝了 NLTK 庫。

一旦你安裝了 NLTK，你可以執行下面的程式碼來安裝 NLTK 包：

import nltk
nltk.download()

這將開啟 NLTK 下載器來選擇需要安裝的軟體包。

你可以選擇安裝所有的軟體包，因為它們的容量不大，所以沒有什麼問題。現在，我們開始學習吧！

使用原生 Python 來對文字進行分詞

首先，我們將抓取一些網頁內容。然後來分析網頁文字，看看爬下來的網頁的主題是關於什麼。我們將使用 urllib模組來抓取網頁：

import urllib.request
response = urllib.request.urlopen('http://php.net/')
html = response.read()
print (html)

從列印輸出中可以看到，結果中包含許多需要清理的HTML標記。我們可以用這個 BeautifulSoup 庫來對抓取的文字進行處理：

from bs4 import BeautifulSoup
import urllib.request 
response = urllib.request.urlopen('http://php.net/') 
html = response.read()
soup = BeautifulSoup(html,"html5lib")
text = soup.get_text(strip=True)
print (text)

現在，我們能將抓取的網頁轉換為乾淨的文字。這很棒，不是麼？

最後，讓我們通過以下方法將文字分詞：

from bs4 import BeautifulSoup 
import urllib.request 
response = urllib.request.urlopen('http://php.net/') 
html = response.read() 
soup = BeautifulSoup(html,"html5lib") 
text = soup.get_text(strip=True) 
tokens = [t for t in text.split()] 
print (tokens)

詞頻統計

現在的文字相比之前的 html 文字好多了。我們再使用 Python NLTK 來計算每個詞的出現頻率。NLTK 中的FreqDist( ) 函式可以實現詞頻統計的功能：

from bs4 import BeautifulSoup
import urllib.request
import nltk 
response = urllib.request.urlopen('http://php.net/') 
html = response.read() 
soup = BeautifulSoup(html,"html5lib") 
text = soup.get_text(strip=True) 
tokens = [t for t in text.split()] 
freq = nltk.FreqDist(tokens) 
for key,val in freq.items(): 
    print (str(key) + ':' + str(val))

如果你檢視輸出結果，會發現最常用的詞語是PHP。

你可以用繪圖函式為這些詞頻繪製一個圖形： freq.plot(20, cumulative=False)。

從圖中，你可以肯定這篇文章正在談論 PHP。這很棒！有一些詞，如"the," "of," "a," "an," 等等。這些詞是停止詞。一般來說，停止詞語應該被刪除，以防止它們影響我們的結果。

使用 NLTK 刪除停止詞

NLTK 具有大多數語言的停止詞表。要獲得英文停止詞，你可以使用以下程式碼：

from nltk.corpus import stopwords
stopwords.words('english')

現在，讓我們修改我們的程式碼，並在繪製圖形之前清理標記。首先，我們複製一個列表。然後，我們通過對列表中的標記進行遍歷並刪除其中的停止詞：

clean_tokens = tokens[:] 
sr = stopwords.words('english')
for token in tokens:
    if token in stopwords.words('english'):
        clean_tokens.remove(token)

最終的程式碼應該是這樣的：

from bs4 import BeautifulSoup 
import urllib.request 
import nltk 
from nltk.corpus import stopwords 
response = urllib.request.urlopen('http://php.net/') 
html = response.read() 
soup = BeautifulSoup(html,"html5lib") 
text = soup.get_text(strip=True) 
tokens = [t for t in text.split()] 
clean_tokens = tokens[:] 
sr = stopwords.words('english') 
for token in tokens: 
    if token in stopwords.words('english'): 
        clean_tokens.remove(token) 
freq = nltk.FreqDist(clean_tokens) 
for key,val in freq.items(): 
    print (str(key) + ':' + str(val))

如果你現在檢查圖表，會感覺比之前那張圖示更加清晰，因為沒有了停止詞的干擾。

freq.plot(20,cumulative=False)

使用 NLTK 對文字分詞

我們剛剛瞭解瞭如何使用 split( ) 函式將文字分割為標記。現在，我們將看到如何使用 NLTK 對文字進行標記化。對文字進行標記化是很重要的，因為文字無法在沒有進行標記化的情況下被處理。標記化意味著將較大的部分分隔成更小的單元。

你可以將段落分割為句子，並根據你的需要將句子分割為單詞。NLTK 具有內建的句子標記器和詞語標記器。

假設我們有如下的示例文字：

Hello Adam, how are you? I hope everything is going well.  Today is a good day, see you dude.

為了將這個文字標記化為句子，我們可以使用句子標記器：

from nltk.tokenize import sent_tokenize 
mytext = "Hello Adam, how are you? I hope everything is going well. Today is a good day, see you dude." 
print(sent_tokenize(mytext))

輸出如下：

['Hello Adam, how are you?', 'I hope everything is going well.', 'Today is a good day, see you dude.']

你可能會說，這是一件容易的事情。我不需要使用 NLTK 標記器，並且我可以使用正則表示式來分割句子，因為每個句子前後都有標點符號或者空格。

那麼，看看下面的文字：

Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude.

呃！Mr. 是一個詞,雖然帶有一個符號。讓我們來試試使用 NLTK 進行分詞：

from nltk.tokenize import sent_tokenize 
mytext = "Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude." 
print(sent_tokenize(mytext))

輸出如下所示：

['Hello Mr. Adam, how are you?', 'I hope everything is going well.', 'Today is a good day, see you dude.']

Great！結果棒極了。然後我們嘗試使用詞語標記器來看看它是如何工作的：

from nltk.tokenize import word_tokenize
mytext = "Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude."
print(word_tokenize(mytext))

輸出如下：

['Hello', 'Mr.', 'Adam', ',', 'how', 'are', 'you', '?', 'I', 'hope', 'everything', 'is', 'going', 'well', '.', 'Today', 'is', 'a', 'good', 'day', ',', 'see', 'you', 'dude', '.']

正如所料，Mr. 是一個詞，也確實被 NLTK 當做一個詞。NLTK使用 nltk.tokenize.punkt module 中的 PunktSentenceTokenizer 進行文字分詞。這個標記器經過了良好的訓練，可以對多種語言進行分詞。

標記非英語語言文字

為了標記其他語言，可以像這樣指定語言：

from nltk.tokenize import sent_tokenize
mytext = "Bonjour M. Adam, comment allez-vous? J'espère que tout va bien. Aujourd'hui est un bon jour."
print(sent_tokenize(mytext,"french"))

結果將是這樣的：

['Bonjour M. Adam, comment allez-vous?', "J'espère que tout va bien.", "Aujourd'hui est un bon jour."]

NLTk 對其他非英語語言的支援也非常好！

從 WordNet 獲取同義詞

如果你還記得我們使用 nltk.download( ) 安裝 NLTK 的擴充套件包時。其中一個擴充套件包名為 WordNet。WordNet 是為自然語言處理構建的資料庫。它包括部分詞語的一個同義詞組和一個簡短的定義。

通過 NLTK 你可以得到給定詞的定義和例句：

from nltk.corpus import wordnet
syn = wordnet.synsets("pain")
print(syn[0].definition())
print(syn[0].examples())

結果是：

a symptom of some physical hurt or disorder
['the patient developed severe pain and distension']

WordNet 包含了很多詞的定義：

from nltk.corpus import wordnet
syn = wordnet.synsets("NLP")
print(syn[0].definition())
syn = wordnet.synsets("Python")
print(syn[0].definition())

結果是：

the branch of information science that deals with natural language information
large Old World boas

您可以使用 WordNet 來獲得同義詞：

from nltk.corpus import wordnet 
synonyms = []
for syn in wordnet 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    Python NLTK 自然語言處理入門與例程
      在這篇文章中，我們將基於 Python 討論自然語言處理（NLP）。本教程將會使用 Python NLTK 庫。NLTK 是一個當下流行的，用於自然語言處理的 Python 庫。那麼 NLP 到底是什麼？學習 NLP 能帶來什麼好處？簡單的說，自然語言處理（ NLP ）就是開發能夠理解人類語言的應用程式和服務 

  
 

    

    
    Python+NLTK自然語言處理學習（二）：常用方法（similar、common_contexts、generate）
      
                

一、similar

用來識別文章中和搜尋詞相似的詞語，可以用在搜尋引擎中的相關度識別功能中。

text1.similar("monstrous")


查詢出了text1中與monstrous相關的所有詞語：




二、common_contexts

用來識別2個 

  
 

    

    
    斯坦福大學-自然語言處理入門 筆記 第十九課 單詞含義與相似性
       
  
  
 一、單詞含義與單詞關係 
  
  回顧：詞目（lemma）與單詞形式（wordform） 
    
    詞目：表示相同的詞根、詞性以及大致的語義 
    單詞形式：表示在文件中出現的具體單詞形式  
     
  一個詞目可能會含有很多含義（sense）。含義（sense）表示單 

  
 

    

    
    斯坦福大學-自然語言處理入門 筆記 第十一課 最大熵模型與判別模型（2）
       
  
  
 一、最大熵模型 
 1、模型介紹 
  
  基本思想：我們希望資料是均勻分佈的，除非我們有其他的限制條件讓給我們相信資料不是均勻分佈的。均勻分佈代表高熵（high entropy）。所以，最大熵模型的基本思想就是我們要找的分佈是滿足我們限制條件下，同時熵最高的分佈。 
  熵：表示分佈的不 

  
 

    

    
    斯坦福大學-自然語言處理入門 筆記 第八課 最大熵模型與判別模型
       
  
  
 一、生成模型與判別模型 
 1、引言 
  
  到目前為止，我們使用的是生成模型（generative model)，但是在實際使用中我們也在大量使用判別模型（discriminative model)，主要是因為它有如下的優點： 
    
    準確性很高 
    更容易包含很多和 

  
 

    

    
    斯坦福大學-自然語言處理入門 筆記 第六課 文字分類與樸素貝葉斯
       
  
  
 一、文字分類任務概述 
 1、應用領域 
  
  歸類 
  垃圾郵件識別 
  作者識別 
  性別/年齡識別 
  等等 
  
 2、定義 
  
  輸入：一個文件d，一系列固定的型別C={c1,c2,…,cj} 
  輸出：預測類別c ∈ C 
  
 3、分類方法 
  
   

  
 

    

    
    斯坦福大學-自然語言處理入門 筆記 第五課 拼寫糾正與噪音通道（Noisy Channel）
       
  
  
 一、拼寫糾正任務 
 1、拼寫任務 
  
  發現拼寫錯誤 
  糾正拼寫錯誤 
    
    自動糾正 
    給出糾正建議（一個詞） 
    給出糾正建議（一些詞） 
     
  
 2、拼寫錯誤的型別 
  
  拼寫出來的不是單詞（non-word spelling e 

  
 

    

    
    《使用Python進行自然語言處理（Nltk）》2
      
                import nltk
from nltk.corpus import *

'''1、古騰堡語料庫'''
gutenberg.fileids()       #所有古騰堡語料庫中的文字
emma = nltk.corpus.gutenberg.words('austen-e 

  
 

    

    
    《用Python進行自然語言處理》第 1 章 語言處理與 Python
      
                1. 將簡單的程式與大量的文字結合起來，我們能實現什麼?2. 我們如何能自動提取概括文字風格和內容的關鍵詞和短語?3. Python 程式語言為上述工作提供了哪些工具和技術?4. 自然語言處理中的有哪些有趣的挑戰?1.1 語言計算:文字和單詞python入門NLTK 入門fr 

  
 

    

    
    《深入淺出Python機器學習(段小手)》PDF代碼+《推薦系統與深度學習》PDF及代碼+《自然語言處理理論與實戰(唐聃)》PDF代碼源程序
      數學分析   tar   認知   愛好者   代碼   pdf   ima   收獲   c++ prime   《深入淺出Python機器學習》PDF，280頁，帶書簽目錄，文字可以復制；配套源代碼。
作者：段小手
下載: https://pan.baidu.com/s/1XUs-94n0qKR1F9 

  
 

    

    
    HanLP《自然語言處理入門》筆記--3.二元語法與中文分詞
      筆記轉載於GitHub專案：https://github.com/NLP-LOVE/Introduction-NLP
3. 二元語法與中文分詞
上一章中我們實現了塊兒不準的詞典分詞，詞典分詞無法消歧。給定兩種分詞結果“商品 和服 務”以及“商品 和 服務”，詞典分詞不知道哪種更加合理。
我們人類確知道第二種更 

  
 

    

    
    HanLP《自然語言處理入門》筆記--5.感知機模型與序列標註
      筆記轉載於GitHub專案：https://github.com/NLP-LOVE/Introduction-NLP
5. 感知機分類與序列標註
第4章我們利用隱馬爾可夫模型實現了第一個基於序列標註的中文分詞器，然而效果並不理想。事實上，隱馬爾可夫模型假設人們說的話僅僅取決於一個隱藏的{B.M,E,S序列，這 

  
 

    

    
    HanLP《自然語言處理入門》筆記--6.條件隨機場與序列標註
      筆記轉載於GitHub專案：https://github.com/NLP-LOVE/Introduction-NLP
6. 條件隨機場與序列標註
本章介紹一種新的序列標註模型條件隨機場。這種模型與感知機同屬結構化學習大家族，但效能比感知機還要強大。為了釐清該模型的來龍去脈，我們先對機器學習模型做番柿理。然後結 

  
 

    

    
    《NLP漢語自然語言處理原理與實踐》結構圖
      自然語言處理
後續博客會根據上面的圖 結合一些其他資料更新 自然語言處理的朋友多多交流《NLP漢語自然語言處理原理與實踐》結構圖 

  
 

    

    
    Hanlp中文自然語言處理入門基礎知識
      watermark   holo   bottom   ava   領域   elastic   最短   oid   變化   自然語言處理定義：自然語言處理是一門計算機科學、人工智能以及語言學的交叉學科。雖然語言只是人工智能的一部分（人工智能還包括計算機視覺等），但它是非常獨特的一部分。這個星球上有許多生 

  
 

    

    
    斯坦福大學-自然語言處理入門 筆記 第二十一課 問答系統（2）
       
  
  
 一、問答系統中的總結（summarization） 
  
  目標：產生一個摘要文字包含那些對使用者重要和相關的資訊 
  總結的應用領域：任何文件的摘要和大綱，郵件摘要等等 
  根據總結的內容，我們可以把總結分為兩類： 
    
    單文件總結：給出一個單一文件的摘要、大綱、標題 

  
 

    

    
    斯坦福大學-自然語言處理入門 筆記 第二十課 問答系統（question answering）
       
  
  
 1、什麼是問答系統 
  
   問答系統是最早的NLP任務，根據問題的依存關係，找到適合的依存關係的回答。   
   在現代系統中問題被分為兩類  事實問題的回答一般都是一個簡單的片語或者是命名實體   
   兩種問答系統的正規化 
    
    基於資訊檢索的路徑：TREC; I 

  
 

    

    
    斯坦福大學-自然語言處理入門 筆記 第十八課 排序檢索介紹（ranked retrieval）
       
  
  
 一、介紹 
  
  之前我們的請求都是布林型別。對於那些明確知道自己的需求並且瞭解集合體情況的使用者而言，布林型別的請求是很有效的。但是對於大部分的其他使用者而言，布林請求的問題是：大部分使用者不熟悉布林請求；布林請求比較複雜；布林請求的結果不是太多就是太少。排序檢索應運而生。 
  排序 

  
 

    

    
    斯坦福大學-自然語言處理入門 筆記 第十七課 資訊檢索（information retrieval）
       
  
  
 一、介紹 
  
  資訊檢索（information retrieval）是從海量集合體（一般是儲存在計算機中的文字）中找到滿足資訊需求（information need）的材料（一般是文件） 
  資訊檢索的應用領域：網頁搜尋，郵件搜尋，電腦內部搜尋，法律資訊檢索等等 
  資訊檢索的基 

  
 

    

    
    斯坦福大學-自然語言處理入門 筆記 第十六課 依存句法分析（Dependency Parsing）
       
  
  
 一、介紹 
 1、依存句法 
  
  依存句法假設：句法結構包含相互之間是雙邊不對稱關係的詞典（lexical）元素，這種不對稱的關係成為依存（dependency），在圖中的表現是單向箭頭。 
  箭頭通常還會打上這種語法關係的名字（主語，前置賓語等等） 
  箭頭一邊連線中心詞head

Python NLTK 自然語言處理入門與例程

NLP的作用

NLP的應用

NLP庫

安裝 NLTK

使用原生 Python 來對文字進行分詞

詞頻統計

使用 NLTK 刪除停止詞

使用 NLTK 對文字分詞

標記非英語語言文字

從 WordNet 獲取同義詞

Python NLTK 自然語言處理入門與例程

Python+NLTK自然語言處理學習（二）：常用方法（similar、common_contexts、generate）

斯坦福大學-自然語言處理入門筆記第十九課單詞含義與相似性

斯坦福大學-自然語言處理入門筆記第十一課最大熵模型與判別模型（2）

斯坦福大學-自然語言處理入門筆記第八課最大熵模型與判別模型

斯坦福大學-自然語言處理入門筆記第六課文字分類與樸素貝葉斯

斯坦福大學-自然語言處理入門筆記第五課拼寫糾正與噪音通道（Noisy Channel）

《使用Python進行自然語言處理（Nltk）》2

《用Python進行自然語言處理》第 1 章語言處理與 Python

《深入淺出Python機器學習(段小手)》PDF代碼+《推薦系統與深度學習》PDF及代碼+《自然語言處理理論與實戰(唐聃)》PDF代碼源程序

HanLP《自然語言處理入門》筆記--3.二元語法與中文分詞

HanLP《自然語言處理入門》筆記--5.感知機模型與序列標註

HanLP《自然語言處理入門》筆記--6.條件隨機場與序列標註

《NLP漢語自然語言處理原理與實踐》結構圖

Hanlp中文自然語言處理入門基礎知識

斯坦福大學-自然語言處理入門筆記第二十一課問答系統（2）

斯坦福大學-自然語言處理入門筆記第二十課問答系統（question answering）

斯坦福大學-自然語言處理入門筆記第十八課排序檢索介紹（ranked retrieval）

斯坦福大學-自然語言處理入門筆記第十七課資訊檢索（information retrieval）

斯坦福大學-自然語言處理入門筆記第十六課依存句法分析（Dependency Parsing）