自然語言處理（二）

阿新 • • 發佈：2019-05-15

all form 方法 clas lib port sha err model

使用python進行自然語言處理，有一些第三方庫供大家使用：

·NLTK（Python自然語言工具包）用於諸如標記化、詞形還原、詞幹化、解析、POS標註等任務。該庫具有幾乎所有NLP任務的工具。

·Spacy是NLTK的主要競爭對手。這兩個庫可用於相同的任務。

·Scikit-learn為機器學習提供了一個大型庫。此外還提供了用於文本預處理的工具。

·Gensim是一個主題和向量空間建模、文檔集合相似性的工具包。

·Pattern庫的一般任務是充當Web挖掘模塊。因此，它僅支持自然語言處理（NLP）作為輔助任務。

·Polyglot是自然語言處理（NLP）的另一個Python工具包。它不是很受歡迎，但也可以用於各種NLP任務。

先由nltk入手學習。

1. NLTK安裝

簡單來說還是跟python其他第三方庫的安裝方式一樣，直接在命令行運行：pip install nltk

2. 運行不起來？

當你安裝完成後，想要試試下面的代碼對一段英文文本進行簡單的切分：

import nltk
text=nltk.word_tokenize("PierreVinken , 59 years old , will join as a nonexecutive director on Nov. 29 . 
")
print(text)

運行結果，報錯如下：

...
    raise LookupError(resource_not_found)
LookupError: 
**********************************************************************
  Resource punkt not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download(‘ 
punkt‘)
  
  For more information see: https://www.nltk.org/data.html

  Attempted to load tokenizers/punkt/english.pickle

  Searched in:
    - ‘C:\\Users\\Administrator/nltk_data‘
    - ‘C:\\Users\\Administrator\\Desktop\\meatwice\\venv\\nltk_data‘
    - ‘C:\\Users\\Administrator\\Desktop\\meatwice\\venv\\share\\nltk_data‘
    - ‘C:\\Users\\Administrator\\Desktop\\meatwice\\venv\\lib\\nltk_data‘
    - ‘C:\\Users\\Administrator\\AppData\\Roaming\\nltk_data‘
    - ‘C:\\nltk_data‘
    - ‘D:\\nltk_data‘
    - ‘E:\\nltk_data‘
    - ‘‘
**********************************************************************

3. 解決方法：

不用著急，解決方法在異常中已經給出來了

技術分享圖片

命令行進入python交互模式，運行如下：

import nltk
nltk.download()

然後會彈出一個窗口，點擊models，找到punkt，雙擊進行下載即可。

技術分享圖片

然後運行開始的那段python代碼，對文本進行切分：

import nltk
text=nltk.word_tokenize("PierreVinken , 59 years old , will join as a nonexecutive director on Nov. 29 .")
print(text)

結果如下，不會報錯：

技術分享圖片

4. nltk的簡單使用方法。

上面看了一個簡單的nltk的使用示例，下面來具體看看其使用方法。

4.1 將文本切分為語句， sent_tokenize()

from nltk.tokenize import sent_tokenize
text=" Welcome readers. I hope you find it interesting. Please do reply."
print(sent_tokenize(text))

從標點處開始切分，結果：

技術分享圖片

4.2 將句子切分為單詞， word_tokenize()

from nltk.tokenize import word_tokenize
text=" Welcome readers. I hope you find it interesting. Please do reply."
print(word_tokenize(text))

切分成單個的單詞，運行結果：

技術分享圖片

4.3.1 使用 TreebankWordTokenizer 進行切分

from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
print(tokenizer.tokenize("What is Love? I know this question exists in each human being‘s mind including myself. If not it is still waiting to be discovered deeply in your heart. What do I think of love? For me, I believe love is a priceless diamond, because a diamond has thousands of reflections, and each reflection represents a meaning of love."))

也是將語句切分成單詞，運行結果：

技術分享圖片

自然語言處理（二）

python自然語言處理（二）

1詞性標註簡單的理解就是對詞性（POS）進行標註，但在不同的領域，詞性可能是不同的，Penn Treebank pos標記庫：https://blog.csdn.net/u010099495/article/details/46776617 其中程式需要安裝兩個依賴包 nlt

Python與自然語言處理（二）基於Gensim的Word2Vec

繼續學習摸索，看到很多部落格都在研究Word2Vec，感覺挺有意思，我也來嘗試一下。實驗環境：Python3，Java8 Word2Vec的輸入是句子序列，而每個句子又是一個單詞列表，由於沒有這樣結構的現成輸入，所以決定自己動手對原始語料進行預處理。這裡還有一個自然語

自然語言處理（二）——PTB數據集的預處理

ESS resize urn rain style nim base64 utf ems 參考書《TensorFlow：實戰Google深度學習框架》（第2版）首先按照詞頻順序為每個詞匯分配一個編號，然後將詞匯表保存到一個獨立的vocab文件中。 #!/usr/

自然語言處理（二）

all form 方法 clas lib port sha err model 使用python進行自然語言處理，有一些第三方庫供大家使用： ·NLTK（Python自然語言工具包）用於諸如標記化、詞形還原、詞幹化、解析、POS標註等任務。該庫具有

利用Tensorflow進行自然語言處理（NLP）系列之二高階Word2Vec

一、概述在上一篇中，我們介紹了Word2Vec即詞向量，對於Word Embeddings即詞嵌入有了些基礎，同時也闡述了Word2Vec演算法的兩個常見模型：Skip-Gram模型和CBOW模型，本篇會對兩種演算法做出比較分析並給出其擴充套件模型-GloVe模型。

python自然語言處理（一）

1標識化處理何為標識化處理？實際上就是一個將原生字串分割成一系列有意義的分詞，其複雜性根據不同NLP應用而異，目標語言的複雜性也佔了很大部分，例如中文的標識化是要比英文要複雜。 word_tokenize()是一種通用的，面向所有語料庫的標識化方法，基本能應付絕大多數。 reg

自然語言處理（3）——Word2Vec理論

word2vec是一個將單詞轉換成向量形式的工具。可以把對文字內容的處理簡化為向量空間中的向量運算，計算出向量空間上的相似度，來表示文字語義上的相似度。一、理論概述（主要來源於http://licstar.net/archives/328這篇部落格） 1.詞向量是什麼自然語言理

關於自然語言處理（NLP）的個人學習資料

個人研究的各種亂七八糟無聊資料~：深入看過的論文：連結：https://pan.baidu.com/s/19mlS8eSY8vbzr96FPYfOvw 提取碼：vy3o 期待深入看的論文連結：https://pan.baidu.com/s/1-OT3c-x

《使用Python進行自然語言處理（Nltk）》2

import nltk from nltk.corpus import * '''1、古騰堡語料庫''' gutenberg.fileids() #所有古騰堡語料庫中的文字 emma = nltk.corpus.gutenberg.words('austen-e

自然語言處理（NLP）——分詞統計可能用到的模組方法

一、itertools.chain( *[ ] ) import itertools a= itertools.chain(['a','aa','aaa']) b= itertools.chain(

系統學習自然語言處理（一）--綜述

今天開始，進入NLP方向，目前在看《自然語言處理綜論》作為入門基礎，又不高興自己手打，所以，就參考了這篇部落格，作了一些修改。另外，這本書的第二版，還沒有討論深度學習在NLP的應用，因此，可以作為一個基礎讀物，搞明白NLP是什麼，做什麼，怎麼做這些問題，但它比一般的N

自然語言處理（NLP）- HMM+VITERBI演算法實現詞性標註（解碼問題）（動態規劃）（Python實現）

NLP- HMM+維特比演算法進行詞性標註（Python實現）維特比演算法針對HMM解碼問題，即解碼或者預測問題（下面的第二個問題），尋找最可能的隱藏狀態序列：對於一個特殊的隱馬爾可夫模型(HMM)及一個相應的觀察序列，找到生成此序列最可能的隱藏狀態序列。也就是說

Python 自然語言處理（NLP）工具庫彙總

6.spaCy 這是一個商業的開源軟體。結合了Python 和Cython 優異的 NLP 工具。是快速的，最先進的自然語言處理工具。網站：安裝： pip install spacy 7.Polyglot Polyglot 支援大規模多語言應用程式的處理。它支援165種語言的分詞，196中語言的辨識，

Pytext：Facebook基於PyTorch的自然語言處理（NLP）開源框架

自然語言處理(NLP)在現代深度學習生態中越來越常見。從流行的深度學習框架到雲端API的支援，例如Google雲、Azure、AWS或Bluemix，NLP是深度學習平臺不可或缺的部分。儘管已經取得了令人難以置信的進步，但構建大規模的NLP應用依然還有極大的挑戰，在學習研究和生產部署之間還存在很多摩擦。作為當

Python與自然語言處理（一）搭建環境

參考書籍《Python自然語言處理》，書籍中的版本是Python2和NLTK2，我使用的版本是Python3和NLTK3 安裝NLTK3，Natural Language Toolkit，自然語言工

自然語言處理（NLP）常用開源工具總結----不定期更新

學習自然語言這一段時間以來接觸和聽說了好多開源的自然語言處理工具，在這裡做一下彙總方便自己以後學習，其中有自己使用過的也有了解不是很多的，對於不甚瞭解的工具以後學習熟悉了會做更新的。 1.IKAnalyzer IK Analyzer是一個開源的，基於Jav

python與自然語言處理（五）：中文文字詞雲

之前一直想要做一個文字的視覺化：詞雲，然後在網上搜到的一些製作詞雲的工具，有些是線上的就沒有使用，今天偶然看到python提供的wordcloud庫，可以方便製作詞雲，中英文皆可，趕緊試試，做個筆記，

深度學習筆記之自然語言處理（word2vec）

1.1 自然語言處理的應用拼寫檢查，關鍵詞搜尋文字挖掘文字分類機器翻譯客服系統複雜對話系統 1.2 語言模型舉個例子：這裡有一句話：“我今天下午打籃球。” p(S)是稱為語言模型，即用來計算

不是你無法入門自然語言處理（NLP），而是你沒找到正確的開啟方式

AI研習社按：本文作者 Mr.Scofield，原文載於作者個人部落格，雷鋒網已獲授權。〇、序之前一段時間，在結合深度學習做 NLP 的時候一直有思考一些問題，其中有一個問題算是最核心一個：究竟深度網路是怎麼做到讓各種 NLP 任務解決地如何完美呢？到底我的資料在

Python自然語言處理（NLP）工具小結

Python 的幾個自然語言處理工具自然語言處理（Natural Language Processing，簡稱NLP）是人工智慧的一個子域。自然語言處理的應用包括機器翻譯、情感分析、智慧問答、資訊提取、語言輸入、輿論分析、知識圖譜等方面。也是深度學習的一個分

自然語言處理（二）

相關推薦