自然語言處理（NLP）——分詞統計可能用到的模組方法

阿新 • • 發佈：2018-12-11

一、itertools.chain( *[ ] )

import itertools

a= itertools.chain(['a','aa','aaa'])
b= itertools.chain(*['a','aa','aaa'])
print(list(a))
print(list(b))

輸出：
[‘a’, ‘aa’, ‘aaa’]
[‘a’, ‘a’, ‘a’, ‘a’, ‘a’, ‘a’]

二、NLTK工具：條件頻率分佈、正則表示式、詞幹提取器和歸併器。

2.1 nltk 分句—分詞

NLTK文字分割：: nltk.sent_tokenize(text) #對文字按照句子進行分割 nltk.word_tokenize(sent)

#對句子進行分詞
NLTK進行詞性標註: nltk.pos_tag(tokens) #tokens是句子分詞後的結果，同樣是句子級的標註
NLTK進行命名實體識別（NER）: nltk.ne_chunk(tags) #tags是句子詞性標註後的結果，同樣是句子級

Sentences Segment（分句）

sent_tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

paragraph = "The first time I heard that song was in Hawaii on radio. 
             I was just a kid, 
 and loved it very much! What a fantastic song!"
             
print(sent_tokenizer.tokenize(paragraph))
輸出：
['The first time I heard that song was in Hawaii on radio.', 
 'I was just a kid, and loved it very much!', 
 'What a fantastic song!']

Tokenize sentences （分詞）

from nltk.tokenize import WordPunctTokenizer

sentence = 
 "Are you old enough to remember Michael Jackson attending 
	   the Grammys with Brooke Shields and Webster sat on his lap during the show?"

print(WordPunctTokenizer().tokenize(sentence))
輸出：
['Are', 'you', 'old', 'enough', 'to', 'remember', 'Michael', 'Jackson', 'attending',
 'the', 'Grammys', 'with', 'Brooke', 'Shields', 'and', 'Webster', 'sat', 'on', 'his',
 'lap', 'during', 'the', 'show', '?'] 
 
----------------------------------------------------

text = 'That U.S.A. poster-print costs $12.40...'

pattern = r"""(?x)                  # set flag to allow verbose regexps
		     (?:[A-Z]\.)+           # abbreviations, e.g. U.S.A.
		     |\d+(?:\.\d+)?%?       # numbers, incl. currency and percentages
		     |\w+(?:[-']\w+)*       # words w/ optional internal hyphens/apostrophe
		     |\.\.\.                # ellipsis
		     |(?:[.,;"'?():-_`])    # special characters with meanings
		   """  

nltk.regexp_tokenize(text, pattern)
['That', 'U.S.A.', 'poster-print', 'costs', '12.40', '...']

2.2 nltk提供了兩種常用的介面：`FreqDist` 和 `ConditionalFreqDist`

`FreqDist` 使用

from nltk import *
import matplotlib.pyplot as plt

tem = ['hello','world','hello','dear']
print(FreqDist(tem))

輸出:
FreqDist({'dear': 1, 'hello': 2, 'world': 1}) 

通過 plot(TopK,cumulative=True) 和 tabulate() 可以繪製對應的折線圖和表格

`ConditionalFreqDist` 使用

以一個配對連結串列作為輸入，需要給分配的每個事件關聯一個條件，輸入時類似於 (條件,事件) 的元組。

import nltk
from nltk.corpus import brown 

cfd = nltk.ConditionalFreqDist((genre,word) \
                               for genre in brown.categories()\
                               for word in brown.words(categories=genre))
print("conditions are:",cfd.conditions()) #檢視conditions
print(cfd['news'])
print(cfd['news']['could'])               #類似字典查詢

輸出:
conditions are: ['adventure', 'belles_lettres', 'editorial', 'fiction', 
                 'government', 'hobbies', 'humor', 'learned', 'lore', 'mystery', 
                 'news', 'religion', 'reviews', 'romance', 'science_fiction']
<FreqDist with 14394 samples and 100554 outcomes>
86  

"""
尤其對於plot() 和 tabulate() 有了更多引數選擇：
    conditions：指定條件
    samples：   迭代器型別，指定取值範圍
    cumulative：設定為True可以檢視累積值

"""

cfd.tabulate(conditions=['news','romance'],samples=['could','can'])
cfd.tabulate(conditions=['news','romance'],samples=['could','can'],cumulative=True)
輸出：
        could   can 
news       86    93 
romance   193    74 

        could   can 
news       86   179 
romance   193   267

2.3 正則表示式及其應用

輸入法聯想提示（9宮格輸入法）

import re
from nltk.corpus import words

#查詢類似於hole和golf序列（4653）的單詞。
wordlist = [w for w in words.words('en-basic') if w.islower()]
same = [w for w in wordlist if re.search(r'^[ghi][mno][jlk][def]$',w)]
print(same)

尋找字元塊 —查詢兩個或兩個以上的母音序列，並且確定相對頻率。

import nltk

wsj = sorted(set(nltk.corpus.treebank.words()))
fd = nltk.FreqDist(vs for word in wsj for vs in re.findall(r'[aeiou]{2,}',word))
fd.items()

查詢詞幹—apples和apple對比中，apple就是詞幹。寫一個簡單指令碼來查詢詞幹。

def stem(word):
    for suffix in ['ing','ly','ed','ious','ies','ive','es','s','ment']:
        if word.endswith(suffix):
            return word[:-len(suffix)]
    return None 

或者使用正則表示式，只需要一行：
re.findall(r'^(.*?)(ing|ly|ed|ious|ies|ive|es|s|ment)$',word)

2.4 詞幹提取器和歸併器

nltk提供了PorterStemmer 和 LancasterStemmer 兩個詞幹提取器， Porter比較好，可以處理lying這樣的單詞。

porter = nltk.PorterStemmer()
print(porter.stem('lying'))
---------------------------------------
詞性歸併器：WordNetLemmatizer

wnl = nltk.WordNetLemmatizer()
print(wnl.lemmatize('women'))

利用詞幹提取器實現索引文字(concordance)

用到nltk.Index這個函式:nltk.Index((word , i) for (i,word) in enumerate(['a','b','a']))

class IndexText:
    def __init__(self,stemmer,text):
        self._text = text
        self._stemmer = stemmer
        self._index = nltk.Index((self._stem(word),i) for (i,word) in enumerate(text))
    def _stem(self,word):
        return self._stemmer.stem(word).lower()
    def concordance(self,word,width =40):
        key = self._stem(word)
        wc = width/4 #words of context
        for i in self._index[key]:
            lcontext = ' '.join(self._text[int(i-wc):int(i)])
            rcontext = ' '.join(self._text[int(i):int(i+wc)])
            ldisplay = '%*s' % (width,lcontext[-width:])
            rdisplay = '%-*s' % (width,rcontext[:width])
            print(ldisplay,rdisplay) 
            
porter = nltk.PorterStemmer()                   #詞幹提取
grail = nltk.corpus.webtext.words('grail.txt')  
text = IndexText(porter,grail)
text.concordance('lie')

自然語言處理（NLP）——分詞統計可能用到的模組方法

一、itertools.chain( *[ ] ) import itertools a= itertools.chain(['a','aa','aaa']) b= itertools.chain(

python自然語言處理（NLP）1------中文分詞1，基於規則的中文分詞方法

python中文分詞方法之基於規則的中文分詞目錄常見中文分詞方法推薦中文分詞工具參考連結一、四種常見的中文分詞方法：基於規則的中文分詞基於統計的中文分詞深度學習中文分詞混合分詞方法基於規則的中

Python 自然語言處理（基於jieba分詞和NLTK）

----------歡迎加入學習交流QQ群：657341423 自然語言處理是人工智慧的類別之一。自然語言處理主要有那些功能？我們以百度AI為例從上述的例子可以看到，自然語言處理最基本的功能是詞法分析，詞法分析的功能主要有：分詞分句詞語標註詞法時態

關於自然語言處理（NLP）的個人學習資料

個人研究的各種亂七八糟無聊資料~：深入看過的論文：連結：https://pan.baidu.com/s/19mlS8eSY8vbzr96FPYfOvw 提取碼：vy3o 期待深入看的論文連結：https://pan.baidu.com/s/1-OT3c-x

自然語言處理（NLP）- HMM+VITERBI演算法實現詞性標註（解碼問題）（動態規劃）（Python實現）

NLP- HMM+維特比演算法進行詞性標註（Python實現）維特比演算法針對HMM解碼問題，即解碼或者預測問題（下面的第二個問題），尋找最可能的隱藏狀態序列：對於一個特殊的隱馬爾可夫模型(HMM)及一個相應的觀察序列，找到生成此序列最可能的隱藏狀態序列。也就是說

Python 自然語言處理（NLP）工具庫彙總

6.spaCy 這是一個商業的開源軟體。結合了Python 和Cython 優異的 NLP 工具。是快速的，最先進的自然語言處理工具。網站：安裝： pip install spacy 7.Polyglot Polyglot 支援大規模多語言應用程式的處理。它支援165種語言的分詞，196中語言的辨識，

Pytext：Facebook基於PyTorch的自然語言處理（NLP）開源框架

自然語言處理(NLP)在現代深度學習生態中越來越常見。從流行的深度學習框架到雲端API的支援，例如Google雲、Azure、AWS或Bluemix，NLP是深度學習平臺不可或缺的部分。儘管已經取得了令人難以置信的進步，但構建大規模的NLP應用依然還有極大的挑戰，在學習研究和生產部署之間還存在很多摩擦。作為當

自然語言處理（NLP）常用開源工具總結----不定期更新

學習自然語言這一段時間以來接觸和聽說了好多開源的自然語言處理工具，在這裡做一下彙總方便自己以後學習，其中有自己使用過的也有了解不是很多的，對於不甚瞭解的工具以後學習熟悉了會做更新的。 1.IKAnalyzer IK Analyzer是一個開源的，基於Jav

不是你無法入門自然語言處理（NLP），而是你沒找到正確的開啟方式

AI研習社按：本文作者 Mr.Scofield，原文載於作者個人部落格，雷鋒網已獲授權。〇、序之前一段時間，在結合深度學習做 NLP 的時候一直有思考一些問題，其中有一個問題算是最核心一個：究竟深度網路是怎麼做到讓各種 NLP 任務解決地如何完美呢？到底我的資料在

Python自然語言處理（NLP）工具小結

Python 的幾個自然語言處理工具自然語言處理（Natural Language Processing，簡稱NLP）是人工智慧的一個子域。自然語言處理的應用包括機器翻譯、情感分析、智慧問答、資訊提取、語言輸入、輿論分析、知識圖譜等方面。也是深度學習的一個分

聊天機器人（chatbot）終極指南：自然語言處理（NLP）和深度機器學習（Deep Machine Learning）

為了這份愛在過去的幾個月中，我一直在收集自然語言處理（NLP）以及如何將NLP和深度學習（Deep Learning）應用到聊天機器人（Chatbots）方面的最好的資料。時不時地我會發現一個出色的資源，因此我很快就開始把這些資源編製成列表。不久，我就

自然語言處理（NLP）知識結構總結

作者簡介：小郭，計算機專業在讀碩士研究生，AI學習與愛好者，歡迎交流，留言或者郵箱[email&

自然語言處理（NLP）的基本原理及應用

本文由Markdown語法編輯器編輯完成。自然語言處理要解決的主要問題有：（1）垃圾郵件識別（2）中文輸入法（3）機器翻譯（4）自動問答、客服機器人這裡簡單羅列了一些NLP的常見

利用Tensorflow進行自然語言處理（NLP）系列之二高階Word2Vec

一、概述在上一篇中，我們介紹了Word2Vec即詞向量，對於Word Embeddings即詞嵌入有了些基礎，同時也闡述了Word2Vec演算法的兩個常見模型：Skip-Gram模型和CBOW模型，本篇會對兩種演算法做出比較分析並給出其擴充套件模型-GloVe模型。

淺談自然語言處理（NLP）和自然語言理解（NLU）

自然語言處理主要步驟包括： 1. 分詞（只針對中文，英文等西方字母語言已經用空格做好分詞了）：將文章按片語分開 2. 詞法分析：對於英文，有詞頭、詞根、詞尾的拆分，名詞、動詞、形容詞、副詞、介詞的定性，多種詞意的選擇。比如DI

1.自然語言處理（NLP）與Python

自然語言工具包（NLTK） NLTK 創建於 2001 年，最初是賓州大學計算機與資訊科學系計算語言學課程的一部分。從那以後，在數十名貢獻者的幫助下不斷髮展壯大。如今，它已被幾十所大學的課程所採納，並作為許多研究專案的基礎。NLTK模組及功能介紹如下：

初學者如何查閱自然語言處理（NLP）領域學術資料

在論壇上看到一篇入門的NLP指導，借花獻佛，希望給大家提供便利！！原文地址：http://www.sigvc.org/bbs/thread-1851-1-1.html 文章內容總結如下：1. 國際學術組織、學術會議與學術論文自然語言處理（natural

最好的入門自然語言處理（NLP）的資源清單

Melanie Tosik目前就職於旅遊搜尋公司WayBlazer，她的工作內容是通過自然語言請求來生產個性化旅遊推薦路線。回顧她的學習歷程，她為期望入門自然語言處理的初學者列出了一份學習資源清單。目錄: · 線上課程 · 圖書館和開放資源 · 活躍的

python自然語言處理（一）之中文分詞預處理、統計詞頻

一個小的嘗試。。資料來源資料集一共200條關於手機的中文評論，以XML格式儲存。分詞工具 python-jieba預處理包括去停用詞、去標點符號和數字去停用詞：使用的是他人總結的停用詞表去標點符號和數字：用正則表示式。原本打算的是中文標點符號從網上覆制，英文標點符號用st

【NLP漢語自然語言處理與實踐】分詞_筆記

統計 The 計算分詞其余雙向 name -c max 一、兩種分詞標準： 1. 粗粒度。將詞作為最小基本單位。比如：浙江大學。主要用於自然語言處理的各種應用。 2. 細粒度。不僅對詞匯繼續切分，也對詞匯內部的語素進行切分。比如：浙江/大學。主要用於搜索

自然語言處理（NLP）——分詞統計可能用到的模組方法

一、itertools.chain( *[ ] )

二、NLTK工具：條件頻率分佈、正則表示式、詞幹提取器和歸併器。

2.1 nltk 分句—分詞

Sentences Segment（分句）

Tokenize sentences （分詞）

2.2 nltk提供了兩種常用的介面：FreqDist 和 ConditionalFreqDist

FreqDist 使用

ConditionalFreqDist 使用

2.3 正則表示式及其應用

2.4 詞幹提取器 和 歸併器

利用詞幹提取器實現索引文字(concordance)

相關推薦

2.2 nltk提供了兩種常用的介面：`FreqDist` 和 `ConditionalFreqDist`

`FreqDist` 使用

`ConditionalFreqDist` 使用

2.4 詞幹提取器和歸併器