《使用Python進行自然語言處理（Nltk）》2

阿新 • • 發佈：2018-12-10

import nltk
from nltk.corpus import *

'''1、古騰堡語料庫'''
gutenberg.fileids()       #所有古騰堡語料庫中的文字
emma = nltk.corpus.gutenberg.words('austen-emma.txt')
#num_chars 變數計數了空白字元
#row()對檔案的內容不進行任何語言處理
#sents()函式把文字劃分成句子，其中每一個句子是一個詞連結串列


'''非正規文字語料庫'''
from nltk.corpus import webtext
for fileid in webtext.fileids():
    print fileid

'''即時訊息聊天會話語料庫'''
from nltk.corpus import nps_chat
chatroom =nps_chat.posts('10-19-20s_706posts.xml')
chatroom[123]

'''2、布朗語料庫
布朗語料庫是第一個百萬詞級的英語電子語料庫的，
由布朗大學於 1961 年建立。這個語料庫包含 500 個不同來源的文字，
按照文體分類，如：新聞、社論等。'''


'''3、路透社語料庫
路透社語料庫包含 10,788 個新聞文件，共計 130 萬字。這些文件分成 90 個主題，
按照“訓練”和“測試”分為兩組。與布朗語料庫不同，路透社語料庫的類別是有互相重疊的，
只是因為新聞報道往往涉及多個主題。我們可以查詢由一個或多個文件涵蓋的主題，
也可以查詢包含在一個或多個類別中的文件。
'''


'''4、就職演說語料庫
實際上是 55 個文字的集合，每個文字都是一個總統的演說。這個集合的一個有趣特性是它的時間維度。'''

'''5標註文字語料庫
NLTK 包含多國語言語料庫。“世界人權宣言” （udhr ）語料庫中不同語言版本中的字長差異。
NLTK 語料庫閱讀器支援高效的訪問大量語料庫，並且能用於處理新的語料庫。NLTK 中定義的基本語料庫函式。'''

'''6 載入你自己的語料庫
(1) 將變數corpus_root的值設定為自己的語料的資料夾目錄

(2) PlaintextCorpusReader 初始化函式的第二個引數可以是需要載入的檔案，可以使用正則表示式

(3) CropsBPCRTest匯入txt一類的資料很順利，但是BracketParseCorpusReader載入賓州樹庫的實驗是失敗的，
我看了自己的賓州樹庫語料庫與書中描述的不一致但是不應該啊，還沒有找到原因，先留下這個懸案，待日後再審。'''

測試程式碼2.0

#!/usr/python/bin
# Filename:NltkTest59,一些關於語料庫使用的測試
import nltk
from nltk.corpus import brown
from nltk.corpus import reuters
from nltk.corpus import inaugural
from nltk.corpus import udhr
from nltk.corpus import BracketParseCorpusReader
from nltk.corpus import PlaintextCorpusReader

class NltkTest59:
    def __init__(self):
        print 'Initing...'

    def BrownTest(self, genres, modals):
        '''來源於p59,對於不同問題的常用詞統計的測試'''
        cfd = nltk.ConditionalFreqDist( \
            (genre, word) \
            for genre in brown.categories() \
            for word in brown.words(categories=genre))
        cfd.tabulate(conditions=genres, samples=modals)

    def ReutersTest(self):
        # reuters.fileids()
        # reuters.categories()
        print reuters.categories('training/9865')
        print reuters.categories(['training/9865', 'training/9880'])
        # reuters.fileids('barley')
        # reuters.fileids(['barley', 'corn'])
        print reuters.words('training/9865')[:14]
        print reuters.words(['training/9865', 'training/9880'])
        print reuters.words(categories='barley')
        print reuters.words(categories=['barley', 'corn'])

    def InauguralTest(self):
        '''執行會出錯 '''
        cfd = nltk.ConditionalFreqDist( \
            (target, file[:4]) \
            for fileids in inaugural.fileids() \
            for w in inaugural.words(fileids) \
            for target in ['america', 'citizen'] \
            if w.lower().startswith(target))
        cfd.plot()

    def UdhrTest(self):
        languages = ['Chickasaw', 'English', 'German_Deutsch', \
                     'Greenlandic_Inuktikut', 'Hungarian_Magyar', 'Ibibio_Efik']
        cfd = nltk.ConditionalFreqDist( \
            (lang, len(word)) \
            for lang in languages \
            for word in udhr.words(lang + '-Latin1'))
        cfd.plot(cumulative=False)

    def CropsPCRTest(self):
        corpus_root = r'C:\corpora\udhr2'
        file_pattern = r'.*'
        encoding = 'utf-8'
        pcr = PlaintextCorpusReader(corpus_root, file_pattern)
        print pcr.fileids()
        print pcr.words('007.txt')

    def CropsBPCRTest(self):
        '''可恥的失敗了，沒法執行，可能是語料庫版本問題，或者其他，待查'''
        corpus_root = r'C:\corpora\penntreebank\parsed'
        file_pattern = r'*.wsj'
        ptb = BracketParseCorpusReader(corpus_root, file_pattern)
        print ptb.fileids()
        print len(ptb.sents())
        ptb.sents(fileids='\wsj_0001.mrg')[19]

nt59 = NltkTest59()
genres = ['news', 'religion', 'hobbies', 'science_fiction', 'romance', 'humor']
modals = ['can', 'could', 'may', 'might', 'must', 'will']
# nt59.BrownTest(genres,modals)
# nt59.ReutersTest()
# 不能執行，因為存在SOAP版本錯誤，不急著解決，以後再補一個解決方案
# nt59.InauguralTest()
nt59.UdhrTest()
# nt59.CropsPCRTest()
# nt59.CropsBPCRTest()

《使用Python進行自然語言處理（Nltk）》2

import nltk from nltk.corpus import * '''1、古騰堡語料庫''' gutenberg.fileids() #所有古騰堡語料庫中的文字 emma = nltk.corpus.gutenberg.words('austen-e

《使用python進行自然語言理解（Nltk）》1.2

直接上程式碼： 1、例項測試1 # -*- coding: UTF-8 -*- # !/usr/python/bin # Filename:NltkTest42 '''一些關於文字的統計資訊的測試''' from __future__ import division im

Python與自然語言處理（一）搭建環境

參考書籍《Python自然語言處理》，書籍中的版本是Python2和NLTK2，我使用的版本是Python3和NLTK3 安裝NLTK3，Natural Language Toolkit，自然語言工

Python與自然語言處理（二）基於Gensim的Word2Vec

繼續學習摸索，看到很多部落格都在研究Word2Vec，感覺挺有意思，我也來嘗試一下。實驗環境：Python3，Java8 Word2Vec的輸入是句子序列，而每個句子又是一個單詞列表，由於沒有這樣結構的現成輸入，所以決定自己動手對原始語料進行預處理。這裡還有一個自然語

python與自然語言處理（五）：中文文字詞雲

之前一直想要做一個文字的視覺化：詞雲，然後在網上搜到的一些製作詞雲的工具，有些是線上的就沒有使用，今天偶然看到python提供的wordcloud庫，可以方便製作詞雲，中英文皆可，趕緊試試，做個筆記，

python與自然語言處理（六）：中文文字轉影象

最近使用word2vec對文字進行向量化表示，然後模仿基於CNN的影象分類實現文字分類。既然是模仿影象，那就應該可以將文字用影象視覺化一下，看看量化後的文字是什麼樣子。python處理影象的基本模組是Image庫，由於實驗中使用的是python3，需要安裝的影象處理庫為Pil

利用Tensorflow進行自然語言處理（NLP）系列之二高階Word2Vec

一、概述在上一篇中，我們介紹了Word2Vec即詞向量，對於Word Embeddings即詞嵌入有了些基礎，同時也闡述了Word2Vec演算法的兩個常見模型：Skip-Gram模型和CBOW模型，本篇會對兩種演算法做出比較分析並給出其擴充套件模型-GloVe模型。

Python與自然語言處理（三）：Tensorflow基礎學習

看了一段時間的TensorFlow，然而一直沒有思路，偶然看到一個講解TensorFlow的系列視訊，通俗易懂，學到了不少，在此分享一下，也記錄下自己的學習過程。教學視訊連結：點這裡在機器學習中，常見的就是分類問題，郵件分類，電影分類等等我這裡使用iris的

使用 spacy 進行自然語言處理（一）

介紹自然語言處理(NLP) 是人工智慧方向一個非常重要的研究領域。自然語言處理在很多智慧應用中扮演著非常重要的角色，例如： automated chat bots, article summarizers, multi-lingual translat

（初學者）用Python進行自然語言處理筆記一

Python程式設計連結串列list 在Python中連結串列的表示為：[](這是一個空連結串列)，或者[‘A’,’B’].list中的元素是允許重複的！ ##########有關列表的基本操作############## #定義一個空連結串列 li

《用Python進行自然語言處理》程式碼筆記（五）：第七章：從文字提取資訊

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : Peidong # @Site : # @File : eg7.py # @Software: PyCharm """ 從文字提取資訊 """

python自然語言處理（二）

1詞性標註簡單的理解就是對詞性（POS）進行標註，但在不同的領域，詞性可能是不同的，Penn Treebank pos標記庫：https://blog.csdn.net/u010099495/article/details/46776617 其中程式需要安裝兩個依賴包 nlt

python自然語言處理（一）

1標識化處理何為標識化處理？實際上就是一個將原生字串分割成一系列有意義的分詞，其複雜性根據不同NLP應用而異，目標語言的複雜性也佔了很大部分，例如中文的標識化是要比英文要複雜。 word_tokenize()是一種通用的，面向所有語料庫的標識化方法，基本能應付絕大多數。 reg

自然語言處理（NLP）- HMM+VITERBI演算法實現詞性標註（解碼問題）（動態規劃）（Python實現）

NLP- HMM+維特比演算法進行詞性標註（Python實現）維特比演算法針對HMM解碼問題，即解碼或者預測問題（下面的第二個問題），尋找最可能的隱藏狀態序列：對於一個特殊的隱馬爾可夫模型(HMM)及一個相應的觀察序列，找到生成此序列最可能的隱藏狀態序列。也就是說

Python 自然語言處理（NLP）工具庫彙總

6.spaCy 這是一個商業的開源軟體。結合了Python 和Cython 優異的 NLP 工具。是快速的，最先進的自然語言處理工具。網站：安裝： pip install spacy 7.Polyglot Polyglot 支援大規模多語言應用程式的處理。它支援165種語言的分詞，196中語言的辨識，

Python自然語言處理（NLP）工具小結

Python 的幾個自然語言處理工具自然語言處理（Natural Language Processing，簡稱NLP）是人工智慧的一個子域。自然語言處理的應用包括機器翻譯、情感分析、智慧問答、資訊提取、語言輸入、輿論分析、知識圖譜等方面。也是深度學習的一個分

python自然語言處理（一）之中文分詞預處理、統計詞頻

一個小的嘗試。。資料來源資料集一共200條關於手機的中文評論，以XML格式儲存。分詞工具 python-jieba預處理包括去停用詞、去標點符號和數字去停用詞：使用的是他人總結的停用詞表去標點符號和數字：用正則表示式。原本打算的是中文標點符號從網上覆制，英文標點符號用st

python自然語言處理（NLP）1------中文分詞1，基於規則的中文分詞方法

python中文分詞方法之基於規則的中文分詞目錄常見中文分詞方法推薦中文分詞工具參考連結一、四種常見的中文分詞方法：基於規則的中文分詞基於統計的中文分詞深度學習中文分詞混合分詞方法基於規則的中

Pyhon 自然語言處理（一）NLTK及語料庫下載

Python 自然語言處理（一）NLTK及語料庫下載 NLTK是用來進行自然語言處理很強大的包，本文介紹Python下安裝NLTK及語料下載 1. 安裝 NLTK pip install nltk 如果已經安裝了 Anaconda 則預設

1.自然語言處理（NLP）與Python

自然語言工具包（NLTK） NLTK 創建於 2001 年，最初是賓州大學計算機與資訊科學系計算語言學課程的一部分。從那以後，在數十名貢獻者的幫助下不斷髮展壯大。如今，它已被幾十所大學的課程所採納，並作為許多研究專案的基礎。NLTK模組及功能介紹如下：

《使用Python進行自然語言處理（Nltk）》2

相關推薦