《使用python進行自然語言理解（Nltk）》1.2

阿新 • • 發佈：2018-12-10

直接上程式碼：

1、例項測試1

# -*- coding: UTF-8 -*-
# !/usr/python/bin
# Filename:NltkTest42
'''一些關於文字的統計資訊的測試'''
from __future__ import division
import nltk
from nltk.book import *
import time
import datetime

class NltkTest42:
    def __init__(self, text, sent):
        self.text = text
        self.sent = sent
        print self.text
        print self.sent

    def SomeTests(self):
        '''簡單的邏輯關係的測試'''
        print self.sent
        print [w for w in self.sent if len(w) < 4]
        print [w for w in self.sent if len(w) <= 4]
        print [w for w in self.sent if len(w) == 4]
        print [w for w in self.sent if len(w) != 4]
        print sorted([w for w in set(self.text) if w.endswith('ableness')])
        print sorted([term for term in set(self.text) if 'gnt' in term])
        sorted([item for item in set(self.text) if item.istitle()])
        sorted([item for item in set(self.sent) if item.isdigit()])
        [len(w) for w in self.text]
        [w.upper() for w in self.text]
        tricky = sorted([w for w in set(self.text) if 'cie' in w or 'cei' in w])
        for word in tricky:
            if (len(word) > 10):
                print word


nt42 = NltkTest42(text1, sent7)
starttime = datetime.datetime.now()
print 'Start at:'
print time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time()))
nt42.SomeTests()
endtime = datetime.datetime.now()
print 'Finish at:'
print time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time()))
print '程式才運行了%d秒' % (endtime - starttime).seconds
print '聰明的你告訴我，其他的時間都去哪了？'


# 一些詞比較運算子
# s.startswith(t) 測試 s 是否以 t 開頭
# s.endswith(t) 測試 s 是否以 t 結尾
# t in s                 測試 s 是否包含 t
# s.islower()      測試 s 中所有字元是否都是小寫字母
# s.isupper()      測試 s 中所有字元是否都是大寫字母
# s.isalpha()       測試 s 中所有字元是否都是字母
# s.isalnum()      測試 s 中所有字元是否都是字母或數字
# s.isdigit()         測試 s 中所有字元是否都是數字
# s.istitle()           測試 s 是否首字母大寫（s 中所有的詞都首字母大寫）

2、例項測試2

# -*- coding: UTF-8 -*-
#!/user/python/bin
#filename:Nltk_test091902   //一些關於文字統計資訊的測試
import nltk
from nltk.book import *
class NltkTest38:
    def __init__(self,text):
        self.text=text
        print self.text
    def FreqAnalyse(self,queryStr):
        '''統計高頻和低頻詞並對TOP50的高頻詞畫圖'''
        fdist=FreqDist(self.text)
        vocabulary =fdist.keys()
        hapaxesWord = fdist.hapaxes()
        #單頻詞
        print hapaxesWord[:50]
        #高頻詞
        print vocabulary[:50]
        #畫圖，False看的舒服一些
        fdist.plot(50,cumulative=False)
        print fdist[queryStr]
    def LongWord(self):
        '''找出長度大於15的詞彙'''
        voc=set(self.text)
        #長度大於15的詞
        longWords=[word for word in voc if len(word)>15]
        print 'longword:'
        print sorted(longWords)
    def CheckUseless(self):
        '''找出高頻詞和長低頻次'''
        fdist =FreqDist(self.text)
        print '高頻詞和長低頻'
        print sorted([word for word in set(self.text) if len(word)>7 and fdist[word]>7])
    def BigramsCheck(self):
        '''提取文字詞彙中的詞對也就是雙連詞'''
        #指定詞查詢雙連詞
        print '雙連詞'
        print bigrams(['more','is','said','than','done'])      #提取文字詞彙中的詞對，也就是雙連詞
        #全域性找雙連詞
        print(self.text.collocations())              #找到比我們基於單個詞的頻率預期得到的更頻繁出現的雙連詞
    def Others(self):
        '''計數其他東西'''
        fdist=FreqDist([len(word) for word in self.text])
        print fdist.keys()
        print(fdist.items())
        print fdist[fdist.max()]
        print fdist.freq(fdist.max())
        fdist.tabulate()
        fdist.plot()
nt38=NltkTest38(text1)
nt38.FreqAnalyse('whale')
nt38.LongWord()
nt38.CheckUseless()
nt38.BigramsCheck()
nt38.Others()

《使用python進行自然語言理解（Nltk）》1.2

直接上程式碼： 1、例項測試1 # -*- coding: UTF-8 -*- # !/usr/python/bin # Filename:NltkTest42 '''一些關於文字的統計資訊的測試''' from __future__ import division im

《使用Python進行自然語言處理（Nltk）》2

import nltk from nltk.corpus import * '''1、古騰堡語料庫''' gutenberg.fileids() #所有古騰堡語料庫中的文字 emma = nltk.corpus.gutenberg.words('austen-e

Python與自然語言處理（一）搭建環境

參考書籍《Python自然語言處理》，書籍中的版本是Python2和NLTK2，我使用的版本是Python3和NLTK3 安裝NLTK3，Natural Language Toolkit，自然語言工

Python與自然語言處理（二）基於Gensim的Word2Vec

繼續學習摸索，看到很多部落格都在研究Word2Vec，感覺挺有意思，我也來嘗試一下。實驗環境：Python3，Java8 Word2Vec的輸入是句子序列，而每個句子又是一個單詞列表，由於沒有這樣結構的現成輸入，所以決定自己動手對原始語料進行預處理。這裡還有一個自然語

python與自然語言處理（五）：中文文字詞雲

之前一直想要做一個文字的視覺化：詞雲，然後在網上搜到的一些製作詞雲的工具，有些是線上的就沒有使用，今天偶然看到python提供的wordcloud庫，可以方便製作詞雲，中英文皆可，趕緊試試，做個筆記，

python與自然語言處理（六）：中文文字轉影象

最近使用word2vec對文字進行向量化表示，然後模仿基於CNN的影象分類實現文字分類。既然是模仿影象，那就應該可以將文字用影象視覺化一下，看看量化後的文字是什麼樣子。python處理影象的基本模組是Image庫，由於實驗中使用的是python3，需要安裝的影象處理庫為Pil

python自然語言處理（NLP）1------中文分詞1，基於規則的中文分詞方法

python中文分詞方法之基於規則的中文分詞目錄常見中文分詞方法推薦中文分詞工具參考連結一、四種常見的中文分詞方法：基於規則的中文分詞基於統計的中文分詞深度學習中文分詞混合分詞方法基於規則的中

利用Tensorflow進行自然語言處理（NLP）系列之二高階Word2Vec

一、概述在上一篇中，我們介紹了Word2Vec即詞向量，對於Word Embeddings即詞嵌入有了些基礎，同時也闡述了Word2Vec演算法的兩個常見模型：Skip-Gram模型和CBOW模型，本篇會對兩種演算法做出比較分析並給出其擴充套件模型-GloVe模型。

Python與自然語言處理（三）：Tensorflow基礎學習

看了一段時間的TensorFlow，然而一直沒有思路，偶然看到一個講解TensorFlow的系列視訊，通俗易懂，學到了不少，在此分享一下，也記錄下自己的學習過程。教學視訊連結：點這裡在機器學習中，常見的就是分類問題，郵件分類，電影分類等等我這裡使用iris的

淺談自然語言處理（NLP）和自然語言理解（NLU）

自然語言處理主要步驟包括： 1. 分詞（只針對中文，英文等西方字母語言已經用空格做好分詞了）：將文章按片語分開 2. 詞法分析：對於英文，有詞頭、詞根、詞尾的拆分，名詞、動詞、形容詞、副詞、介詞的定性，多種詞意的選擇。比如DI

使用 spacy 進行自然語言處理（一）

介紹自然語言處理(NLP) 是人工智慧方向一個非常重要的研究領域。自然語言處理在很多智慧應用中扮演著非常重要的角色，例如： automated chat bots, article summarizers, multi-lingual translat

Python呼叫哈工大語言云（LTP）API進行自然語言處理

哈工大語言云（語言技術平臺雲）是以哈工大社會計算與資訊檢索研究中心研發的“語言技術平臺（LTP）” 為基礎，提供高效精準的中文自然語言處理雲服務。 1.註冊：免費註冊一個帳號註冊後

（初學者）用Python進行自然語言處理筆記一

Python程式設計連結串列list 在Python中連結串列的表示為：[](這是一個空連結串列)，或者[‘A’,’B’].list中的元素是允許重複的！ ##########有關列表的基本操作############## #定義一個空連結串列 li

《用Python進行自然語言處理》程式碼筆記（五）：第七章：從文字提取資訊

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : Peidong # @Site : # @File : eg7.py # @Software: PyCharm """ 從文字提取資訊 """

python自然語言處理（二）

1詞性標註簡單的理解就是對詞性（POS）進行標註，但在不同的領域，詞性可能是不同的，Penn Treebank pos標記庫：https://blog.csdn.net/u010099495/article/details/46776617 其中程式需要安裝兩個依賴包 nlt

python自然語言處理（一）

1標識化處理何為標識化處理？實際上就是一個將原生字串分割成一系列有意義的分詞，其複雜性根據不同NLP應用而異，目標語言的複雜性也佔了很大部分，例如中文的標識化是要比英文要複雜。 word_tokenize()是一種通用的，面向所有語料庫的標識化方法，基本能應付絕大多數。 reg

自然語言處理（NLP）- HMM+VITERBI演算法實現詞性標註（解碼問題）（動態規劃）（Python實現）

NLP- HMM+維特比演算法進行詞性標註（Python實現）維特比演算法針對HMM解碼問題，即解碼或者預測問題（下面的第二個問題），尋找最可能的隱藏狀態序列：對於一個特殊的隱馬爾可夫模型(HMM)及一個相應的觀察序列，找到生成此序列最可能的隱藏狀態序列。也就是說

Python 自然語言處理（NLP）工具庫彙總

6.spaCy 這是一個商業的開源軟體。結合了Python 和Cython 優異的 NLP 工具。是快速的，最先進的自然語言處理工具。網站：安裝： pip install spacy 7.Polyglot Polyglot 支援大規模多語言應用程式的處理。它支援165種語言的分詞，196中語言的辨識，

使用Python進行層次聚類（三）——層次聚類簇間自然分割方法和評價方法

簇間自然分割方法今天，主要研究一下層次聚類在進行資料運算的時候，對資料結果進行自然簇分離而需要分析的API————inconsistent()。該函式是計算層次聚類不一致係數的，不一致係數越大，表明使用該閾值進行聚類的偏差越大。這樣按照該不一致係數下的閾值進

Python自然語言處理（NLP）工具小結

Python 的幾個自然語言處理工具自然語言處理（Natural Language Processing，簡稱NLP）是人工智慧的一個子域。自然語言處理的應用包括機器翻譯、情感分析、智慧問答、資訊提取、語言輸入、輿論分析、知識圖譜等方面。也是深度學習的一個分

《使用python進行自然語言理解（Nltk）》1.2

相關推薦