python自然語言處理-讀書筆記7

阿新 • • 發佈：2018-11-11

# -*- coding:utf-8 -*-
# __author__ = 'lipzhang'

#分類和標註詞彙

#使用詞性標註器
import nltk
# text = nltk.word_tokenize("And now for something completely different")
# print(nltk.pos_tag(text))#在這裡我們看到and 是 CC，並列連詞；now 和completely 是 RB，副詞；for 是IN，介 詞；something 是NN，名詞；different 是JJ，形容詞。
# nltk.help.upenn_tagset('RB')
#
# text = nltk.Text(word.lower() for word in nltk.corpus.brown.words())
# print(text.similar('woman'))#text.similar()方法為一個詞w 找出所有上下文w1ww2，然 後找出所有出現在相同上下文中的詞 w'，即w1w'w2。

#標註語料庫
#表示已標註的識別符號
# tagged_token = nltk.tag.str2tuple('fly/NN')
# print( tagged_token)
# sent = '''  The/AT grand/JJ jury/NN commented/VBD on/IN a/AT number/NN of/IN  other/AP topics/NNS ,/, AMONG/IN them/PPO the/AT Atlanta/NP and/CC  Fulton/NP-tl County/NN-tl purchasing/VBG departments/NNS which/WDT it/PP  said/VBD ``/`` ARE/BER well/QL operated/VBN and/CC follow/VB generally/R  accepted/VBN practices/NNS which/WDT inure/VB to/IN the/AT best/JJT  interest/NN of/IN both/ABX governments/NNS ''/'' ./. '''
# print([nltk.tag.str2tuple(t) for t in sent.split()])#我們可以直接從一個字串構造一個已標註的識別符號的連結串列。第一步是對字串分詞以 便能訪問單獨的詞/標記字串，然後將每一個轉換成一個元組
#讀取已標註的語料庫
# print(nltk.corpus.brown.tagged_words(tagset = 'universal'))
#簡化的詞性標記集
# Tag	Meaning	Examples
# ADJ	adjective	new, good, high, special, big, local
# ADV	adverb	really, already, still, early, now
# CNJ	conjunction	and, or, but, if, while, although
# DET	determiner	the, a, some, most, every, no
# EX	existential	there, there’s
# FW	foreign word	dolce, ersatz, esprit, quo, maitre
# MOD	modal verb	will, can, would, may, must, should
# N	    noun	year, home, costs, time, education
# NP	proper noun	Alison, Africa, April, Washington
# NUM	number	twenty-four, fourth, 1991, 14:24
# PRO	pronoun	he, their, her, its, my, I, us
# P	    preposition	on, of, at, with, by, into, under
# TO	the word to	to
# UH	interjection	ah, bang, ha, whee, hmpf, oops
# V	    verb	is, has, get, do, make, see, run
# VD	past tense	said, took, told, made, asked
# VG	present participle	making, going, playing, working
# VN	past participle	given, taken, begun, sung
# WH	wh determiner	who, which, when, what, where, how
from nltk.corpus import brown
# 名詞 Nons: 通常指代人、地點、事情、概念
# 動詞 Verbs: 用以描述事件和行為
# 形容詞和副詞 Adjectives and Adverbs: 形容詞用來描述名詞，副詞用來描述動詞
# def findtags(tag_prefix, tagged_text):#找出最頻繁的名詞標記
#     cfd = nltk.ConditionalFreqDist((tag, word) for (word, tag) in tagged_text if tag.startswith(tag_prefix))
#     return dict((tag, list(cfd[tag].keys())[:5]) for tag in cfd.conditions())
# tagdict = findtags('NN', nltk.corpus.brown.tagged_words(categories='news'))
# for tag in sorted(tagdict):
#     print(tag, tagdict[tag])
# def process(sentence):#使用 POS 標記尋找三詞短語。
#     for (w1, t1), (w2, t2), (w3, t3) in nltk.trigrams(sentence):
#         if (t1.startswith('V') and t2 == 'TO' and t3.startswith('V')):
#             print(w1, w2, w3)
# for tagged_sent in brown.tagged_sents():
#      print(process(tagged_sent))

#使用Python的詞典將詞與屬性之間建立對映
#POS-Tagging中每個詞都會對應一個tag, 很自然地，要建立詞與屬性的對映 python的dict提供一種defaultdict，nltk也提供一種 nltk.defauldict ，這樣使得使用不在dict中的key取value時不丟擲異常，而給出預設值 key和value都可以很複雜
# counts = nltk.defaultdict(int)
# for (word, tag) in brown.tagged_words(categories='news'):
#     counts[tag] += 1
# print(counts['NN'])
# print(list(counts))
# from operator import itemgetter #遞增地更新字典，按值排序。
# print(sorted(counts.items(), key=itemgetter(1), reverse=True))
# print([t for t, c in sorted(counts.items(), key=itemgetter(1), reverse=True)])
# Python 字典方法：常用的方法與字典相關習慣用法的總結
# 示例 說明
# d = {} 建立一個空的字典，並將分配給d
# d[key] = value 分配一個值給一個給定的字典鍵
# d.keys() 字典的鍵的連結串列
# list(d) 字典的鍵的連結串列
# sorted(d) 字典的鍵，排序
# key in d 測試一個特定的鍵是否在字典中
# for key in d 遍歷字典的鍵
# d.values() 字典中的值的連結串列
# dict([(k1,v1), (k2,v2), ...]) 從一個鍵-值對連結串列建立一個字典
# d1.update(d2) 新增d2 中所有專案到d1
# defaultdict(int) 一個預設值為0 的字典

#自動標註
#預設標註器
from nltk.corpus import brown
# brown_tagged_sents = brown.tagged_sents(categories='news')
# brown_sents = brown.sents(categories='news')
# raw = 'I do not like green eggs and ham, I do not like them Sam I am!'
# tokens = nltk.word_tokenize(raw)
# default_tagger = nltk.DefaultTagger('NN')#將所有詞都標註成NN 的標註器
# print(default_tagger.tag(tokens))
# print(default_tagger.evaluate(brown_tagged_sents))
# #正則表示式標註器
# patterns = [
#      (r'.*ing$', 'VBG'),               # gerunds
#      (r'.*ed$', 'VBD'),                # simple past
#      (r'.*es$', 'VBZ'),                # 3rd singular present
#      (r'.*ould$', 'MD'),               # modals
#      (r'.*\'s$', 'NN$'),               # possessive nouns
#      (r'.*s$', 'NNS'),                 # plural nouns
#      (r'^-?[0-9]+(.[0-9]+)?$', 'CD'),  # cardinal numbers
#      (r'.*', 'NN')  # nouns (default)
#  ]
# regexp_tagger = nltk.RegexpTagger(patterns)
# print(regexp_tagger.tag(brown_sents[3]))
# print(regexp_tagger.evaluate(brown_tagged_sents))
# #查詢標註器  #我們找出100個出現頻率最高的詞並存儲其tag — 使用這種資訊作為一個”lookup tagger”的模型(在NLTK中是UnigramTagger):
# fd = nltk.FreqDist(brown.words(categories='news'))
# cfd = nltk.ConditionalFreqDist(brown.tagged_words(categories='news'))
# most_freq_words = list(fd.keys())[:100]
# likely_tags = dict((word, cfd[word].max()) for word in most_freq_words)
# baseline_tagger = nltk.UnigramTagger(model=likely_tags,backoff=nltk.DefaultTagger('NN'))#我們首先使用lookup table, 如果不能決定一個token的tag，我們再使用default tagger — 這個過程就稱為 backoff .那麼這個過程怎麼實現呢：將default tagger作為lookup tagger的輸入引數
# print(baseline_tagger.evaluate(brown_tagged_sents))
# sent = brown.sents(categories='news')[3]
# print(baseline_tagger.tag(sent))

python自然語言處理-讀書筆記7

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #分類和標註詞彙 #使用詞性標註器 import nltk # text = nltk.word_tokenize("And now for something completely diffe

python自然語言處理-讀書筆記5

#使用UniCode進行文書處理 #Unicode支援超過一百萬種字元。每個字元分配一個編號，稱為編碼點。在 Python中，編碼點寫作\uXXXX 的形式，其中 XXXX是四位十六進位制形式數。 #從檔案中提取已編碼文字 import codecs path = nltk.data.fin

python自然語言處理-讀書筆記4

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk, re, pprint #從網路和硬碟訪問文字 #電子書 from urllib.request import urlopen from bs4 import Beautif

python自然語言處理-讀書筆記3

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk from nltk.corpus import gutenberg #古騰堡語料庫 from nltk.corpus import webtext #w網路聊天文字 from

python自然語言處理-讀書筆記9

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #第六章學習分類文字 # 1. 我們怎樣才能識別語言資料中能明顯用於對其分類的特徵？ 2. 我們怎樣才能構建語言模型，用於自動執行語言處理任務？ 3. 從這些模型中我們可以學到哪些關於語言的知識？

python自然語言處理-讀書筆記8

#N-Gram Tagging N元語法標註 #一元標註（Unigram Tagging）一元標註器基於一個簡單的統計演算法：對每個識別符號分配這個獨特的識別符號最有可能的標記。例如：它將分配標記 JJ 給詞 frequent 的所有出現，因為frequent 用作一個形容詞（例如：a f

python自然語言處理-讀書筆記6

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #4.1 回到基礎 #賦值 #等式 #條件語句 #all()函式和any()函式可以應用到一個連結串列（或其他序列），來檢查是否全部或任一項目滿足一些條件： # sent = ['No',

python自然語言處理-讀書筆記

python自然語言處理 -讀書筆記1

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk from nltk.book import * # print(text1.concordance("monstrous"))#顯示一個指定單詞的每一次出現，連同一些上下文

python自然語言處理-學習筆記（二）

在第二章中，主要介紹了各個預料庫的使用，這裡不再贅述，對於預料庫的操作，之前書中都提到過。這裡只說一下一個問題，在inaugural預料庫中，測試輸出條件分佈圖的時候，他的程式碼裡有個問題，我按照書中寫的方法，得到的結果如下： >>> cfd

《python自然語言處理》筆記---chap3加工原料文字

chap3中關於，NLP中的關鍵概念，包括分詞和詞幹提取。字串、檔案、正則表示式、去除HTML標籤以下所有程式，預設匯入包 import nltk,re,pprint #即，nltk包，正則表示式re包，輸出pprint包 3.1 從網路和硬碟訪問文字電子書

python自然語言處理學習筆記一

第一章語言處理與python 1 語言計算文字與詞彙 NLTK入門下載安裝nltk 下載資料 >>> import nltk >>> nltk.download() 下載完成,載入文字 >>> from n

python自然語言處理學習筆記三

第三章處理原始文字 1 從網路和硬碟訪問文字 #<<罪與罰>>的英文翻譯未作測試?? From utlib import urlopen Url=’http://www.gutenberg.org/files/2554/2554.txt’ Ra

python 自然語言處理學習筆記

一 NLTK的幾個常用函式1 concordance 這個函式就是用來搜尋單詞word在text 中出現多的情況,包括出現的那一行,重點強調上下文。從輸出來看 concordance 將要查詢的單詞,基本顯示在一列,這樣容易觀察其上下文.例如>>> text

【讀書筆記】《Python自然語言處理》第1章語言處理與Python

1.1 語言計算：文字和詞彙入門 nltk下載地址使用pip安裝 >>>import nltk 檢驗是否成功。 >>>nltk.download() 選擇語料下載使用python直譯器載入book模組中的條目 >&g

Python自然語言處理筆記【二】文本分類之監督式分類的細節問題

重要探索基於 font 產生 com 分類器保持聯合一、選擇正確的特征 1.建立分類器的工作中如何選擇相關特征，並且為其編碼來表示這些特征是首要問題。 2.特征提取，要避免過擬合或者欠擬合過擬合，是提供的特征太多，使得算法高度依賴訓練數據的特性，而對於一般化的

《Python自然語言處理》學習筆記-第二章

第二章：獲得文字語料和詞彙資源 2.1 獲取文字語料庫古滕堡語料庫（1）首先載入nltk包。（2）使用nltk.corpus.gutenberg.fileids方法能夠獲取古滕堡語料庫中所有的文字識別符號。（3）使用nltk.corpus.

用Python進行自然語言處理學習筆記一

NLTK是一個高效的Python構建的平臺，用來處理人類自然語言資料。它提供了易於使用的介面，通過這些介面可以訪問超過50個語料庫和詞彙資源（如WordNet），還有一套用於分類、標記化、詞幹標記、解析和語義推理的文字處理庫，以及工業級NLP庫的封裝器和一個活躍的討論論壇。

NLP-python 自然語言處理01

count ems odin 頻率分布 str sep mon location don 1 # -*- coding: utf-8 -*- 2 """ 3 Created on Wed Sep 6 22:21:09 2017 4 5 @author: A

Python自然語言處理1

cmd 輸入函數調用 down load src 選擇分享 cnblogs 首先，進入cmd 輸入pip install的路徑隨後開始下載nltk的包一、準備工作 1、下載nltk 我的之前因為是已經下載好了，我現在用的參考書是Python自然語言處理這本書，最

python自然語言處理-讀書筆記7

相關推薦