python自然語言處理-讀書筆記4

阿新 • • 發佈：2018-11-11

# -*- coding:utf-8 -*-
# __author__ = 'lipzhang'
import nltk, re, pprint
#從網路和硬碟訪問文字
#電子書
from urllib.request import urlopen
from bs4 import BeautifulSoup
# url = r'https://www.gutenberg.org/files/2554/2554-0.txt'#從網路上閱讀小說罪與罰
# proxies = {'http': 'http://www.someproxy.com:3128'}
# raw =urlopen(url).read()
# raw=raw.decode('utf-8')
# print(len(raw))
# print(raw[:75])
# tokens = nltk.word_tokenize(raw)
# text = nltk.Text(tokens)
# print(text)
# print(raw.find("PART I"))
# print(raw.rfind("End of Project Gutenberg's Crime"))
# raw = raw[5303:-1]
#print(raw)

#處理HTML
# url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
# html = urlopen(url).read()
# print(html[:60])
# raw = BeautifulSoup(html,'html').get_text()
# print(raw)
# tokens = nltk.word_tokenize(raw)
# print(tokens)
# tokens = tokens[96:399]
# text = nltk.Text(tokens)
# print(text)
# print(text.concordance('gene'))


#處理搜尋引擎的結果

#處理 RSS 訂閱
# import feedparser
# llog = feedparser.parse("http://languagelog.ldc.upenn.edu/nll/?feed=atom")
# print(llog['feed']['title'])
# post = llog.entries[2]
# print(post.title)
# content = post.content[0].value
# print(content[:70])
#
# content=nltk.word_tokenize(BeautifulSoup(content,'html').get_text())#去除html標籤
# print(content[:70])
#
# st=nltk.word_tokenize(BeautifulSoup(llog.entries[2].content[0].value,'html').get_text())
# print(st)


#讀取本地檔案和語料庫檔名
path = nltk.data.find('corpora/gutenberg/melville-moby_dick.txt')
raw = open(path, 'rU').read()#'r'意味著以只讀方式開啟檔案（預設），'U'表示“通用”，它讓我們忽略不同的換 行約定。
print(raw)

#從PDF 、MS Word及其他二進位制格式中提取文字
#使用pypdf2
#捕獲使用者輸入
s = input("Enter some text: ")
print("You typed", len(nltk.word_tokenize(s)), "words." )

#NLP處理一般流程 處理流程 ：開啟一個 URL， 讀裡面 HTML 格式的內容 ， 去除標記 ， 並選擇字元 的 切 片 ，然後分詞 ，是否轉換為 nltk.Text 物件是可選擇的 。我們也可以將所有詞彙小寫並提取 詞彙表

python自然語言處理-讀書筆記4

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk, re, pprint #從網路和硬碟訪問文字 #電子書 from urllib.request import urlopen from bs4 import Beautif

python自然語言處理-讀書筆記5

#使用UniCode進行文書處理 #Unicode支援超過一百萬種字元。每個字元分配一個編號，稱為編碼點。在 Python中，編碼點寫作\uXXXX 的形式，其中 XXXX是四位十六進位制形式數。 #從檔案中提取已編碼文字 import codecs path = nltk.data.fin

python自然語言處理-讀書筆記3

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk from nltk.corpus import gutenberg #古騰堡語料庫 from nltk.corpus import webtext #w網路聊天文字 from

python自然語言處理-讀書筆記9

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #第六章學習分類文字 # 1. 我們怎樣才能識別語言資料中能明顯用於對其分類的特徵？ 2. 我們怎樣才能構建語言模型，用於自動執行語言處理任務？ 3. 從這些模型中我們可以學到哪些關於語言的知識？

python自然語言處理-讀書筆記8

#N-Gram Tagging N元語法標註 #一元標註（Unigram Tagging）一元標註器基於一個簡單的統計演算法：對每個識別符號分配這個獨特的識別符號最有可能的標記。例如：它將分配標記 JJ 給詞 frequent 的所有出現，因為frequent 用作一個形容詞（例如：a f

python自然語言處理-讀書筆記7

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #分類和標註詞彙 #使用詞性標註器 import nltk # text = nltk.word_tokenize("And now for something completely diffe

python自然語言處理-讀書筆記6

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #4.1 回到基礎 #賦值 #等式 #條件語句 #all()函式和any()函式可以應用到一個連結串列（或其他序列），來檢查是否全部或任一項目滿足一些條件： # sent = ['No',

python自然語言處理-讀書筆記

python自然語言處理 -讀書筆記1

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk from nltk.book import * # print(text1.concordance("monstrous"))#顯示一個指定單詞的每一次出現，連同一些上下文

python自然語言處理-學習筆記（二）

在第二章中，主要介紹了各個預料庫的使用，這裡不再贅述，對於預料庫的操作，之前書中都提到過。這裡只說一下一個問題，在inaugural預料庫中，測試輸出條件分佈圖的時候，他的程式碼裡有個問題，我按照書中寫的方法，得到的結果如下： >>> cfd

《python自然語言處理》筆記---chap3加工原料文字

chap3中關於，NLP中的關鍵概念，包括分詞和詞幹提取。字串、檔案、正則表示式、去除HTML標籤以下所有程式，預設匯入包 import nltk,re,pprint #即，nltk包，正則表示式re包，輸出pprint包 3.1 從網路和硬碟訪問文字電子書

python自然語言處理學習筆記一

第一章語言處理與python 1 語言計算文字與詞彙 NLTK入門下載安裝nltk 下載資料 >>> import nltk >>> nltk.download() 下載完成,載入文字 >>> from n

python自然語言處理學習筆記三

第三章處理原始文字 1 從網路和硬碟訪問文字 #<<罪與罰>>的英文翻譯未作測試?? From utlib import urlopen Url=’http://www.gutenberg.org/files/2554/2554.txt’ Ra

python 自然語言處理學習筆記

一 NLTK的幾個常用函式1 concordance 這個函式就是用來搜尋單詞word在text 中出現多的情況,包括出現的那一行,重點強調上下文。從輸出來看 concordance 將要查詢的單詞,基本顯示在一列,這樣容易觀察其上下文.例如>>> text

【讀書筆記】《Python自然語言處理》第1章語言處理與Python

1.1 語言計算：文字和詞彙入門 nltk下載地址使用pip安裝 >>>import nltk 檢驗是否成功。 >>>nltk.download() 選擇語料下載使用python直譯器載入book模組中的條目 >&g

Python自然語言處理筆記【二】文本分類之監督式分類的細節問題

重要探索基於 font 產生 com 分類器保持聯合一、選擇正確的特征 1.建立分類器的工作中如何選擇相關特征，並且為其編碼來表示這些特征是首要問題。 2.特征提取，要避免過擬合或者欠擬合過擬合，是提供的特征太多，使得算法高度依賴訓練數據的特性，而對於一般化的

python自然語言處理——1.4 回到python：決策和控制

ott thead top linear 控制 san max-width eight 技術分享微信公眾號：數據運營人本系列為博主的讀書學習筆記，如需轉載請註明出處。第一章語言處理與python 1.4 回到python：決策和控制條件對每個元素進行操作嵌套

精通Python自然語言處理 4 ：詞性標註--單詞識別

詞性標註被用於資訊檢索、機器翻譯、NER、語言分析等1、詞性標註簡介一個對句中的每個識別符號分配詞類（如名詞、動詞、形容詞等）標記的過程。在nltk.tag包中並被TaggerIbase類所繼承。>>> text1 = nltk.word_tok

《Python自然語言處理》學習筆記-第二章

第二章：獲得文字語料和詞彙資源 2.1 獲取文字語料庫古滕堡語料庫（1）首先載入nltk包。（2）使用nltk.corpus.gutenberg.fileids方法能夠獲取古滕堡語料庫中所有的文字識別符號。（3）使用nltk.corpus.

用Python進行自然語言處理學習筆記一

NLTK是一個高效的Python構建的平臺，用來處理人類自然語言資料。它提供了易於使用的介面，通過這些介面可以訪問超過50個語料庫和詞彙資源（如WordNet），還有一套用於分類、標記化、詞幹標記、解析和語義推理的文字處理庫，以及工業級NLP庫的封裝器和一個活躍的討論論壇。

python自然語言處理-讀書筆記4

相關推薦