1. 程式人生 > >python自然語言處理——3.1 從網絡和硬盤訪問文本

python自然語言處理——3.1 從網絡和硬盤訪問文本

自然語言處理 num align otto aci soup tro nltk find

微信公眾號:數據運營人
本系列為博主的讀書學習筆記,如需轉載請註明出處。

第三章 加工原料文本

3.1 從網絡和硬盤訪問文本電子書處理的HTML處理RSS訂閱讀取本地文件

3.1 從網絡和硬盤訪問文本

電子書

NLTk語料庫集合中存有古騰堡項目的一小部分樣例文本,如果你對古騰堡項目其他的文本感興趣,可以在http://www.gutenberg.org/catalog/上瀏覽其他書籍,下面以編號2554的文本《罪與罰》為例,簡單介紹怎麽通過Python訪問。

from urllib.request import urlopen
url = "http://www.gutenberg.org/files/2554/2554-0.txt"

raw = str(urlopen(url).read())
print(raw)
print(type(raw))
print(len(raw))
print(raw[:75])
tokens = nltk.word_tokenize(raw)
print(type(tokens))
print(len(tokens))
print(tokens[:10])
text = nltk.Text(tokens)
print(type(text))
print(text[1020:1060])
print(text.collocations())
print(raw.find("PAPT I"))
print(raw.rfind("End of Project Gutenberg‘s Crime"
))
print(raw[5303:1157681])
print(raw.find("PART I"))
處理的HTML
from bs4 import BeautifulSoup
url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = str(urlopen(url).read())
print(html[:60])
raw = BeautifulSoup(html).get_text()
tokens = nltk.word_tokenize(raw)
print(tokens)
tokens = tokens[96:399]
text = nltk.Text(tokens)
print(text.concordance(‘gene‘
))
處理RSS訂閱
import feedparser
llog = feedparser.parse("http://languagelog.ldc.upenn.edu/nll/?feed=atom")
print(llog[‘feed‘][‘title‘])
print(len(llog.entries))
post = llog.entries[2]
print(post.title)
content = post.content[0].value
print(content[:70])
讀取本地文件
f = open(‘document.txt‘)
raw = f.read()

python自然語言處理——3.1 從網絡和硬盤訪問文本