python3.x如何從網際網路獲取想要的文章，及轉化為nltk可以處理的文字

阿新 • • 發佈：2019-01-22

from urllib.request import urlopen
from bs4 import BeautifulSoup
from nltk import word_tokenize
import nltk
#2種方式解析HTML中的文字
url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read().decode('utf8')
print(html[:60])
#print(html)
#第一種，使用find和rfind查詢到文字的開始位置和結束位置，使用python的切片功能
raw = BeautifulSoup(html,'lxml').get_text()#如果出現bs4.FeatureNotFound：（沒有安裝解析器只需在cmd下:pip install lxml即可）

tokens = word_tokenize(raw)
print(tokens[:10])#檢測HTML文字
print(raw.find("Blondes 'to die out in 200 years'"))
print(raw.rfind("The frequency of blondes may drop but they won't disappear."))
#print(raw[22:2449])列印整篇報道

#第二種，使用beautifulsoup自帶的功能，匹配到相應的模組，輸出文字內容（此時不包含標題，如果需要還需再找相應的模組）
bs = BeautifulSoup(html,'lxml')
print(bs.find("div",class_='bodytext').get_text())
#過濾無關內容
tokens = tokens[110:390]
text = nltk.Text(tokens)#把文字轉化為nltk文字進行後續處理
print(text.concordance('gene'))

python3.x如何從網際網路獲取想要的文章，及轉化為nltk可以處理的文字

python3.x如何從網際網路獲取想要的文章，及轉化為nltk可以處理的文字

java獲取excel中資料，並轉化為JSON格式

在網際網路界, 想要從程式設計師變身為架構師, 期間你要走這些路!

SQL injection 1: 如何從資料庫中獲取想要獲得的內容?

如何利用Python爬蟲從網頁上批量獲取想要的資訊？

Java解析html頁面,獲取想要的元素

Python3.x：定時獲取頁面數據存入數據庫

Java程式設計師想要高薪，看完這篇文章就夠了

uiautomator中相同控制元件名該如何獲取想要的控制元件，instance(0)區分佈局一樣的控制元件

java遍歷複雜json字串獲取想要的資料

java遍歷復雜json字符串獲取想要的數據

DemoSpinner有關多個Spinner的例子，網上找的都不是想要的，可以網路獲取資料新增的Spinner

可持續整合：配合jenkins通過python模組訪問gerrit並獲取想要的資訊

Guitar Pro中文版下載，你想要的，都在這啦！

想要自由，不甘被管束？

中國的互聯網企業逐步走向“單一企業多樣化，商業生態同質化”，美國的互聯網企業則會走向“單一企業專業化，商業生態多樣化”：3.5星|《VUCA時代，想要成功，這些原則你一定得明白》

如果想要跨平臺，在file類下有separtor()，返回鎖出平臺的文件分隔符

黃豆豆“宋慶齡講壇”開講：想要成功，堅持比什麼都重要

無人駕駛汽車想要“普渡眾生”，還要經歷15個磨難

超過兩行...,只有兩行或少於兩行無...且沒有檢視更多文字關鍵思路：超過兩行...用ellipsis,但是為了判斷文字是否多餘兩行，所以要獲取節點的高度，如果大於兩行則文字出現，否則沒有更多文字

python3.x如何從網際網路獲取想要的文章，及轉化為nltk可以處理的文字

相關推薦