1. 程式人生 > >python簡單的HTML解析

python簡單的HTML解析

text html lxml 選擇 cape req get from fff

# coding:utf-8 # 引入相關模塊 import json import requests from bs4 import BeautifulSoup url = "http://news.qq.com/" # 請求騰訊新聞的URL,獲取其text文本 wbdata = requests.get(url).text # 對獲取到的文本進行解析 soup = BeautifulSoup(wbdata,‘lxml‘) # 從解析文件中通過select選擇器定位指定的元素,返回一個列表 news_titles = soup.select("div.text > em.f14 > a.linkto") #對返回的列表進行遍歷 for n in news_titles: # 提取出標題和鏈接信息 title = n.get_text() link = n.get("href") data = { ‘標題‘:title, ‘鏈接‘:link } print json.dumps(data).decode("unicode-escape").replace(u‘\ufffd‘, u‘ ‘)

python簡單的HTML解析