1. 程式人生 > >Python學習筆記__12.11章 HTML Parser

Python學習筆記__12.11章 HTML Parser

編程語言 Python

1、概覽

HTML本質上是XML的子集,但是HTML的語法沒有XML那麽嚴格,所以不能用標準的DOM或SAX來解析HTML。

Python提供了HTMLParser來非常方便地解析HTML。而且,HTMLParse類裏的函數名是不能改的

from html.parser import HTMLParser

from html.entities import name2codepoint

class MyHTMLParser(HTMLParser):

# 處理開始標簽,比如<div>;這裏的attrs獲取到的是屬性列表,屬性以元組的方式展示

# <time datetime="2018">,

tag標簽是timeargs[["datetime","2018"]]

def handle_starttag(self, tag, attrs):

print('<%s>' % tag)

def handle_endtag(self, tag): # 處理結束標簽,比如</div>

print('</%s>' % tag)

def handle_startendtag(self, tag, attrs): # 處理自己結束的標簽,如<img />

print('<%s/>' % tag)

def handle_data(self, data): #處理數據,標簽之間的文本

print(data)

def handle_comment(self, data): # 打印註釋

print('<!--', data, '-->')

def handle_entityref(self, name): # 打印<body>中,沒有被標簽圈起來的內容 HTML&nbsp;tutorial...

print('&%s;' % name)

def handle_charref(self, name): # 打印特殊符號 &nbsp;--

print('&#%s;' % name)

parser = MyHTMLParser()

# feed(str),為解釋器提供文本。

parser.feed('''<html>

<head></head>

<body>

<!-- test html parser -->

<p>Some <a href=\"#\">html</a> HTML&nbsp;tutorial...<br>END</p>

</body></html>''')

2、擴展文檔

Python爬蟲常用之HtmlParser (https://www.cnblogs.com/masako/p/5868367.html)

3、例子

1、找一個網頁,例如https://www.python.org/events/python-events/,用瀏覽器查看源碼並復制,然後嘗試解析一下HTML,輸出Python官網發布的會議時間、名稱和地點。

方法一:來源於廖雪峰老師網站“v魯魯修圍脖 ”提交的作業

from html.parser import HTMLParser

from html.entities import name2codepoint

from urllib import request

import re

class MyHTMLParser(HTMLParser):

a_t1 = False # 用於匹配狀態的判斷

a_t2 = False

a_t3 = False

def __init__(self): # 初始化實例

HTMLParser.__init__(self)

self.information = []

self.information_all = {}

def handle_starttag(self, tag, attrs): # attrs是list['list']的存儲方式

def _attr(attrlist, attrname): # 接受的參數都是 attrs,和‘class

for attr in attrlist: # attrs [[],[]]類的,那attr就是裏面的list

if attr[0] == attrname: #如果匹配,返回attr[1]

return attr[1]

return None

if tag=="time" : # 如果條件對上了,修改匹配狀態為True

self.a_t1 = True

elif tag=="span" and _attr(attrs, 'class')=="event-location":

self.a_t2 = True

elif tag=="h3" and _attr(attrs, 'class')=="event-title":

self.a_t3 = True

def handle_data(self, data):

if self.a_t1 is True:

if re.match(r'^\s\d{4}', data): # data數據

self.information.append(dict(year=data))

else:

self.information.append(dict(day=data))

elif self.a_t2 is True:

self.information.append(dict(event_location=data)) 取地址數據

elif self.a_t3 is True:

self.information.append(dict(event_title=data)) # 取標題數據

def handle_endtag(self, tag): # 將匹配狀態重置,為後續繼續檢索做準備

if tag == "time":

self.a_t1 = False

elif tag =="span":

self.a_t2 = False

elif tag == "h3":

self.a_t3 = False

def parseHTML(html_str):

parser = MyHTMLParser()

parser.feed(html_str) #接受HTML並解析

for i, val in enumerate(parser.information): #enumeratelist變為索引-元素對。遍歷打印value

i += 1

print(val)

if i%4==0:

print('--------------------------------------------')

URL = 'https://www.python.org/events/python-events/'

with request.urlopen(URL, timeout=4) as f: # 收集頁面信息

data = f.read()

parseHTML(data.decode('utf-8')) #將收到的信息解碼,並傳給parseHTML()調用

方法二:來源於廖雪峰老師網站“葉藏桑 ”提交的作業

from html.parser import HTMLParser

from urllib import request

import re

class MyHTMLParser(HTMLParser):

flag = 0

res = []

is_get_data = 0

def handle_starttag(self, tag, attrs):

# 首先找到包裹事件的元素

if tag == 'ul':

for attr in attrs:

if re.match(r'list-recent-events', attr[1]):

self.flag = 1

# 處理包裹事件名稱的a元素

if tag == 'a' and self.flag == 1:

self.is_get_data = 'title'

# 處理時間的time元素

if tag == 'time' and self.flag == 1:

self.is_get_data = 'time'

# 處理包裹地點的time元素

if tag == 'span' and self.flag == 1:

self.is_get_data = 'addr'

def handle_endtag(self, tag):

if self.flag == 1 and tag == 'ul':

self.flag = 0

def handle_data(self, data):

if self.is_get_data and self.flag == 1:

if self.is_get_data == 'title':

#獲得title,即會議名時,給res添加一個新dict:res 由[] 變為 [{'title':'PyCascades 2018'}],此時len(self.res)==1

self.res.append({self.is_get_data: data})

else:

# 獲得addr,time這樣的其它屬性時,相當於res[0][time]=data。

# 這是將time=data鍵值對加到了此前的那個字典裏,現在len(self.res)依然==1

self.res[len(self.res) - 1][self.is_get_data] = data

self.is_get_data = None

parser = MyHTMLParser()

with request.urlopen('https://www.python.org/events/python-events/') as f:

data = f.read().decode('utf-8')

parser.feed(data)

for item in MyHTMLParser.res:

print('---------------')

for k,v in item.items():

print("%s : %s" % (k,v))


Python學習筆記__12.11章 HTML Parser