Python爬蟲解析網頁的三種方法，lxml、BeautifulSoup、re案例！

阿新 • • 發佈：2018-12-09

常用的類庫為lxml，BeautifulSoup，re(正則)

學習Python中有不明白推薦加入交流群
號：960410445
群裡有志同道合的小夥伴，互幫互助，
群裡有不錯的視訊學習教程和PDF！

	以獲取豆瓣電影正在熱映的電影名為例,url='https://movie.douban.com/cinema/nowplaying/beijing/'

網頁分析

部分網頁原始碼

<ul class="lists">
 <li
 id="3878007"
 class="list-item"
 data-title="海王"
 data-score="8.2"
 data-star="40"
 data-release="2018"
 data-duration="143分鐘"
 data-region="美國 澳大利亞"
 data-director="溫子仁"
 data-actors="傑森·莫瑪 / 艾梅柏·希爾德 / 威廉·達福"
 data-category="nowplaying"
 data-enough="True"
 data-showed="True"
 data-votecount="105013"
 data-subject="3878007"
 >

分析可知我們要的電影名稱資訊在li標籤的data-title屬性裡

下面開始寫程式碼

爬蟲原始碼展示

import requests
from lxml import etree # 匯入庫
from bs4 import BeautifulSoup
import re
import time
# 定義爬蟲類
class Spider():
 def __init__(self):
 self.url = 'https://movie.douban.com/cinema/nowplaying/beijing/'
 self.headers = {
 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
 }
 r = requests.get(self.url,headers=self.headers)
 r.encoding = r.apparent_encoding
 self.html = r.text
 def lxml_find(self):
 '''用lxml解析'''
 start = time.time() # 三種方式速度對比
 selector = etree.HTML(self.html) # 轉換為lxml解析的物件
 titles = selector.xpath('//li[@class="list-item"]/@data-title') # 這裡返回的是一個列表
 for each in titles:
 title = each.strip() # 去掉字元左右的空格
 print(title)
 end = time.time()
 print('lxml耗時', end-start)
 def BeautifulSoup_find(self):
 '''用BeautifulSoup解析'''
 start = time.time()
 soup = BeautifulSoup(self.html, 'lxml') # 轉換為BeautifulSoup的解析物件()裡第二個引數為解析方式
 titles = soup.find_all('li', class_='list-item')
 for each in titles:
 title = each['data-title']
 print(title)
 end = time.time()
 print('BeautifulSoup耗時', end-start)
 def re_find(self):
 '''用re解析'''
 start = time.time()
 titles = re.findall('data-title="(.+)"',self.html)
 for each in titles:
 print(each)
 end = time.time()
 print('re耗時', end-start)
if __name__ == '__main__':
 spider = Spider()
 spider.lxml_find()
 spider.BeautifulSoup_find()
 spider.re_find()

輸出結果

海王
無名之輩
無敵破壞王2：大鬧網際網路
狗十三
驚濤颶浪
毒液：致命守護者
憨豆特工3
神奇動物：格林德沃之罪.......................

程式碼說明

1. lxml

lxml是通過xpath來查詢

使用前需使用呼叫ertee.HTML()方法('()'內填HTML程式碼)生成一個可查詢的物件

常用xpath語法如下

//兩個斜槓為向下查詢孫子標籤

/一個斜槓為查詢直接兒子標籤

[]方括號內填標籤屬性,如查詢class屬性為name的a標籤,格式為a[@class="name"]

/text()取出標籤的內容,如查詢網頁中的 <a class="name">KAINHUCK</a> 中的KAINHUCK,格式為 //a[@class="name"]/text()

/@attr取出標籤的屬性,如查詢網頁中的 <a class="name">KAINHUCK</a> 中的class屬性值name,格式為 //a[@class="name"]/@class

2. BeautifulSoup

使用前需先將HTML轉換為課查詢物件,格式為

BeautifulSoup(html, 'lxml')

html 為HTML程式碼, 後面的引數為轉換方法(其他方法有 'html.parser' , 'html5lib' , 推薦使用 'lxml')

查詢方法

info = find('a', id='kain') 查詢第一個id屬性為kain的a標籤,並存進info變數中(其他標籤同理)

find_all('a', class_='name')查詢所有class屬性為name的a標籤(注: class 屬性需寫成 'class_')

info.p.text獲取第一個id屬性為kain的a標籤下的p標籤的內容(info為上面例子裡的info,其他同理)

info.p['name']獲取第一個id屬性為kain的a標籤下的p標籤的name屬性值(info為上面例子裡的info,其他同理)

當代碼中有很多同級標籤時

<p class='info-list'>
 <a class='name'>text1</a>
 <a class='name'>text2</a>
 <a class='name'>text3</a>
 <a class='name'>text4</a>
 </p>

示例程式碼如下

from bs4 import BeautifulSoup
html = '''
 <p class='info-list'>
 <a class='name'>text1</a>
 <a class='name'>text2</a>
 <a class='name'>text3</a>
 <a class='name'>text4</a>
 </p>
'''
soup = BeautifulSoup(html, 'lxml')
texts = soup.find('p', class_='info-list')
print(texts.contents[1].text) # 輸出text1
print(texts.contents[2].text) # 輸出text2
print(texts.contents[3].text) # 輸出text3
print(texts.contents[4].text) # 輸出text4

注意:不是從0開始

3. re(正則表示式)

正則表示式內容較多,大家可以參考這裡

總結

使用lxml查詢時可以在目標網頁按F12調出開發者視窗然後再在按Ctrl+f查詢,在查詢欄裡輸入你的xpath語法可以檢查是否能找到對應內容

可以從看例子的輸出中看出三種方法的速度

lxml耗時 0.007623910903930664
BeautifulSoup耗時 0.061043500900268555
re耗時 0.0004856586456298828

對以上三種最常用的解析網頁的方法做個對比

Python爬蟲解析網頁的三種方法，lxml、BeautifulSoup、re案例！

綜上,對於網頁內容的解析,這裡推薦新手使用lxml方法,而對速度有要求就使用正則表示式(入門有點困難)

python爬蟲--解析網頁幾種方法之正則表達式

ima 3.5 ref string tex href quest user lin 1、正則表達式正則表達式是一個特殊的字符序列，它能幫助你方便的檢查一個字符串是否與某種模式匹配。 re 模塊使 Python 語言擁有全部的正則表達式功能。 re.match函數 re.

python爬蟲--解析網頁幾種方法之BeautifulSoup

first div xml html find 抓取 XML 格式速度慢析取一.解析器概述 soup=BeautifulSoup(response.body) 對網頁進行析取時，並未規定解析器，此時使用的是python內部默認的解析器“html.parser”

Python爬蟲解析網頁的三種方法，lxml、BeautifulSoup、re案例！

常用的類庫為lxml，BeautifulSoup，re(正則) 學習Python中有不明白推薦加入交流群號：960410445 &nb

Python類三種方法，函數傳參，類與實例變量(一)

strong 什麽實例變量 exec 單獨 python的函數 %s 類對象工作 1 Python的函數傳遞：首先所有的變量都可以理解為內存中一個對象的‘引用’ a = 1 def func(a): a = 2 func(a) print(a) # 1 a

Python ：單元測試的三種方法，函式測試，類測試，文件測試

對程式的功能修改時，判斷是否影響了原有的功能使用的方法 #函式的單元測試 #類的測試方法與函式測試一致 def MySum(x,y) : return x+y def MySub(x,y) : return x-y #假設對以上的模組進行了修改，需要判斷是否對原有的

Python列表刪除的三種方法

存儲需要刪除元素 /usr 一個 last 可能 light pytho 1、使用del語句刪除元素 >>> i1 = ["a",‘b‘,‘c‘,‘d‘] >>> del i1[0] >>> print(i1)

Linux安裝軟件包的三種方法，rpm包介紹，rpm工具用法，yum工具用法，yum搭建本地倉庫

rpm yum 筆記內容：l 7.1 安裝軟件包的三種方法l 7.2 rpm包介紹l 7.3 rpm工具用法l 7.4 yum工具用法l 7.5 yum搭建本地倉庫筆記日期：2017.8.9 7.1 安裝軟件包的三種方法rpm工具類似於Windows的exe文件，可以直接進行安裝，而且安裝路徑和文件名

Python中替換的三種方法

nbsp 分享分別是 images 空白圖片 png 除開 str strip() replace() re.sub() 1.replace()是python的內置函數，字符類型.replace(old,new) s1="你好2017" s1.rep

簡談下載安裝Python第三方庫的三種方法

arm 測試 rip isp .com 兩種 TP 宋體 file 如何下載安裝Python第三方庫（註：此文章以Windows的安裝環境為前提）　一、利用Python中的pip進行第三方庫的下載　　　首先我們要搞清楚Python中的pip是個什麽東東？pip是一個安

Python讀取txt的三種方法

方法一： #read txt method one f = open( "./ima

python反轉list的三種方法

現有a = [1,2,3,4,5],現需要進行對a進行反轉方法1：list(reversed(a)) reversed(a)返回的是迭代器，所以前面加個list轉換

排序演算法1——圖解氣泡排序及其實現（三種方法，基於模板及函式指標）

排序演算法1——圖解氣泡排序及其實現（三種方法，基於模板及函式指標）排序演算法2——圖解簡單選擇排序及其實現排序演算法3——圖解直接插入排序以及折半（二分）插入排序及其實現排序演算法4——圖解希爾排序及其實現排序演算法5——圖解堆排序及其實現排序演算法6——圖解歸併排序及其遞迴與非

JAVA寫JSON的三種方法，java物件轉json資料

今天給大家講一個物件、物件集合轉json資料的三種方法，三種方法最終達到的效果是一樣的。jsonlib:個人感覺最麻煩的一個需要匯入的包也多，程式碼也相對多一些。Gson：google的。FastJson：阿里巴巴的，個人覺得這個比較好，而且據說這個也是效能最好一個。下面就貼

特徵選擇的三種方法，後面會完善詳細的演算法

特徵選擇方法大致分為三類：過濾式(filter)、包裹式(wrapper)和嵌入式(embedding)過濾式：先對資料集進行特徵選擇，然後再訓練學習器，特徵選擇過程與後續學習過程無關，比較著名的是relief(relevant features)方法包裹式：包裹式特徵選擇直

python爬蟲解析網頁編碼問題

最近做了一個需求，爬取n多新聞新聞url的正文。這些url是從百度新聞搜尋關鍵字爬取下來的碰到gbk，gb2132,utf-8網頁編碼解析時都能跑通。以下是部分程式碼，記錄一下def run(self): filename = u'D:\scrapyProject\l

間接修改Python字串元素的三種方法

Python中的字串物件是不能更改的，也即直接修改字串中的某一位或幾位字元是實現不了的，如： str1="string" str1[2]='x' 想要直接修改字串的第三位，報出如下錯誤： TypeError:'str' object does not

三種方法，重新整理 Android 的 MediaStore！讓你儲存的圖片立即出現在相簿裡！

公眾號原標題：測試：“系統相簿裡怎麼看不到我剛儲存的圖片，是我操作不對嗎？” 一、序 Hi，大家好，我是承香墨影！ App 內，建立一個檔案並儲存檔案到本地的需求，是很常見的 I/O 操作。而如果這個檔案變成了一張圖片，那你涉及到的就不僅僅

python字串反轉的三種方法

1.使用字串切片 >>> def reverse1(): ... s = input("please input a string: ") ... return s[::-1] ... >>> reverse1() pl

安裝軟體包的三種方法，rpm包介紹，rpm工具用法，yum工具用法，yum搭建本地倉庫

安裝軟體包的三種方法三種方法分別是：rpm包，yum工具，原始碼包 rpm包類似windows的安裝程式但是有一個問題，有時

struts2開發action 的三種方法以及通配符、路徑匹配原則、常量

ucc ces pan ide exce 三種 void 動態方法 div struts2開發action 的三種方法 1、繼承ActionSupport public class UserAction extends ActionSupport {

Python爬蟲解析網頁的三種方法，lxml、BeautifulSoup、re案例！

相關推薦