Python爬蟲之解析網頁

阿新 • • 發佈：2018-12-09

常用的類庫為lxml, BeautifulSoup, re(正則)

以獲取豆瓣電影正在熱映的電影名為例,url='https://movie.douban.com/cinema/nowplaying/beijing/'

網頁分析

部分網頁原始碼

<ul class="lists">
                    <li
                        id="3878007"
                        class="list-item"
                        data-title="海王"
                        data-score="8.2"
                        data-star="40"
                        data-release="2018"
                        data-duration="143分鐘"
                        data-region="美國 澳大利亞"
                        data-director="溫子仁"
                        data-actors="傑森·莫瑪 / 艾梅柏·希爾德 / 威廉·達福"
                        data-category="nowplaying"
                        data-enough="True"
                        data-showed="True"
                        data-votecount="105013"
                        data-subject="3878007"
                    >

分析可知我們要的電影名稱資訊在li標籤的data-title屬性裡

下面開始寫程式碼

爬蟲原始碼展示

import requests
from lxml import etree              # 匯入庫
from bs4 import BeautifulSoup
import re

import time

# 定義爬蟲類
class Spider():
    def __init__(self):
        self.url = 'https://movie.douban.com/cinema/nowplaying/beijing/'

        self.headers = {
            'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
        }
        r = requests.get(self.url,headers=self.headers)
        r.encoding = r.apparent_encoding
        self.html = r.text

    def lxml_find(self):
        '''用lxml解析'''
        start = time.time()                     # 三種方式速度對比
        selector = etree.HTML(self.html)        # 轉換為lxml解析的物件
        titles = selector.xpath('//li[@class="list-item"]/@data-title')    # 這裡返回的是一個列表
        for each in titles:
            title = each.strip()        # 去掉字元左右的空格
            print(title)
        end = time.time()
        print('lxml耗時', end-start)

    def BeautifulSoup_find(self):
        '''用BeautifulSoup解析'''
        start = time.time()
        soup = BeautifulSoup(self.html, 'lxml')   # 轉換為BeautifulSoup的解析物件()裡第二個引數為解析方式
        titles = soup.find_all('li', class_='list-item')
        for each in titles:
            title = each['data-title']
            print(title)
        end = time.time()
        print('BeautifulSoup耗時', end-start)

    def re_find(self):
        '''用re解析'''
        start = time.time()
        titles = re.findall('data-title="(.+)"',self.html)
        for each in titles:
            print(each)
        end = time.time()
        print('re耗時', end-start)

if __name__ == '__main__':
    spider = Spider()
    spider.lxml_find()
    spider.BeautifulSoup_find()
    spider.re_find()

輸出結果

海王
無名之輩
無敵破壞王2：大鬧網際網路
狗十三
驚濤颶浪
毒液：致命守護者
憨豆特工3
神奇動物：格林德沃之罪
恐龍王
老爸102歲
生活萬歲
進擊的男孩
摘金奇緣
亡命救贖
一百年很長嗎
雲上日出
誰是壞孩子
照相師
緣·夢
網路謎蹤
龍貓
印度合夥人
綠毛怪格林奇
最萌警探
春天的馬拉松
lxml耗時 0.007623910903930664
海王
無名之輩
無敵破壞王2：大鬧網際網路
狗十三
驚濤颶浪
毒液：致命守護者
憨豆特工3
神奇動物：格林德沃之罪
恐龍王
老爸102歲
生活萬歲
進擊的男孩
摘金奇緣
亡命救贖
一百年很長嗎
超時空大冒險
天渠
愛不可及
二十歲
你好，之華
冒牌搭檔
鐵甲戰神
克隆人
恐怖快遞
中國藍盔
阿凡提之奇緣歷險
名偵探柯南：零的執行人
為邁克爾·傑克遜鑄造雕像
再見仍是朋友
心迷宮
淡藍琥珀
阿拉姜色
兩個俏公主
雲上日出
誰是壞孩子
照相師
緣·夢
網路謎蹤
龍貓
印度合夥人
綠毛怪格林奇
最萌警探
春天的馬拉松
BeautifulSoup耗時 0.061043500900268555
海王
無名之輩
無敵破壞王2：大鬧網際網路
狗十三
驚濤颶浪
毒液：致命守護者
憨豆特工3
神奇動物：格林德沃之罪
恐龍王
老爸102歲
生活萬歲
進擊的男孩
摘金奇緣
亡命救贖
一百年很長嗎
超時空大冒險
天渠
愛不可及
二十歲
你好，之華
冒牌搭檔
鐵甲戰神
克隆人
恐怖快遞
中國藍盔
阿凡提之奇緣歷險
名偵探柯南：零的執行人
為邁克爾·傑克遜鑄造雕像
再見仍是朋友
心迷宮
淡藍琥珀
阿拉姜色
兩個俏公主
雲上日出
誰是壞孩子
照相師
緣·夢
網路謎蹤
龍貓
印度合夥人
綠毛怪格林奇
最萌警探
春天的馬拉松
re耗時 0.0004856586456298828

程式碼說明

1. lxml

lxml是通過xpath來查詢

使用前需使用呼叫ertee.HTML()方法('()'內填HTML程式碼)生成一個可查詢的物件

常用xpath語法如下

// 兩個斜槓為向下查詢孫子標籤

/ 一個斜槓為查詢直接兒子標籤

[] 方括號內填標籤屬性,如查詢class屬性為name的a標籤,格式為a[@class="name"]

/text() 取出標籤的內容,如查詢網頁中的 <a class="name">KAINHUCK</a> 中的KAINHUCK,格式為//a[@class="name"]/text()

/@attr 取出標籤的屬性,如查詢網頁中的 <a class="name">KAINHUCK</a> 中的class屬性值name,格式為//a[@class="name"]/@class

2. BeautifulSoup
使用前需先將HTML轉換為課查詢物件,格式為

BeautifulSoup(html, 'lxml')

html 為HTML程式碼, 後面的引數為轉換方法(其他方法有'html.parser' , 'html5lib', 推薦使用'lxml')

查詢方法

info = find('a', id='kain') 查詢第一個id屬性為kain的a標籤,並存進info變數中(其他標籤同理)

find_all('a', class_='name') 查詢所有class屬性為name的a標籤(注:class屬性需寫成'class_')

info.p.text 獲取第一個id屬性為kain的a標籤下的p標籤的內容(info為上面例子裡的info,其他同理)

info.p['name'] 獲取第一個id屬性為kain的a標籤下的p標籤的name屬性值(info為上面例子裡的info,其他同理)

當代碼中有很多同級標籤時
<p class='info-list'>
       <a class='name'>text1</a>
       <a class='name'>text2</a>
       <a class='name'>text3</a>
       <a class='name'>text4</a>
   </p>
示例程式碼如下
from bs4 import BeautifulSoup

html = '''
   <p class='info-list'>
       <a class='name'>text1</a>
       <a class='name'>text2</a>
       <a class='name'>text3</a>
       <a class='name'>text4</a>
   </p>
'''
soup = BeautifulSoup(html, 'lxml')
texts = soup.find('p', class_='info-list')
print(texts.contents[1].text)    # 輸出text1
print(texts.contents[2].text)    # 輸出text2
print(texts.contents[3].text)    # 輸出text3
print(texts.contents[4].text)    # 輸出text4
注意:不是從0開始
3. re(正則表示式)

正則表示式內容較多,大家可以參考這裡

總結

使用lxml查詢時可以在目標網頁按F12調出開發者視窗然後再在按Ctrl+f查詢,在查詢欄裡輸入你的xpath語法可以檢查是否能找到對應內容

可以從看例子的輸出中看出三種方法的速度

lxml耗時 0.007623910903930664

BeautifulSoup耗時 0.061043500900268555

re耗時 0.0004856586456298828

對以上三種最常用的解析網頁的方法做個對比

	lxml	BeautifulSoup	re
語法難易度	簡單	簡單	複雜
查詢速度	較快	慢	快

綜上,對於網頁內容的解析,這裡推薦新手使用lxml方法,而對速度有要求就使用正則表示式(入門有點困難)

python爬蟲之解析網頁的工具pyquery

div blog import 很多 aof pyquery from text lec 主要是對http://www.cnblogs.com/zhaof/p/6935473.html這篇博客所做的筆記有疑惑可以去看這篇文章from pyquery import PyQue

Python爬蟲之解析網頁

常用的類庫為lxml, BeautifulSoup, re(正則) 以獲取豆瓣電影正在熱映的電影名為例,url='https://movie.douban.com/cinema/nowplaying/beijing/' 網頁分析部分網頁原始碼 <ul class="lists">

python網路爬蟲之解析網頁的正則表示式(爬取4k動漫圖片)[三]

前言 hello,大家好本章可是一個重中之重，因為我們今天是要爬取一個圖片而不是一個網頁或是一個json 所以我們也就不用用到selenium模組了，當然有興趣的同學也一樣可以使用selenium去爬取。為了方便我們就用requests模組就夠了，因為夠快。。。上章的課程傳送門： [python網路爬蟲

python爬蟲之定位網頁元素的三種方式

python爬蟲之定位網頁元素的三種方式 2018年08月02日 13:30:02 Barry__ 閱讀數：1373 標籤： python 更多個人分類： python 版權宣告：本文為博主原創文章，轉載請註明出處 https://blog

python爬蟲之真實世界中的網頁解析

爬蟲兩種 del http協議 head 常用 nbsp 是我返回 Request和Response Request是我們平常瀏覽網頁，向網站所在的服務器發起請求，而服務器收到請求後，返回給我們的回應就是Response，這種行為就稱為HTTP協議，也就是客戶端（瀏覽器

python爬蟲之BeautifulSoup解析網頁

BeautifulSoup是一個很簡單又好用的庫，不過解析速度相對比較慢，使用如下： 1，安裝 pip install bs4 （被加到了bs4中） #python3用pip3 install bs4 ，如果有許可權問題，可以試試，pip install bs4 --

python網路爬蟲與資訊採取之解析網頁例項---oJ期末成績排名

目的:打印出排名，學號，姓名，成績；首先，開啟網頁的原始碼，如下：你會發現，很混亂，沒有層次感；不用急，告訴你一個小技巧，先使用 soup.prettify（）函式進行格式化一下，得到如下結果：這樣就好受多了；接下來對原始碼進行分析；你會想這麼多難道要一句句

python網路爬蟲與資訊採取之解析網頁（三）---- BeautifulSoup庫的導航樹例項

上篇我們講到了通過標籤的名稱和屬性來查詢標籤的findAll（),本篇將講解如何通過標籤在文件中的位置進行查詢------導航樹一篇文章，可以將其標籤分為子標籤，父標籤和兄弟標籤。而導航樹的功能就是

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

Python爬蟲【解析庫之beautifulsoup】

close **kwargs contents pip and lac 代碼 ide num 解析庫的安裝 pip3 install beautifulsoup4 初始化 BeautifulSoup(str,"解析庫") from bs4 import B

python爬蟲之xpath和lxml解析內容

上兩章說了urllib和request庫如何訪問一個頁面或者介面，從而獲取資料，如果是訪問介面，還好說，畢竟返回的json還是很好解析的，他是結構化的，我們可以把它轉化成字典來解析，但是如果返回的是xml或者html,就有點麻煩了，今天就主要說一下如果解析這些h

Python爬蟲之Beautiful Soup解析庫的使用（五）

Python爬蟲之Beautiful Soup解析庫的使用 Beautiful Soup-介紹 Python第三方庫，用於從HTML或XML中提取資料官方：http://www.crummv.com/software/BeautifulSoup/ 安裝：pip install beautifulsoup4

[原創]python爬蟲之BeautifulSoup,爬取網頁上所有圖片標題並存儲到本地文件

%20 分享圖片本地 col cbc quest 執行 python div from bs4 import BeautifulSoup import requests import re import os r = requests.get("https:/

[Python爬蟲] 之十五：Selenium +phantomjs根據微信公眾號抓取微信文章

頭部 drive lac 過程標題操作函數軟件測試 init 　　借助搜索微信搜索引擎進行抓取　　抓取過程　　1、首先在搜狗的微信搜索頁面測試一下，這樣能夠讓我們的思路更加清晰　　　　　　在搜索引擎上使用微信公眾號英文名進行“搜公眾號&r

玩轉python爬蟲之URLError異常處理

bsp 無法識別 pac 使用 cin lai 網絡處理方式地址這篇文章主要介紹了python爬蟲的URLError異常處理，詳細探尋一下URL\HTTP異常處理的相關內容，通過一些具體的實例來分析一下，非常的簡單，但是卻很實用，感興趣的小夥伴們可以參考一下本節

python爬蟲之正則表達式

ner cde 輸入 set 神奇 tro 轉義規則 error 一、簡介　　正則表達式，又稱正規表示式、正規表示法、正規表達式、規則表達式、常規表示法（英語：Regular Expression，在代碼中常簡寫為regex、regexp或RE），計算機科學的一個概念。

[Python爬蟲] 之十九：Selenium +phantomjs 利用 pyquery抓取超級TV網數據

images 判斷 nco dex onf etc lac lin 利用　　一、介紹　　　　本例子用Selenium +phantomjs爬取超級TV（http://www.chaojitv.com/news/index.html）的資訊信息，輸入給定關鍵字抓取

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

python爬蟲之git的使用

mage .cn 沒有倉庫本地倉庫 odin src python爬蟲建立 1、初始化文件夾為版本控制文件夾，首先建立一個文件夾，進入這個文件夾以後輸入git init初始化這個文件夾。 2、Git幾種位置概念 1、本地代碼：本地更改完代碼以後，雖然是存放在git的

Python爬蟲之解析網頁

常用的類庫為lxml, BeautifulSoup, re(正則)

網頁分析

部分網頁原始碼

爬蟲原始碼展示

程式碼說明

1. lxml

2. BeautifulSoup

3. re(正則表示式)

總結

對以上三種最常用的解析網頁的方法做個對比

相關推薦