Python爬蟲入門——3.2 動態網頁爬蟲

阿新 • • 發佈：2019-01-16

當你搜索百度圖片時（百度圖片），你會發現，當你向下滑動滑鼠，就會自動載入下一頁的圖片資料，但是網頁的URL卻沒有改變。從而你就無法通過一般的構造URL的方法來抓取網頁資料。這是由於網頁使用了非同步載入技術。

非同步載入技術

傳統的網頁如果需要更新網頁資訊就需要重新載入整個網頁的資料資訊。因此會存在載入速度慢的情況從而導致使用者體驗感差。而採用了非同步載入技術來載入網頁資料就會通過後臺與伺服器之間少量的資料交換就可以完成資料更新。

接下來我們介紹如何抓取使用非同步載入技術的網頁資料。以簡書網為例（https://www.jianshu.com/u/9104ebf5e177）網頁為《從零開始學Python網路爬蟲》作者羅攀的簡書主頁。我們的目的是爬取使用者文章題目

1、在Chrome瀏覽器按F12或者在動態上右鍵->檢查，不斷下滑瀏覽其他動態發現網頁的URL一直是https://www.jianshu.com/u/9104ebf5e177沒有發生改變。選擇Network->XHR->Response選項會觀察到額網頁返回的是XML檔案。

2、不斷下滑網頁可以觀察Name欄的資料，可以獲得前幾頁的URL

https://www.jianshu.com/u/9104ebf5e177/?order_by=shared_at&page=2/u

https://www.jianshu.com/u/9104ebf5e177/?order_by=shared_at&page=3/u

https://www.jianshu.com/u/9104ebf5e177/?order_by=shared_at&page=4/u

3、通過分析網頁資料我們可以得到有規律的URL，然後再進行資料爬取就容易多了。下面上程式碼:

import requests
import re
#構造URL列表
urls = ['https://www.jianshu.com/u/9104ebf5e177/?order_by=shared_at&page={0}/u'.format(str(i)) for i in range(1,20)]
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
for url in urls:
    res = requests.get(url,headers = headers)
    selsctor = re.findall('<a class="title" target="_blank" href="/p/.*?">(.*?)</a>',res.content.decode('utf-8'),re.S)
    for i in selsctor:
        print(i)

Python爬蟲入門——3.2 動態網頁爬蟲

Python爬蟲入門——3.2 動態網頁爬蟲

Python 學習入門（6）—— 網頁爬蟲

Python爬蟲入門——3.1 多程序爬蟲

Python爬蟲入門 | 3 爬蟲必備Python知識

python爬蟲系列(3.2-lxml庫的使用)

Python爬蟲實戰專案2 | 動態網站的抓取（爬取電影網站的資訊）

python的爬蟲入門學習2

Python學習筆記--Python 爬蟲入門 -18-2 Scrapy-shell

Python爬蟲入門教程 2-100 妹子圖網站爬取

python--爬蟲51job(3.2)

Python爬蟲入門——3.4 模擬登入

Python爬蟲入門——3.6 Selenium 爬取淘寶資訊

Python爬蟲入門——3.3 表單互動 Post

7-13爬蟲入門之BeautifulSoup對網頁爬取內容的解析

網路爬蟲：爬取動態網頁

學習資料-----python從入門到精通100G,包括爬蟲、電子書、各種視訊教程，你不可錯過！

爬蟲入門學習2

Python十分適合用來開發網頁爬蟲

python爬蟲入門教程(一)：開始爬蟲前的準備工作

java爬蟲系列（四）——動態網頁爬蟲升級版

Python爬蟲入門——3.2 動態網頁爬蟲

相關推薦