python結合chrome抓取動態網頁思路

阿新 • • 發佈：2019-01-19

用Python實現常規的靜態網頁抓取時，往往是用urllib2來獲取整個HTML頁面，然後從HTML檔案中逐字查詢對應的關鍵字。如下所示：

#encoding=utf-8

import urllib2

url="http://mm.taobao.com/json/request_top_list.htm?type=0&page=1"

up=urllib2.urlopen(url)#開啟目標頁面，存入變數up

cont=up.read()#從up中讀入該HTML檔案

key1='<a href="http'#設定關鍵字1
key2="target"#設定關鍵字2

pa=cont.find(key1)# 
找出關鍵字1的位置
pt=cont.find(key2,pa)#找出關鍵字2的位置(從字1後面開始查詢)

urlx=cont[pa:pt]#得到關鍵字1與關鍵字2之間的內容(即想要的資料)

print urlx

但是，在動態頁面中，所顯示的內容往往不是通過HTML頁面呈現的，而是通過呼叫js等方式從資料庫中得到資料，回顯到網頁上。

以發改委網站上的“備案資訊”（http://beian.hndrc.gov.cn/）為例，要抓取此頁面中的某些備案專案。例如“http://beian.hndrc.gov.cn/indexinvestment.jsp?id=162518”。

那麼，在瀏覽器中開啟此頁面：

相關資訊都顯示的很全了，但是如果按照之前的辦法：

up=urllib2.urlopen(url)

cont=up.read()

就抓取不到上述內容了。

我們檢視一下這個頁面對應的原始碼：

由原始碼可以看出，這個《備案確認書》屬於“填空”形式的，HTML提供文字模板，js根據不同的id提供不同的變數，“填入”到文字模板中，形成了一個具體的《備案確認書》。所以單純抓取此HTML，只能得到一些文字模板，而無法得到具體內容。

那麼，該如何找到那些具體內容呢？可以利用Chrome的“開發者工具”來尋找誰是真正的內容提供者。

開啟Chrome瀏覽器，按下鍵盤F12即可撥出此工具。如下圖：

此時選中“Network”標籤，在位址列中輸入此頁面“http://beian.hndrc.gov.cn/indexinvestment.jsp?id=162518”，瀏覽器會分析出此次響應的全過程，而紅框內的檔案，就是此次響應中，瀏覽器和web後端的所有通訊。

因為要獲得不同企業對應的不同資訊，那麼瀏覽器傳送給伺服器的請求裡面一定會有一個和當前企業id有關的引數。

那麼，引數是多少呢？URL上有，是“jsp?id=162518”，問號表示要呼叫引數，後面跟的是id號即是被呼叫的引數。而通過對這幾個檔案的分析，很顯然，企業資訊存在於“indexinvestment.action”檔案中。

然而，雙擊開啟此檔案並不能獲得企業資訊，而是一堆程式碼。因為沒有對應的引數為它指明要顯示第幾號的資訊。如圖：

那麼，應該如何將引數傳遞給它呢？這時我們仍舊看F12視窗：

“Header”一欄中明確地顯示出了此次響應的過程：

對目標URL，用POST的方式，傳遞了一個id為162518的引數。

我們先手工操作一下。js是如何呼叫引數的呢？對，上面說過：問號+變數名+等號+變數對應的數字。也就是說，向“http://beian.hndrc.gov.cn/indexinvestment.action”這個頁面提交id為162518的引數時，應該在URL後面加上

“?id=162518”,即

“http://beian.hndrc.gov.cn/indexinvestment.action?id=162518”。

我們把這個URL貼上到瀏覽器中來看：

似乎有了點內容，可是都是亂碼啊，怎麼破？熟悉的朋友可能一眼就看出來，這是編碼的問題。是因為響應回來的內容與瀏覽器預設的編碼方式不同。只需要在Chrome右上角選單——更多工具——編碼——“自動檢測”即可。（其實這是UTF-8的編碼，而Chrome預設的是中文簡體）。如下圖：

好了，真正的資訊源已經被挖出，剩下的就是用Python處理這些頁面上的字串，然後剪下、拼接，重新組成新的《專案備案書》了。

再然後使用for、while等迴圈，批量獲取這些《備案書》。

正如“不論是靜態網頁，動態網頁，模擬登陸等，都要先分析、搞懂邏輯，再去寫程式碼”所說，程式語言只是一個工具，重要的是解決問題的思路。有了思路，再尋找趁手的工具去解決，就OK了。

轉自http://www.cnblogs.com/codex/p/4179225.html

python結合chrome抓取動態網頁思路

python結合chrome抓取動態網頁思路

Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL

在使用python的selenium庫抓取動態網頁時，瀏覽器內容出現空白的解決方式

Python之抓取動態網頁

如何用Python，C#等語言去實現抓取靜態網頁+抓取動態網頁+模擬登陸網站

Scrapy抓取動態網頁

java webmagic 抓取靜態網頁資源,抓取動態網頁資源

Python使用selenium爬取動態網頁時遇到的問題

Selenium及Headless Chrome抓取動態HTML頁面

【python爬蟲】抓取連結網頁內的文字（第一步定位超連結文字）

python 爬取動態網頁（百度圖片）

[Python爬蟲]Scrapy配合Selenium和PhantomJS爬取動態網頁

python抓取動態資料 A股上市公司基本資訊

Python爬蟲抓取動態資料

Python爬蟲爬取動態頁面思路+例項（一）

（python解析js）selenium結合phantomjs抓取js生成的頁面

Python如何爬取動態網頁資料

（python解析js）scrapy結合ghost抓取js生成的頁面，以及js變數的解析

Python抓取HTML網頁並以PDF儲存

python爬蟲-->抓取動態內容

python結合chrome抓取動態網頁思路

相關推薦