使用python抓取js動態載入的網頁

阿新 • • 發佈：2019-01-15

原文地址：http://blog.csdn.net/lambert310/article/details/49248109

我們在做網頁抓取的時候，一般來說使用urllib和urllib2就能滿足大部分需求。

但是有時候我們遇見那種使用js動態載入的網頁。就會發現urllib只能抓出一個部分內容空白的網頁。就像下面百度圖片的結果頁：

審查元素之後，。發現百度圖片中，顯示圖片的div為：pullimages

這個div裡面的內容是動態載入的。而使用urllib&urllib2是抓取不到的。

要抓取動態載入的元素，首先考慮使用selenium來呼叫瀏覽器進行抓取。

而我們執行的環境是linux，最理想的方法是在無介面情況下進行抓取。

所以使用selenium+phantomjs來進行無介面抓取

phantomjs是什麼呢？它是一個基於webkit核心的無頭瀏覽器，即沒有UI介面，即它就是一個瀏覽器

selenium和phantomjs的安裝配置可以google，這裡就略過不談了

程式碼如下：

from selenium import webdriver
driver = webdriver.PhantomJS(executable_path='/bin/phantomjs/bin/phantomjs')#如果不方便配置環境變數。就使用phantomjs的絕對路徑也可以

driver.get('http://image.baidu.com/i?ie=utf-8&word=%E5%91%A8%E6%9D%B0%E4%BC%A6')#抓取了百度圖片，query：周杰倫

driver.page_source #這就是返回的頁面內容了，與urllib2.urlopen().read()的效果是類似的，但比urllib2強在能抓取到動態渲染後的內容。

driver.quit()

到這裡。就抓取動態頁面成功了。

js動態載入，可以用Python模擬請求。

原文地址：https://www.zhihu.com/question/21332889

像這種情況一般是非同步請求json或者jsonp，直接監控network就行了：
以chrome瀏覽器為例。
1.右鍵頁面-審查元素-Network，切換到network面板，重新整理頁面。
然後瀏覽器和web後端的通訊會被記錄下來。
&lt;img src="https://pic2.zhimg.com/fafe221837c03f3229b0ed2dad3977e9_b.jpg" data-rawwidth="1219" data-rawheight="225" class="origin_image zh-lightbox-thumb" width="1219" data-original="https://pic2.zhimg.com/fafe221837c03f3229b0ed2dad3977e9_r.jpg"&gt;

排除掉圖片，css等。
要獲取當前新聞的評論數，瀏覽器傳送給伺服器的請求裡面一定會有一個和當前新聞id有關的引數，（當然理論上也有通過referer來實現id傳遞的，但是畢竟太奇葩，不予考慮）。
所以
1. 如果method為GET，在Name裡面一定有一個特殊的字串，用來標識要請求的是哪個新聞的評論。
2. 或者method為POST，那麼在POST的引數裡面會有一個能標識當前新聞的引數：
&lt;img src="https://pic3.zhimg.com/8f67b309d3846bd46c5ad35bec492b3e_b.jpg" data-rawwidth="913" data-rawheight="402" class="origin_image zh-lightbox-thumb" width="913" data-original="https://pic3.zhimg.com/8f67b309d3846bd46c5ad35bec492b3e_r.jpg"&gt;這是微信公眾平臺獲取聊天資訊的action，fromfakeid就是聊天對方的id。

這是微信公眾平臺獲取聊天資訊的action，fromfakeid就是聊天對方的id。
如果要用POST方法獲取某個新聞的評論數，在這裡也會有一個引數用來標識出這個新聞。（比如“175827642839”）。

然後一個個排查，圖片css均不考慮，那麼很容易就能找到
http://comment5.news.sina.com.cn/page/info?format=js&channel=gn&newsid=1-1-27642839&group=0&compress=1&ie=gbk&oe=gbk&page=1&page_size=100&jsvar=requestId_19606520
可以精簡為http://comment5.news.sina.com.cn/page/info?format=js&channel=gn&newsid=1-1-27642839
其中的newsid引數1-1-27642839和175827642839關係很明顯了。
這是一個js，裡面有一句："count": {"qreply": 706, "total": 823, "show": 95}，你要找的就在這裡。
可以直接從字串裡面擷取到total，或者去掉js頭部的“var data =”。得到一個json字串，解析成物件也能獲取total 。
在新聞頁面的原始碼裡面找“1-1-27642839” 可以找到“newsid:'1-1-27642839',”

分析過程基本結束。
然後，你可以：
1.分析新聞頁程式碼，得到newsid
2.請求http://comment5.news.sina.com.cn/page/info?format=js&newsid=“newsid”
3.解析獲取到的js

使用python抓取js動態載入的網頁

使用python抓取js動態載入的網頁

Java爬蟲——phantomjs抓取ajax動態載入網頁

python爬取JS動態網頁完整指南（selenium+chrome headless）

Python爬取ajax動態載入內容

python抓取gb2312/gbk編碼網頁亂碼問題

使用phantomjs抓取JS動態生成的頁面

python抓取javascript動態生成HTML內容的實踐

【爬蟲】Scrapy爬蟲框架教程-- 抓取AJAX非同步載入網頁

爬取Ajax動態載入網頁

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

Python抓取網頁動態資料——selenium webdriver的使用

python獲取完整網頁內容（即包括js動態載入的）：selenium+phantomjs

Python 抓取網頁gb2312亂碼問題

實例：使用puppeteer headless方式抓取JS網頁

記錄一次python抓取網頁下載視訊

python抓取網頁資料處理後視覺化

python使用selenium爬取js加密的網頁

python抓取動態資料 A股上市公司基本資訊

Python 抓取網頁學習系列之一（網頁編碼格式

（python解析js）selenium結合phantomjs抓取js生成的頁面

使用python抓取js動態載入的網頁

相關推薦