python獲取完整網頁內容（即包括js動態載入的）：selenium+phantomjs

阿新 • • 發佈：2019-02-10

在上一篇文章（http://blog.csdn.net/Trisyp/article/details/78732630）中我們利用模擬開啟瀏覽器的方法模擬點選網頁中的載入更多來實現動態載入網頁並獲取網頁內容。但是很不幸，有些網站的這部分內容是使用js動態載入的，我們用普通方法獲取的時候，發現有些地方是空白的，所以沒法獲取Xpath，所以上篇文章方法也就失效了。
可能有些童鞋開始會認為是不是程式碼出錯了，然後列印全部網頁內容，發現想要的那部分內容確實沒有，再用瀏覽器去訪問網頁，右鍵檢視網頁原始碼發現這部分程式碼確實沒有。我就是那個傻童鞋！！！
所以本篇文章就是希望能夠解決這種問題，去抓取js動態載入的網頁。首先想到的肯定是使用selenium來呼叫瀏覽器進行抓取，但是第一句就說明了，Xpath沒法獲取，所以就沒法通過點選頁面元素來實現了。這個時候看到了這篇文章（http://blog.csdn.net/yxwb1253587469/article/details/52233562），使用selenium+phantomjs來進行無介面抓取。
具體步驟如下：
1. 下載Phantomjs，下載地址：http://phantomjs.org/
2. 下完之後直接解壓就OK了，然後selenium的安裝用pip就行了
3. 寫程式碼執行就完成了

完整程式碼如下：

import requests
from bs4 import BeautifulSoup
import re
from selenium import webdriver
import time

def getHTMLText(url):
        driver = webdriver.PhantomJS(executable_path='D:\\phantomjs-2.1.1-windows\\bin\\phantomjs')  # phantomjs的絕對路徑
time.sleep(2)
        driver.get(url)  # 獲取網頁
time.sleep(2 
)
        return driver.page_source

def fillUnivlist(html):
        soup = BeautifulSoup(html, 'html.parser')  # 用HTML解析網址
tag = soup.find_all('div', attrs={'class': 'listInfo'})
        print(str(tag[0]))
        return 0
def main():
    url = 'http://sports.qq.com/articleList/rolls/' #要訪問的網址
html = getHTMLText(url) #獲取HTML
 
fillUnivlist(html)


if __name__ == '__main__':
    main()

python獲取完整網頁內容（即包括js動態載入的）：selenium+phantomjs

python獲取完整網頁內容（即包括js動態載入的）：selenium+phantomjs

java獲取json檔案內容（url方式、本地方式）

關於python指令碼完整打包釋出（包括外部傳參的批處理指令碼或shell指令碼編寫）

C#在WebBrowser下獲取完整的Cookies（包括含HTTPOnly屬性的）

Booking網站爬蟲，獲取酒店評論內容（Python）

Python獲取系統信息（慢慢補充）

UIWebView獲得網頁內容（HTML原始碼）、載入本地HTML檔案

python中list常用操作（不包括切片）

Python時間獲取詳解，Django獲取時間詳解，模板中獲取時間詳解（navie時間和aware時間）

用Python遍歷資料夾下所有電子字典檔案（不包括子資料夾）提取單詞到一個檔案

php獲取表單內容（$_GET，$_POST, $_REQUEST）

python爬蟲總結: 網頁內容需要分類爬取

jQuery設定和獲取span的內容（詳解）

finecms首頁獲取單網頁內容

python獲取資料夾的大小(即取出所有檔案計算大小)

二.爬蟲:Python三種網頁內容抓取方法

VB分析超過64K的網頁內容（基於XMLHTTP和位元組陣列處理）

使用Filter獲取伺服器響應內容（字串）

ASP.NET Core中獲取完整的URL（轉載）

DNS輪詢 PHP獲取遠端網頁內容的函式

python獲取完整網頁內容（即包括js動態載入的）：selenium+phantomjs

相關推薦