1. 程式人生 > >爬取JS動態生成的URL

爬取JS動態生成的URL

愛卡汽車論壇搜尋結果頁面:

想要python爬取搜尋結果連結:a標籤中的href,但是這個url是動態生成的。
網頁原始碼:

用普通方式解析:
import urllib.request

url = "http://search.xcar.com.cn/metasearch.php#?&searchValue=奔騰x40"
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
print(data)
解析結果:

selenium:這是一個用於web應用程測試的工具
下載方式:pip install selenium

phantomjs
是一種無介面的瀏覽器,用於完成網頁的渲染
下載地址
http://phantomjs.org/download.html

解壓就可以用
開啟解壓後的檔案,找到bin下的phantomjs.exe將這個路徑放到PATH路徑下

動態解析:
from selenium import webdriver
url = "http://search.xcar.com.cn/metasearch.php#?&searchValue=奔騰x40"
driver = webdriver.PhantomJS(executable_path='E:/phantomjs/bin/phantomjs.exe')
#這個路徑就是你新增到PATH的路徑
driver.get(url)
print (driver.page_source)
解析結果:



下一步如何取出:






參考文章:http://www.freebuf.com/column/142404.html

繼續: