python網頁爬蟲開發之六-Selenium使用
阿新 • • 發佈:2018-10-25
scrip python ref ges 加載圖片 browser 網頁加載 content 很慢 chromedriver禁用圖片,禁用js,切換UA
selenium 模擬chrome瀏覽器,此時就是一個真實的瀏覽器,一個瀏覽器該加載的該渲染的它都加載都渲染,所以爬取網頁的速度很慢。如果可以不加載圖片等操作,網頁加載速度就會快不少,代碼中列出了了禁用圖片,禁用JS,切換UA的方法。
from selenium import webdriver
from fake_useragent import UserAgent
ua = UserAgent().random
print(ua)
chrome_options = webdriver.ChromeOptions()
prefs = {
‘profile.default_content_setting_values‘: {
# 也可以這樣寫,兩種都正確
# ‘profile.default_content_settings‘: {
‘images‘: 2, # 不加載圖片
‘javascript‘: 2, # 不加載JS
"User-Agent": ua, # 更換UA
}
}
chrome_options.add_experimental_option("prefs", prefs)
browser = webdriver.Chrome(executable_path="C:/codeapp/seleniumDriver/chrome/chromedriver.exe", chrome_options=chrome_options)
#這個網頁可以顯示瀏覽器的信息,這樣我們就可以看到我們的UA信息,
url = "https://httpbin.org/get?show_env=1"
browser.get(url)
python網頁爬蟲開發之六-Selenium使用