Python網路爬蟲（四）：selenium+chrome爬取美女圖片

阿新 • • 發佈：2019-01-11

說明：
Python版本：Python
IDE：PyCharm
chrome版本：我的版本63
chromedriver.exe：因為是模擬瀏覽器訪問，chrome需要再下載一個驅動，具體方式在我的上一篇部落格，內容很詳細。傳送門：Python網路爬蟲（三）chromedriver.exe與chrome版本對映及下載連結：

一、selenium

（1）selenium簡介：

為什麼用selenium？
前面我們學習瞭如何爬取一個靜態網頁，但是，面對有javascript渲染的頁面再用前面的方式就不能得心應手。
所以我們選擇selenium
什麼是selenium?
一句話，自動化測試工具。它支援各種瀏覽器，包括 Chrome，Safari，Firefox 等主流介面式瀏覽器，如果你在這些瀏覽器裡面安裝一個 Selenium 的外掛，那麼便可以方便地實現Web介面的測試。換句話說叫 Selenium 支援這些瀏覽器驅動。Selenium支援多種語言開發，比如 Java，C，Ruby等等，而對於Python，當然也是支援的！

（2）安裝selenium：

pip install selenium

二、小試牛刀：

這裡，我們以開啟百度頁面，並控制檯輸出百度頁面原始碼，為例。
程式碼：

from selenium import webdriver

if __name__ =='__main__':
    list_urls=[]
    url="http://www.baidu.com"

    options = webdriver.ChromeOptions()

    options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19",--headless' 
)
    #options.add_argument('--headless')
    #options.add_argument('--disable-gpu')
    driver=webdriver.Chrome(chrome_options=options)
    driver.get(url)
    html = driver.page_source
    print(html)

如圖，chrome瀏覽器自動打開了百度頁面，控制檯輸出了頁面原始碼。
這裡寫圖片描述
注意：
（1）註釋的兩行為使用chrome的headless模式，即不用每次都開啟瀏覽器的視窗，否則，我們做爬蟲時，爬取每個網頁還跳出視窗，體驗太差。自從chrome瀏覽器提供了headless chrome，相比PhantomJS（更早的一個無頭瀏覽器），獲得的資料更優質。但速度可能慢些。
（2） driver.get 方法會開啟請求的URL，WebDriver 會等待頁面完全載入完成之後才會返回，即程式會等待頁面的所有內容載入完成，JS渲染完畢之後才繼續往下執行。

所以，我們可以得到JS渲染之後的頁面原始碼。

有了以上的基礎，結合BeautifulSoup,我們完全可以作出好玩的事情。

（三）動手實戰：爬取妹子圖片

1、說在前面：

'user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"

我們用到的代理是安卓，事實證明比較好用。但是和你用電腦開啟網頁，通過審查元素看到的程式碼是不一樣的，所以你分析網頁的時候，需要用前面的例子，換掉百度的網址，執行程式，分析頁面原始碼。

2、分析頁面：

2.1 我們開啟網頁發現，每個圖片分別放在了class屬性為libox的div標籤裡。
這裡寫圖片描述
所以，我們會先用BeautifulSoup獲取主頁面所有，class屬性libox的div標籤。再將每個標籤的href存入list。

 list_urls=[]
    url="http://www.5442.com/tag/rosi.html"

    options = webdriver.ChromeOptions()
    options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"')
    options.add_argument('--headless')
    options.add_argument('--disable-gpu')
    driver=webdriver.Chrome(chrome_options=options)
    driver.get(url)
    html=driver.page_source
    driver.close()
   # print(html)
    bf=BeautifulSoup(html,'lxml')
    target_urls=bf.find_all(name="div",class_='libox')
    for each in target_urls:
        print(each.a.get('href'))
        list_urls.append(each.a.get('href'))

    print(len(list_urls))

2.2 選擇一張美女圖片，我們看到，每個頁面中有兩張，為了簡單起見，我們這裡就下載每個頁面的兩張圖片。
通過審查元素，我們可以看到，這兩張圖片放在了，align屬性為center的p標籤裡。所以我們將用BeautifulSoup獲得p標籤中所有的src。之後，下載儲存圖片。
這裡寫圖片描述
程式碼：

    for each_img in list_urls:

        target_url =each_img
        options = webdriver.ChromeOptions()
        options.add_argument(
            'user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19",')
        options.add_argument('--headless')
        options.add_argument('--disable-gpu')
        pdriver = webdriver.Chrome(chrome_options=options)
        pdriver.get(target_url)
        img_html = pdriver.page_source
        pdriver.close()
        pbf=BeautifulSoup(img_html,'lxml')
        piurls=pbf.find_all(name='p',align='center')
        ppbf=BeautifulSoup(str(piurls),'lxml')
        purls=ppbf.find_all(name='img')
        if 'images' not in os.listdir():
            os.makedirs('images')
        for each in purls:
            img_url=each.get('src')
            img_filename='images/'+each.get('alt')+'.jpg'
            print("正在下載",img_url)
            urlretrieve(url=img_url,filename=img_filename)

urlretrieve（）函式：
urllib 模組提供的 urlretrieve() 函式。urlretrieve() 方法直接將遠端資料下載到本地。

urlretrieve(url, filename=None, reporthook=None, data=None)

· 引數 finename 指定了儲存本地路徑（如果引數未指定，urllib會生成一個臨時檔案儲存資料。）
· 引數 reporthook 是一個回撥函式，當連線上伺服器、以及相應的資料塊傳輸完畢時會觸發該回調，我們可以利用這個回撥函式來顯示當前的下載進度。
· 引數 data 指 post 到伺服器的資料，該方法返回一個包含兩個元素的(filename, headers)元組，filename 表示儲存到本地的路徑，header 表示伺服器的響應頭。

3、執行程式：

程式碼我們已經寫完了，執行一下，我們檢視結果：
想了想，還是處理一下，別被和諧了。
這裡寫圖片描述

（四）完整程式碼：

# -*- coding:UTF-8 -*-
'''
單程序
下載妹子圖片
'''
from bs4 import BeautifulSoup
from urllib.request import urlretrieve
import os
from selenium import webdriver

if __name__ =='__main__':
    list_urls=[]
    url="http://www.5442.com/tag/rosi.html"

    options = webdriver.ChromeOptions()
    options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"')
    options.add_argument('--headless')
    options.add_argument('--disable-gpu')
    driver=webdriver.Chrome(chrome_options=options)
    driver.get(url)
    html=driver.page_source
    driver.close()
   # print(html)
    bf=BeautifulSoup(html,'lxml')
    target_urls=bf.find_all(name="div",class_='libox')
    for each in target_urls:
        print(each.a.get('href'))
        list_urls.append(each.a.get('href'))

    print(len(list_urls))

    for each_img in list_urls:

        target_url =each_img
        options = webdriver.ChromeOptions()
        options.add_argument(
            'user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19",')
        options.add_argument('--headless')
        options.add_argument('--disable-gpu')
        pdriver = webdriver.Chrome(chrome_options=options)
        pdriver.get(target_url)
        img_html = pdriver.page_source
        pdriver.close()
        pbf=BeautifulSoup(img_html,'lxml')
        piurls=pbf.find_all(name='p',align='center')
        ppbf=BeautifulSoup(str(piurls),'lxml')
        purls=ppbf.find_all(name='img')
        if 'images' not in os.listdir():
            os.makedirs('images')
        for each in purls:
            img_url=each.get('src')
            img_filename='images/'+each.get('alt')+'.jpg'
            print("正在下載",img_url)
            urlretrieve(url=img_url,filename=img_filename)

Python處理javascript頁面也有別的方法，但模擬瀏覽器訪問更簡單，更友好。這個方案最自然，雖然有人一直在批評這種方法速度比較慢，但在實際執行環境中，大部分情況下你會擔心執行的太快了，集中且持續的從同一個網站抓取資料，會給網站造成很大的壓力，從而會被封鎖或者遇到驗證碼，所以速度並不是關鍵問題。

Python網路爬蟲（四）：selenium+chrome爬取美女圖片

一、selenium

（1）selenium簡介：

（2）安裝selenium：

二、小試牛刀：

所以，我們可以得到JS渲染之後的頁面原始碼。

有了以上的基礎，結合BeautifulSoup,我們完全可以作出好玩的事情。

（三）動手實戰：爬取妹子圖片

1、說在前面：

2、分析頁面：

3、執行程式：

（四）完整程式碼：

Python網路爬蟲（四）：selenium+chrome爬取美女圖片

Python網路爬蟲（四）：視訊下載器

[Python]網路爬蟲（四）：Opener與Handler

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

[Python]網路爬蟲（五）：urllib2的使用細節與抓站技巧

Python網路爬蟲（三）：chromdriver.exe與chrome版本對映及下載連結

Python網路爬蟲（九）：爬取頂點小說網站全部小說，並存入MongoDB

[Python]網路爬蟲（二）：利用urllib通過指定的URL抓取網頁內容

Python網路爬蟲（七）：解決ImportError:DLL load failed：作業系統無法執行問題

[Python]網路爬蟲（三）：使用cookiejar管理cookie 以及模擬登入知乎

Python高階爬蟲（四）：動態載入頁面的解決方案與爬蟲代理

資料採集（四）：用XPath爬取鏈家網房價資料

python爬蟲實戰（四）：selenium爬蟲抓取阿里巴巴採購批發商品

python爬蟲（四）：scrapy 【1. 快速上手】

python爬蟲（四）：scrapy 【2. 其他重要部分】

【網路爬蟲】【java】微博爬蟲（四）：資料處理——jsoup工具解析html、dom4j讀寫xml

網路爬蟲（六）：Python中的正則表示式教程

小白學 Python 爬蟲（29）：Selenium 獲取某大型電商網站商品資訊

Python學習之路（五）爬蟲（四）正則表示式爬去名言網

Python網路爬蟲（四）：selenium+chrome爬取美女圖片

一、selenium

（1）selenium簡介：

（2）安裝selenium：

二、小試牛刀：

所以，我們可以得到JS渲染之後的頁面原始碼。

有了以上的基礎，結合BeautifulSoup,我們完全可以作出好玩的事情。

（三）動手實戰：爬取妹子圖片

1、說在前面：

2、分析頁面：

3、執行程式：

（四）完整程式碼：

相關推薦