selenium+python 爬取網路圖片(2) -- 百度

阿新 • • 發佈：2019-01-21

上一篇博文《selenium+python 爬取網路圖片(1) -- soso、谷歌、好搜》介紹瞭如何用selenium+python在諸如soso、谷歌、好搜等搜尋引擎上爬取圖片的方法，但是卻沒用提到百度，因為百度的情況比較特殊。首先，百度圖片的資料更好，因為每幅圖片都有“data-desc”描述可以作為影象很好的語義標籤，此外基於百度較強的技術其查詢搜尋得到的圖片相關性較高，後續人工篩選工作較少；其次，百度圖片的資料不容易爬取，如果像前一篇文章中的方法取img標籤的src值作為下載url，是下載不到圖片的，得到的知識167B的非影象資料。

那麼，如何爬取百度圖片呢，筆者嘗試了兩種方法。第一種方法尚未完整實現，但思路已完整，第二種方法可以較為簡單的爬到百度圖片資料來源。下面依次介紹兩種實現方案。

方案1：

使用selenium模擬滑鼠操作--“將滑鼠放置影象上方，右鍵並選擇影象另存為選項”，然後就可以儲存了，程式碼如下：

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys

# init
url = 'http://image.baidu.com/i?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E6%89%8B%E6%9C%BA&oq=shouji&rsp=1'
xpath = '//ul/li/div/a/img'

# set profile
fp = webdriver.FirefoxProfile()
fp.set_preference('browser.download.folderList', 2)
fp.set_preference('browser.download.manager.showWhenStarting', False)
fp.set_preference('browser.download.dir', './yourfolder/')
fp.set_preference('browser.helperApps.neverAsk.saveToDisk', 'image/jpeg')

# launch driver
driver = webdriver.Firefox(firefox_profile=fp)
driver.maximize_window()
driver.get(url)

for element in driver.find_elements_by_xpath(xpath):
    img_url = element.get_attribute('src')
    img_desc = element.get_attribute('data-desc')

    action = ActionChains(driver).move_to_element(element)
    action.context_click(element)
    action.send_keys(Keys.ARROW_DOWN)                
    action.send_keys('v')
    action.perform()
    # click save image

driver.close()

但是，想必大家都會發現，儲存圖片還需要一次次點選對話方塊的確認儲存，很繁瑣。的確，為了解決這個問題，我google了好久並沒有找到直接解決的好方法，根本原因是selenium無法操作作業系統級的對話方塊，有說上面“set profile”程式碼段的設定能解決問題的並不靠譜。所以，如果採用右鍵另存為的方案的話，需要額外使用外掛或鉤子程式模擬自動點選。網上有推薦一個AutoIT的或可完成任務，未親試。

方案2：

百度圖片img標籤內含的src並不能下載到原圖片，只有data-desc屬性可用，但是，當滑鼠放在百度圖片上時，會發現如下圖所示的下載按鈕，

只要找到這個上面這個下載按鈕對應的連結即可下載到原圖，而按鈕對應的則是一個a連結標籤，分析出其xpath問題即解決了，下面給出python程式碼：

import urllib
import time
from selenium import webdriver

class Crawler:

    def __init__(self):
        self.url = 'http://image.baidu.com/i?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E6%89%8B%E6%9C%BA&oq=shouji&rsp=1' # url to crawl
        self.img_xpath = '//ul/li/div/a/img' # xpath of img element
        self.download_xpath = '//ul/li/div/div/span/a[@class="downloadicon"]' # xpath of download link element
        self.img_url_dic = {}

    # kernel function
    def launch(self):
        # launch driver
        driver = webdriver.Firefox()
        driver.maximize_window()
        driver.get(self.url)

        img_xpath = self.img_xpath
        download_xpath = self.download_xpath
        img_url_dic = self.img_url_dic
        
        # 模擬滾動視窗以瀏覽下載更多圖片  
        pos = 0   
        for i in range(10):  
            pos += i*500 # 每次下滾500  
            js = "document.documentElement.scrollTop=%d" % pos  
            driver.execute_script(js)
            # get image desc and download
            for img_element, link_element in zip(driver.find_elements_by_xpath(img_xpath), driver.find_elements_by_xpath(download_xpath)):
                img_desc = img_element.get_attribute('data-desc') # description of image
                img_desc = self.filter_filename_str(img_desc)
                
                img_url = link_element.get_attribute('href') # url of source image
                if img_url != None and not img_url_dic.has_key(img_url):  
                    img_url_dic[img_url] = '' 
                    ext = img_url.split('.')[-1]
                    filename = img_desc + '.' + ext
                    print img_desc, img_url
                    urllib.urlretrieve(img_url, './yourfolder/%s' % filename)
                    time.sleep(1)
        driver.close()

    # filter invalid characters in filename
    def filter_filename_str(self, s):
        invalid_set = ('\\','/',':','*','?','"','<','>','|',' ')
        for i in invalid_set:
            s = s.replace(i, '_')
        return s    

if __name__ == '__main__':
    crawler = Crawler()
    crawler.launch()

爬取後的結果圖如下所示：

以上程式碼僅示例的實現了方案，驗證其可行性，內部可能含有部分疏漏，僅供需要的朋友參考，不妥之處請指正。

selenium+python 爬取網路圖片(2) -- 百度

selenium+python 爬取網路圖片(2) -- 百度

python 爬取動態網頁（百度圖片）

爬取動態圖片—以百度圖片為例

Python網路爬蟲（四）：selenium+chrome爬取美女圖片

python爬取網頁圖片

Python 爬取美女圖片，分目錄多級存儲

selenium+python爬取數據跳轉網頁

selenium+python爬取資料跳轉網頁

用python爬取美女圖片

python爬取許多圖片的程式碼

Selenium+Python爬取房天下二手房資料

教你如何用Python爬取美女圖片

python爬取單張圖片

使用Python爬取網頁圖片

python3程式設計08-爬蟲實戰：爬取網路圖片

Python 爬取網頁圖片

用python 爬取網頁圖片

python 爬取指定圖片並將圖片下載到指定資料夾

利用python爬取網頁圖片

使用Python爬取網站圖片

selenium+python 爬取網路圖片(2) -- 百度

相關推薦