[python爬蟲] 爬取圖片無法開啟或已損壞的簡單探討

阿新 • • 發佈：2019-02-10

本文主要針對python使用urlretrieve或urlopen下載百度、搜狗、googto（谷歌映象）等圖片時，出現"無法開啟圖片或已損壞"的問題，作者對它進行簡單的探討。同時，作者將進一步幫你鞏固selenium自動化操作和urllib庫等知識。
感謝朋友"露為霜"的幫助！希望以後能實現強大的圖片爬蟲程式碼~

一. 引入Selenium自動爬取百度圖片

下面這部分Selenium程式碼的主要功能是：
1.先自動執行瀏覽器，並訪問百度圖片連結：http://image.baidu.com/
2.通過driver.find_element_by_xpath()函式獲取輸入框的位置；
3.在輸入框中自動輸入搜尋關鍵詞"鄧肯"，再輸入回車搜尋"鄧肯"相關圖片；
4.再通過find_element_by_xpath()

獲取圖片的原圖url，這裡僅獲取一張圖片；
5.呼叫urllib的urlretrieve()函式下載圖片。
最後整個動態效果如下圖所示，但是圖片卻無法顯示：

程式碼如下：

# -*- coding: utf-8 -*-
import urllib
import re
import time
import os
from selenium import webdriver          
from selenium.webdriver.common.keys import Keys 
import selenium.webdriver.support.ui as ui
from selenium.webdriver.common.action_chains import ActionChains         

#Open PhantomJS
#driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")  
driver = webdriver.Firefox() 
wait = ui.WebDriverWait(driver,10)

#Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"鄧肯"
driver.get(url)
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")  
elem_inp.send_keys(name)  
elem_inp.send_keys(Keys.RETURN)
time.sleep(5)

#Get the URL of Pictures
#elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a")
elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img")
elem_url = elem_pic.get_attribute("src")
print elem_url

#Download Pictures
driver.get(elem_url)
urllib.urlretrieve(elem_url,"picture.jpg")
print "Download Pictures!!!"

二. 簡單分析原因及知識鞏固

1.urllib.urlretrieve()
通過urlretrieve()函式可設定下載進度發現圖片是一下子就載入的。這裡給大家鞏固這個urlretrieve函式的方法和Python時間命名方式，程式碼如下：

# -*- coding: utf-8 -*-
import urllib
import time
import os

#顯示下載進度
def schedule(a,b,c):
    #a:已下載的資料塊 b:資料塊的大小 c:遠端檔案的大小
    per = 100.0 * a * b / c
    if per > 100 :
        per = 100
    print '%.2f%%' % per

if __name__ == '__main__':
    url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg"
    #定義檔名 時間命名
    t = time.localtime(time.time())
    #反斜槓連線多行
    filename = str(t.__getattribute__("tm_year")) + "_" + \
               str(t.__getattribute__("tm_mon")) + "_" + \
               str(t.__getattribute__("tm_mday"))
    target = "%s.jpg" % filename
    print target
    urllib.urlretrieve(url,target,schedule)
    print "Download Picture!!!"

猜測可能獲取的百度URL不是原圖地址，或者是個伺服器設定了相應的攔截或加密。參考"Python爬蟲抓取網頁圖片"，函式相關介紹如下：

>>> help(urllib.urlretrieve)
Help on function urlretrieve in module urllib:
urlretrieve(url, filename=None, reporthook=None, data=None)

引數url：
    指定的下載路徑
引數 finename：
    指定了儲存本地路徑（如果引數未指定，urllib會生成一個臨時檔案儲存資料。）
引數 reporthook：
    是一個回撥函式，當連線上伺服器、以及相應的資料塊傳輸完畢時會觸發該回調，
    我們可以利用這個回撥函式來顯示當前的下載進度。
引數 data：
    指 post 到伺服器的資料，該方法返回一個包含兩個元素的(filename, headers)元組，
    filename 表示儲存到本地的路徑，header 表示伺服器的響應頭。

2.urllib2.urlopen()
換個方法urlopen()實現，同時設定訊息頭試試，並輸出資訊和圖片大小。

# -*- coding: utf-8 -*-
import os      
import sys    
import urllib
import urllib2

#設定訊息頭
url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg"
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) \
        AppleWebKit/537.36 (KHTML, like Gecko) \
        Chrome/35.0.1916.114 Safari/537.36',
    'Cookie': 'AspxAutoDetectCookieSupport=1'
}
request = urllib2.Request(url, None, header)
response = urllib2.urlopen(request)
print response.headers['Content-Length']

with open("picture.jpg","wb") as f:
    f.write(response.read())
print response.geturl()
print response.info()    #返回報文頭資訊
print urllib2.urlopen(url).read()

返回內容是”HTTPError: HTTP Error 403: Forbidden“，Selenium開啟如下：

其中403錯誤介紹如下，伺服器拒絕服務：

三. 解決方法

# -*- coding: utf-8 -*-
import urllib
import re
import time
import os
from selenium import webdriver          
from selenium.webdriver.common.keys import Keys
import selenium.webdriver.support.ui as ui        
from selenium.webdriver.common.action_chains import ActionChains

#Open PhantomJS
#driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")  
driver = webdriver.Firefox() 
wait = ui.WebDriverWait(driver,10)

#Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"鄧肯"
driver.get(url)
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")  
elem_inp.send_keys(name)  
elem_inp.send_keys(Keys.RETURN)
time.sleep(5)

#Get the URL of Pictures
num = 1
elem_pic = driver.find_elements_by_xpath("//div[@class='imgpage']/ul/li")
for elem in elem_pic:
    elem_url = elem.get_attribute("data-objurl")
    print elem_url
    #Download Pictures
    name = "%03d" % num
    urllib.urlretrieve(elem_url, str(name) + ".jpg")
    num = num + 1
else:
    print "Download Pictures!!!"

執行程式碼成功爬取了9張圖片，顯然成功了！雖然最後報錯：IOError: [Errno socket error] [Errno 10060] ，只爬取了9張圖片，但是至少可以正確解決了該問題。執行截圖如下所示：

同樣的道理，googto的elem.get_attribute("src")改成elem.get_attribute("data-imgurl")即可獲取正確的圖片地址並正確下載。
PS：百度圖片動態載入的功能是非常強大的，當你的滑鼠拖動時，它會自動增加新的頁面，在<ul>中包括新的一批<li>張圖片，這也是不同於其它網頁在右下角點選"1、2、3..."翻頁的，可能也會成為海量圖片爬取的又一難點。

第二個方法 Selenium使用右鍵另存為
還是使用老的連結，雖然讀取是無法顯示的，但嘗試通過Selenium的滑鼠右鍵另存為功能，看能不能爬取成功。

# -*- coding: utf-8 -*-
import urllib
import re
import time
import os
from selenium import webdriver          
from selenium.webdriver.common.keys import Keys
import selenium.webdriver.support.ui as ui        
from selenium.webdriver.common.action_chains import ActionChains

#Open PhantomJS 
driver = webdriver.Firefox()
wait = ui.WebDriverWait(driver,10)

#Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"鄧肯"
driver.get(url)
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")  
elem_inp.send_keys(name)  
elem_inp.send_keys(Keys.RETURN)
time.sleep(5)

#Get the URL of Pictures
elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img")
elem_url = elem_pic.get_attribute("src")
print elem_url

#滑鼠移動至圖片上 右鍵儲存圖片
driver.get(elem_url)
print driver.page_source
elem = driver.find_element_by_xpath("//img")
action = ActionChains(driver).move_to_element(elem)
action.context_click(elem) #右鍵  

#當右鍵滑鼠點選鍵盤游標向下則移動至右鍵選單第一個選項
action.send_keys(Keys.ARROW_DOWN)
action.send_keys('v') #另存為
action.perform()
print "Download Pictures!!!"

執行效果如下圖所示。雖然它能實現右鍵另存為，但是需要手動點選儲存，其原因是selenium無法操作作業系統級的對話方塊，又說"set profile"程式碼段的設定能解決問題的並不靠譜。通過鉤子Hook函式可以實現，以前做過C#的鉤子自動點選功能，但是想到下載圖片需要彈出並點選無數次對話方塊就很蛋疼，所以該方法並不好！
鉤子函式java版本結合robot可以閱讀下面這篇文章：
selenium webdriver 右鍵另存為下載檔案（結合robot and autoIt）

第三個方法通過Selenium自動點選百度的下載按鈕
其實現過程就是通過Selenium找到"下載"按鈕，再點選或獲取連結即可。
該方法參考文章：selenium+python 爬取網路圖片(2) -- 百度
同時，這裡需要強調百度動態載入，可以通過Selenium模擬滾動視窗實現，也參考上面文章。其中核心程式碼為：
  driver.maximize_window()
  pos += i*500# 每次下滾500
  js = "document.documentElement.scrollTop=%d" % pos
  driver.execute_script(js)

第四個方法百度圖片解碼下載及執行緒實現
參考文章：Python 3 多執行緒下載百度圖片搜尋結果

最近看了一些優秀的文章，真心感覺自己縷蟻一般，太過渺小，還有好多知識需要學習啊！加油~而且不知道現在自己做的這些東西是否有用？心理的幾個想法一直還未實現，挺擔心的。還是自己部落格描述那句話：
無知的自己 · 樂觀的面對 · 謙遜的學習 · 低調的前行 · 更要會生活
希望文章對你有所幫助，如果有錯誤或不足之處，還請海涵~
  （By:Eastmount 2015-12-07 清晨6點 http://blog.csdn.net/eastmount/）

[python爬蟲] 爬取圖片無法開啟或已損壞的簡單探討

一. 引入Selenium自動爬取百度圖片

二. 簡單分析原因及知識鞏固

三. 解決方法

[python爬蟲] 爬取圖片無法開啟或已損壞的簡單探討

利用python爬蟲爬取圖片並且制作馬賽克拼圖

python爬蟲爬取圖片並儲存

python爬蟲爬取各大平臺女主播圖片

Python爬蟲爬取網上圖片原始碼，可用來製作深度學習資料集

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

使用python爬蟲——爬取淘寶圖片和知乎內容

python爬蟲-爬取美女圖片

Python爬蟲爬取網站上的圖片

實戰python 爬蟲爬取百度貼吧圖片

Python爬蟲——爬取網頁中的圖片小試牛刀

python爬蟲爬取百度圖片

python爬蟲爬取好看的圖片

利用python爬蟲爬取京東商城商品圖片

用python爬蟲爬取網頁桌布圖片（彼岸桌面網唯美圖片）

通過Python爬蟲爬取知乎某個問題下的圖片

Python爬蟲-爬取糗事百科段子

python爬蟲爬取頁面源碼在本頁面展示

python 爬蟲爬取證券之星網站

python爬蟲爬取海量病毒文件

[python爬蟲] 爬取圖片無法開啟或已損壞的簡單探討

一. 引入Selenium自動爬取百度圖片

二. 簡單分析原因及知識鞏固

三. 解決方法

相關推薦