1. 程式人生 > >Python爬蟲使用MD5加密的坑

Python爬蟲使用MD5加密的坑

由於公司的業務需要,需要爬取很多的國外網站圖片,然後兄弟我一路正則殺過去,總共匹配到658張連結,心裡美滋滋開始寫下載的程式碼。然後就有了這次坑的記錄。
首先這是我查到的連結數量

gai

然後爬蟲跑完後,美滋滋準備去看圖片的時候,發現了

gai

然後兄弟瞬間傻眼,臥槽?難道有反扒?繼續測試,加了狀態看看

gai

兄弟開了100程序,瞬間跑完

gai

一看控制檯,全程沒有輸出那個else裡的列印資訊,去了眼爬的數量

gai

怎麼特麼還是這麼多?我的圖呢,被狗吃了?然後進行了持續8小時的曠日的持久BUG之旅,前前後後各種資訊都嘗試了,還是沒找出來,就在我特麼快絕望的時候,突然想起一種情況
會不會是MD5的加密,導致前後兩張圖片的命名一樣,雖然它們的請求連結不一樣,但是沒準加密後命名一樣呢?如果一樣,就會在儲存的時候替換掉已經下載好的一樣命名的圖片。這樣就會導致圖片大量減少。
然後改程式碼

gai

趕緊去看了一眼專案檔案

gai

心裡一萬個曹尼瑪奔騰而過,這個坑死人的MD5,還是老老實實改成時間戳把。

全文到此結束。