1. 程式人生 > >爬蟲小試--用python中requests和urllib模塊爬取圖片

爬蟲小試--用python中requests和urllib模塊爬取圖片

源碼 一個 -- .text 本地 requests style intel 加載

今天突發奇想小試爬蟲,獲取一下某素材站一些圖片

實現步驟如下:

import re
import requests
from urllib import request
import os

# 1.首先要檢查數據是否是動態加載出來的
# 2.獲取頁面源碼數據
if not os.path.exists(tupian):
    os.mkdir(tupian)
headers = {
   "User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36
" } url = "http://sc.chinaz.com/tupian/bingxueshijie.html" page = requests.get(url=url, headers=headers) page.encoding=utf8 # 先解決亂碼問題 page_text=page.text # .text拿到html文本 ex = <div class="box picblock col3".*?src2="(.*?)".*?</p>.*?</div> img_url_list = re.findall(ex, page_text, re.S) #
正則匹配 for img_url in img_url_list: img_path = tupian/ + img_url.split("/")[-1] # 本地存放的文件路徑 request.urlretrieve(url=img_url, filename=img_path) print(img_path , "獲取成功")

結果:

tupian/bpic9987_s.jpg 獲取成功
tupian/bpic9944_s.jpg 獲取成功
tupian/zzpic15470_s.jpg 獲取成功
tupian/hpic428_s.jpg 獲取成功
...
# 還有一大推就不羅列了

期間遇到一點小坑, 此網站非常的雞賊, 在網頁點檢查看到的前端代碼並不是真正請求獲得的, 而是請求發過去後前端對一些細節做了處理, 所以寫正則匹配那一部分的時候不能參照網頁檢查現實的html

解決辦法就是先發請求獲得真正請求得到的html文本, 即page_text=page.text .text拿到html文本, 參照真正請求獲得的文本寫正則, 如此即可

還有一個小坑就是亂碼問題, page.encoding=‘utf8‘ 即可解決

 

爬蟲小試--用python中requests和urllib模塊爬取圖片