python爬取字幕組的圖片
阿新 • • 發佈:2018-12-21
首先通過對字幕組網頁原始碼進行分析
圖片<img src="http://tu.jstucdn.com/ftp/2018/1113/1e9afeab694d5fb5061fcb618c28b138.jpg">
src=“balabala.jpg”
reg = r'src="(.+?\.jpg)"' reg_img = re.compile(reg)
引入正則化表示式並編譯
reg = r'src="(.+?\.jpg)"'
reg_img = re.compile(reg)
最後在原始碼中匹配具有類似格式的連結,並下載
原始碼如下:
# 頁面獲取 from urllib import request import re def get_imgs(url,path): # 開啟網頁 page = request.urlopen(url) htmlcode = page.read() # 匹配正則表示式 reg = r'src="(.+?\.jpg)"' reg_img = re.compile(reg) # utf-8解碼 html = htmlcode.decode('utf-8') imgs = reg_img.findall(html) num = len(imgs) for i in range(num): try: request.urlretrieve(imgs[i], '%s\%s.jpg' % (path, i)) except: print(imgs[i],'儲存失敗') urlstr = 'http://www.zimuzu.tv/' path = r'E:\Workspace Pycharm\spyder\spyderfiles\zimuzu' get_imgs(urlstr,path)
一張圖片儲存失敗
可以看到是43.jpg沒有儲存下來...