1. 程式人生 > >python爬取字幕組的圖片

python爬取字幕組的圖片

首先通過對字幕組網頁原始碼進行分析

圖片<img src="http://tu.jstucdn.com/ftp/2018/1113/1e9afeab694d5fb5061fcb618c28b138.jpg"> 

src=“balabala.jpg”

    reg = r'src="(.+?\.jpg)"'     reg_img = re.compile(reg)

引入正則化表示式並編譯

    reg = r'src="(.+?\.jpg)"'
    reg_img = re.compile(reg)

最後在原始碼中匹配具有類似格式的連結,並下載

原始碼如下: 

# 頁面獲取

from urllib import request
import re

def get_imgs(url,path):
    # 開啟網頁
    page = request.urlopen(url)
    htmlcode = page.read()
    # 匹配正則表示式
    reg = r'src="(.+?\.jpg)"'
    reg_img = re.compile(reg)
    # utf-8解碼
    html = htmlcode.decode('utf-8')
    imgs = reg_img.findall(html)
    num = len(imgs)
    for i in range(num):
        try:
            request.urlretrieve(imgs[i], '%s\%s.jpg' % (path, i))
        except:
            print(imgs[i],'儲存失敗')



urlstr = 'http://www.zimuzu.tv/'
path = r'E:\Workspace Pycharm\spyder\spyderfiles\zimuzu'
get_imgs(urlstr,path)

 

一張圖片儲存失敗

可以看到是43.jpg沒有儲存下來...