1. 程式人生 > >Python網路爬蟲實戰(五)批量下載B站收藏夾視訊

Python網路爬蟲實戰(五)批量下載B站收藏夾視訊

我們除了爬取文字資訊,有的時候還需要爬媒體資訊,比如視訊圖片音樂等。就拿B站來說,我的收藏夾內的視訊可能隨時會失效,所以把它們下載到本地是非常保險的一件事。

對於這種大量列表型的資料,可以猜測B站收藏夾的請求中,詳細的收藏詳細可能會是非同步載入的,因為這部分資料可能比較龐大。

我們來分析一下網路請求。

可以看到對收藏夾的請求是指定URL加收藏夾的id號,我們爬取的前提是這個收藏夾是公共收藏夾,不然是無法訪問的。

再來看他的返回,明顯沒有收藏視訊的資訊,所以可以判斷收藏視訊的資訊是通過api介面非同步載入的。

詳細檢視一下其他的請求,你會發現這樣一條。

可以看到這裡返回了json資料,內容就是我們收藏夾中的視訊,但是這裡這有20個,再來看請求的URL。

https://api.bilibili.com/medialist/gateway/base/spaceDetail?media_id=88854277&pn=1&ps=20&keyword=&order=mtime&type=0&tid=0&jsonp=jsonp

media_id是收藏夾的id號,pn是代表哪一分頁,ps是當前分頁中視訊數量。

那麼我們就可以呼叫這個api來拿到所有收藏的視訊了。

我們的視訊分頁當然不可能只有一頁,所以我們可以遍歷pn遞增。

i = 1 
while 1 :
    url = 'https://api.bilibili.com/medialist/gateway/base/spaceDetail?media_id=88854277&pn='+ str(i) +'&ps=20&keyword=&order=mtime&type=0&tid=0&jsonp=jsonp'
    html = requests.get(url)
    i = i + 1
    print(html.text)

這樣就能拿到一個收藏夾下所有視訊了,當i超過收藏夾頁數時,直接異常退出即可。

接下來我們需要解析出每一個視訊的id。

根據之前說的json解析,我們很容易就能用

res['data']['medias']

來獲得所有的視訊,然後再根據下標解析出每一個視訊。

res = json.loads(html.text)
len_video = len(res['data']['medias'])
for id in range(0,len_video):
    create_thread(res['data']['medias'][id])

這樣我們就可以獲取當前頁視訊數量,然後建立執行緒進行下載了,因為下載是一個非常佔IO的事情,如果你單執行緒執行,下載一個視訊再下載另一個,這樣會很慢,我們可以給每一個視訊建立一個執行緒來提高速度。

def create_thread(res):
    thread = myThread(res['id'],res['title'],res['id'])
    thread.start()

建立執行緒的執行緒號是視訊的id號,執行緒名是視訊名。


class myThread(threading.Thread):  # 繼承父類threading.Thread
    def __init__(self, threadID, name, counter):
        threading.Thread.__init__(self)
        self.threadID = threadID
        self.name = name
        self.counter = counter
    def run(self):
        download_video(self.threadID)

執行緒類如上,裡面有兩個函式,__init__是預設的執行緒初始化函式,裡面就是我們建立執行緒時傳入的id和name。第二個函式是執行緒執行時的run方法,也就是我們定義執行緒的具體要做的事,裡面只有一個download_video方法。

# 下載視訊
def download_video(av_id):
    os.system('you-get -o d:/vedio/ https://www.bilibili.com/video/av'+str(av_id))

在下載函式中,我們可以呼叫you-get來幫助我們解析下載視訊(不要問為什麼調you-get,自己解析太麻煩了)。

這樣我們就完成了。

下載完成後:

原始碼地址: https://github.com/CasterWx/VideoDo