Python爬蟲之如何爬取抖音小姐姐的視訊

阿新 • • 發佈：2019-02-17

640?wx_fmt=png

介紹

這次爬的是當下大火的APP--抖音，批量下載一個使用者釋出的所有視訊。各位也應該知道，抖音只有移動端，官網開啟除了給你個APP下載二維碼啥也沒有，所以相比爬PC網站，還是遇到了更多的問題，也花了更多的時間，不過好在基本實現了，除了一點咱在後面說。

思路梳理

其實如果看了其他博主爬抖音的教程就發現，大部分都是通過fildder手機抓包來獲取介面地址等資訊，其實不用那麼麻煩，我們通過分享選擇連結形式就可以獲取到資訊：

640?wx_fmt=png

然後電腦訪問這個連結，就可以開啟頁面了，不過很快我們就會發現一個問題，電腦訪問這個地址釋出視訊是空的：

640?wx_fmt=png

谷歌Chrome瀏覽器有一個模擬手機訪問的功能，我們選在iPhone X模式來訪問頁面，果然看到釋出的視訊了：

640?wx_fmt=png

我們接下來看下後臺請求，不多，很快就找到我們需要的視訊資訊了，也能直接開啟觀看視訊，到這感覺已經成功了一大半了：

640?wx_fmt=png

但很快我們有發現了新問題，可以看到莉哥總共釋出了93個作品，但我們實際獲取到但連結只有19個。其實我們用過抖音，包括微博這些應用的都知道，很多資訊他們不是一次載入完的，當你拖動頁面的時候才會繼續載入。所以我們嘗試上拉頁面，就會發現後臺又多了一個請求，返回了新載入的視訊資訊。

https://www.amemv.com/aweme/v1/aweme/post/?user_id=57720812347&count=21&max_cursor=0&aid=1128&_signature=KRLTTRAdclaWZCKrElzZVykS01&dytk=4830f6e279a5f53872aab9e9dc112d33 https://www.amemv.com/aweme/v1/aweme/post/?user_id=57720812347&count=21&max_cursor=1530363175000&aid=1128&_signature=KRLTTRAdclaWZCKrElzZVykS01&dytk=4830f6e279a5f53872aab9e9dc112d33

兩個地址除了max_cursor其他都一樣，其實就是上一條返回的json資料中的max_cursor就是下個連結中的max_cursor，然後has_more等於1的時候表示還未全部載入，這樣邏輯就清楚了，我們只要先判斷has_more是否等於1，等於1的時候我們將max_cursor的值傳入下一個連結繼續訪問獲取視訊地址，直到has_more等於0為止。

640?wx_fmt=png

這樣所有視訊地址都有了，就開始下載吧！！

640?wx_fmt=png

程式碼部分

from selenium import webdriver
from bs4 import BeautifulSoup
import json
import requests
import sys
import

time
import os
import uuid
from contextlib import closing
from requests.packages.urllib3.exceptions import InsecureRequestWarning
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)

class douyin_spider(object):
    """docstring for douyin_spider"""
    def __init__(self,user_id,_signature,dytk):
        print '*******DouYin_spider******'
        print 'Author :     Awesome_Tang'
        print 'Date   :       2018-07-29'
        print 'Version:        Python2.7'
        print '**************************'
        print ''
        self.userid = user_id
        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'}
        mobile_emulation = {'deviceName': 'iPhone X'}
        # chrome瀏覽器模擬iPhone X進行頁面訪問
        options = webdriver.ChromeOptions()
        options.add_experimental_option("mobileEmulation", mobile_emulation)
        self.browser = webdriver.Chrome(chrome_options=options)
        self._signature= _signature
        self.dytk= dytk
        self.url = 'https://www.amemv.com/aweme/v1/aweme/post/?user_id=%s&count=32&max_cursor=0&aid=1128&_signature=%s&dytk=%s'%(self.userid,self._signature,self.dytk)

    def handle_url(self):
        url_list = [self.url,]
        self.browser.get(self.url)
        web_data = self.browser.page_source
        soup = BeautifulSoup(web_data, 'lxml')
        web_data = soup.pre.string
        web_data = json.loads(str(web_data))
        if web_data['status_code'] == 0:
            while web_data['has_more'] == 1:
                # 最大載入32條視訊資訊，has_more等於1表示還未全部載入完
                max_cursor = web_data['max_cursor']
                # 獲取時間戳
                url = 'https://www.amemv.com/aweme/v1/aweme/post/?user_id=%s&count=32&max_cursor=%s&aid=1128&_signature=%s&dytk=%s'%(self.userid,max_cursor,self._signature,self.dytk)
                url_list.append(url)
                self.browser.get(url)
                web_data = self.browser.page_source
                soup = BeautifulSoup(web_data, 'lxml')
                web_data = soup.pre.string
                web_data = json.loads(str(web_data))
            else:
                max_cursor = web_data['max_cursor']
                # 獲取時間戳
                url = 'https://www.amemv.com/aweme/v1/aweme/post/?user_id=%s&count=32&max_cursor=%s&aid=1128&_signature=%s&dytk=%s'%(self.userid,max_cursor,self._signature,self.dytk)
                url_list.append(url)
        else:
            url_list = []
        return url_list

    def get_download_url(self,url_list):
        download_url = []
        title_list = []
        if len(url_list)> 0:
            for url in url_list:
                self.browser.get(url)
                web_data = self.browser.page_source
                soup = BeautifulSoup(web_data, 'lxml')
                web_data = soup.pre.string
                web_data = json.loads(str(web_data))
                if web_data['status_code'] == 0:
                    for i in range(len(web_data['aweme_list'])):
                        download_url.append(web_data['aweme_list'][i]['video']['play_addr']['url_list'][0])
                        title_list.append(web_data['aweme_list'][i]['share_info']['share_desc'].encode('utf-8'))
            return download_url,title_list

    def videodownloader(self,url,title):
        size = 0
        path = title+'.mp4'
        with closing(requests.get(url, headers = self.headers ,stream=True, verify=False)) as response:
            chunk_size = 1024
            content_size = int(response.headers['content-length'])
            if response.status_code == 200:
                print '%s is downloading...'%title
                sys.stdout.write('[File Size]: %0.2f MB\n' % (content_size/chunk_size/1024))
                with open(path, 'wb') as f:
                    for data in response.iter_content(chunk_size=chunk_size):
                        f.write(data)
                        size += len(data)
                        f.flush()
                        sys.stdout.write('[Progress]: %0.2f%%' % float(size/content_size*100) + '\r')
                        sys.stdout.flush()
            else:
                print response.status_code

    def run(self):
        url = 'https://www.amemv.com/aweme/v1/aweme/post/?user_id=%s&count=32&max_cursor=0&aid=1128&_signature=%s&dytk=%s'%(self.userid,self._signature,self.dytk)
        url_list = self.handle_url()
        download_url,title_list = self.get_download_url(url_list)
        for i in range(len(download_url)):
            url = download_url[i]
            title = title_list[i]
            self.videodownloader(url,title)

if __name__ == '__main__':
    # 建立物件
    # 傳入三個引數，user_id,_signature,dytk
    douyin_spider = douyin_spider('95870186531','RFE1JhAbHxD7J8TA9HCumURRNT','539f2c59bb57577983b3818b7a7f32ef')
    douyin_spider.run()
    print '******[email protected]_Tang、******'

問題

開始說了，目前還存在一個問題，我們看介面地址可以發現，目前需要5個引數分別是：
user_id, max_cursor，count，_signature, dytk
前面三個都沒問題，而且我看有的博主5/6月份都文章都還只需要前三個引數，_signature, dytk是兩個加密之後的引數，不知道咋加密的，而且selenium似乎也沒有獲取後臺請求地址的方法，返回的視訊地址也沒有在頁面進行渲染，所以現在還需要點選分享連結之後手動填入_signature, dytk兩個值，有點冒傻氣～skr～skr～～

原創作者：Awesome_Tang，原文連結：https://www.jianshu.com/p/80e5b3c25905

640?wx_fmt=png

Python爬蟲之如何爬取抖音小姐姐的視訊

介紹

思路梳理

程式碼部分

問題

Python爬蟲之如何爬取抖音小姐姐的視訊

使用python-requests+Fiddler4+appium爬蟲,批量爬取抖音小視訊

使用python爬蟲,批量爬取抖音app視訊

python爬取無水印抖音小姐姐視訊(2018最新,含Pyqt客戶端)

Python爬蟲之爬取煎蛋網妹子圖

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

Python爬蟲之爬取各大幣交易網站公告——靜態網站.md

python學習（7）：python爬蟲之爬取動態載入的圖片，以百度圖片為例

Python爬蟲之爬取動態頁面資料

Python 3.X爬取抖音所有視訊

Python爬蟲之爬取知乎帖子並儲存到mysql（以及遇到問題和解決方法）

Python爬蟲之爬取瓜子二手車資訊- requests方法

Python爬蟲之爬取內涵吧段子（urllib.request）

python初級實戰系列教程《一、爬蟲之爬取網頁、圖片、音視訊》

Python爬蟲---爬取抖音短視訊

怎麽用Python爬取抖音小視頻? 資深程序員都這樣爬取的(附源碼)

小白scrapy爬蟲之爬取簡書網頁並下載對應鏈接內容

Python爬取抖音APP，竟然只需要十行程式碼

爬蟲爬取抖音熱門音樂

Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼

Python爬蟲之如何爬取抖音小姐姐的視訊

介紹

思路梳理

程式碼部分

問題

相關推薦