Python 3.X爬取抖音所有視訊

阿新 • • 發佈：2019-01-15

今天閒著沒事刷抖音，看到好多好看的小姐姐，突然想到把抖音裡好看好玩的視訊都下載來多方便看省的一會一個廣告，一會一個推送的。

我先是用fiddler抓包工具進行了抖音app的抓包，
fiddler的使用：https://blog.csdn.net/lyd135364/article/details/78384285
分析了帶有feed地址名的介面，發現這次改版後抖音的一個小bug，我今天也度娘了下以前的抖音視訊爬取方式，但都在最近一次的改版中被進行檔案加密了。
以前的爬取和android逆向，都是呼叫原getUserInfo（）方法，但是更新後的抖音，這個方法所在的包都沒了。原加密的as和cp引數加密直接得到結果的方法就用不成了
今天在嘗試爬取的過程中，發現的小bug就是：直接在抓包的過程中，把as和cp的值寫死就成了。雖然是動態獲取的，但不會進行二次驗證，只要說它們是由抖音自己加密組合成的資料，並且能通過後臺的解籤就可以了。
這次更新後，驗證的方式變了。變成驗證驗證引數：ts,_rticket和mas。
ts為秒級時間戳，_rticket為毫秒級時間戳，mas的生成加密方式與這二者有關，與其他引數無關。（抖音後臺有關於時間的驗證，超過一定時間，三者作廢）
判斷原因是：我把as和cp引數寫死不變的情況下，更改上述三個引數，依舊可以通過scrapy訪問到資料，如果只更改這三者其中之一，那麼無法訪問到了。
現在我需要一個大手子或者逆向破解的大佬幫個忙，把這一步走過去，就能正常scrapy爬取了。
這裡寫圖片描述

從我這個截圖中可以看到。我這裡的cp和as與fiddler抓包中的值是不同的，但是我依然能通過這個藉口訪問到，並且每次重新整理訪問的結果都是不同的6條。ts沒有在圖中擷取到，只擷取到了_rticket和mas的值。我自己代買中的as和cp還是我中午第一次抓包時候的值。現在已經是22：30分了。。依然能用，所以說。。我的判斷沒有錯吧。
希望有大佬能看到能告訴我這個加密方式是什麼樣的，萬分感謝。（這幾天如果還是搞不定的話，我就只有自己動手逆向破解去了。哎。。但感覺搞不定）
如果您想聯絡我的話：qq.290660285 vx:lottery_cs
下面一段就是目前比較流行的獲取方式了。直接複製貼上即可使用。
如果這篇文章對你有幫助的話，是我的榮幸。
如果有錯誤，歡迎指正，我會以最快的速度修改的。

下面的程式碼，原始碼來自：https://www.jianshu.com/p/80e5b3c25905
我只是將原始碼從2.X，升級到了3.X，並且將原有的一些小問題改掉後能正常執行。
並且對下載下來的檔案做了整理和合並資料夾

其實一開始只要訪問分享出來的短連結，就能獲取到該使用者的userid，也就是頁面中
class=”focus-btn go-author” 的data-id的值。
如果想更方便更直接的下載，完全不像看到這麼多的步驟，
可以嘗試在下面的基礎上修改，改成無頭的訪問方式，然後在修改流程流程就是：
1：在main方法中，輸入分享出來的視訊短連線
2：在run方法中，先獲取NickName（暱稱）和userid，然後傳入到douyin_spider方法中
3：獲取json資料，然後進行視訊下載
很簡單的操作，這裡我就不修改了，動一動看官勤勞的小手，這樣對這篇程式碼能更熟悉

這是下載下來的截圖：
這裡寫圖片描述

from selenium import webdriver
from bs4 import BeautifulSoup
import json
import requests
import sys
import time
import os
import uuid
from contextlib import closing


class douyin_spider(object):
    """docstring for douyin_spider"""

    def __init__(self, user_id, _signature, dytk):
        self.Chrome_path = 'C:/Users/Administrator/AppData/Local/Google/Chrome/Application/chromedriver.exe'
        self.userid = user_id
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'}
        mobile_emulation = {'deviceName': 'iPhone X'}
        # chrome瀏覽器模擬iPhone X進行頁面訪問
        options = webdriver.ChromeOptions()
        # options = webdriver.Chrome()
        options.add_experimental_option("mobileEmulation", mobile_emulation)
        self.browser = webdriver.Chrome(executable_path=self.Chrome_path, chrome_options=options)
        self._signature = _signature
        self.dytk = dytk
        self.url = 'https://www.amemv.com/aweme/v1/aweme/post/?user_id=%s&count=32&max_cursor=0&aid=1128&_signature=%s&dytk=%s' % (
            self.userid, self._signature, self.dytk)

    def handle_url(self):
        url_list = [self.url, ]
        self.browser.get(self.url)
        web_data = self.browser.page_source
        soup = BeautifulSoup(web_data, 'lxml')
        web_data = soup.pre.string
        web_data = json.loads(str(web_data))
        # print('--------------------')
        # print(web_data)
        if web_data['status_code'] == 0:
            while web_data['has_more'] == 1:
                # 最大載入32條視訊資訊，has_more等於1表示還未全部載入完
                max_cursor = web_data['max_cursor']
                # 獲取時間戳
                url = 'https://www.amemv.com/aweme/v1/aweme/post/?user_id=%s&count=32&max_cursor=%s&aid=1128&_signature=%s&dytk=%s' % (
                    self.userid, max_cursor, self._signature, self.dytk)
                url_list.append(url)
                self.browser.get(url)
                web_data = self.browser.page_source
                soup = BeautifulSoup(web_data, 'lxml')
                web_data = soup.pre.string
                web_data = json.loads(str(web_data))
            else:
                max_cursor = web_data['max_cursor']
                # 獲取時間戳
                url = 'https://www.amemv.com/aweme/v1/aweme/post/?user_id=%s&count=32&max_cursor=%s&aid=1128&_signature=%s&dytk=%s' % (
                    self.userid, max_cursor, self._signature, self.dytk)
                url_list.append(url)
        else:
            url_list = []
        return url_list

    def get_download_url(self, url_list):
        title_url = 'https://www.amemv.com/share/user/{}?u_code=hg518ec9&timestamp=1535886010&utm_source=qq&utm_campaign=client_share&utm_medium=android&app=aweme&iid=42820089177'.format(self.userid)
        html = requests.get(title_url)

        soup = BeautifulSoup(html.text,'lxml')
        nick_name = soup.find('p',{'class':'nickname'}).get_text()
        download_url = []
        title_list = []
        if len(url_list) > 0:
            for url in url_list:
                self.browser.get(url)
                web_data = self.browser.page_source
                soup = BeautifulSoup(web_data, 'lxml')
                web_data = soup.pre.string
                web_data = json.loads(str(web_data))
                #print('------------------')
                #print(web_data)
                if web_data['status_code'] == 0:
                    for i in range(len(web_data['aweme_list'])):
                        download_url.append(web_data['aweme_list'][i]['video']['play_addr']['url_list'][0])
                        title_list.append(web_data['aweme_list'][i]['share_info']['share_desc'])

            return download_url, title_list,nick_name
        else:
            print('該作者目前還未上傳作品')

    def videodownloader(self, url, title,nick_name):
        size = 0
        path ='抖音下載/%s/' %nick_name +title + '.mp4'

        with closing(requests.get(url, headers=self.headers, stream=True, verify=False)) as response:
            chunk_size = 1024
            content_size = int(response.headers['content-length'])
            if response.status_code == 200:
                if os.path.exists(path) ==True:
                    print('檔案：%s已經存在' %path)
                else:
                    print
                    '%s is downloading...' % title
                    sys.stdout.write('[File Size]: %0.2f MB\n' % (content_size / chunk_size / 1024))

                    with open(path, 'wb') as f:
                        for data in response.iter_content(chunk_size=chunk_size):
                            f.write(data)
                            size += len(data)
                            f.flush()
                            sys.stdout.write('[Progress]: %0.2f%%' % float(size / content_size * 100) + '\r')
                            sys.stdout.flush()

            else:
                print
                response.status_code

    def run(self):
        try:
            url = 'https://www.amemv.com/aweme/v1/aweme/post/?user_id=%s&count=32&max_cursor=0&aid=1128&_signature=%s&dytk=%s' % (
                self.userid, self._signature, self.dytk)
            url_list = self.handle_url()
            download_url, title_list, nick_name = self.get_download_url(url_list)
            path = '抖音下載/%s' % nick_name
            result_op = os.path.exists(path)
            if result_op:
                for i in range(len(download_url)):
                    url = download_url[i]
                    title = title_list[i]
                    self.videodownloader(url, title, nick_name)
            else:
                print(result_op)
                os.mkdir(path)

        except:
            print('出現錯誤')
        finally:
            self.browser.close()



if __name__ == '__main__':
    # 建立物件
    # 傳入三個引數，user_id,_signature,dytk
    #經過我執行整理後，發現只需要傳入想要下載up主的userid即可，後兩個引數完全不用修改，可以直接下載
     #根據userid的不同，生成不同的下載使用者的nickname資料夾，然後再在此資料夾下生成 
     #mp4檔案
    #userid的獲取方式，見原連結
    douyin_spider = douyin_spider('95870186531', 'WSMdixASAql5PsaSQZJ1MVkjHZ', '539f2c59bb57577983b3818b7a7f32ef')
    douyin_spider.run()

Python 3.X爬取抖音所有視訊

Python 3.X爬取抖音所有視訊

使用python爬蟲,批量爬取抖音app視訊

使用python-requests+Fiddler4+appium爬蟲,批量爬取抖音小視訊

使用python爬取抖音app視訊

python爬取抖音APP視訊教程

Python爬蟲---爬取抖音短視訊

爬取抖音Top20視訊，並自動播放

怎麽用Python爬取抖音小視頻? 資深程序員都這樣爬取的(附源碼)

Python爬取抖音APP，竟然只需要十行程式碼

Python爬蟲之如何爬取抖音小姐姐的視訊

爬蟲爬取抖音熱門音樂

教你爬取抖音甜曲《好喜歡你》，感受荷爾蒙的氣息

爬取抖音短視訊改良版

python 3.x 爬蟲基礎---正則表示式（案例：爬取貓眼資訊，寫入txt,csv,下載圖片）

對你沒有看錯！不到10行Python程式碼完成抖音熱門視訊的爬取！

python爬蟲-20行代碼爬取王者榮耀所有英雄圖片，小白也輕輕松松

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

python爬取美團所有結婚商家(包括詳情)

不到 10 行程式碼完成抖音熱門視訊的爬取！

使用python爬取12306上面所有車次資料

Python 3.X爬取抖音所有視訊

相關推薦