如何利用Python快速爬取B站全站視訊資訊

阿新 • • 發佈：2018-11-05

B 站我想大家都熟悉吧，其實 B 站的爬蟲網上一搜一大堆。不過紙上得來終覺淺，絕知此事要躬行，我碼故我在。最終爬取到資料總量為 760萬條。

準備工作

首先開啟 B 站，隨便在首頁找一個視訊點選進去。常規操作，開啟開發者工具。這次是目標是通過爬取 B 站提供的 api 來獲取視訊資訊，不去解析網頁，解析網頁的速度太慢了而且容易被封 ip。

勾選 JS 選項，F5 重新整理

找到了 api 的地址

複製下來，去除沒必要的內容，得到 https://api.bilibili.com/x/web-interface/archive/stat?aid=15906633 ，用瀏覽器開啟，會得到如下的 json 資料

動手寫碼

好了，到這裡程式碼就可以碼起來了，通過 request 不斷的迭代獲取資料，為了讓爬蟲更高效，可以利用多執行緒。

核心程式碼

result = []
req = requests.get(url, headers=headers, timeout=6).json()
time.sleep(0.6) # 延遲，避免太快 ip 被封
try:

data = req['data']
video = Video(
data['aid'], # 視訊編號
data['view'], # 播放量

data['danmaku'], # 彈幕數
data['reply'], # 評論數
data['favorite'], # 收藏數
data['coin'], # 硬幣數
data['share'] # 分享數
)
with lock:
result.append(video)
except:
pass

迭代爬取

urls = ["http://api.bilibili.com/archive_stat/stat?aid={}".format(i)
for i in range(10000)]
with futures.ThreadPoolExecutor(32) as executor: # 多執行緒
executor.map(run, urls)

不要一次性爬取全部連結，我是利用兩個程序，這樣就是多程序+多執行緒了。一個程序一次大概爬取 50w 條資料。100w 條資料的話大概一個多小時吧。分多次爬取，分別將資料儲存為不同的檔名，最後再彙總。

執行的效果大概是這樣的，數字是已經已經爬取了多少條連結，其實完全可以在一天或者兩天內就把全站資訊爬完的。

至於爬取後要怎麼處理就看自己愛好了，我是先儲存為 csv 檔案，然後再彙總插入到資料庫。

彙總的 csv 檔案

資料庫表

由於這些內容是我在幾個月前爬取的，所以資料其實有些滯後了。

資料總量

查詢播放量前十的視訊

查詢回覆量前十的視訊

如何利用Python快速爬取B站全站視訊資訊

B 站我想大家都熟悉吧，其實 B 站的爬蟲網上一搜一大堆。不過紙上得來終覺淺，絕知此事要躬行，我碼故我在。最終爬取到資料總量為 760萬條。準備工作首先開啟 B 站，隨便在首頁找一個視訊點選進去。常規操作，開啟開發者工具。這次是目標是通過爬取 B 站提供的 api 來獲取視訊資

如何用Python快速爬取B站全站視訊資訊

B站我想大家都熟悉吧，其實 B 站的爬蟲網上一搜一大堆。不過紙上得來終覺淺，絕知此事要躬行，我碼故我在。最終爬取到資料總量為 760萬條。準備工作首先開啟 B 站，隨便在首頁找一個視訊點選進去。常規操作，開啟開發者工具。這次是目標是通過爬取 B 站提供的 api 來獲取視訊資訊，不去解析網頁

如何快速爬取B站全站視訊資訊

專欄 ❈陳鍵冬，Python中文社群專欄作者，知乎專欄：盡瞎扯 GitHub：https://github.com/chenjiandongx❈B站我想大家都熟悉吧，其實 B 站的爬蟲網上一搜一大堆。不過紙上得來終覺淺，絕知此事要躬行，我碼故我在。最終爬取到資料總量為 760萬條。準備工作首先

Python爬蟲實戰之爬取B站番劇資訊(詳細過程)

目標：爬取b站番劇最近更新輸出格式:名字+播放量+簡介那麼開始擼吧~ 用到的類庫： requests:網路請求 pyquery:解析xml文件，像使用jquery一樣簡單哦~ 1.分析頁面佈局，找到需要爬取的內

利用Python爬蟲爬取京東商品的簡要資訊

一、前言　　本文適合有一定Python基礎的同學學習Python爬蟲，無基礎請點選：慕課網——Python入門　　申明：例項的主體框架來自於慕課網——Python開發簡單爬蟲　　語言：Python2 　　IDE：VScode二、何為爬蟲　　傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的UR

利用Python爬取B站攝影欄目的圖片

Python中可以用作爬蟲的庫有兩個，一個是urllib，一個是request，推薦使用後一種，這才是給人類使用的爬蟲庫，上手十分簡單！ request庫使用教程話說回來，B站中由專門下載圖片的API，因此爬取圖片還是比較方便的，找到你喜歡的攝影照片的id，加在URL（"https://a

python爬取B站千萬級數據，發現了這些熱門UP主的秘密！

python 爬蟲科技 web 編程Python（發音：英[?pa?θ?n]，美[?pa?θɑ:n]），是一種面向對象、直譯式電腦編程語言，也是一種功能強大的通用型語言，已經具有近二十年的發展歷史，成熟且穩定。它包含了一組完善而且容易理解的標準庫，能夠輕松完成很多常見的任務。它的語法非常簡捷和清晰，與其它大

Python爬取B站彈幕的思路和流程

做nlp專案，除了各大電商評論和微博資料，彈幕分析對於輿論和該視訊的推廣都是有幫助的，下面主要說說這麼從B站爬取彈幕。過程很簡單，我們來看看： 1. 首先，bilibili的彈幕是在xml檔案裡，每個視訊都有其對應的cid和aid，我們取到cid中的數字放入http://comment

Python 爬取 B 站，宋智孝李光洙哪個更受寵？

column 51cto vba imageview 韓國 water range vmax 關系在中國，大家應該都了解《跑男》這個節目吧，跑男這個節目就是引用了韓國的《Running Man》，成員組成包括原六位成員劉在石、池石鎮、金鐘國、HAHA（河東勛）、宋智孝、李

Python爬蟲實例：爬取B站《工作細胞》短評——異步加載信息的爬取

localtime pre global web for short sco 網頁解析 save 《工作細胞》最近比較火，bilibili 上目前的短評已經有17000多條。先看分析下頁面右邊 li 標簽中的就是短評信息，一共20條。一般我們加載大量數據的時候，都

Python爬蟲例項：爬取B站《工作細胞》短評——非同步載入資訊的爬取

《工作細胞》最近比較火，bilibili 上目前的短評已經有17000多條。先看分析下頁面右邊 li 標籤中的就是短評資訊，一共20條。一般我們載入大量資料的時候，都會做分頁，但是這個頁面沒有，只有一個滾動條。隨著滾動條往下拉，資訊自動載入了，如下圖，變40

Python 爬取 B 站資料分析，宋智孝李光洙誰最受中國粉絲喜愛

作者 | 左伊雅責編 | 胡巍巍《Running Man》是韓國SBS電視臺在《星期天真好》單元

Python 網路爬蟲實戰：爬取 B站《全職高手》20萬條評論資料

本週我們的目標是：B站（嗶哩嗶哩彈幕網 https://www.bilibili.com ）視訊評論資料。我們都知道，B站有很多號稱“鎮站之寶”的視訊，擁有著數量極其恐怖的評論和彈幕。所以這次我們的目標就是，爬取B站視訊的評論資料，分析其為何會深受大家喜愛。首先去調研一下，B站評論數量最多的視訊是哪一

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

利用python爬蟲爬取圖片並且制作馬賽克拼圖

python爬蟲 splay ise 做事 c-c sea mage item -a 　　想在妹子生日送妹子一張用零食（或者食物類好看的圖片）拼成的馬賽克拼圖，因此探索了一番= =。　　首先需要一個軟件來制作馬賽克拼圖，這裏使用Foto-Mosaik-Edda（網上也有在

Python騷操作！利用Python來爬取IP代理！偷偷給文章刷閱讀量！

__main__ media 更多 add safari atp choice utf-8 取數二、代碼代碼直接參考了下文，更多解讀參見原文，其中將ip提取部分修改了下，並將用來測試IP是否可用的百度url改成了CSDN博客裏文章的url。進群：5483

利用Python批量爬取XKCD動漫圖片，並批量儲存

import requests, os, bs4 url = 'https://xkcd.com' os.makedirs('xkcd',exist_ok = True) while not url.endswith('#'): # download the page

利用Python來爬取空姐私密照！把它做成了一款軟體！人人可用哦！

空姐鎮樓標題如題：給出Python爬蟲程式原始碼與支援庫Tkinter的軟體繪製程式碼，然後做出一個爬蟲軟體。淺顯的說就是，我給你爬蟲程式碼和軟體模型製作的程式碼，然後結合成一個可使用的軟體。這個題對於Python新手來說應該是個非常

（python）如何利用python深入爬取自己想要的資料資訊

一、問題說明由於老師佈置了一個任務，需要對一個網站的城市做一些統計，並提取出這個網站上的城市的經緯度資訊然後繪製在百度地圖上。如果是一些數量不多的城市那也到好辦，但是如果對於這種存在幾百上千的城市，而且這些城市的經緯度資訊在第三級網站上才能找到，這樣一來，如果人工去完成會非常枯燥而

爬蟲練習四：爬取b站番劇字幕

由於個人經常在空閒時間在b站看些小視訊歡樂一下，這次就想到了爬取b站視訊的彈幕。這裡就以番劇《我的妹妹不可能那麼可愛》第一季為例，抓取這一番劇每一話對應的彈幕。 1. 分析頁面這部番劇的第一季就有15話，所以我們首先需要找到每一話對應的url，然後再去爬取每一話的彈幕。 1.1 找

如何利用Python快速爬取B站全站視訊資訊

相關推薦