1. 程式人生 > >Python爬取B站彈幕的思路和流程

Python爬取B站彈幕的思路和流程

做nlp專案,除了各大電商評論和微博資料,彈幕分析對於輿論和該視訊的推廣都是有幫助的,下面主要說說這麼從B站爬取彈幕。

過程很簡單,我們來看看:

1. 首先,bilibili的彈幕是在xml檔案裡,每個視訊都有其對應的cid和aid,我們取到cid中的數字放入http://comment.bilibili.com/+cid+.xml,即可得到該視訊對應的cid。

比如:開啟這個連結http://comment.bilibili.com/2015358.xml,就可以看到:

cid取法:在頁面上F12,然後查詢cid,該cid即為彈幕頁的標識。

這樣就可以找到該視訊的cid,然後根據第一步拼成彈幕url,即可解析提取彈幕。