1. 程式人生 > >bilibili彈幕爬取與比對分析

bilibili彈幕爬取與比對分析

最近受人之託研究了下b站的資料爬取做個小工具,最後朋友說不需要了,本著開源共享的原則,將研究成果與大家分享一波,話不多說直接上乾貨

需求分析

給定up主uid和使用者uid,爬取使用者在該up主所有視訊中發的所有彈幕

需求拆解

獲取up主所有視訊

開啟b站,隨便搜尋一個up主,開啟所有視訊頁面,f12看非同步請求就一目瞭然了

介面地址:https://space.bilibili.com/ajax/member/getSubmitVideos?mid=up主的uid&pagesize=30&tid=0&page=1&keyword=&

直接通過GET請求訪問,該介面限制pagesize為100,數目超過就會返回錯誤,但是該介面會返回一個總數與頁數,所以我們首先請求一次,獲取相關引數再分批次請求,獲取到資料後對vlist進行json資料解析就可以,我們主要獲取的是aid,也就是av號

獲取視訊所有彈幕

使用firefox瀏覽器開啟視訊,f12後搜尋list.so請求會發現彈幕xml檔案,同樣也是GET請求

介面地址:https://api.bilibili.com/x/v1/dm/list.so?oid=112062851  http://comment.bilibili.com/{cid}..xml

但是在百度的過程中發現了一個直接讀取xml檔案的地址,更加方便

介面地址:http://comment.bilibili.com/{cid}.xml

這個cid就是彈幕xml的檔案編號,通過分析非同步請求,發現了返回這個cid的返回介面

介面地址:https://api.bilibili.com/x/player/pagelist?aid=視訊av號&jsonp=jsonp

需要注意的是返回的是一個數組,這說明如果視訊彈幕過多的話可能有多個xml檔案,我們需要遍歷獲取

彈幕xml檔案分析

檔案格式內容如下所示

可以看到裡面d標籤的文字內容就是傳送的彈幕,但是我們還需要對彈幕的傳送者與我們給定的使用者進行對比,所以需要對d標籤的屬性p進行分析,p屬性使用逗號隔開的一系列資料,其中各個引數屬性如下

<d p=”彈幕出現時間,模式,字型大小,顏色,傳送時間戳,彈幕池,使用者Hash,資料庫ID”>123123</d>

我們只需要獲取裡面的第7個引數使用者的唯一標識即可

難點分析

使用者id轉換

在彈幕xml檔案中獲取的使用者標識是使用者uid經過hash後的編碼,所以我們需要進行轉換後才能對比校驗,經過使用線上hash網站中的一個個hash函式嘗試比對,發現hash演算法為crc32b,crc32是一個常見演算法,用於檔案校驗,但是crc32b百度了一圈也搜尋不到是個啥東西,無奈出國google了一下,crc32b只是將crc32演算法加密後的結果轉換成了16進位制,下面提供c#實現的功能函式

        /// <summary>
        /// CRC32校驗演算法
        /// </summary>
        protected static ulong[] Crc32Table;
        //生成CRC32碼錶
        public static void GetCRC32Table()
        {
            ulong Crc;
            Crc32Table = new ulong[256];
            int i, j;
            for (i = 0; i < 256; i++)
            {
                Crc = (ulong)i;
                for (j = 8; j > 0; j--)
                {
                    if ((Crc & 1) == 1)
                        Crc = (Crc >> 1) ^ 0xEDB88320;
                    else
                        Crc >>= 1;
                }
                Crc32Table[i] = Crc;
            }
        }
        //獲取字串的CRC32校驗值
        public static ulong GetCRC32Str(string sInputString)
        {
            //生成碼錶
            GetCRC32Table();
            byte[] buffer = System.Text.ASCIIEncoding.ASCII.GetBytes(sInputString); ulong value = 0xffffffff;
            int len = buffer.Length;
            for (int i = 0; i < len; i++)
            {
                value = (value >> 8) ^ Crc32Table[(value & 0xFF) ^ buffer[i]];
            }
            return value ^ 0xffffffff;
        }

        public static string GetCRC32bStr(string sInputString)
        {
            return GetCRC32Str(sInputString).ToString("x");
        }

通過程式碼GET請求儲存xml檔案

在儲存xml檔案的過程中發現輸出流轉為文字永遠是亂碼,經過檢視請求網頁中header中的值,發現返回的xml資料流是壓縮格式的

所以我們對GET請求的方法進行了一些設定,首先Accept-Encoding需要與真正的訪問請求保持一致,然後設定自動解壓,下面提供c#示例

        public static String HttpGet_BiliBiliXmlFile(string Url)
        {
            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url);
            request.Method = "GET";
            request.ContentType = "text/html;charset=UTF-8";
            request.Headers[HttpRequestHeader.AcceptEncoding] = "gzip, deflate, br";
            request.Headers[HttpRequestHeader.AcceptLanguage] = "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2";
            //自動解壓
            request.AutomaticDecompression = DecompressionMethods.GZip | DecompressionMethods.Deflate; 
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            Stream myResponseStream = response.GetResponseStream();
            StreamReader myStreamReader = new StreamReader(myResponseStream, Encoding.UTF8);
            string retString = myStreamReader.ReadToEnd();
            myStreamReader.Close();
            myResponseStream.Close();

            return retString;
        }

功能到這裡就全部分析完畢了,最後打個廣告,自己寫的ASP.NET MVC快速開發框架,希望支援一波

地址:https://gitee.com/grassprogramming/FastExec