1. 程式人生 > >爬蟲小計(charles抓取wss資料--yy資料爬取)

爬蟲小計(charles抓取wss資料--yy資料爬取)

背景

  1. 爬取一個直播平臺的資訊與一個普通網站的資料
  2. 直播平臺的資訊有熱門主播的線上人數,時常,與熱門直播的禮物情況(粉絲的人物畫像)

難點

  1. 打賞禮物的人物畫像
  2. https
  3. wss(資料的實時性),需要模擬匿名使用者的訪問,某直播網站的wss資料又是二進位制資料
  4. 頭大的js程式碼,無限多,無限長

分析

  1. 一般普通資料用java jsoup來解決
  2. wss的資料需要先模擬匿名登入,拿到binary data。然後再來分析網站的js程式碼,進行解析。

找工具

  1. chrome 開發者工具,f12 ws選擇只能看到frames在走動與我們兩個互不認識的binary。
  2. wireshark,傷心本來報很大希望但是無法通過websocket方式來搜尋出來,而且即時分析出來,我估計也不知道如何擷取,這個後面再做研究如何使用,看到有人說直接搜websocket是可以看到的。但是通過websocket filter我真的找不到自己想要的資料。除非通過ip.addr ip.src 等等
  3. charles,無意中發現的。真如其名,charles。雖然開始也用不好,但是最後還是搞定了,下面具體說說如何使用的吧。

charles工具

  1. 先啟用
// Charles Proxy License
// 適用於Charles任意版本的註冊碼,誰還會想要使用破解版呢。
// Charles 4.2目前是最新版,可用。
Registered Name: https://zhile.io
License Key: 48891cf209c6d32bf4
  1. 安裝 ssl證書支援
help->SSL proxying->install charles  root certificate
下面這篇文章說的非常好
https://www.cnblogs.com/ceshijiagoushi/p/6812493.html
  1. 設定代理,同樣是上面的文章,不過我建議使用 *:443

檢視結果

  1. 在瀏覽器上訪問你要訪問的網站
  2. 普通的https網頁已經在後側可以看到內容了
  3. 同樣wss的抓取也出來,但是具體的binary data。還是需要自己分析的哦

在這裡插入圖片描述

在這裡插入圖片描述

目前使資料可以抓取到,接下來就是需要對二進位制資料進行分析解析,獲取有價值資料。

原創文章,版權所有,禁止抄襲,違者必究!!!轉載請註明出處!!!技術需要請聯絡[email protected]