1. 程式人生 > >Python爬蟲入門教程 42-100 爬取兒歌多多APP數據-手機APP爬蟲部分

Python爬蟲入門教程 42-100 爬取兒歌多多APP數據-手機APP爬蟲部分

如何 分類 提取 地址 一個 本科 fiddler 系列 案例

1. 兒歌多多APP簡單分析

今天是手機APP數據爬取的第一篇案例博客,我找到了一個兒歌多多APP,沒有加固,沒有加殼,沒有加密參數,對新手來說,比較友好,咱就拿它練練手,熟悉一下Fiddler和夜神模擬器是如何配合著使用的。

兒歌多多APP在豌豆莢的下載量還是可以的,一家做內容的APP。

技術分享圖片

2. APP安裝和使用

APP直接去下載APK包就可以了,拖拽到夜神模擬器就安裝成功了。在模擬器打開出現如下界面,表示已經可以開始操作了,非常兒童的APP。

技術分享圖片

3. 抓包測試

打開APP同時,打開Fiddler,首先測試一下網絡是否正常,用模擬器自帶的瀏覽器去訪問百度,如果可以訪問表示無問題,否則重新設置代理

運行軟件過程中,註意觀察Fiddler,如果出現JSON類型的API[接口],就要註意了,你想要的數據就在這裏

技術分享圖片

我們點擊鏈接,看Fiddler右側顯示內容,主要看我標註的3處重點
技術分享圖片

分別是鏈接,請求頭,響應內容

4. 提取接口鏈接

獲取到上述地址之後,你就可以提取接口地址了,提取到的接口很長,需要我們進行關鍵參數的判定

http://bb.ergeduoduo.com/baby/bb.php?type=getvideos&collectid=29&interver=8&page=1&pagesize=30&grade=-1_-1&user=866174010820641&prod=childstory_ar_4.0.5.0&corp=duoduo&source=childstory_ar_4.0.5.0_m360&srcver=story&ver=1&imei=866174010820641&protect=1

經過一系列的測試,縮短鏈接如下

http://bb.ergeduoduo.com/baby/bb.php?type=getvideos&collectid=29&page=1&pagesize=30

關鍵參數

type # 獲取內容類型
collectid # 分類
page = 1 # 頁碼
pagesize = 30 # 每頁數據

5. 兒歌多多APP數據爬蟲編寫

關鍵地址拿到之後,下面的操作就是選擇一個你熟悉的爬蟲庫去進行操作了,你可以使用scrapy,pyspider 等,也可以直接用requests直接去爬取,都是非常簡單的,我就不進行爬蟲部分的編寫了~

6. 本篇博客重點內容

通過兒歌多多,希望你可以把Fiddler和夜神模擬器之間的配合進行抓包。工具使用熟練,只要接口被我們獲取到,關鍵參數被我們提取到,我們就可以快速的編寫爬蟲去獲取它內部的數據了。

在爬取的過程中,還可以直接去下載視頻哦

技術分享圖片

技術分享圖片

歡迎關註微信:非本科程序員
技術分享圖片

Python爬蟲入門教程 42-100 爬取兒歌多多APP數據-手機APP爬蟲部分