1. 程式人生 > >聽歌音樂還要我付費?看我用Python批量下載

聽歌音樂還要我付費?看我用Python批量下載

百度VIP音樂爬取

  • 網頁分析
  • 分析音樂的真實地址
  • url拼接 獲取所有資料
  • 批量獲取singid
  • 程式碼編寫
  • 獲取所有的songid
  • 根據songid獲取音樂的真實地址
  • 儲存音樂檔案
  • 無版權音樂稻香的爬取

網頁分析

目標站點:網頁連結陳粒

一個人可以跑得很快,一群人可以走得更遠!

分析音樂的真實地址

選擇一首歌 以陳粒的走馬為例

開啟開發者工具,選擇network -> media -> 重新整理網頁就能獲取到音樂的真實地址

聽vip音樂你還在付費?不存在的,python幾行程式碼直接爬取!

 

但是得到的地址在檢視原始碼中是讀取不到的,肯定是百度音樂對其進行了隱藏。這種時候一般會有兩種情況。第一種是使用了 JavaScript 對請求連線進行了拼接或加密,第二種是資料被隱藏了。由於我們不清楚是出現了那種情況。所以我們只能慢慢的去分析請求的資料。

聽vip音樂你還在付費?不存在的,python幾行程式碼直接爬取!

 

聽vip音樂你還在付費?不存在的,python幾行程式碼直接爬取!

 

經過分析我們可以看到真實的音樂地址是存在於這個API裡面網頁連結

並且我們請求這個 API 返回的是一個 json 資料(也就是python的字典資料型別)。只要我們使用字典的規則就能將我們的所有資料給提取到。

url拼接 獲取所有資料

前面我們得到了音樂的真實地址,接下來我們就是分析真實地址的 url ,以期待得到下載所有音樂的訣竅。

聽vip音樂你還在付費?不存在的,python幾行程式碼直接爬取!

 

聽vip音樂你還在付費?不存在的,python幾行程式碼直接爬取!

 

仔細分析一下 url 就可以發現,?後面的from引數與_即使不存在也不影響資料的請求。

並且後面的引數中的songid其實就是歌曲的唯一id,from引數其實就是表明從哪個平臺過來的

所以等一下我們下載音樂時,只要批量獲取到歌曲的songid就能將所有的歌曲給全部下載下來了。不管音樂是否是VIP的,又或者時無版權的均可爬取。

批量獲取singid

聽vip音樂你還在付費?不存在的,python幾行程式碼直接爬取!

 

使用開發者工具,檢視網頁原始碼就能檢視到songid的位置,如果我們分析一個歌手頁面的url你會發現同樣可以構造。

到此,整個網頁分析就結束了。

程式碼編寫

獲取所有的songid

根據目標地址,獲取目標地址的所有songid

def get_songid():
 url = '網頁連結
 response = requests.get(url=url)
 html = response.text
 sids = re.findall(r'sid":(d+),',html)
 return sids

根據songid獲取音樂的真實地址

def get_music_url(songid):
 api_url = '網頁連結{songid}&from=web'
 response = requests.get(api_url.format(songid=songid))
 str_json = re.findall(r'{.*}', response.text)[0]
 data = json.loads(str_json)
 music_name = data['songinfo']['title']
 music_url = data['bitrate']['file_link']
 print(music_url, music_name)

儲存音樂檔案

def save_file(filename, content):
 with open(file=filename, mode="wb") as f:
 f.write(content)

無版權音樂稻香的爬取

聽vip音樂你還在付費?不存在的,python幾行程式碼直接爬取!

 

聽vip音樂你還在付費?不存在的,python幾行程式碼直接爬取!