筆記——用Requests庫和BeautifulSoup庫爬取酷狗音樂資料

阿新 • • 發佈：2019-02-02

酷狗音樂top500榜單鏈接：http://www.kugou.com/yy/rank/home/1-8888.html

觀察每頁的url，將第一頁url中home/後的1改成2，就恰好是第二頁的url。

首先匯入相應的庫，同時設定好瀏覽器的header：

import requests
from bs4 import BeautifulSoup
import time

headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:58.0) Gecko/20100101 Firefox/58.0'
}

接下來寫獲取網頁資訊的函式，這裡需要事先載入lxml包，否則會報錯。

我們要爬取的資訊有4項：排名、歌手、歌曲名、時長，分別右鍵每個部分，選擇【檢視元素】，可以找到它們的原始碼分別如下：

使用soup.select()函式時，括號裡是‘標籤名.類別名’，比如對於【排名】（ranks）這一項，括號裡就應該是'span.pc_temp_num'，而如果只寫最小的標籤的類別名無法爬取時，可以由大標籤開始一層一層寫到小標籤，中間用大於號連結（注意，大於號的前後都要打上空格，否則錯誤），比如下面的【名稱】（titles）這一項，soup.select()函式的括號裡就是'div.pc_temp_songlist > ul > li > a'，從母標籤一層一層寫到我們所需要的a標籤。

【時長】（times）的寫法也是同樣的道理，書上是從大的那個span的標籤開始寫的，我試了一下直接用'span.pc_temp_time'也是可以的。

做好了lxml方法下的網頁解析，接下來就用一個迴圈，來將每一條資料設定成字典的形式：

    for rank,title,time in zip(ranks,titles,times):
        data={
            'rank':rank.get_text().strip(),
            'singer':title.get_text().split('-')[0],
            'song':title.get_text().split('-')[1],
            'time':time.get_text().strip()
        }
        print(data)

最後一波是構造多頁的url，同時對每一頁呼叫之前寫的網頁解析的函式，對於構造多頁url這件事，一句話就能搞定：

urls=['http://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,24)]

綜合上面的分析，完整的程式碼如下：

import requests
from bs4 import BeautifulSoup
import time

headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:58.0) Gecko/20100101 Firefox/58.0'
}

def get_info(url):
    urldata=requests.get(url,headers=headers)
    soup=BeautifulSoup(urldata.text,'lxml')
    ranks=soup.select('span.pc_temp_num')
    titles=soup.select('div.pc_temp_songlist > ul > li > a')
    times=soup.select('span.pc_temp_time')
    for rank,title,time in zip(ranks,titles,times):
        data={
            'rank':rank.get_text().strip(),
            'singer':title.get_text().split('-')[0],
            'song':title.get_text().split('-')[1],
            'time':time.get_text().strip()
        }
        print(data)

if __name__ =='__main__': #程式主入口
    urls=['http://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,24)]
    for url in urls:
        get_info(url)
        time.sleep(1)

好啦~大功告成，得到了五百條資料，就像這樣：

筆記——用Requests庫和BeautifulSoup庫爬取酷狗音樂資料

筆記——用Requests庫和BeautifulSoup庫爬取酷狗音樂資料

python爬蟲——爬取酷狗音樂top500(BeautifulSoup使用方法)

爬取酷狗音樂Top500

java 爬蟲爬取酷狗歌手資料

爬取酷狗音樂華語新歌榜前100

python爬取酷狗音樂排行榜

Java爬蟲系列之實戰：爬取酷狗音樂網 TOP500 的歌曲(附原始碼)

python語言用requests庫和BeautifulSoup庫爬取京東商品資訊

使用Requests庫和BeautifulSoup庫來爬取網頁上需要的文字與圖片

用面向物件的思想程式設計思想使用requests、lxml模組爬取酷我音樂榜單的音樂，並用json格式匯出檔案。

scrapy爬蟲和Django後臺結合（爬取酷我音樂）

[Python爬蟲]爬蟲例項:爬取酷狗TOP500的資料

爬蟲實戰-酷狗音樂資料抓取--XPath，Pyquery,Beautifulsoup資料提取對比實戰

爬蟲程式2-爬取酷狗top500

爬蟲入門，爬取酷狗歌單top500，簡單爬蟲案例

【爬蟲入門5】爬取酷狗TOP500

Python爬取酷狗TOP100

用requests庫和BeautifulSoup4庫爬取新聞列表

requests庫和BeautifulSoup4庫爬取新聞列表

基於requests庫和lxml庫爬取優信二手車

筆記——用Requests庫和BeautifulSoup庫爬取酷狗音樂資料

相關推薦