[Python爬蟲]爬蟲例項:爬取酷狗TOP500的資料

阿新 • • 發佈：2018-11-16

根據書籍《從零開始學Python網路爬蟲》P41，綜合案例2—爬取酷狗TOP500的資料修改而來.
使用模組requests和模組BeautifukSoup進行爬取.
不得不說，酷狗拿來跑爬蟲真是好，不ban不限制IP~

要爬取的頁面資訊

酷狗TOP500
在這裡插入圖片描述
需要爬取的資訊很少：1.排名 2.標題(歌名-歌手) 3.時長
每頁22條資訊,需要爬取500/22≈23頁
雖然沒有手動翻頁下一步瀏覽,但是隻要修改網頁:
http://www.kugou.com/yy/rank/home/1-8888.html?from=rank 為
http://www.kugou.com/yy/rank/home/2-8888.html?from=rank

就得到第二頁的資訊.
使用瀏覽器中審查元素功能,得到: 資訊對應的標籤屬性,使用soup.select()獲取標籤,再使用tag.get_text()獲取文字即可
在這裡插入圖片描述

程式碼實現

知道了要爬的標籤,寫起來就很輕鬆了,確定流程如下:
1.設定Headers的User-Agent偽裝瀏覽器訪問
2.獲取酷狗主站的編碼格式<meta charset=xxx>,並設定到request中res.encoding,對應的res.text就會重新編碼.這樣soup在使用lxml解析器時就不會出現亂碼了.
3.開啟檔案kugou_500.txt,設定為寫入方式,f.encoding=res.encoding

,統一編碼格式
4.對23個網頁中,每個網頁執行一次get_info()獲取資訊,然後按格式寫入到檔案kugou_500.txt中.
5.等待爬蟲結束,然後檢視爬取結果.

from bs4 import BeautifulSoup
import requests
import time
import re

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}


def get_info 
(url, file):
    res = requests.get(url, headers=headers)
    res.encoding = file.encoding  # 同樣讀取和寫入的編碼格式
    soup = BeautifulSoup(res.text, 'lxml')
    ranks = soup.select('span.pc_temp_num')
    titles = soup.select('a.pc_temp_songname')
    times = soup.select('span.pc_temp_time')
    for rank, title, time in zip(ranks, titles, times):
        data = {
            'rank': rank.get_text().strip(),
            'title': title.get_text().strip(),
            'time': time.get_text().strip()
        }
        string="{: <10}{: <30}{: <10}\n".format(data['rank'],data['title'],data['time'])#格式化輸出
        file.write(string)


def get_website_encoding(url):  # 一般每個網站自己的網頁編碼都是一致的,所以只需要搜尋一次主頁確定
    res = requests.get(url, headers=headers)
    charset = re.search("charset=(.*?)>", res.text)
    if charset is not None:
        blocked = ['\'', ' ', '\"', '/']
        filter = [c for c in charset.group(1) if c not in blocked]
        return ''.join(filter)  # 修改res編碼格式為源網頁的格式,防止出現亂碼
    else:
        return res.encoding  # 沒有找到編碼格式,返回res的預設編碼


if __name__ == '__main__':
    encoding = get_website_encoding('http://www.kugou.com')
    urls = ['http://www.kugou.com/yy/rank/home/{}-8888.html?from=rank'.format(str(i)) for i in range(1, 23)]
with open(r'd:\kugou_500.txt', 'w', encoding=encoding) as f:
    f.write("排名      歌手         歌名          長度\n")
    for url in urls:
        get_info(url, f)
        time.sleep(1) #緩衝一秒,防止請求頻率過快

資料展示

在這裡插入圖片描述
…

寫在後面

這裡只是展示一個基本的爬蟲例項作為練手,就不做改進了.
可改進如下:
1.儲存和顯示的格式可以更美觀
2.將標題分割為歌手和歌名
3.將資料存入資料庫,然後進行相關的數學分析和統計等…

[Python爬蟲]爬蟲例項:爬取酷狗TOP500的資料

根據書籍《從零開始學Python網路爬蟲》P41，綜合案例2—爬取酷狗TOP500的資料修改而來. 使用模組requests和模組BeautifukSoup進行爬取. 不得不說，酷狗拿來跑爬蟲真是好，不ban不限制IP~ 要爬取的頁面資訊酷狗TOP500 需要爬

爬蟲程式2-爬取酷狗top500

爬取的內容為酷狗榜單中酷狗top500的音樂資訊，如圖所示。網頁版酷狗不能手動翻頁，進行下一步的瀏覽。但通過觀察第一頁的URL： http://www.kugou.com/yy/rank/home/1-8888.html 這裡嘗試把數字1換為數字2，進行瀏覽，恰好返回的是第2頁的資訊（下圖）。進行

爬蟲入門，爬取酷狗歌單top500，簡單爬蟲案例

import requests from bs4 import BeautifulSoup import time headers = { 'User-Agent': 'Mozilla/5.0

【爬蟲入門5】爬取酷狗TOP500

#coding utf-8 import time import requests from bs4 import BeautifulSoup class spider_KG_top500(object): def __init__(self):

java 爬蟲爬取酷狗歌手資料

記錄防止忘記包： jsoup-1.4.1 html解析 httpcore-4.0.1_1 httpclient-4.0.1 程式碼：已經訪問的url佇列 //已經訪問連結佇列 public class VisitedUrlQueue { public static

筆記——用Requests庫和BeautifulSoup庫爬取酷狗音樂資料

酷狗音樂top500榜單鏈接：http://www.kugou.com/yy/rank/home/1-8888.html觀察每頁的url，將第一頁url中home/後的1改成2，就恰好是第二頁的url。首先匯入相應的庫，同時設定好瀏覽器的header：import reque

python爬蟲——爬取酷狗音樂top500(BeautifulSoup使用方法)

酷狗音樂Top500 進入，並按F12開啟開發者工具（本文以火狐瀏覽器為例）我們開始審查元素，在檢視器中觀察網頁原始碼，或者右鍵檢視頁面原始碼，看原始碼中是否有我們想要的資訊。我們可以在這裡看到歌單資訊，在ul標籤下正好有22條li個標籤，

python爬蟲小試例項--爬取網頁圖片並下載

一、python安裝在python的官網下載python版本，需要下載對應版本（在計算機-屬性中檢視自己是32位作業系統還是64位作業系統），我是64位的，就下載64位對應的安裝包了（如下圖：Windows x86-64 executable installer）。官網下載地

Java爬蟲系列之實戰：爬取酷狗音樂網 TOP500 的歌曲(附原始碼)

在前面分享的兩篇隨筆中分別介紹了HttpClient和Jsoup以及簡單的程式碼案例： Java爬蟲系列二：使用HttpClient抓取頁面HTML Java爬蟲系列三：使用Jsoup解析HTML 今天就來實戰下，用他們來抓取酷狗音樂網上的 Top500排行榜音樂。接下來的程式碼

Python爬蟲訓練：爬取酷燃網視訊資料

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理專案目標爬取酷燃網視訊資料 https://krcom.cn/ 環境 Python3.6 pycharm 爬蟲程式碼 import pprint

Python爬取酷狗TOP100

import time import requests from bs4 import BeautifulSoup headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537

Python爬蟲實戰(3)-爬取豆瓣音樂Top250資料(超詳細)

前言首先我們先來回憶一下上兩篇爬蟲實戰文章：第一篇：講到了requests和bs4和一些網頁基本操作。第二篇：用到了正則表示式-re模組今天我們用lxml庫和xpath語法來爬蟲實戰。 1.安裝lxml庫 window：直接用pip去

python爬取酷狗音樂排行榜

rip idt clas strip pack 排行榜 upload 內容 nbsp 本文為大家分享了python爬取酷狗音樂排行榜的具體代碼，供大家參考，具體內容如下 python爬取酷狗音樂排行榜

爬取酷狗音樂Top500

TP pid 標準 html IT 行緩沖瀏覽器輕松 port 開發環境：windows環境+python3+requests庫(請求)+BeautifulSoup庫(解析) 目標:爬取酷狗音樂Top500並保存到txt中整個案例源代碼： #導入程序需要的庫，req

爬蟲入門之爬取靜態網頁表格資料

我們的目標就是將這個表格中的資料爬下來儲存成csv檔案目標連結:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html 內容解析部分我更喜歡使用Pyquery 你也可以使用其他的解析方式 #!/usr/bin/env py

爬取酷狗音樂華語新歌榜前100

imp bs4 pan indexer quest 爬取 app gui 元素 import requests import time import lxml from bs4 import BeautifulSoup headers = { ‘User-Agen

爬去酷狗top500的數據

gen 5.0 home window XML pro IE com 數據 import requests from bs4 import BeautifulSoup import time headers={ #‘User-Agent‘:‘Nokia6

python中scrapy框架爬取攜程景點資料

--------------------------------------------------------------------------------------------- [版權申明：本文系作者原創，轉載請註明出處] 文章出處：https://blog.cs

[Python爬蟲]爬蟲例項:爬取PEXELS圖片---解決非同步載入問題

第一次嘗試爬取—>[Python爬蟲]爬蟲例項:三種方式爬取PEXELS圖片在爬取PEXELS時,遇到了這樣問題: 頁面使用Ajax的非同步載入技術來實現分頁,所以通過request.text無法獲取動態載入的內容.而如果想正確獲取這些資料,則需要使用名為逆向工程的過程(“抓包”

[Python爬蟲]爬蟲例項:爬取PEXELS圖片---修改為多程序爬蟲

第二次修改的地址---->爬蟲例項:爬取PEXELS圖片—解決非同步載入問題在前面的修改中,我們通過使用逆向工程成功解決了非同步載入的問題.但同時還有一個問題:效率問題,受限於網速,假如使用單程序下載圖片時下載的速度沒有佔滿,而使用多個程序時下載速度能夠佔滿的話,那麼多程序爬蟲在

[Python爬蟲]爬蟲例項:爬取酷狗TOP500的資料

要爬取的頁面資訊

程式碼實現

資料展示

寫在後面

相關推薦