[python爬蟲]--爬取豆瓣音樂topX

阿新 • • 發佈：2019-02-15

最近在學習python爬蟲，寫出來的一些爬蟲記錄在csdn部落格裡，同時備份一個放在了github上。
github地址：https://github.com/wjsaya/python_spider_learn/
本次內容：從豆瓣的top250音樂介面爬取指定的topX專輯。

思路：

拼接出豆瓣topX頁面URL。
用BS去訪問和解析豆瓣topX頁面URL，獲取頁面內的所有歌手名和專輯名並拼接，然後輸出。

程式碼：

#coding: utf-8
import re
import requests
from bs4 import BeautifulSoup

url = "https://music.douban.com/top250?start=25" 

firefox={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:53.0) Gecko/20100101 Firefox/53.0 FirePHP/0.7.4"}

def main():
#主函式，一切的開始，以及變數值獲取
    maxm = input("想獲取豆瓣排名前多少的音樂列表呢？(0-250之間）：")
    count_main = 0
    url_li = get_pages()
    for i in range(0,9):
        if count_main < int(maxm):
            count_main += get_details(url_li[i], count_main, maxm)


def 
 get_soup(url):
#獲取html並解析為BS
    html = requests.get(url, headers=firefox)
    soup = BeautifulSoup(html.content, 'lxml')
    return soup


def get_details(url, count_in_loop, maxm):
#獲取豆瓣音樂專輯的名稱與url連結
    content = get_soup(url)
    html = content.find_all('a', class_="nbg")
    for i in range(0,25 
):
        if count_in_loop < int(maxm):
            print ("歌手-名字："+html[i]["title"])
            print ("連結："+html[i]["href"])
        count_in_loop += 1
    return count_in_loop

def get_pages():
#從豆瓣網頁解析出豆瓣下方的下一頁標籤中的地址列表，此函式可升級為解析下一頁url。
#或者直接構造豆瓣url地址，?start=XXX即可。
    content = get_soup(url)
    l = content.find("div", class_="paginator")
    url_li = []
    for i in l.find_all('a'):
        url_li.append(i['href'])
    return url_li[0:9]

if __name__ == '__main__':
    main()

效果圖：

這裡寫圖片描述

[python爬蟲]--爬取豆瓣音樂topX

最近在學習python爬蟲，寫出來的一些爬蟲記錄在csdn部落格裡，同時備份一個放在了github上。 github地址：https://github.com/wjsaya/python_s

用Python爬蟲爬取豆瓣電影、讀書Top250並排序

更新：已更新豆瓣電影Top250的指令碼及網站概述經常用豆瓣讀書的童鞋應該知道，豆瓣Top250用的是綜合排序，除使用者評分之外還考慮了很多比如是否暢銷、點選量等等，這也就導致了一些近年來評分不高的暢銷書在這個排行榜上高高在上遠比一些經典名著排名還高，於是在這裡打算重新給To

python爬蟲--爬取豆瓣top250電影名

python爬蟲--爬取豆瓣top250電影名關於模擬瀏覽器登入的header，可以在相應網站按F12調取出編輯器，點選netwook，如下：以便於不會被網站反爬蟲拒絕。 1 import requests 2 from bs4 import BeautifulSoup

（7）Python爬蟲——爬取豆瓣電影Top250

利用python爬取豆瓣電影Top250的相關資訊，包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容，然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下： #!/us

python爬蟲——爬取豆瓣電影top250資訊並載入到MongoDB資料庫中

最近在學習關於爬蟲方面的知識，因為剛開始接觸，還是萌新，所以有什麼錯誤的地方，歡迎大家指出 from multiprocessing import Pool from urllib.request import Request, urlopen import re, pymongo index

（8）Python爬蟲——爬取豆瓣影評資料

利用python爬取豆瓣最受歡迎的影評50條的相關資訊，包括標題,作者,影片名,影片詳情連結,推薦級,迴應數,影評連結,影評,有用數這9項內容，然後將爬取的資訊寫入Excel表中。具體程式碼如下： #!/usr/bin/python # -*- codin

Python爬蟲：現學現用Xpath爬取豆瓣音樂

9.1 tree when href scrapy 發現 pat 直接 where 爬蟲的抓取方式有好幾種，正則表達式，Lxml(xpath)與Beautiful,我在網上查了一下資料，了解到三者之間的使用難度與性能三種爬蟲方式的對比。抓取方式性能使用難度

Python爬蟲實戰(3)-爬取豆瓣音樂Top250資料(超詳細)

前言首先我們先來回憶一下上兩篇爬蟲實戰文章：第一篇：講到了requests和bs4和一些網頁基本操作。第二篇：用到了正則表示式-re模組今天我們用lxml庫和xpath語法來爬蟲實戰。 1.安裝lxml庫 window：直接用pip去

python爬蟲-爬取愛情公寓電影（2018）豆瓣短評並資料分析

說起這部電影，我本人並沒有看，其實原先是想為了情懷看一下，但是好友用親身經歷告訴我看來會後悔的，又去看了看豆瓣評分，史無前例的，，，低。出於興趣就爬取一下這部電影在豆瓣上的短評，並且用詞雲分析一下。 1.分析url 經過分析不難發現每一頁短評的url都是一致的除

Python 3.6 爬蟲爬取豆瓣《孤芳不自賞》短評

使用Python 3.6 進行對《孤芳不自賞》這部作品的短評爬取點選這個連線我們可以進入該作品短評頁面這裡還沒有登入豆瓣。登入豆瓣之後，才能爬取更多的頁面。因此我們選擇登入，最快捷省時的辦法，就是在登入時使用F12進行檢視cookies。

python爬蟲——爬取酷狗音樂top500(BeautifulSoup使用方法)

酷狗音樂Top500 進入，並按F12開啟開發者工具（本文以火狐瀏覽器為例）我們開始審查元素，在檢視器中觀察網頁原始碼，或者右鍵檢視頁面原始碼，看原始碼中是否有我們想要的資訊。我們可以在這裡看到歌單資訊，在ul標籤下正好有22條li個標籤，

利用python爬取豆瓣音樂TOP250

最近無所事事，在逼乎看到別人爬取了豆瓣電影，發現挺適合我這菜雞練練手所以我來爬音樂。。 #對不起豆瓣，又是爬你。。目標網站：https://music.douban.com/top250?start=0 首先正常瀏覽分析網頁開啟網址，點選下一頁，發現網站URL變成

【Python爬蟲第二彈】基於爬蟲爬取豆瓣書籍的書籍資訊查詢

爬蟲學了有半個月的時間了，其實這半個月真正學到的東西也不過就是requsets和beautifulsoup的用法，慚愧，收穫不太大，還沒有接觸scrapy框架，但是光這個beautifulsoup可以完成的事情已經很多了，然後簡單的使用了pandas可以將爬取到

初學python：用簡單的爬蟲爬取豆瓣電影TOP250的排名

一開始接觸到python語言，對它沒什麼瞭解。唯一知道的就是它可以用來寫爬蟲，去爬取網路上的資源。爬蟲是一種按照一定的規則，自動地抓取網路上的資訊的程式或者指令碼。所以當我對python有一定的瞭解後，我就想個寫個爬蟲來試試手。於是就有了這篇文章，用簡單的爬蟲爬取豆瓣電影TO

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

python爬蟲爬取頁面源碼在本頁面展示

一個 nts ring 想要 strip code 空白列表 ngs python爬蟲在爬取網頁內容時，需要將內容連同內容格式一同爬取過來，然後在自己的web頁面中顯示，自己的web頁面為django框架首先定義一個變量html，變量值為一段HTML代碼 >&

python 爬蟲爬取證券之星網站

爬蟲周末無聊，找點樂子。。。#coding:utf-8 import requests from bs4 import BeautifulSoup import random import time #抓取所需內容 user_agent = ["Mozilla/5.0 (Windows NT 10.0

python爬蟲爬取海量病毒文件

tle format nbsp contex logs request spl tde __name__ 因為工作需要，需要做深度學習識別惡意二進制文件，所以爬一些資源。 # -*- coding: utf-8 -*- import requests import re

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

enc 用途 css選擇器狀態 csv文件表格 area 加密重要用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）在進行爬取前，首先要了解： 1、什麽是CSS選擇器？每一條css樣式定義由兩部分組成，形式如下： [code] 選擇器{樣式} [/code

python爬蟲——爬取古詩詞

爬蟲古詩詞實現目標 1.古詩詞網站爬取唐詩宋詞 2.落地到本地數據庫頁面分析通過firedebug進行頁面定位：源碼定位：根據lxml etree定位div標簽：# 通過 lxml進行頁面分析 response = etree.HTML(data

[python爬蟲]--爬取豆瓣音樂topX

思路：

程式碼：

效果圖：

相關推薦