史上最詳細的爬蟲教程，Python採集全網最受歡迎的 500 本書！

阿新 • • 發佈：2018-11-16

想看好書？想知道哪些書比較多人推薦，最好的方式就是看資料，接下來用 Python 爬取噹噹網五星圖書榜 TOP500 的書籍，或許能給我們參考參考！

Python爬取目標

爬取噹噹網前500本受歡迎的書籍
解析書籍名稱，作者，排名，推薦程度和五星評分次數資料。
將資料存寫入到本地檔案

分析網頁

在噹噹網五星圖書榜這個網址中,我們可以看到這裡列出來了五星圖書榜：

噹噹網五星圖書榜

通過原始碼可以看到，我們想要的資訊被包裹在<li>標籤中：

噹噹網原始碼

可以看到我們要的這些資料都在這：

關鍵資料

當我們點選下一頁的時候，url 地址會發生改變（最後的數字會加1）：

第一頁的 url 是：http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-1
第二頁的 url 是：http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-2

…

我們等會可以通過這個變數來實現多頁載入資料。

Python請求網頁

我們使用 requests 來請求噹噹網的地址,定義一個get_one_page，將會返回 HTML 原始碼。


def get_one_page(url):
 try:
 response = requests.get(url)
 if response.status_code == 200:
 return response.text
 return None
 except RequestException:
 return None

打印出來就是這樣，部分截圖如下：

正則解析

原始碼那麼多資料，但是對我們來說只需要籍名稱，作者，排名，推薦程度和五星評分次數資料，所以我們要用正則表示式來過濾一下，使用 re 模組，定義匹配規則：


<li>.*?list_num.*?>(.*?)</div>.*?pic.*?src="(.*?)".*?/></a>.*?name"><a.*?title="(.*?)">.*?tuijian">(.*?)</span>.*?publisher_info.*?title="(.*?)".*?biaosheng.*?<span>(.*?)</span>.*?</li>

定義 parse_one_page ,返回每次匹配到的資料，解析成字典形式：


def parse_one_page(html):
 pattern = re.compile('<li>.*?list_num.*?>(.*?)</div>.*?pic.*?src="(.*?)".*?/></a>.*?name"><a.*?title="(.*?)">.*?tuijian">(.*?)</span>.*?publisher_info.*?title="(.*?)".*?biaosheng.*?<span>(.*?)</span>.*?</li>',re.S)
 items = re.findall(pattern,html)
 for item in items:
 yield {
 'index':item[0],
 'iamge':item[1],
 'title':item[2],
 'tuijian':item[3],
 'author':item[4],
 'times':item[5],
 }

將資料寫入檔案

我們已經拿到了每次請求的資料，並且解析匹配好了，那麼將每次得到的資料寫入book.txt檔案中去：


def write_content_to_file(content):
 with open('book.txt','a',encoding='UTF-8') as f:
 f.write(json.dumps(content,ensure_ascii=False) + '
')
 f.close()

多頁請求

我們要獲取 TOP500 ，噹噹網每頁給出 20 條資料，我們需要 25 頁的資料，一開始我們在分析網頁的時候知道 URL 會選擇頁數改變最後的引數，所以我們可以用迴圈來請求所有的資料：


def main(page):
 url = "http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-" + str(page)
 html = get_one_page(url)
 parse_one_page(html)
 for item in parse_one_page(html):
 print(item)
 write_content_to_file(item)
if __name__ == "__main__":
 for i in range(1,26):
 main(i)

執行爬取

抓取過程

可以看到我們將五百條資料抓取下來了，並且在專案中多了一個book.txt檔案，開啟看看有沒將資料寫入：

抓取結果

ok，以上我們就把噹噹網最受歡迎的 500 本書爬取下來了！

史上最詳細的爬蟲教程，Python採集全網最受歡迎的 500 本書！

想看好書？想知道哪些書比較多人推薦，最好的方式就是看資料，接下來用 Python 爬取噹噹網五星圖書榜 TOP500 的書籍，或許能給我們參考參考！ Python爬取目標爬取噹噹網前500本受歡迎的書籍解析書籍名稱

史上最詳細、最完全的ipython使用教程，Python使用者必備！——ipython系列之二

宣告：本文承接前面一篇文章，ipython系列之一；另外，本文所指的ipython不是ipython notebook，ipython notebook已經被jupyter notebook所取代，不再叫ipython notebook了。前面講解了ipython裡面的一些核心

史上最詳細、最完全的ipython使用教程，Python使用者必備！——ipython系列之一

一、ipython簡介關於什麼是ipython，本文就不加以介紹了，他是一個非常流行的python直譯器，相比於原生的python直譯器，有太多優點和長處，因此幾乎是python開發人員的必知必會。 1、ipython相比於原生的python有什麼優勢 (1) pyth

史上最詳細、最完全的jupyter notebook使用教程，Python使用者必備！——ipython系列之三

一、什麼是jupyter 1、簡介： jupyter notebook是一種 Web 應用，能讓使用者將說明文字、數學方程、程式碼和視覺化內容全部組合到一個易於共享的文件中。它可以直接在程式碼旁寫出敘述性文件，而不是另外編寫單獨的文件。也就是它可以能將程式碼、文件

XX-NET史上最詳細完整教程

偽造不用 app 分享圖片 AS 版本 firefox 配置過程自動切換前言　　XX-NET，系GAE類代理，即通過可用Google ip連接Google App Engine項目，然後把所有tcp請求發送給Google App Engine，最終實現科學式網絡的

史上最詳細git教程

閱讀目錄題外話雖然這個標題很驚悚，不過還是把你騙進來了，哈哈～各位看官不要著急，耐心往下看 Git是什麼 Git是目前世界上最先進的分散式版本控制系統。 SVN與Git的最主要的區別 SVN是集中式版本控制系統，版本庫是集中放在中央伺服器的，而

歸併排序——史上最詳細圖解教程！！！

題目大意：把n個數，分成若干份，然後每一份暴力排序一下，然後遞迴地合起來。為什麼要這樣做？這樣有個球用？核心問題就在於，每兩份之間你是怎麼合起來的。我們舉個例子。一個比較呆萌的思路就是，2二分插入，形成新的序列，再繼續用4插入。。。這樣的話，確實沒什麼球用。

如何玩轉F3D？史上最詳細的教程版本來了！

教你如何玩轉F3D。話不多說，進入正文。首先，你需要科學上網，相信這個幣圈中人絕不陌生，韭菜芽們可以自行百度VPN。在此之前，我們要準備好如下三樣法寶：一臺已經科學上網的電腦，一個谷歌瀏覽器，和兩個網址。下面跟著KK我們一步步來：首先複製好網址，開啟谷歌瀏

史上最詳細Postman教程

我們開發的時候一般是開發的時候一套介面,上線之後是另一套介面,那麼我們要把每一套介面都儲存一份嗎,當然不用,我們只需做如下設定,就可以自由切換是開發還是正式的介面了點選右上角,選擇”Manage Environments”。 (adsbygoogle = window.adsbygo

Python為何這麽牛逼？不就是有很多的模塊和框架嗎？最詳細的教程

int imp 開發者濾鏡 In 易用 ons -c 通過概述模塊簡述 Python __name__ 模塊優點提高了代碼的可維護性提高了代碼的服用度, 當一個模塊完畢, 可以被多個地方引用可避免函數名和變量名的沖突 argv : 獲取命令行參

最詳細爬蟲入門教程！花半小時你應該就能去爬一些小東西了！

爬蟲入門 request -a load() 簡單 agent urllib2 com 入門教程爬蟲對目標網頁爬取的過程可以參考下面黑色文字部分：首先訪問初始url，獲取其相應內容對相應內容進行解析，提取感興趣的信息和新的鏈接將上一步提取到的數據存儲，將獲取到

爬蟲教程」Python做一個簡單爬蟲，小白也能看懂的教程

俗話說“巧婦難為無米之炊”，除了傳統的資料來源，如歷史年鑑，實驗資料等，很難有更為簡便快捷的方式獲得資料，在目前網際網路的飛速發展寫，大量的資料可以通過網頁直接採集，“網路爬蟲”應運而生，本篇將會講解簡單的網路爬蟲編寫方法。開發環境每個人的開發環境各異，下面上是我的開發

「爬蟲教程」Python做一個簡單爬蟲，小白也能看懂的教程

【Python爬蟲】有道翻譯最新爬蟲教程，帶GUI應用介面，2018年3月18日實測可用

最新的有道翻譯爬蟲程式碼，包含應用程式介面，更新於20180318import urllib.request import urllib.parse import json import time import gzip import random import hashli

[QNX_firewall]PF防火牆最詳細的教程(上)

鋒影 email:[email protected] 如果你認為本系列文章對你有所幫助，請大家有錢的捧個錢場，點選此處贊助，贊助額0.1元起步，多少隨意 PF防火牆 PF ( 全稱：Packet Filter ) --- 包過濾是UNIX LIKE系

Python自動搶紅包，超詳細教程，再也不會錯過微信紅包了！

目錄： 0 引言 1 環境 2 需求分析 3 前置準備 4 搶紅包流程回顧 5 程式碼梳理 6 後記 0 引言提到搶紅包，就不

Python爬蟲基礎教程，手把手教你爬取拉勾網！

一、思路分析：在之前寫拉勾網的爬蟲的時候，總是得到下面這個結果（真是頭疼），當你看到下面這個結果的時候，也就意味著被反爬了，因為

python爬蟲教程，爬取貓眼電影，一網打盡好電影

一、頁面分析首先開啟貓眼電影，然後點選一個正在熱播的電影（比如：毒液）。開啟開發者工具，點選左上角的箭頭，然後用滑鼠點選網頁上

Python基礎入門教程，Python學習路線圖

第一天字符語法知識國內排序 inux 跟著最好的給大家整理的這套python學習路線圖，按照此教程一步步的學習來，肯定會對python有更深刻的認識。或許可以喜歡上python這個易學，精簡，開源的語言。此套教程，不但有視頻教程，還有源碼分享，讓大家能真正

spring mvc 最詳細文檔，前無古人後無來者掉渣天~

get() tom include ava spa .com ops images 類型一、SpringMVC基礎入門，創建一個HelloWorld程序 1.首先，導入SpringMVC需要的jar包。 2.添加Web.xml配置文件中關於SpringMVC的配置

史上最詳細的爬蟲教程，Python採集全網最受歡迎的 500 本書！

Python爬取目標

分析網頁

Python請求網頁

正則解析

將資料寫入檔案

多頁請求

執行爬取

相關推薦