爬取豆瓣Top250圖書【Beautiful】

阿新 • • 發佈：2019-01-23

由於我有一個喜歡看書的室友，最近比較鬧書荒，我想著爬取一下豆瓣評分Top250的圖書，看看他有沒有想看的，我是本著學習的態度加雙贏的結果（並不是為了裝那啥。。。

爬取目標
+ 爬取豆瓣評分Top250的圖書
+ 獲取每本圖書的詳細資訊
+ 把爬取結果存入Excel中

0、爬取效果

1、分析URL

爬取的目標url為，https://book.douban.com/top250?start=0，這也是一個多頁的爬取，url的規則為，start=0,25，分別為第一頁，第二頁，分別對應著每頁的25本圖書
需要爬取的整體內容

這次採用的是BeautifuSoup

    def getBooks(self):
        pageCode = self.getPage()
        bsObj = BeautifulSoup(pageCode, 'lxml')
        for book in bsObj.findAll("td", {"valign": "top"}):
            if book.find('div',{'class':re.compile(r'pl[2]{1}')})==None:
                continue
            bookUrl = book.a['href' 
].strip()                #圖書詳細資訊的連結
            title = '《' + book.a['title'].strip() + '》'     #圖書標題
            detail = book.find('p',{'class':'pl'}).get_text().split('/')    #圖書相關細節
            author = detail[0].strip()      #圖書作者
            if len(detail)==5:
                translator = detail[1 
].strip()  #圖書譯者
                press = detail[2].strip()       #出版社
                date = detail[3].strip()        #出版日期
                price = detail[4].strip()       #圖書價格
            else:
                translator = ''
                press = detail[1].strip()
                date = detail[2].strip()
                price = detail[3].strip()
            score = book.find('span',{'class':'rating_nums'}).get_text().strip()    #圖書評分
            scoreNum = book.find('span',{'class':'pl'}).get_text().strip('(').strip(')').strip()    #圖書評價人數
            quote = book.find('span',{'class':'inq'}).get_text()        #簡述
            self.book_list.append([title,author,translator,quote,press,date,price,score,scoreNum,bookUrl])

2、爬取內容存入到EXCEl

import xlwt
def load(self,datalist):
    file = xlwt.Workbook()
    sheet = file.add_sheet('豆瓣圖書Top250',cell_overwrite_ok=True)
    col = (u'圖書名字',u'作者',u'譯者',u'引述',u'出版社',u'發行日期',u'價格',u'評分',u'評價標準',u'圖書詳細連結')
    for i in range(0,10):
        sheet.write(0,i,col[i]) #列名
    for i in range(0,250):
        data = datalist[i]

        for j in range(0,10):
            sheet.write(i+1,j,data[j])    #資料
    file.save('豆瓣圖書Top250.xls')

3、整體程式碼

# coding:utf-8
"""
https://book.douban.com/top250?start=0
爬取豆瓣圖書評分最高的前250本，
第一頁：start=0，第二頁：start=25......
"""
from urllib.request import urlopen
from urllib.request import Request
from urllib.error import URLError
from bs4 import BeautifulSoup
import re
import xlwt


class DoubanBook:
    def __init__(self, pageIndex):
        self.pageIndex = 0
        self.user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' \
                          'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
        self.headers = {'User-Agent': self.user_agent}
        self.book_list = []

    def getPage(self):
        try:
            url = 'https://book.douban.com/top250?' + str(self.pageIndex)
            request = Request(url, headers=self.headers)
            response = urlopen(request)
            page = response.read().decode('utf-8')
            return page
        except URLError as e:
            if hasattr(e, 'reason'):
                print("爬取失敗，失敗原因：", e.reason)

    def getBooks(self):
        pageCode = self.getPage()
        bsObj = BeautifulSoup(pageCode, 'lxml')
        for book in bsObj.findAll("td", {"valign": "top"}):
            if book.find('div',{'class':re.compile(r'pl[2]{1}')})==None:
                continue
            bookUrl = book.a['href'].strip()
            title = book.a['title'].strip()
            detail = book.find('p',{'class':'pl'}).get_text().split('/')
            author = detail[0].strip()
            if len(detail)==5:
                translator = detail[1].strip()
                press = detail[2].strip()
                date = detail[3].strip()
                price = detail[4].strip()
            else:
                translator = ''
                press = detail[1].strip()
                date = detail[2].strip()
                price = detail[3].strip()
            score = book.find('span',{'class':'rating_nums'}).get_text().strip()
            scoreNum = book.find('span',{'class':'pl'}).get_text().strip('(').strip(')').strip()
            quote = book.find('span',{'class':'inq'}).get_text()
            self.book_list.append([title,author,quote,press,date,price,score,scoreNum,bookUrl])

    def load(self,datalist):
        file = xlwt.Workbook()
        sheet = file.add_sheet('豆瓣圖書Top250',cell_overwrite_ok=True)
        col = (u'圖書名字',u'作者',u'引述',u'出版社',u'發行日期',u'價格',u'評分',u'評價標準',u'圖書詳細連結')
        for i in range(0,9):
            sheet.write(0,i,col[i]) #列名
        for i in range(0,250):
            data = datalist[i]
            for j in range(0,9):
                sheet.write(i+1,j,data[j])    #資料
        file.save('豆瓣圖書Top250.xls')

    def start(self):
        print('現開始抓取豆瓣圖書Top250的資料：')
        while self.pageIndex<=225:
            print('現抓取第%d頁'% (self.pageIndex/25+1))
            self.getBooks()
            self.pageIndex+=25
        print("抓取完成")
        self.load(self.book_list)


book = DoubanBook(0)
book.start()

爬取豆瓣Top250圖書【Beautiful】

由於我有一個喜歡看書的室友，最近比較鬧書荒，我想著爬取一下豆瓣評分Top250的圖書，看看他有沒有想看的，我是本著學習的態度加雙贏的結果（並不是為了裝那啥。。。爬取目標 + 爬取豆瓣評分Top250的圖書 + 獲取每本圖書的詳細資訊

Python爬取豆瓣TOP250圖書排行榜

# -*- coding: utf-8 -*- import bs4 import requests def open_url(url): # url = 'https://movie.douban.com/top250' hd = {}

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書資訊

我們將要爬取哪些資訊：書名、連結、評分、一句話評價…… 1. 爬取單個資訊我們先來嘗試爬取書名，利用之前的套路，還是先複製書名的xpath：得到第一本書《追風箏的人》的書名xpath如下： //*[@id=

python3爬蟲--爬取豆瓣Top250的圖書

from lxml import etree import requests import csv fp = open('doubanBook.csv', 'wt', newline='', encoding='utf-8') writer = csv.writer(fp) writer.

《團隊-爬取豆瓣Top250電影-團隊-階段互評》

溝通爬取 top 負責負責任完成好的電影責任學號：2015035107080得分：9.8原因：認真完成任務，與組員相互溝通交流，相互協作。學號：2015035107152得分：9.6原因：為人誠實謙虛，能吃苦耐勞，敏而好學，積極尋找答案。學號：201503

團隊-爬取豆瓣Top250電影-團隊-階段互評

尋找爬取編程階段豆瓣 top 積極領導耐心學號：2015035107001得分：8.5 原因：有耐心，較為認真學號：2015035107004得分：9.6 原因：結對編程夥伴，負責學號：2015035107080得分：10 原因：領導性較強，認真負責，樂

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書信息

Python 編程語言 Python爬蟲先來看看頁面長啥樣的:https://book.douban.com/top250 我們將要爬取哪些信息：書名、鏈接、評分、一句話評價……1. 爬取單個信息我們先來嘗試爬取書名，利用之前的套路，還是先復制書名的xpath：得到第一本書《追風箏的人》的書名xpath如下：

我的第一個python爬蟲：爬取豆瓣top250前100部電影

爬取豆瓣top250前100部電影 1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Moz

爬蟲之爬取豆瓣熱門圖書的名字

描述調用過濾 content tex pl2 main from code import requests #requests模塊用於HTTP請求 import codecs #codecs模塊用於文件操作 from bs4 import BeautifulS

python+scrapy+mongoDB爬取豆瓣top250

1.爬取網址：https://movie.douban.com/top250?start=0 通過scrapy startproject douban建立專案通過scrapy genspider doubanmovie "douban"建立spider 在settings.py檔

python爬蟲--爬取豆瓣top250電影名

python爬蟲--爬取豆瓣top250電影名關於模擬瀏覽器登入的header，可以在相應網站按F12調取出編輯器，點選netwook，如下：以便於不會被網站反爬蟲拒絕。 1 import requests 2 from bs4 import BeautifulSoup

python scrapy框架爬取豆瓣top250電影篇一代理編寫

爬蟲偽裝: UA中介軟體編寫 settings設定 from scrapy import signals import base64 import random class my_useragent(object): def process_req

python scrapy框架爬取豆瓣top250電影篇一儲存資料到mongogdb | mysql中

存到mongodb中環境 windows7 mongodb4.0 mongodb安裝教程設定具體引數在管道里面寫具體引數開啟settings 設定引數測試開始–結果程式碼 import pymongo from douban.

python scrapy框架爬取豆瓣top250電影篇一明確目標&&爬蟲編寫

1.明確目標 1.1在url上找到要爬取的資訊 1.2.確定了資訊,編寫items檔案 class DoubanItem(scrapy.Item): &nb

Python3 Scrapy框架學習五：使用crawl模板爬取豆瓣Top250，並存入MySql、MongoDB

1.新建專案及使用crawl模板 2.頁面解析 rules = (Rule(LinkExtractor(allow=r'subject/\d+/',restrict_css = '.hd > a[class = ""]'), callback='parse_it

用Python爬取豆瓣Top250的電影標題

ive f11 parse www 表達 star import utf-8 各類所以我們可以這麽寫去得到所有頁面的鏈接我們知道標題是在 target="_blank"> 標題的位置</a> 之中所以可以通過正則表達式找到所有符合條

爬取豆瓣的圖書資訊

emmm，感謝豆瓣提供的平臺，爬也沒那麼多反爬蟲機制。於是順手爬了。。。# coding:utf-8# 採集豆瓣書資訊和圖片，寫進資料庫from urllib import parsefrom urllib import requestfrom lxml import etr

2-6-1 應用案例：爬取豆瓣 TOP250 電影資訊並存儲（版本：py3）——學習筆記

爬取電影名稱、連結並寫入檔案 import urllib.request as urlrequest from bs4 import BeautifulSoup import time #休息時間 import random #為了時間隨機 top250_url="htt

【go語言爬蟲】go語言爬取豆瓣電影top250

抓取欄位：電影名稱、評分、評價人數二、執行：正在抓取第0頁…… 肖申克的救贖 9.6 824764人這個殺手不太冷 9.4 791399人霸王別姬 9.5 589028人阿甘正傳 9.4 678850人美麗人生 9.5 3940

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

爬取豆瓣Top250圖書【Beautiful】

0、爬取效果

1、分析URL

2、爬取內容存入到EXCEl

3、整體程式碼

相關推薦