python爬蟲：爬取豆瓣讀書某個tag下的書籍並存入excel

阿新 • • 發佈：2019-02-07

#-*- coding: UTF-8 -*-
import sys
import time
import urllib
import urllib2
import requests
#import numpy as np
from bs4 import BeautifulSoup
from openpyxl import Workbook

reload(sys)
sys.setdefaultencoding('utf8')



#Some User Agents
hds=[{'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'},\
{'User-Agent':'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.12 Safari/535.11'},\
{'User-Agent': 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Trident/6.0)'}]


def book_spider(book_tag,page_num):
    book_list=[]
    items_each_page=15
    page_count=0
    while True:
        url='http://www.douban.com/tag/'+urllib.quote(book_tag)+'/book?start='+str(page_count*items_each_page)    
        try:
            req=urllib2.Request(url,headers=hds[page_num%len(hds)])
            source_code=urllib2.urlopen(req).read()
            plain_text=str(source_code)
        except(urllib2.HTTPError, urllib2.URLError), e:
            print e
        
        soup=BeautifulSoup(plain_text)
        
        list_soup=soup.find('div',{'class':'mod book-list'})
        #print list_soup
        print u'正在下載第%d頁'%(page_count+1)
        for book_info in list_soup.findAll('dd'):
            title=book_info.find('a',{'class':'title'}).string.strip()
            desc=book_info.find('div',{'class':'desc'}).string.strip()
            desc_list=desc.split('/')
            #print desc_list
            book_url=book_info.find('a',{'class':'title'}).get('href')
            #print book_url

            try:
                author_info='作者/譯者：' + '/'.join(desc_list[0:-3])
            except:
                author_info='作者/譯者：暫無' 
            try:
                pub_info = '出版資訊： ' + '/'.join(desc_list[-3:])
            except:
                pub_info='出版資訊:暫無'
            try:
                rating=book_info.find('span',{'class':'rating_nums'}).string.strip()
            except:
                rating=0.0
           
            people_num=get_people_num(book_url)
            
           
            book_list.append([title,rating,people_num,author_info,pub_info])

        page_count+=1
       
        if page_count==page_num:
            break

    return book_list




def get_people_num(url):
    #url='http://book.douban.com/subject/6082808/?from=tag_all' # For Test
    try:
        req = urllib2.Request(url, headers=hds[2])
        source_code = urllib2.urlopen(req).read()
        plain_text=str(source_code)   
    except (urllib2.HTTPError, urllib2.URLError), e:
        print e
    soup = BeautifulSoup(plain_text)
    people_num=soup.find('div',{'class':'rating_sum'}).findAll('span')[1].string.strip()
    return people_num




def print_to_excel(book_tag,page_num):
    book_list=book_spider(book_tag,page_num)
    book_list=sorted(book_list,key=lambda x:x[1],reverse=True)

    wb=Workbook()
    ws=wb.create_sheet()
    ws.append(['序號','書名','評分','評價人數','作者','出版社'])
    count=1
    for item in book_list:
        ws.append([count,item[0],item[1],item[2],item[3],item[4]])
        count+=1
    save_path='book-list-'+book_tag.decode()+'.xlsx'
    wb.save(save_path)


book_tag='程式設計'
page_num=10
print_to_excel(book_tag,page_num)

python爬蟲：爬取豆瓣讀書某個tag下的書籍並存入excel

#-*- coding: UTF-8 -*- import sys import time import urllib import urllib2 import requests #import numpy as np from bs4 import BeautifulS

我的第一個python爬蟲：爬取豆瓣top250前100部電影

爬取豆瓣top250前100部電影 1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Moz

python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊

第一步，爬取所有圖書標籤及分類到達圖書標籤頁，分類瀏覽，第一步需要爬取所有分類及其分類下的所有標籤並用dict儲存需要解析的內容 1.bs4解析 import requests from bs4 import Beau

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

工具新的翻頁需求使用 html 頁面應該一個首先要明白爬網頁實際上就是：找到包含我們需要的信息的網址（URL）列表通過 HTTP 協議把頁面下載回來從頁面的 HTML 中解析出需要的信息找到更多這個的 URL，回到 2 繼續其次還要明白：一個好的列表應該：包含

Python爬蟲入門 | 爬取豆瓣電影信息

Python 編程語言 web開發這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步了解爬蟲，跟著課程內容能自己爬取資源。看著文章，打開電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~好啦，正式開始我們的第二節課《爬取豆瓣電影信息》吧！啦啦哩啦啦，

python爬蟲：爬取鏈家深圳全部二手房的詳細信息

data sts rip 二手房 lse area 列表 dom bubuko 1、問題描述：爬取鏈家深圳全部二手房的詳細信息，並將爬取的數據存儲到CSV文件中 2、思路分析: (1)目標網址：https://sz.lianjia.com/ershoufang/ (2

Python爬蟲：爬取網站電影資訊

以爬取電影天堂喜劇片前5頁資訊為例，程式碼如下： 1 # coding:UTF-8 2 3 import requests 4 import re 5 6 def mov(): 7 headers={'User-Agent':'Mozilla/5.0 (Windo

Python爬蟲：爬取拉勾網資料分析崗位資料

1 JSON介紹 JSON（JavaScript Object Notation）已經成為通過HTTP請求在Web瀏覽器和其他應用程式之間傳送資料的標準格式之一。比CSV格式更加靈活。Json資料格式，非常接近於有效的Pyhton程式碼，其特點是：JSON物件所

python爬蟲，爬取豆瓣電影《芳華》電影短評，分詞生成雲圖。

專案github地址：https://github.com/kocor01/spider_cloub/ Python版本為3.6 最近突然想玩玩雲圖，動手寫了個簡單的爬蟲，搭建了簡單的爬蟲架構爬蟲爬取最近比較火的電影《芳華》分詞後生成雲圖使用了 jieba分詞，雲圖用word

python爬蟲（爬取豆瓣電影）_動態網頁,json解釋,中文編碼

from bs4 import BeautifulSoup import requests import json import sys import codecs reload(sys) sys.setdefaultencoding( "utf-8" ) rank

[python爬蟲入門]爬取豆瓣電影排行榜top250

要爬取內容的是豆瓣網的電影排行top250: https://movie.douban.com/top250, 將電影名和評分爬取下來並輸出, 如下圖: 使用了tkinter做了簡單頁面然後分析如何爬取內容: 首先爬取標題: 檢視原始碼後, 發現標

Python網路爬蟲（九）：爬取頂點小說網站全部小說，並存入MongoDB

前言：本篇部落格將爬取頂點小說網站全部小說、涉及到的問題有：Scrapy架構、斷點續傳問題、Mongodb資料庫相關操作。背景： Python版本：Anaconda3 執行平臺：Windows IDE：PyCharm 資料庫：MongoDB 瀏

Python爬蟲：爬取指定網址圖片

import re import urllib.request def gethtml(url): page=urllib.request.urlopen(url) html=page.

python爬蟲：爬取貓眼電影（分數的處理和多執行緒）

爬取用的庫是requests和beautifulsoup，程式碼編寫不難，主要是個別的細節處理需要注意 1、電影得分的處理右鍵審查元素，我們看到分數的整數部分和小數部分是分開的，在beautifulsoup中，我們可以用（.strings或者.stripped_stri

Python爬蟲：爬取微信文章

import requests from urllib.parse import urlencode from requests.exceptions import ConnectionError from pyquery import PyQuery as

Web Spider實戰1——簡單的爬蟲實戰(爬取"豆瓣讀書評分9分以上榜單")

1、Web Spider簡介 Web Spider，又稱為網路爬蟲，是一種自動抓取網際網路網頁資訊的機器人。它們被廣泛用於網際網路搜尋引擎或其他類似網站，以獲取或更新這些網站的內容和檢索方式。它們可以自動採集所有其能夠訪問到的頁面內容，以供搜尋引擎做進一步處理

簡易爬蟲：爬取豆瓣電影top250

爬蟲目的說明：此爬蟲簡單到不能再簡單了，主要內容就是爬取豆瓣top250電影頁面的內容，然後將該內容匯入了資料庫。下面先上結果圖：爬蟲部分程式碼： def getlist(listurl, result): time.sleep(2

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

Python網絡爬蟲：爬取古詩文中的某個制定詩句來實現搜索

它的參考文獻 lis 實現 word self 適合 odi 級別 python編譯練習，為了將自己學習過的知識用上，自己找了很多資料。所以想做一個簡單的爬蟲，代碼不會超過60行。主要用於爬取的古詩文網站沒有什麽限制而且網頁排布很規律，沒有什麽特別的東西，適合入門級別的

python爬蟲：爬取豆瓣讀書某個tag下的書籍並存入excel

相關推薦