1. 程式人生 > >用Jsoup爬蟲抓取豆瓣書籍資訊

用Jsoup爬蟲抓取豆瓣書籍資訊

抓取豆瓣上的書籍資訊

之前有一個愛立信外包的獵頭聯絡我,先是幫我推簡歷,然後讓程式設計實現爬蟲,抓取豆瓣上網際網路、程式設計、演算法的書籍資訊,自己太菜,電面就跪了。。。。。。但還是把自己的實現分享出來

題目如下:將豆瓣(book.douban.com)裡的關於“網際網路,程式設計,演算法”方面的書籍資料抓下來,並且顯示評分最高的前100本資料(要求評價數目不低於1000)

主要是使用jsoup來解析HTML,具體怎麼用可以谷歌,抓取資料的時候當抓取的資料量太大的時候,豆瓣的伺服器會檢測到,並把ip封掉,但是用瀏覽器缺仍然可以訪問,所以猜測是伺服器對HTTP請求中的cookies進行了檢測,在程式碼中加上cookies,ip就不會再被封了,另外至於會不會是請求時間間隔太短被封ip,沒有具體驗證,保險起見每個請求結束之後休眠1s。

附上原始碼github地址

爬蟲抓取的資料結果如下

這裡寫圖片描述

這些書評分都很高,都是很值得一讀的。

打賞我

相關推薦

Jsoup爬蟲豆瓣書籍資訊

抓取豆瓣上的書籍資訊 之前有一個愛立信外包的獵頭聯絡我,先是幫我推簡歷,然後讓程式設計實現爬蟲,抓取豆瓣上網際網路、程式設計、演算法的書籍資訊,自己太菜,電面就跪了。。。。。。但還是把自己的實現分享出來 題目如下:將豆瓣(book.douban.com)裡的

入門級爬蟲 豆瓣top250 的電影資訊

import requests import lxml.html from bs4 import BeautifulSoup import re import bs4 from pymongo impo

【Python爬蟲第二彈】基於爬蟲豆瓣書籍書籍資訊查詢

爬蟲學了有半個月的時間了,其實這半個月真正學到的東西也不過就是requsets和beautifulsoup的用法,慚愧,收穫不太大,還沒有接觸scrapy框架,但是光這個beautifulsoup可以完成的事情已經很多了,然後簡單的使用了pandas可以將爬取到

Python爬蟲豆瓣電影、讀書Top250並排序

更新:已更新豆瓣電影Top250的指令碼及網站 概述 經常用豆瓣讀書的童鞋應該知道,豆瓣Top250用的是綜合排序,除使用者評分之外還考慮了很多比如是否暢銷、點選量等等,這也就導致了一些近年來評分不高的暢銷書在這個排行榜上高高在上遠比一些經典名著排名還高,於是在這裡打算重新給To

Python之簡單豆瓣讀書資訊

最近出差學習,閒來擼一把 Python。看語法書這些,真是看完就忘,還不如來寫點小程式,有實踐性又有趣。 我的環境是Ubuntu 17,開始之前先裝幾個依賴包,用於解析 html 檔案。 sudo apt install python-lxml,python-requests

python爬蟲視訊網站所有電影

執行環境 IDE丨pycharm 版本丨Python3.6 系統丨Windows ·實現目的與思路· 目的: 實現對騰訊視訊目標url的解析與下載,由於第三方vip解析,只提供線上觀看,隱藏想實現對目標視訊的下載 思路: 首先拿到想要看的騰訊電影url,通過第三方vip視訊解析網站進

python實踐2——利用爬蟲豆瓣電影TOP250資料及存入資料到MySQL資料庫

這次以豆瓣電影TOP250網為例編寫一個爬蟲程式,並將爬取到的資料(排名、電影名和電影海報網址)存入MySQL資料庫中。下面是完整程式碼:Ps:在執行程式前,先在MySQL中建立一個數據庫"pachong"。import pymysql import requests imp

Jsoup 爬蟲 網路圖片

package common; import java.io.BufferedInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStr

使用BeautifulSoup方法豆瓣電影資訊

# -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup import chardet import re import xlwt #獲取某頁的內容 def getHtml(ind

python 爬豆瓣書籍資訊

繼爬取 貓眼電影TOP100榜單 之後,再來爬一下豆瓣的書籍資訊(主要是書的資訊,評分及佔比,評論並未爬取)。原創,轉載請聯絡我。 需求:爬取豆瓣某型別標籤下的所有書籍的詳細資訊及評分 語言:python 支援庫: 正則、解析和搜尋:re、requests、bs4、lxml

Python爬蟲案例:豆瓣程式設計類高評分書籍

對於很多正在學習計算機的朋友來說,選擇合適的學習材料是非常重要的。 本文將通過 Python 來爬取豆瓣程式設計類評分大於 9.0 的書籍。 此案例很適合入門爬蟲的朋友學習,總共也就 3 個函式。 下圖是最終的結果: 下面進入正題: 一、採集源分析: 首先我們

簡單Python爬蟲例項:豆瓣熱映電影資訊

最近在學習Python爬蟲基礎,僅用部落格記錄下學習的過程。學習過程基於麥子學院的課程,感謝麥子學院,感謝Joey老師。那麼我們來看一下,怎麼抓取資料。Chrome瀏覽器有一個開發者工具,很適合檢視網頁原始碼,所以我們用Chrome。開啟之後是這樣:然後我們在網頁位址列輸入豆

網路爬蟲--python豆瓣同城北京地區活動資訊

import re import requests import os import sys #url = 'https://beijing.douban.com/events/future-music?start=0' #header = {'User-Agent':'Mozilla/5.0 (Windo

python豆瓣電影top250資訊

1、本博文中程式碼是轉載內容,原文章地址如下: https://blog.csdn.net/submit66/article/details/78631342?utm_source=blogxgwz1 2、只是在原文程式碼的基礎上稍作修改,添加了一些註釋及無關緊要的程式碼 3、本

selenium製作爬蟲教務課程資訊

前段時間在選課,而我們的教務系統又十分蛋疼。先是在選課時不停崩潰,進不去,選課結束要列印選課單時又因為它自己系統太老而不支援64位瀏覽器列印課表。。。沒有辦法我就寫了一個爬取教務課程資訊並將其儲存在MongoDB中的程式,這個程式稍微改改就可以變成搶課指令碼了。內容有

爬蟲-python3.6貓眼電影資訊

思路分解: 1.頁面資訊 url:http://maoyan.com/cinema/24311?poi=164257570   檢視資訊發現價格存在亂碼現象:   重新整理頁面找到亂碼的URL,下載woff格式檔案:方法:複製URL:右鍵單擊轉

Python爬蟲(BeautifulSoup)實戰:豆瓣讀書新書速遞模組

import requests from bs4 import BeautifulSoup html = requests.get('https://book.douban.com/').text s

Python爬蟲 大資料崗位招聘資訊(51job為例)

簡單介紹一下爬蟲原理。並給出 51job網站完整的爬蟲方案。 爬蟲基礎知識 資料來源 網路爬蟲的資料一般都來自伺服器的響應結果,通常有html和json資料等,這兩種資料也是網路爬蟲的主要資料來源。 其中html資料是網頁的原始碼,通過瀏覽器-檢視原始碼可

nodejs寫簡單爬蟲https淘寶頁面

2016-09-23 周海漢 2016.9.23 淘寶有很多反爬措施。其中https就是反爬措施之一。一般的支援http協議的爬取失效了。 nodejs 是採用google V8引擎寫成的javascript後臺框架。自從有

基於scrapy的分散式爬蟲新浪微博個人資訊和微博內容存入MySQL

為了學習機器學習深度學習和文字挖掘方面的知識,需要獲取一定的資料,新浪微博的大量資料可以作為此次研究歷程的物件 一、環境準備 python 2.7  scrapy框架的部署(可以檢視上一篇部落格的簡要操作,傳送門:點選開啟連結) mysql的部署(需要的資源