1. 程式人生 > >用Python寫的開源爬蟲網站,秒搜所有豆瓣好書

用Python寫的開源爬蟲網站,秒搜所有豆瓣好書

程式設計師在提升自己的道路,大多還是會選擇閱讀程式設計書籍這一途徑,但找到一本好書就沒那麼容易了。

通過檢視各大銷售網站的銷量資料和評價,以及豆瓣評分和評價人數,可以幫助我們更快的挖掘出經典的計算機書籍,還有那些被人們忽視的好書。

最近在GitHub上發現了一個網站,是中國科學院自動化研究所的一大神(lanbing510)用Python寫的一個爬蟲,他在16年的時候就爬下了豆瓣所有的讀書資料並做了個WebApp介面方來挖掘查詢和閱讀好書。怪我知道的太晚

後來lanbing510再次爬了一遍豆瓣讀書的資料,總共更新了3232088本圖書資訊,共2138386KB,並將其開源

為什麼說它很好用呢?猿哥演示一遍你就知道了:

可以看出這網站的介面非常簡潔,沒有花裡花哨的內容,只有乾貨,你可以直接通過關鍵字、分數、和評價人數這三個選項進行搜尋,比如我們可以搜尋關鍵字:程式設計;分數:9.0;評價人數:100人以上

查詢結果的顯示方式有按照分數排序和人數排序兩種,按照分數排序的截圖如下:

按照評價人數排序的截圖如下:

除了以上演示的操作,這個網站並實現了以下功能:

  • 可以爬下豆瓣讀書標籤下的所有圖書
  • 按評分排名依次儲存
  • 儲存到Excel中,可方便大家篩選蒐羅,比如篩選評價人數>1000的高分書籍;可依據不同的主題儲存到Excel不同的Sheet
  • 採用User Agent偽裝為瀏覽器進行爬取,並加入隨機延時來更好的模仿瀏覽器行為,避免爬蟲被封

也就是說你不僅可以在網站上搜索,還能通過下載各類目下的Excel書單檔案,直接在Excel中搜索

效果截圖如下:

最後附上網站地址:http://sobook.lanbing510.info

GitHub地址:https://github.com/lanbing510/DouBanSpider

大家在學python的時候肯定會遇到很多難題,以及對於新技術的追求,這裡推薦一下我們的Python學習扣qun:784-758-214,這裡是python學習者聚集地!!同時,自己是一名高階python開發工程師,從基礎的python指令碼到web開發、爬蟲、django、資料探勘等,零基礎到專案實戰的資料都有整理。送給每一位python的小夥伴!每日分享一些學習的方法和需