1. 程式人生 > >18個Python爬蟲實戰案例(已開源)

18個Python爬蟲實戰案例(已開源)

目錄

  • 爬蟲小工具

    • 檔案下載小助手

  • 爬蟲實戰

    • 筆趣看小說下載

    • VIP視訊下載

    • 百度文庫文章下載_rev1

    • 百度文庫文章下載_rev2

    • 《帥啊》網帥哥圖片下載

    • 構建代理IP池

    • 《火影忍者》漫畫下載

    • 財務報表下載小助手

    • 一小時入門網路爬蟲

    • 抖音App視訊下載_rev1

    • 抖音App視訊下載_rev2

    • 抖音App視訊下載_rev3

    • GEETEST驗證碼破解

    • 12306搶票小助手

    • 百萬英雄答題輔助系統

    • 網易雲音樂批量下載

    • B站視訊和彈幕批量下載

  • 其它

爬蟲小工具

  • downloader.py:檔案下載小助手

一個可以用於下載圖片、視訊、檔案的小工具,有下載進度顯示功能。稍加修改即可新增到自己的爬蟲中。

動態示意圖:

640?wx_fmt=gif

爬蟲實戰

1、biqukan.py:《筆趣看》盜版小說網站,爬取小說工具

第三方依賴庫安裝:

pip3 install beautifulsoup4

使用方法:

python biqukan.py

2、video_downloader:愛奇藝等主流視訊網站的VIP視訊破解助手(暫只支援PC和手機線上觀看VIP視訊!)

感謝Python3二維碼生成器作者:https://github.com/sylnsfar/qrcode

編譯好的軟體下載連線:https://pan.baidu.com/s/1bqSTNJL 密碼:p8bs

解壓密碼:cuijiahua.com

無需Python3環境,在Windows下,解壓即用!軟體使用方法

原始碼可檢視video_downloader,執行原始碼需要搭建Python3環境,並安裝相應第三方依賴庫:

video_downloader資料夾下,安裝第三方依賴庫:

pip3 install -r requirements.txt

使用方法:

python movie_downloader.py

執行環境:

  • Windows, Python3

  • Linux, Python3

  • Mac, Python3

3、baiduwenku.py: 百度文庫word文章爬取

原理說明:http://blog.csdn.net/c406495762/article/details/72331737
程式碼不完善,沒有進行打包,不具通用性,純屬娛樂,以後有時間會完善。

4、shuaia.py: 爬取《帥啊》網,帥哥圖片

《帥啊》網URL:http://www.shuaia.net/index.html

原理說明:http://blog.csdn.net/c406495762/article/details/72597755

第三方依賴庫安裝:

pip3 install requests beautifulsoup4

5、daili.py: 構建代理IP池

原理說明:http://blog.csdn.net/c406495762/article/details/72793480

6、carton: 使用Scrapy爬取《火影忍者》漫畫

程式碼可以爬取整個《火影忍者》漫畫所有章節的內容,儲存到本地。更改地址,可以爬取其他漫畫。儲存地址可以在settings.py中修改。

動漫網站:http://comic.kukudm.com/

原理說明:http://blog.csdn.net/c406495762/article/details/72858983

7、hero.py: 《王者榮耀》推薦出裝查詢小助手

網頁爬取已經會了,想過爬取手機APP裡的內容嗎?

原理說明:http://blog.csdn.net/c406495762/article/details/76850843

8、financical.py: 財務報表下載小助手

爬取的資料存入資料庫會嗎?《跟股神巴菲特學習炒股之財務報表入庫(MySQL)》也許能給你一些思路。

原理說明:http://blog.csdn.net/c406495762/article/details/77801899

動態示意圖:

640?wx_fmt=gif

9、one_hour_spider:一小時入門Python3網路爬蟲。

原理說明:

  • 知乎:https://zhuanlan.zhihu.com/p/29809609

  • CSDN:http://blog.csdn.net/c406495762/article/details/78123502

本次實戰內容有:

  • 網路小說下載(靜態網站)-biqukan

  • 優美桌布下載(動態網站)-unsplash

  • 愛奇藝VIP視訊下載

10、douyin.py:抖音App視訊下載

抖音App的視訊下載,就是普通的App爬取。

原理說明:個人網站:http://cuijiahua.com/blog/2018/03/spider-5.html

11、douyin_pro:抖音App視訊下載(升級版)

抖音App的視訊下載,新增視訊解析網站,支援無水印視訊下載,使用第三方平臺解析。

原理說明:個人網站:http://cuijiahua.com/blog/2018/03/spider-5.html

12、douyin_pro_2:抖音App視訊下載(升級版2)

抖音App的視訊下載,新增視訊解析網站,支援無水印視訊下載,通過url解析,無需第三方平臺。

原理說明:個人網站:http://cuijiahua.com/blog/2018/03/spider-5.html

動態示意圖:

640?wx_fmt=gif

13、geetest.py:GEETEST驗證碼破解

爬蟲最大的敵人之一是什麼?沒錯,驗證碼!Geetest作為提供驗證碼服務的行家,市場佔有率還是蠻高的。遇到Geetest提供的滑動驗證碼怎麼破?授人予魚不如授人予漁,接下來就為大家呈現本教程的精彩內容。

原理說明:http://www.cuijiahua.com/blog/2017/11/spider_2_geetest.html

動態示意圖:

640?wx_fmt=gif

14、12306.py:用Python搶火車票簡單程式碼

可以自己慢慢豐富,蠻簡單,有爬蟲基礎很好操作,沒有原理說明。

15、baiwan:百萬英雄輔助答題

效果圖:

640?wx_fmt=gif

原理說明:http://cuijiahua.com/blog/2018/01/spider_3.html

功能介紹:

  • 伺服器端,使用Python(baiwan.py)通過抓包獲得的介面獲取答題資料,解析之後通過百度知道搜尋介面匹配答案,將最終匹配的結果寫入檔案(file.txt)。

  • 手機抓包不會的朋友,可以看下我的早期手機APP抓包教程。

  • Node.js(app.js)每隔1s讀取一次file.txt檔案,並將讀取結果通過socket.io推送給客戶端(index.html)。

  • 親測答題延時在3s左右。

  • 宣告:沒做過後端和前端,花了一天時間,現學現賣弄好的,javascript也是現看現用,百度的程式,除錯除錯而已。可能有很多用法比較low的地方,用法不對,請勿見怪,有大牛感興趣,可以自行完善。

16、Netease:根據歌單下載網易雲音樂

效果圖:

640?wx_fmt=gif

功能介紹:根據music_list.txt檔案裡的歌單的資訊下載網易雲音樂,將自己喜歡的音樂進行批量下載。

17、bilibili:B站視訊和彈幕批量下載

使用說明:

   python bilibili.py -d 貓 -k 貓 -p 10

三個引數:
       -d    儲存視訊的資料夾名
       -k    B站搜尋的關鍵字
       -p    下載搜尋結果前多少頁

歡迎Star,Pull requests,專案地址,點選【閱讀原文】

640?wx_fmt=jpeg

相關推薦

小白福利貼:18Python爬蟲實戰案例開源

加qq群813622576或vx:tanzhouyiwan免費獲取Python視訊教程以及各類PDF! 爬蟲小工具 downloader.py:檔案下載小助手 一個可以用於下載圖片、視訊、檔案的小工具,有下載進度顯示功能。稍加修改即可新增到自己的爬蟲中。 動

18Python爬蟲實戰案例開源

目錄爬蟲小工具檔案下載小助手爬蟲實戰筆趣看小說下載VIP視訊下載百度文庫文章下載_rev1百度文庫文章下載_rev2《帥啊》網帥哥圖片下載構建代理IP池《火影忍者》漫畫下載財務報表下載小助手一小時入門網路爬蟲抖音App視訊下載_rev1抖音App視訊下載_

《Python3網絡爬蟲實戰案例崔慶才著》 中文版PDF下載,附源代碼+視頻教程

圖片 網絡爬蟲 51cto 視頻教程 下載 網絡 png image ref 《Python3網絡爬蟲實戰案例(崔慶才著)》中文版PDF下載,附源代碼+視頻教程,帶目錄資料下載:https://pan.baidu.com/s/1OzxyHQMLOzWFMzjdQ8kEqQ《

Python爬蟲實戰案例:取喜馬拉雅音訊資料詳解

前言 喜馬拉雅是專業的音訊分享平臺,彙集了有聲小說,有聲讀物,有聲書,FM電臺,兒童睡前故事,相聲小品,鬼故事等數億條音訊,我最喜歡聽民間故事和德雲社相聲集,你呢? 今天帶大家爬取喜馬拉雅音訊資料,一起期待吧!!   這個案例的視訊地址在這裡 https://v.douyu.com/show/

python爬蟲項目新手教程之知乎requests方式

ror eas 點擊 elif 原因 ffffff 文章 重點 F12 -前言 之前一直用scrapy與urllib姿勢爬取數據,最近使用requests感覺還不錯,這次希望通過對知乎數據的爬取為 各位爬蟲愛好者和初學者更好的了解爬蟲制作的準備過程以及requests請求方

Python 爬蟲闖關第一關

在學習爬蟲時,遇到了一個有意思的網站,這個網站設定了幾個關卡,需要經過爬蟲進行闖關,隨著關卡的網後,難度不斷增加,在闖關的過程中需要學習不同的知識,你的爬蟲水平也自然隨之提高。 按照提示,我們把數字放到位址列的後面,再次進行訪問: 發現,還要再用新的數字放在位址列進行訪問,我們可以猜測了,第一關是將頁面

scrapy | scrapy-redis實現分散式爬取:原理,實戰案例虛擬機器

1.概念:分散式爬蟲 由於需要爬取的資料量大,任務多,一臺機器效率太低,需要多臺機器共同協作處理。分散式爬蟲將多臺主機組合起來, 共同完成一個爬取任務,快速高效地提高爬取效率。 分散式爬蟲可以分為若干個分散式層級,不同的應用可能由其中部分層級構成。 大型分散式爬蟲主

python爬蟲獲取文字小說等基礎教程

一個簡單的爬取文字的程式,結合前述3篇部落格,基本包括一些爬蟲基礎,希望可以互相學習 import requests from lxml import etree def get_url(): url='https://share.html5.qq.com/fx/

爬蟲界的福利--touchRobot,機器模擬觸碰滑動庫開源

button desc 6.0 程序 swiper sta 安裝 set ide 此插件能幹什麽? 一句話概括:通過程序主動觸發移動端滑動、拖拽、觸碰等操作 插件有什麽用呢? 可以用於爬蟲,也可以用於自動化測試以及程序演示 插件演示地址 (從網上扒了一個canvas繪圖的d

增量資料同步中介軟體DataLink分享開源

專案介紹 名稱: DataLink['deitə liŋk]譯意: 資料鏈路,資料(自動)傳輸器語言: 純java開發(JDK1.8+)定位: 滿足各種異構資料來源之間的實時增量同步,一個分散式、可擴充套件的資料同步系統開源地址:https://github.com/ucarGroup/DataLink 此次

手把手教你編寫一個具有基本功能的shell開源

/*read command line until EOF*/while(read(stdin,buffer,numchars)){    /*parse command line*/    if(/* command line contains & */)        amper = 1;   

鬥圖神器--純前端實現視訊轉GIF製作表情包開源

視訊轉GIF 線上體驗 coldday.github.io/mp4ToGif/ Chrome瀏覽器外掛安裝點這裡 點這安裝 背景 視訊轉GIF 上面這張圖大家都見過吧,哈哈 現在聊天時候少不了鬥圖,光發靜圖逼格略低了些,GIF

史上最牛逼的音樂播放器—仿網易雲音樂開源

前言:音樂播放器倒見過不少,做到幾乎和官方網易雲音樂安卓版差不多的,還是頭第一回見。aa112901 的這款仿網易雲音樂安卓版客戶端,很多地方值得我們學習。無論是下載模組,還是換膚模組,還是炫麗的UI介面。等。用心在每一個細節。aa112901 本專案的github為:

Python網絡爬蟲實戰案例之:7000本電子書下載2

3.2 pytho oss 部署 .html http term ext 開發環境安裝 一、前言 本文是《Python開發實戰案例之網絡爬蟲》的第二部分:7000本電子書下載網絡爬蟲開發環境安裝部署。配套視頻課程詳見51CTO學院。 二、章節目錄 (1)Python開發環境

Python網絡爬蟲實戰案例之:7000本電子書下載1

批量 cad 3.2 img oss 開發 批量導出 ucc 學院 一、前言 本文是《Python開發實戰案例之網絡爬蟲》的第一部分:7000本電子書下載網絡爬蟲完整案例演示。配套視頻課程詳見[51CTO學院] 章節目錄: (1)頁面分析1:列表頁-圖書清單(2)頁面分析2

Python網絡爬蟲實戰案例之:7000本電子書下載3

RoCE img http cfa ext 頁面 ffffff 分享 html 一、前言 本文是《Python開發實戰案例之網絡爬蟲》的第三部分:7000本電子書下載網絡爬蟲開發實戰詳解。配套視頻課程詳見51CTO學院請添加鏈接描述。 二、章節目錄 3.1 業務流程3.2

Python網絡爬蟲實戰案例之:7000本電子書下載4

視頻課程 3.1 剖析 src jpg -html proc 下載 blog 一、前言 本文是《Python開發實戰案例之網絡爬蟲》的第四部分:7000本電子書下載網絡爬蟲-源碼框架剖析。配套視頻課程詳見:51CTO學院。 二、章節目錄 3.1 requests-html文

Python 爬蟲實戰:使用 requests-html

分享 -html 調用 交流 html 技術 python-re find 自己的 Python 爬蟲實戰(一):使用 requests 和 BeautifulSoup,我們使用了 requests 做網絡請求,拿到網頁數據再用 BeautifulSoup 解析,就在前不久

路飛學城—python爬蟲實戰密訓-—第1章作業

找不到 sla 進行 lse sig -a 後來 spa fin 一: 學習心得,體會 感覺跟著視頻做的汽車之家,和抽屜網站登錄的爬蟲沒有那麽難。但做github登錄並獲取信息的,就覺得不太容易了,登錄操作挺簡單,和抽屜例子差不多,但獲取個人信息部分就感覺有點麻煩了,主要

Python爬蟲實戰專案1 | 基礎爬蟲的實現爬取100條百度百科詞條

【基礎爬蟲篇】 本篇講解一個比較簡單的Python爬蟲。 這個爬蟲雖然簡單,但五臟俱全,大爬蟲有的模組這個基礎爬蟲都有,只不過大爬蟲做的更全面、多樣。 1.實現的功能:這個爬蟲實現的功能為爬取百度百科中的詞條資訊。爬取的結果見6。 2.背景知識:(1).Python語法;(2).Be