Python爬蟲大小專案集合
今天為大家帶來了自己的爬蟲程式碼集,主要是以往學習Python爬蟲過程中寫過的大小專案,可能不是很全面,但是持續在更新,那我的程式碼裡有什麼?

1. Cnblogs - 部落格園爬蟲
使用Urllib庫實現部落格園"最新文章"的爬取,可以自行擴充套件為全站爬蟲,但是要注意它的介面。
2. Golory_of_Kings - 王者榮耀爬蟲
通過王者榮耀官網的英雄列表介面以及英雄面板的下載URL,完成對王者榮耀英雄全面板的下載。
3. MaoYan_Top100 - 貓眼TOP100爬蟲
(見名知意)爬取貓眼TOP排行榜前100的電影資訊。
4. Moments - 朋友圈爬蟲
基於自動化測試工具Appium的微信朋友圈爬蟲,模擬登入、抓取動態、儲存資料。
5. Bilibili - B站爬蟲
模擬登入B站並識別滑動驗證碼。破解滑動驗證碼的思路主要沿襲崔大破解極驗的思路,登入、獲取驗證碼Image物件、打碼平臺識別、本地轉化識別結果、Selenium模擬滑動等。
6. DouYin - 抖音爬蟲
基於Mitmdump的抖音短視訊爬取,包括視訊名稱、作者名稱、獲贊數、轉發量等重要資訊的獲取。
7. Crack_Jianshu - 簡書爬蟲
為了照顧簡書,完成了簡書的模擬登入並識別簡書的點觸式驗證碼,破解驗證碼的思路基本與滑動驗證碼相同。
8. Selenium_163 - 網易163郵箱爬蟲
模擬登入網易163郵箱,併發送SOS郵件。主要是為了對iframe子節點的訓練。
9. City_58 - 58房屋資訊爬蟲
使用Scrapy框架爬取58同城的出租房資訊,幷包含下級網頁資料的爬蟲,專案難度較大,可根據能力練習。
10. Selenium_Cnki - 知網爬蟲
模擬登入註冊知網,識別知網的普通數字英文混合驗證碼。別小看這簡單的驗證碼,可是用tesserocr等Python識別庫搞不定的。
其他的可以看截圖:

我是爬蟲小白,程式碼中如果有寫的什麼不好的地方,可以提交issue。最後,貼出我的 Github倉庫地址 : https://github.com/Northxw/Python3_WebSpider ,歡迎各種 star 和 fork ,一起學爬蟲。
