1. 程式人生 > >Python爬蟲者的福音!一個神庫,匯總了數十個主流網站的模擬登陸方法

Python爬蟲者的福音!一個神庫,匯總了數十個主流網站的模擬登陸方法

電影 django aid 挖掘 如何 twitter 東方 有趣 som

技術分享圖片

網絡上有形形×××的網站,不同類型的網站爬蟲策略不同,難易程度也不一樣。從是否需要登陸這方面來說,一些簡單網站不需要登陸就可以爬,比如之前爬過的貓眼電影、東方財富網等。有一些網站需要先登陸才能爬,比如知乎、微信等。這類網站在模擬登陸時需要處理驗證碼、js 加密參數這些問題,爬取難度會大很多。費很大力氣登陸進去後才能爬取想要的內容,很花時間。

是不是一定要自己動手去實現每一個網站的模擬登陸方法呢,從效率上來講,其實大可不必,已經有前人替我們造好輪子了。

最近發現一個神庫,匯總了數十個主流網站的模擬登陸方法:

  • 知乎

  • 微信網頁版登錄並獲取好友列表

  • Bilibili

  • Facebook

  • 無需身份驗證即可抓取Twitter前端API

  • 微博網頁版

  • QQZone

  • CSDN

  • 淘寶

  • Baidu

  • 果殼

  • JingDong 模擬登錄

  • 163mail

  • 拉鉤

  • 豆瓣

  • Baidu2

  • 獵聘網

  • Github

  • 爬取圖蟲相應的圖片

  • 網易雲音樂

  • 糗事百科

這些網站基本采用的是直接登錄或者 selenium+webdriver 方式。每一個網站都有完整的模擬登陸代碼,拿來就可以用到自己的爬蟲中。

下面我們來測試一下。

先說說很難爬的「知乎」,假如我們想爬取知乎主頁的 HTML 內容,就必須要先登陸才能爬,不然看不到這個界面。下面來簡單梳理一下流程。

技術分享圖片

技術分享圖片

知乎需要手機號才能註冊登陸。為了方便測試,可以隨便找個手機號

技術分享圖片

技術分享圖片

順利登錄後就可以進入主頁了。

下面,我們用這個庫提供的代碼來模擬登陸,輸出主頁 HTML 內容作測試。操作很簡單,只需要輸入手機號、密碼和驗證碼就可以了。

成功登陸後,接下來就可以做一些有意思的事了。比如曾有人爬取所有知乎賬號的信息,分析了知乎用戶群體畫像。

是不是有點意思。

再來看看微信。用上面的微信代碼可以把全部微信好友信息爬取下來,比如:昵稱、性別、地域、個性簽名。接著可以分析一下你的朋友圈是什麽樣的,應該會很有趣。

還可以爬 B 站:

技術分享圖片

還可以爬鏈家租房信息:

技術分享圖片

還有很多實用有趣的內容,就不一一羅列了,感興趣的話可以試試

如果你依然在編程的世界裏迷茫,不知道自己的未來規劃,可以加入我們的Python學習扣qun:784758214,看看前輩們是如何學習的!交流經驗!
自己是一名高級python開發工程師,從基礎的python腳本到web開發、爬蟲、django、人工智能、數據挖掘等,零基礎到項目實戰的資料都有整理。
送給每一位python的小夥伴!分享一些學習的方法和需要註意的小細節,這裏是python學習者聚集地

點擊:python技術分享

?GitHub 庫地址:

https://github.com/CriseLYJ/awesome-python-login-model

Python爬蟲者的福音!一個神庫,匯總了數十個主流網站的模擬登陸方法