1. 程式人生 > >python-八爪魚-如何搞一套和天眼查一樣的大資料平臺

python-八爪魚-如何搞一套和天眼查一樣的大資料平臺

Python爬蟲-2018年-我破解天眼查和啟信寶企業資料爬蟲--破解反爬技術那些事情

  最近在自己用python+mongdb寫了一套分散式多執行緒的天眼查爬蟲系統,實現了對天眼查整個網站的全部資料各種維度的採集和儲存,並且根據天眼查網頁的資料結構建立了19個表來儲存19個維度的資料,很多做技術的朋友在爬天眼查的時候會遇到以下幾個問題,我把我的經歷和解決方案分享給大家。(需要爬蟲技術交流的朋友歡迎加我qq:2779571288)

1、天眼查和啟信寶哪一個的資料更難爬呢?

     其實在準備爬天眼查資料的時候,我對啟信寶、企查查類似的網站分佈從資料的完整性和資料的更新及時性分析了,結果個人覺得天眼查的資料比其他網站的要完整,資料維度要多一些,資料更新的時候也比較快,所以最後選擇了爬取天眼查裡面的企業資料

2、天眼查的19個核心資料維度:

3. 採集速度太頻繁了,會被封IP問題 怎麼解決

  當我們發出去的http請求到天眼查網站的時候,正常情況下返回200狀態,說明請求合法被接受,而且會看到返回的資料,但是天眼查有自己的一套反爬機制演算法,如果檢查到同一個IP來不斷的採集他網站的資料,那麼他會被這個IP列入異常黑名單,您再去採集它網站資料的時候,那麼就永遠被攔截了。怎麼解決這個問題呢,其實很簡單,沒有錯用代理IP去訪問,每一次請求的時候都採用代理IP方式去請求,而且這個代理IP是隨機變動的,每次請求都不同,所以用這個代理IP技術解決了被封的問題。

4  天眼查2個億的資料量怎麼儲存?需要多少的代理IP

    我在寫爬蟲去爬天眼查的時候,剛開始使用網上的免費或者收費的代理IP,結果90%都被封號,所以建議大家以後採集這種大資料量網站的時候 不要使用網上免費的或者那種收費的IP,因為這種ip幾秒鐘就會過期,意思就是你沒有采集網或者剛剛訪問到資料的時候,這個IP就過期了導致你無法採集成功,所以最後我自己搭建了自己的代理池解決了2個億天眼查資料的採集封IP問題。(需要爬蟲技術交流的朋友歡迎加我qq:2779571288)

--------------------- 本文來自 liujainq 的CSDN 部落格 ,全文地址請點選:https://blog.csdn.net/liujainq/article/details/82350711?utm_source=copy