python-八爪魚-如何搞一套和天眼查一樣的大資料平臺

阿新 • • 發佈：2018-12-12

Python爬蟲-2018年-我破解天眼查和啟信寶企業資料爬蟲--破解反爬技術那些事情

最近在自己用python+mongdb寫了一套分散式多執行緒的天眼查爬蟲系統，實現了對天眼查整個網站的全部資料各種維度的採集和儲存，並且根據天眼查網頁的資料結構建立了19個表來儲存19個維度的資料，很多做技術的朋友在爬天眼查的時候會遇到以下幾個問題，我把我的經歷和解決方案分享給大家。（需要爬蟲技術交流的朋友歡迎加我qq：2779571288）

1、天眼查和啟信寶哪一個的資料更難爬呢？

其實在準備爬天眼查資料的時候，我對啟信寶、企查查類似的網站分佈從資料的完整性和資料的更新及時性分析了，結果個人覺得天眼查的資料比其他網站的要完整，資料維度要多一些，資料更新的時候也比較快，所以最後選擇了爬取天眼查裡面的企業資料

2、天眼查的19個核心資料維度：

3. 採集速度太頻繁了，會被封IP問題怎麼解決

當我們發出去的http請求到天眼查網站的時候，正常情況下返回200狀態，說明請求合法被接受，而且會看到返回的資料，但是天眼查有自己的一套反爬機制演算法，如果檢查到同一個IP來不斷的採集他網站的資料，那麼他會被這個IP列入異常黑名單，您再去採集它網站資料的時候，那麼就永遠被攔截了。怎麼解決這個問題呢，其實很簡單，沒有錯用代理IP去訪問，每一次請求的時候都採用代理IP方式去請求，而且這個代理IP是隨機變動的，每次請求都不同，所以用這個代理IP技術解決了被封的問題。

4 天眼查2個億的資料量怎麼儲存？需要多少的代理IP

我在寫爬蟲去爬天眼查的時候，剛開始使用網上的免費或者收費的代理IP，結果90%都被封號，所以建議大家以後採集這種大資料量網站的時候不要使用網上免費的或者那種收費的IP，因為這種ip幾秒鐘就會過期，意思就是你沒有采集網或者剛剛訪問到資料的時候，這個IP就過期了導致你無法採集成功，所以最後我自己搭建了自己的代理池解決了2個億天眼查資料的採集封IP問題。（需要爬蟲技術交流的朋友歡迎加我qq：2779571288）

--------------------- 本文來自 liujainq 的CSDN 部落格，全文地址請點選：https://blog.csdn.net/liujainq/article/details/82350711?utm_source=copy

python-八爪魚-如何搞一套和天眼查一樣的大資料平臺

python-八爪魚-如何搞一套和天眼查一樣的大資料平臺

八爪魚采集列表和詳情信息

八爪魚採集列表和詳情資訊

python實現與八爪魚圖片下載轉換器等效的爬蟲工具

八爪魚采集教程——房源信息采集

八爪魚在哪裏設置xpath

【簡易采集】美團數據抓取方法八爪魚

從採集小白到高手，隔著1本【八爪魚通關祕籍】的距離（點選領取）

基礎篇--jdbc連線mysql資料庫和一套增刪改查

定時重新整理獲取八爪魚token（獲取微信token也是一樣的道理）

數據采集工具：八爪魚

這是一套Java菜鳥到大牛的學習路線之高級教程，由工作了10年的資深Java架構師整理。

python如何判斷字串的結尾,是否和c語言一樣

java SpringMVC + Mybatis 一套前臺到後臺完整獲取資料的步驟

【Python實戰】Pandas：讓你像寫SQL一樣做資料分析（一）

SpringMVC增刪改查（附原始碼，新手學SpringMVC最好的辦法就是自己寫一套增刪改查）

使用 Spring Boot 搭建一套增刪改查（無多余代碼）

天巡：2018十一黃金週出境自由行大資料報告（附下載）

物聯網和雲端計算及大資料

一篇文章讓你瞭解大資料採集技術

python-八爪魚-如何搞一套和天眼查一樣的大資料平臺

相關推薦