如何通過網絡爬蟲獲取網站數據

阿新 • • 發佈：2019-04-29

發送 selenium 很多 api 我們靜態頁策略平臺不同

我們知道，網絡爬蟲是一種按照一定的規則，自動地抓取網站信息的程序或者腳本。那麽，我們怎麽通過網絡爬蟲獲取所需要的網站信息呢？
不同的網站有不同的規則，爬蟲工程師根據這些規則設計不同的網絡爬蟲，以此來順利獲取所需要的信息。
一、開放API的網站
一個網如果開放了API，那麽就可以直接GET到它的json數據。有三種方法可以判斷一個網站是否開放了API。
1、在站內尋找API入口；
2、用搜索引擎搜索“某網站API”；
3、抓包，有的網站雖然用到了ajax，但是通過抓包還是能夠獲取XHR裏的json數據的（可用抓包工具抓包，也可以通過瀏覽器按F12抓包：F12-Network-F5刷新）。
二、不開放API的網站

1、如果網站是靜態頁面，那麽可以用requests庫發送請求，再通過HTML解析庫（lxml、parsel等）來解析響應的text；解析庫強烈推薦parsel，不僅語法和css選擇器類似，而且速度也挺快，Scrapy用的就是它。
2、如果網站是動態頁面，可以先用selenium來渲染JS，再用HTML解析庫來解析driver的page_source。
三、反爬蟲網站
很多網站都具有反爬蟲策略，常見的有：驗證碼、登陸、限制IP等。
1、驗證碼。可以利用打碼平臺破解（如果硬上的話用opencv或keras訓練圖）；
2、登陸。利用requests的post或者selenium模擬用戶進行模擬登陸；
3、限制IP。購買億牛雲代理IP（免費IP效果非常差，不建議使用）。

如何通過網絡爬蟲獲取網站數據

發送 selenium 很多 api 我們靜態頁策略平臺不同我們知道，網絡爬蟲是一種按照一定的規則，自動地抓取網站信息的程序或者腳本。那麽，我們怎麽通過網絡爬蟲獲取所需要的網站信息呢？不同的網站有不同的規則，爬蟲工程師根據這些規則設計不同的網絡爬蟲，以此來順利獲取

如何通過網絡爬蟲獲取網站數據

如何通過網絡爬蟲獲取網站數據

網絡爬蟲之MongoDB數據庫的使用

古詩文網站的網絡爬蟲編寫方式，通過網絡爬蟲抓去內容

SDN Overlay 網絡中虛機數據包的轉發(1)

網絡技術基礎(二)數據通信技術

通過網絡路徑獲取的圖片 btye 圖片流互轉

玉竹網絡：教你數據備份你得"留幾手"

如何對Internet Marketing網絡市場營銷進行數據報表分析

docker數據管理與網絡通信之數據卷與數據卷容器

Python網絡爬蟲之三種數據解析方式

網絡推廣投放的數據分析！

網絡廣告投放的數據分析，投放應該找誰？

智能節能路燈監測4G網絡傳輸上發數據庫 DTU搭建4G網絡

2017.07.28 Python網絡爬蟲之爬蟲實戰今日影視2 獲取JS加載的數據

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報的數據存儲問題

零基礎自學Python 3開發網絡爬蟲(二): 用到的數據結構簡介以及爬蟲Ver1.0 alpha

python網絡爬蟲-數據采集之遍歷單個爬蟲

volley7--NetworkDispatcher從網絡中獲取數據

大數據實戰課程第一季Python基礎和網絡爬蟲數據分析

Python基礎和網絡爬蟲數據分析

如何通過網絡爬蟲獲取網站數據

相關推薦