1. 程式人生 > >Python爬蟲從入門到進階(2)之爬蟲簡介

Python爬蟲從入門到進階(2)之爬蟲簡介

法律 進階 爬蟲 哪裏 back 目標 ack 數據分析 取數

1.爬蟲入門:使用代碼模擬真實用戶發送網絡請求批量獲取數據
1).爬蟲價值:
1.買賣數據(高端領域特別貴)
2.數據分析(出分析報告)
3.流量
4.阿裏指數,百度指數
2).合法性:灰色產業
政府沒有法律規定爬蟲是否違法
公司概念:公司讓你爬取數據
爬蟲是否可以爬所有的東西?不可以,爬蟲只能爬取到用戶可以訪問的數據
愛奇藝視頻(vip 用戶,非 vip 用戶)
付費小說(付費才能爬取)

2.爬蟲分類:
1.通用爬蟲:使用搜索引擎:百度,360,谷歌...
劣勢:目標不明確,返回的內容90%是用戶不需要的,不清楚用戶的需求在哪裏
優勢:開放性,速度快
2.聚焦爬蟲:
優勢:目標明確,對用戶的需求非常精準,返回的內容固定
3.增量式爬蟲:翻頁,從第一頁爬到最後一頁
4.Deep,深度爬蟲:靜態數據 html,動態數據:js 代碼,加密的 js
robost協議:是否允許其他爬蟲(通用爬蟲)爬取某些內容

3.爬蟲的工作原理:

1.查詢你抓取目標的 url(必須的,難)
2.使用 Python 代碼發送請求獲取數據
3.解析獲取道德數據(精準數據)
4.數據持久化

Python爬蟲從入門到進階(2)之爬蟲簡介