python爬蟲入門:什麼是爬蟲,怎麼玩爬蟲?

看到這兩隻爬蟲沒有?
兩隻爬蟲
兩隻爬蟲
跑得快
跑得快
一隻沒有..
不好意思
跑題了...
別誤會,今天不是要教你怎麼玩上面這兩隻沙雕玩意。
學習Python中有不明白推薦加入交流群
號:864573496群裡有志同道合的小夥伴
,互幫互助,群裡有不錯的視訊學習教程
和PDF!每晚8:00群裡直播
今天,我們正式從0到1
輕鬆學會 python 爬蟲
接下來...
將是學習Python的正確姿勢!
小帥b閃亮登場

在你的瀏覽器裡面
輸入百度網址
https://www.baidu.com
一回車看到一個網頁

大家都很熟悉吧!
然而
你右鍵,檢視網頁原始碼。
是這個樣子的

(原始碼的1/100)
“窩裡割草”
簡簡單單一個頁面。
這麼多密密麻麻的程式碼
不說了
勸退前端程式設計師!
還是學習 Python 吧。哈哈哈

那麼說這個,和爬蟲有什麼關係呢?
你有沒有想過
這些許許多多的網站
背後都是一些資料
如果我們可以用 一個自動化的程式
輕輕鬆鬆就能把它們給爬取下來
是不是很爽?
比如,一些小電影的網站
我們只要用 Python
寫幾行程式碼
然後一執行
這個程式就幫我們爬取所有的小電影到我們本地
完全不需要我們費一點力氣
再比如,你想了解一個行業的趨勢
是不是可以把它們往年的資料都爬取下來
然後,對這些資料做一些分析呢?
等等..
這些,以後我們都會講到!
我們剛剛提到的
一個自動化的程式
就是 爬蟲
知道了什麼是爬蟲之後
問題來了
爬蟲怎麼玩的?
那就偷偷告訴你

在網際網路上許許多多的網站
它們都是託管在伺服器上的
這些伺服器 24 小時執行著
時時刻刻,兢兢業業的等待著別人的請求
所以
我們的爬蟲,首先會模擬請求
就好像你在瀏覽器輸入網址,然後回車那樣
爬蟲可以用到一些 Http 庫向指定的伺服器偷偷摸摸的發起請求,這個時候爬蟲可以假裝自己是瀏覽器(新增一些header資訊)
大多數的伺服器呢,傻不拉的以為是瀏覽器傳送請求
就直接返回資料給爬蟲了

當然了,有一些網站比較精明
所以他們會建立一些 反爬蟲 機制
但是,對於我們來說,不在話下
這個是後話了!
反正這個時候呢,伺服器把資料返回給我們了
那麼我們就可以對這些資料進行猥瑣操作了。

不同的情況下,伺服器返回給我們的資料格式不一樣
有
HTML
JSON
二進位制的資料啦
根據不同的情況,我們可以使用不同的方式對他們進行處理。
處理完之後
我們就可以對他們進行儲存啦
儲存的方式也有幾種
資料庫
硬碟
等等..
以上就是我們的爬蟲的具體爬取流程,這是我們開啟爬蟲體系的第一篇,接下來我們將一步一步來操作我們的爬蟲。