網路爬蟲筆記之http協議

阿新 • • 發佈：2018-11-21

http協議和https協議：

HTTP協議：HyperText Transfer Protocol，超文字傳輸協議，是一種釋出和接收HTML頁面的方法。伺服器埠號是80。 HTTPS協議：是HTTP協議的加密版本，在HTTP下加入了SSL層。伺服器埠號是443。 url詳解： URL是Uniform Resource Locator的簡寫，統一資源定位符。一個URL由以下幾部分組成： scheme://host:port/path/?query-string=xxx#anchor scheme：代表的是訪問的協議，一般為 http或者https以及ftp

等。 host：主機名，域名，比如 www.baidu.com。 port：埠號。當你訪問一個網站的時候，瀏覽器預設使用80埠。 path：查詢路徑。比如： www.jianshu.com/trending/now，後面的trending/now就是path。 query-string：查詢字串，比如： www.baidu.com/s?wd=python，後面的wd=python就是查詢字串。 anchor：錨點，後臺一般不用管，前端用來做頁面定位的。在瀏覽器中請求一個url，瀏覽器會對這個url進行一個編碼。除英文字母，數字和部分符號外，其他的全部使用百分號+十六進位制碼值進行編碼。常用的請求方法：在Http協議中，定義了八種請求方法。這裡介紹兩種常用的請求方法，分別是get請求和post請求。 get請求：一般情況下，只從伺服器獲取資料下來，並不會對伺服器資源產生任何影響的時候會使用get請求。 post請求：向伺服器傳送資料（登入）、上傳檔案等，會對伺服器資源產生影響的時候會使用post請求。以上是在網站開發中常用的兩種方法。並且一般情況下都會遵循使用的原則。但是有的網站和伺服器為了做反爬蟲機制，也經常會不按常理出牌，有可能一個應該使用get方法的請求就一定要改成post請求，這個要視情況而定。請求頭常見引數：在http協議中，向伺服器傳送一個請求，資料分為三部分，第一個是把資料放在url中，第二個是把資料放在body中（在post請求中），第三個就是把資料放在head中。這裡介紹在網路爬蟲中經常會用到的一些請求頭引數： User-Agent：瀏覽器名稱。這個在網路爬蟲中經常會被使用到。請求一個網頁的時候，伺服器通過這個引數就可以知道這個請求是由哪種瀏覽器傳送的。如果我們是通過爬蟲傳送請求，那麼我們的User-Agent就是Python，這對於那些有反爬蟲機制的網站來說，可以輕易的判斷你這個請求是爬蟲。因此我們要經常設定這個值為一些瀏覽器的值，來偽裝我們的爬蟲。 Referer：表明當前這個請求是從哪個url過來的。這個一般也可以用來做反爬蟲技術。如果不是從指定頁面過來的，那麼就不做相關的響應。 Cookie：http協議是無狀態的。也就是同一個人傳送了兩次請求，伺服器沒有能力知道這兩個請求是否來自同一個人。因此這時候就用cookie來做標識。一般如果想要做登入後才能訪問的網站，那麼就需要傳送cookie資訊了。

常見響應狀態碼： 200：請求正常，伺服器正常的返回資料。 301：永久重定向。比如在訪問 www.jingdong.com的時候會重定向到 www.jd.com。 302：臨時重定向。比如在訪問一個需要登入的頁面的時候，而此時沒有登入，那麼就會重定向到登入頁面。 400：請求的url在伺服器上找不到。換句話說就是請求url錯誤。 403：伺服器拒絕訪問，許可權不夠。 500：伺服器內部錯誤。可能是伺服器出現bug了。

網路爬蟲筆記之http協議

網路爬蟲筆記之http協議

Python筆記之http協議

Android 學習筆記——使用 HTTP 協議訪問網路

網路篇——android中的Http（一）之Http協議基礎

Android開發技術網路篇之── http協議post請求方式

【網路】結合Wireshark捕獲分組深入理解TCP/IP協議棧之 HTTP協議

【安全牛學習筆記】HTTP協議

三LWIP學習筆記之ARP協議

前端之HTTP協議

Wireshark數據包分析之HTTP協議包解讀

人生苦短之HTTP協議及Requests庫的方法

爬蟲筆記之JS檢測瀏覽器開發者工具是否打開

HTTP協議學習筆記-認識HTTP協議

03 接口測試之HTTP協議簡介

爬蟲筆記之刷小怪練級：yymp3爬蟲（音樂類爬蟲）

網路爬蟲筆記（Day6）——妹子圖

網路爬蟲筆記（Day5）——騰訊社招&拉勾網

網路爬蟲筆記（Day5）——鏈家

網路爬蟲筆記（Day4）

網路爬蟲筆記（Day3）

網路爬蟲筆記之http協議

相關推薦