1. 程式人生 > >爬蟲基礎---HTTP協議理解、網頁的基礎知識、爬蟲的基本原理

爬蟲基礎---HTTP協議理解、網頁的基礎知識、爬蟲的基本原理

以及 res form 一次 發的 urn 網絡協議 位置 nsf

一、HTTP協議的理解

URL和URI

在學習HTTP之前我們需要了解一下URL、URI(精確的說明某資源的位置以及如果去訪問它)

URL:Universal Resource Locator 統一資源定位符,描述了一臺特定服務器上某資源的特定位置。

URI :Uniform Resource Identifier 統一資源標識符,URI有兩種表現形式URL和URN。

HTTP和HTTPS

我們經常會在URL的首部會看到http或者https,這個就是訪問資源需要的協議類型,除了http和https還有ftp,sftp,smb等。在爬蟲中,我們常用的就是http和https。

http:HyperText Transfer Protocol 超文本傳輸協議是互聯網上應用最為廣泛的一種網絡協議。所有的www文件都要遵守這個標準。HTTP是一個客戶端和服務器端請求和應答的標準,它使用socke基於TCP建立的,所以http是可靠的數據傳輸協議,由於它是短鏈接的,也就是一次請求,一次響應斷開,所以它表現處無狀態的現象。目前廣泛使用的是 HTTP 1.1 版本。

https : Hyper Text Transfer Protocol over Secure Socket Layer是以安全為目標的 HTTP 通道,簡單講是HTTP的安全版,即 HTTP 下加入 SSL 層,簡稱為 HTTPS。HTTPS的安全基礎是SSL,所以他傳輸的內容都是經過SSL加密的,它的主要作用:

  1. 建立一個信息安全通道,來保證數據的傳輸安全
  2. 確認網站的真實性,凡是使用了 https 的網站,都可以通過點擊瀏覽器地址欄的鎖頭標誌來查看網站認證之後的真實信息,也可以通過 CA 機構頒發的安全簽章來查詢。

HTTP和HTTPS的區別:

  1. https協議需要到ca申請證書,一般免費證書很少,需要交費.
  2. http是超文本傳輸協議,信息是明文傳輸,https 則是具有安全性的ssl加密傳輸協議。
  3. http和https使用的是完全不同的連接方式,用的端口也不一樣,前者是80,後者是443。
  4. http的連接很簡單,是無狀態的;HTTPS協議是由SSL+HTTP協議構建的可進行加密傳輸、身份認證的網絡協議,比http協議安全。

爬蟲基礎---HTTP協議理解、網頁的基礎知識、爬蟲的基本原理