1. 程式人生 > >Python爬蟲-02:HTTPS請求與響應,以及抓包工具Fiddler的使用

Python爬蟲-02:HTTPS請求與響應,以及抓包工具Fiddler的使用

1. HTTP和HTTPS

HTTP: 一種釋出和接受HTML頁面方法,埠號為80
HTTPS: HTTP的安全版,在HTTP上加入了SSL層,埠號為443
SSL: 用於Web的安全傳輸協議,在傳輸層對網路連線進行加密,保障在Internet上資料傳輸的安全

網路爬蟲可以理解為模擬瀏覽器操作的過程

瀏覽器的主要功能是向伺服器傳送請求,在瀏覽器視窗展示您選擇的網路資源,HTTP是一套計算機通過網路進行通訊的規則

1.1. HTTP的請求和響應流程:開啟一個網頁的過程

主要流程

1.2. URL

基本格式: scheme://host[:port]/path/.../[?query-string][#anchor]

  • scheme:協議, http,https
  • host: 伺服器的IP地址或者域名
  • port#: 伺服器的埠(如果是協議預設埠,預設埠為80)
  • path : 訪問資源的路徑
  • query-string : 引數,傳送給http伺服器的資料
  • anchor : 錨(跳轉到網頁的而制定錨點位置)

例如:

http://www.baidu.com

客戶端HTTP請求

URL只是標識資源的位置,而HTTP是用來提交和獲取資源. 客戶端傳送一個HTTP請求到伺服器請求訊息,包括如下格式