1. 程式人生 > >網絡爬蟲 初了解

網絡爬蟲 初了解

image 網絡協議 訪問 點擊 支持 請求方法 通信 toc bubuko

1. HTTP協議

2. Requests庫的7個主要方法

3. Robot協議

4. 網頁解析

  BeautifulSoup的解析器- 類的基本元素- 遍歷功能

5. 正則表達式

6. 爬蟲框架Scrapy

  框架結構- 數據流

7. 分布式爬蟲

  多線程爬蟲

  多進程爬蟲

8. 異步網站數據擦劑

9.爬蟲的存儲

  媒體文件-把數據存儲到CSV-MySql

10. 爬蟲的常見技巧

11.防爬蟲

超文本傳輸協議(HTTP,HyperText Transfer Protocol)是互聯網上應用最為廣泛的一種網絡協議。所有的www文件都必須遵守這個標準。HTTP協議主要有幾個特點:

  • 支持客戶/服務器模式

  • 簡單快捷:客服向服務器發出請求,只需要傳送請求方法和路徑。請求方法常用的有GET, HEAD, POST。每種方法規定了客戶與服務器聯系的類型不同。由於HTTP協議簡單,使得HTTP服務器的程序規模小,因而通信速度快。

  • 靈活:HTTP允許傳輸任意類型的數據對象。

  • 無連接:無連接的含義是限制每次連接請求只處理一個請求。服務器處理完客戶的請求,收到客戶的應答後即斷開連接,這種方式可以節省傳輸時間。

  • 無狀態:HTTP協議是無狀態協議。無狀態是指協議對於事物處理沒有記憶能力。缺少狀態意味著如果後續處理需要前面的信息,則它必須重傳,這樣可能導致每次連接傳送的數據量增大,另一方面,在服務器不需要先前信息時它的應答就較快。

下面通過一張圖我們來了解一下訪問網頁的過程都發生了什麽:

--------------------- 本文來自 meichuanyi 的CSDN 博客 ,全文地址請點擊:https://blog.csdn.net/meichuanyi/article/details/79293094?utm_source=copy

技術分享圖片

網絡爬蟲 初了解