爬蟲的原理和思路（自我總結）

阿新 • • 發佈：2019-01-10

網路爬蟲框架主要由控制器、解析器和索引庫三大部分組成，而爬蟲工作原理主要是解析器這個環節，解析器的主要工作是下載網頁，進行頁面的處理，主要是將一些JS指令碼標籤、CSS程式碼內容、空格字元、HTML標籤等內容處理掉，爬蟲的基本工作是由解析器完成。

解析器的具體流程是：

入口訪問->下載內容->分析結構->提取內容

爬蟲的思路：

1、檢視該網站是否可爬，robot.txt是君子協議，定義了可爬取和不可爬取的內容；之所以叫做君子協議是靠自己的道德去約束的，就是你可以去爬但是違反了你的道德~~~

2、給爬蟲一個目標即網頁地址及引數，模擬瀏覽器請求網站，得到網頁原始碼

3、通過 python 正則對所需要的資料進行分析，匹配出資料

4、儲存資料（資料庫或檔案中）

如果網站有反爬蟲技術，那麼這個過程可能就會稍複雜。

爬蟲的難點在於如何去提取到你需要的資料。

response原始碼中沒有要提取的內容：

只有2種可能，一是ajax非同步，二是js拼接而成

獲取js載入的內容：

1、js載入的：需要分析到底是哪個js加載出來的，可用除錯工具打斷點。然後模擬請求獲得資料

2、使用pyV8

不到萬不得已不要模擬瀏覽器，消耗效能和記憶體，手工除錯分析出資料來源請求即可

爬蟲的原理和思路（自我總結）

網路爬蟲框架主要由控制器、解析器和索引庫三大部分組成，而爬蟲工作原理主要是解析器這個環節，解析器的主要工作是下載網頁，進行頁面的處理，主要是將一些JS指令碼標籤、CSS程式碼內容、空格字元、HTML標籤等內容處理掉，爬蟲的基本工作是由解析器完成。解析器的具體流程是：入

thinkphp5的路由（自我總結）

路由規則指的便是前端頁面中的URL請求到伺服器端Ap框架中一個模組的一個動作的對映關係。 thinkphp5的這個路由真的是試了兩個小時才初步有成果，找到了怎麼進行訪問。在public下的index.php中，連結到了thinkphp下的start.php中。其中有 \

for迴圈中的++i和i++（摘抄總結）

摘要：for迴圈中使用++i和i++的區別我們都知道，在for迴圈中，使用++i有更好的效能。原因是++i返回的是i+1後的本身值，而i++返回的是i+1之前的臨時變數，後者要有臨時變數的操作，所以前者效率更高。它們的實現如下： // 字首形式： int&

瀏覽器渲染頁面原理和過程（簡略版）

這兩天一直在看瀏覽器渲染頁面的原理和過程，看完以後在這裡做個小結。瀏覽器渲染頁面可以分為五個步驟： 1.DNS解析 2.TCP建立連線 3.HTTP發起請求和響應 4.伺服器響應 5.客戶端渲染頁面先來說第一點：DNS解析就是DNS進行域名解析

TCP握手協議-原理和案例（服務端大量CLOSE_WAIT,TIME_WAIT問題）參考總結

網際網路公司，對網路通訊原理的掌握估計要求比較高，分分鐘面試官第一個問題問你就是請描述一下TCP握手協議，為什麼有3次握手和4次握手的區別。如果要深入而且全面的理解這個協議，建議瀏覽相關專業書籍，例如《UNIX 網路程式設計》。本部落格定位是讓有這個

CSS布局模型之浮動模型（浮動的工作原理和清除浮動技巧？）

浮動浮動模型工作原理浮動的工作原理浮動是讓某元素脫離文檔流，在浮動框之前和之後的非定位元素會當它不存在一樣，可能沿著它的另一側垂直流動，但都為其騰出空間，塊級元素也不例外（被浮動元素占據了部分行空間的塊級元素，仍然被看作是占據了一整行，只不過是被浮動元素占據的那部分空間無法利用罷了）。浮動的

慕課網星級評分原理和實現（上）

方法 click down cti 原理 als row rep ava 源碼下載 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8">

中國科學技術大學第五屆資訊保安大賽（hackergame2018自我總結）

https://hack2018.lug.ustc.edu.cn 這是我第一次參加ctf（應該也是第一次聽說吧），居然隨緣拿了6個flag（本來7個，還有一個明明對了不算我對的），也算是入門了吧，也讓我對ctf產生了興趣，以後我應該也會接著參加這類比賽吧（雖然這讓我自閉） 1、簽到題 -------

中國科學技術大學第五屆信息安全大賽（hackergame2018自我總結）

python3 編譯 fill 解碼問答與他 methods c 語言出現 https://hack2018.lug.ustc.edu.cn 這是我第一次參加ctf（應該也是第一次聽說吧），居然隨緣拿了6個flag（本來7個，還有一個明明對了不算我對的），也算是入門

分散式服務架構：原理設計與實踐（讀書總結）

文章目錄 1. 分散式微服務架構設計原理 1.1 從傳統的單體架構到到服務化架構 1.2 從服務化到微服務 1.3 微服務架構的核心要點和實現原理 1.4 Java平臺微服務架構的專案組織形式 1.5

總結下List和Map遍歷方式（日常總結）

一.Map public static void main(String[] args) { Map<Integer, Integer> map = new HashMap<>(); map.put(1, 2);

CVPR論文《100+ Times FasterWeighted Median Filter (WMF)》的實現和解析（附原始碼）。任意半徑中值濾波（擴充套件至百分比濾波器）O(1)時間複雜度演算法的原理、實現及效果任意半徑中值濾波（擴充套件至百分比濾波器）O(1)時間複雜度演算法的原理、實現及

　　四年前第一次看到《100+ Times FasterWeighted Median Filter (WMF)》一文時，因為他附帶了原始碼，而且還是CVPR論文，因此，當時也對程式碼進行了一定的整理和解讀，但是當時覺得這個演算法雖然對原始速度有不少的提高，但是還是比較慢。因此，沒有怎麼在意，這幾天有幾位朋友

爬蟲的原理和思路（自我總結）

爬蟲的原理和思路（自我總結）

thinkphp5的路由（自我總結）

for迴圈中的++i和i++（摘抄總結）

瀏覽器渲染頁面原理和過程（簡略版）

TCP握手協議-原理和案例（服務端大量CLOSE_WAIT,TIME_WAIT問題）參考總結

CSS布局模型之浮動模型（浮動的工作原理和清除浮動技巧？）

慕課網星級評分原理和實現（上）

中國科學技術大學第五屆資訊保安大賽（hackergame2018自我總結）

中國科學技術大學第五屆信息安全大賽（hackergame2018自我總結）

分散式服務架構：原理設計與實踐（讀書總結）

總結下List和Map遍歷方式（日常總結）

CFile、CStdioFile、FILE和其他檔案操作（轉+總結）

（筆記總結）I2C序列匯流排的組成及工作原理

組合數學容斥原理學習筆記（福利向）和Leo一起做愛數學的好孩子（未完待續

zookeeper的原理和使用（二）-leader選舉

zookeeper的原理和使用（一）

Git的原理和使用（二）

Git的原理和使用（一）

小白爬蟲入門——爬取圖片和文字（超詳細）

爬蟲的原理和思路（自我總結）

相關推薦