產品經理學技術:搜索引擎工作原理

分類:其它 時間:2017-10-02

在互聯網時代,搜索引擎可以說是日常生活的一部分。不僅如此,搜索引擎歷經20多年的風霜雨雪,仍然牢牢占據著流量入口,不得不讓人感嘆。

而且,提起搜索引擎,我們都會想到一家高大上的巨無霸公司和一家被黑出xiang的巨霸公司。足以見得搜索引擎的巨大作用。

作為產品人,對此當然不能視而不見,也應該了解了解其工作原理。

搜索引擎工作原理大致可以分為3個步驟

1. 爬行與抓取

2. 預處理

3. 排序

所謂一圖勝千言,沒圖我說個……

PS:上圖總結自《SEO實戰密碼》。

下面詳細敘述:

爬行與抓取

簡單地說:就是搜索引擎蜘蛛沿著互聯網絡爬行並抓取其爬行的頁面,將這些抓取的頁面存儲起來。

說到這,你可能會問:為什麽叫「蜘蛛」?

為了抓取盡量多的頁面,搜索引擎會跟蹤頁面上的鏈接,從一個頁面爬行到下一個頁面,好像蜘蛛在蜘蛛網上爬行那樣,這就是 搜索引擎蜘蛛 這個名稱的由來。

搜索引擎在跟蹤網絡上的鏈接時,會使用一定策略,因為現在的網絡鏈接太多。最簡單的爬行遍歷策略有兩種,一種是 深度優先 ,一種是 廣度優先

還有一點值得一提:搜索引擎訪問網站頁面時 類似於普通用戶使用的瀏覽器 。搜索引擎蜘蛛抓取的數據存入原始頁面數據庫,其中的頁面數據與用戶瀏覽器得到的HTML完全一樣。

預處理

由於抓取的頁面數量太大(以”億”為單位),無法快速實時排序,所以需要預處理。這就是產品設計中的「 復雜性守恒原則 」,我們沒辦法讓用戶等待十幾秒甚至更久,就只能在後臺處理上下功夫。

在一些資料中,「預處理」也被稱為「索引」,因為「索引」是預處理最主要的內容。

預處理的過程比較復雜,值得一提的有這麽幾點:


Tags: 搜索引擎 爬行 頁面 抓取 蜘蛛 預處理

文章來源:


ads
ads

相關文章
ads

相關文章

ad