搜尋引擎系列1:什麼是正向索引?什麼是倒排索引?
阿新 • • 發佈:2018-12-22
什麼是正向索引、什麼是倒排索引?
正向索引(forward index),反向索引(inverted index)更熟悉的名字是倒排索引。
在搜尋引擎中每個檔案都對應一個檔案ID,檔案內容被表示為一系列關鍵詞的集合(實際上在搜尋引擎索引庫中,關鍵詞也已經轉換為關鍵詞ID)。例如“文件1”經過分詞,提取了20個關鍵詞,每個關鍵詞都會記錄它在文件中的出現次數和出現位置,得到正向索引的結構如下:
“文件1”的ID > 單詞1:出現次數,出現位置列表;單詞2:出現次數,出現位置列表;…………。
“文件2”的ID > 此文件出現的關鍵詞列表。
當用戶在主頁上搜索關鍵詞
所以,搜尋引擎會將正向索引重新構建為倒排索引,即把檔案ID對應到關鍵詞的對映轉換為關鍵詞到檔案ID的對映,每個關鍵詞都對應著一系列的檔案,這些檔案中都出現這個關鍵詞,得到倒排索引的結構如下:
“關鍵詞1”:“文件1”的ID,“文件2”的ID,…………。
“關鍵詞2”:帶有此關鍵詞的文件
注:入門級理解,持續更新ing(時:2015.7.10)