1. 程式人生 > >Lucene,MG4J ,Sphinx全文檢索引擎的優點

Lucene,MG4J ,Sphinx全文檢索引擎的優點

 Lucene作為一個全文檢索引擎,其具有如下突出的優點: 
  (1)索引檔案格式獨立於應用平臺。Lucene定義了一套以8位位元組為基礎的索引檔案格式,使得相容系統或者不同平臺的應用能夠共享建立的索引檔案。 
  (2)在傳統全文檢索引擎的倒排索引的基礎上,實現了分塊索引,能夠針對新的檔案建立小檔案索引,提升索引速度。然後通過與原有索引的合併,達到優化的目的。 
  (3)優秀的面向物件的系統架構,使得對於Lucene擴充套件的學習難度降低,方便擴充新功能。 
  (4)設計了獨立於語言和檔案格式的文字分析介面,索引器通過接受Token流完成索引檔案的創立,使用者擴充套件新的語言和檔案格式,只需要實現文字分析的介面。 
  (5)已經預設實現了一套強大的查詢引擎,使用者無需自己編寫程式碼即使系統可獲得強大的查詢能力,Lucene的查詢實現中預設實現了布林操作、模糊查詢、分組查詢等等。 

MG4J 是另一個搜尋engine 。與Lucene 主要區別是,它提供了cluster 功能,具有更OO的設計方式。 
  MG4J可以讓你為大量的文件集合構建一個被壓縮的全文字索引,通過使內插編碼技術。 


Sphinx支援高速建立索引(可達10MB/秒,而Lucene建立索引的速度是1.8MB/秒) 
高效能搜尋(在2-4 GB的文字上搜索,平均0.1秒內獲得結果) 
高擴充套件性(實測最高可對100GB的文字建立索引,單一索引可包含1億條記錄) 
支援分散式檢索 
支援基於短語和基於統計的複合結果排序機制 
支援任意數量的檔案欄位(數值屬性或全文檢索屬性) 
支援不同的搜尋模式(“完全匹配”,“短語匹配”和“任一匹配”) 
支援作為Mysql的儲存引擎