Lucene,MG4J ,Sphinx全文檢索引擎的優點
阿新 • • 發佈:2019-02-08
Lucene作為一個全文檢索引擎,其具有如下突出的優點:
(1)索引檔案格式獨立於應用平臺。Lucene定義了一套以8位位元組為基礎的索引檔案格式,使得相容系統或者不同平臺的應用能夠共享建立的索引檔案。
(2)在傳統全文檢索引擎的倒排索引的基礎上,實現了分塊索引,能夠針對新的檔案建立小檔案索引,提升索引速度。然後通過與原有索引的合併,達到優化的目的。
(3)優秀的面向物件的系統架構,使得對於Lucene擴充套件的學習難度降低,方便擴充新功能。
(4)設計了獨立於語言和檔案格式的文字分析介面,索引器通過接受Token流完成索引檔案的創立,使用者擴充套件新的語言和檔案格式,只需要實現文字分析的介面。
(5)已經預設實現了一套強大的查詢引擎,使用者無需自己編寫程式碼即使系統可獲得強大的查詢能力,Lucene的查詢實現中預設實現了布林操作、模糊查詢、分組查詢等等。
MG4J 是另一個搜尋engine 。與Lucene 主要區別是,它提供了cluster 功能,具有更OO的設計方式。
MG4J可以讓你為大量的文件集合構建一個被壓縮的全文字索引,通過使內插編碼技術。
Sphinx支援高速建立索引(可達10MB/秒,而Lucene建立索引的速度是1.8MB/秒)
高效能搜尋(在2-4 GB的文字上搜索,平均0.1秒內獲得結果)
高擴充套件性(實測最高可對100GB的文字建立索引,單一索引可包含1億條記錄)
支援分散式檢索
支援基於短語和基於統計的複合結果排序機制
支援任意數量的檔案欄位(數值屬性或全文檢索屬性)
支援不同的搜尋模式(“完全匹配”,“短語匹配”和“任一匹配”)
支援作為Mysql的儲存引擎
(1)索引檔案格式獨立於應用平臺。Lucene定義了一套以8位位元組為基礎的索引檔案格式,使得相容系統或者不同平臺的應用能夠共享建立的索引檔案。
(2)在傳統全文檢索引擎的倒排索引的基礎上,實現了分塊索引,能夠針對新的檔案建立小檔案索引,提升索引速度。然後通過與原有索引的合併,達到優化的目的。
(3)優秀的面向物件的系統架構,使得對於Lucene擴充套件的學習難度降低,方便擴充新功能。
(4)設計了獨立於語言和檔案格式的文字分析介面,索引器通過接受Token流完成索引檔案的創立,使用者擴充套件新的語言和檔案格式,只需要實現文字分析的介面。
(5)已經預設實現了一套強大的查詢引擎,使用者無需自己編寫程式碼即使系統可獲得強大的查詢能力,Lucene的查詢實現中預設實現了布林操作、模糊查詢、分組查詢等等。
MG4J 是另一個搜尋engine 。與Lucene 主要區別是,它提供了cluster 功能,具有更OO的設計方式。
MG4J可以讓你為大量的文件集合構建一個被壓縮的全文字索引,通過使內插編碼技術。
Sphinx支援高速建立索引(可達10MB/秒,而Lucene建立索引的速度是1.8MB/秒)
高效能搜尋(在2-4 GB的文字上搜索,平均0.1秒內獲得結果)
高擴充套件性(實測最高可對100GB的文字建立索引,單一索引可包含1億條記錄)
支援分散式檢索
支援基於短語和基於統計的複合結果排序機制
支援任意數量的檔案欄位(數值屬性或全文檢索屬性)
支援不同的搜尋模式(“完全匹配”,“短語匹配”和“任一匹配”)
支援作為Mysql的儲存引擎