1. 程式人生 > >全文檢索技術與Lucene的使用

全文檢索技術與Lucene的使用

需要注意的是,建立索引和進行搜尋都是需要分詞器進行分詞的,而且,為了保證能正確的搜尋到結果,在建立索引與進行搜尋時使用的分詞器應是同一個。 由於中英文的不同,分詞器還分為 英文分詞、中文分詞以及停用詞等。英文分詞的主要流程是,輸入文字 → 關鍵詞切分 → 去除停用詞 → 形態還原 → 轉為小寫 。其中,形態還原是去除單詞詞尾的形態變化,將其還原為詞的原型,例如,worked → work,studies → study 。 中文的分詞比較複雜,因為不是一個字就是一個詞,而且一個詞在另外一個地方就可能不是一個詞,如在“帽子和服裝”中,“和服”就不是一個詞。對於中午分詞,通常有三種方式,單字分詞、二分法分詞、詞典分詞。 有些詞在文字中出現的頻率是非常高的,而且對文字所攜帶的資訊基本不產生影響,比如英文的“a、an、the、of”,或中文的“的、了、著”,以及各種標點符號等,這樣的詞稱為停用詞。文字經過分詞之後,停用詞通常被過濾掉,不會被進行索引。在檢索的時候,使用者的查詢中如果含有停用詞,檢索系統也會將其過濾掉。這也給了我們一些啟示,在檢索的時候,儘量的排除停用詞可以加快搜索的速度。
  • 倒排索引
倒排索引,索引物件是文件中的單詞等,用來儲存這些單詞在一個文件中的位置。比如,有些書在最後提供的索引,就可以看成是一種倒排序索引。可以通過一些關鍵字,在全書中檢索出與之相關的部分。