solr 的分析器，分詞器和分詞過濾器

阿新 • • 發佈：2019-01-21

（一）分詞基本概念

概覽

當對一個文件（document是一系列field的集合)進行索引時，其中的每個field（document和file都是lucene中的概念）中的資料都會經歷分析，分詞和多步的分詞過濾等操作。這一系列的動作是什麼呢？直觀的理解是，將一句話分成單個的單詞，去掉句子當中的空白符號，去掉多餘的詞，進行同義詞代換等等。

【例】what a beautiful day? 會進行什麼處理呢？what ,a 以及問號都將被去掉，最後處理結果為beautiful和day（也有可能是beautiful day)。

不僅僅是在索引的時候進行這些工作，查詢的時候也要做這些工作，而且通常索引和查詢使用同樣的方法來進行處理。這樣做的目的是為了保證索引與查詢的正確匹配。下例說明了採取不同的處理時的不匹配情況。

【例】ABCD索引分詞為AB CD,查詢時候分詞為ABC D，顯然查詢的匹配結果為0。

詞性轉換

一種是將一個詞擴充套件成它的多種形式，例如將run擴充套件成runs，running。另外一種是詞性規約，例如將runns，running等都“收縮”成run。前者只需要在索引或查詢的任意一端採用即可，後者需要在兩端同時採用。

分析器（Analyzer）

分析器是包括連個部分：分詞器和過濾器。分詞器顧名思意就是將句子分詞單個的詞，過濾器就是對分詞的結果進行篩選，例如中文中將“的”“呀”這些對句子主體意思影響不大的詞刪除。英語中類似的就是"is"，"a"等等。通常在索引和分詞兩端應該採用同樣的分詞器。solr自帶了一些分詞器，如果你需要使用自己公司的分詞器，那麼就需要修改solr模式（Solr schema）。

schema.xml 檔案允許兩種方式修改文字被分析的方式，通常只有field型別為 solr.TextField 的field的內容允許定製分析器。

方法一：使用任何 org.apache.lucene.analysis.Analyzer的子類進行設定。

<fieldtype name="nametext" class="solr.TextField">
   <analyzer class="org.apache.lucene.analysis.WhitespaceAnalyzer"/>
 </fieldtype>

方法二：指定一個TokenizerFactory

，後面跟一系列的TokenFilterFactories（它們將按照所列的順序發生作用），Factories被用來建立分詞器和分詞過濾器，它們用於對分詞器和分詞過濾器的準備配置，這樣做的目的是為了避免the overhead of creation via reflection。

 <fieldtype name="text" class="solr.TextField">
   <analyzer>
     <tokenizer class="solr.StandardTokenizerFactory"/>
     <filter class="solr.StandardFilterFactory"/>
     <filter class="solr.LowerCaseFilterFactory"/>
     <filter class="solr.StopFilterFactory"/>
     <filter class="solr.PorterStemFilterFactory"/>
   </analyzer>
 </fieldtype>

需要說明的一點是，Any Analyzer, TokenizerFactory, or TokenFilterFactory 應該用帶包名的全類名進行指定，請確保它們位於Solr的classpath 路徑下。對於 org.apache.solr.analysis.* 包下的類，僅僅通過solr.*就可以進行指定。

如果你需要使用自己的分詞器和過濾器，你就需要自己寫一個 factory ，它必須是 BaseTokenizerFactory或BaseTokenFilterFactory的子類。就像下面一樣。

  public class MyCustomFilterFactory extends BaseTokenFilterFactory {
    public TokenStream create(TokenStream input) {
    return new MyCustomFilter(input);
  }
}

TokenizerFactories

Solr提供了下列TokenizerFactories(Tokenizers and TokenFilters)

1.solr.KeywordTokenizerFactory

不管什麼內容，整句當成一個關鍵字
例如: "http://example.com/I-am+example?Text=-Hello" ==> "http://example.com/I-am+example?Text=-Hello"

2.solr.LetterTokenizerFactory

根據字母來分詞，拋棄非字母的部分
例如："I can't" ==> "I", "can", "t"

3.solr.WhitespaceTokenizerFactory
根據空格來分詞
例如："I do" ==> "I", "do"

4.solr.LowerCaseTokenizerFactory
根據字母分詞，並將所有字母轉換成小寫，拋棄非字母的部分
例如："I can't" ==> "i", "can", "t"

5.solr.StandardTokenizerFactory

分詞舉例： "I.B.M. cat's can't" ==>
ACRONYM: "I.B.M.", APOSTROPHE:"cat's", APOSTROPHE:"can't"
說明：該分詞器，會自動地給每個分詞新增type，以便接下來的對type敏感的過濾器進行處理，目前僅僅只有StandardFilter對Token的型別是敏感的。

TokenFilterFactories

1.solr.LowerCaseFilterFactory

將分詞小寫，不處理非單詞部分
例如: "I.B.M.", "Solr" ==> "i.b.m.", "solr".

solr 的分析器，分詞器和分詞過濾器

Solr提供了下列TokenizerFactories(Tokenizers and TokenFilters)

1.solr.KeywordTokenizerFactory

TokenFilterFactories

1.solr.LowerCaseFilterFactory

solr 的分析器，分詞器和分詞過濾器

Solr技術配置，以及資料匯入和分詞器的使用

基於spring boot架構和word分詞器的分詞檢索，排序，分頁實現

DRF的註冊器，響應器和分頁器

ElasticSearch學習筆記（二）IK分詞器和拼音分詞器的安裝

Elasticsearch5.6.11+Ik分詞器和自定義詞庫的配置與使用

ElasticSearch-IK分詞器和整合使用

Django組件——分頁器和中間件

迭代器和分部類

Lucene筆記20-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器（良好設計方案）

Lucene筆記19-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器

ElasticSearch中分詞器以及分詞原理：聽課筆記（38講-45講）

DAY102 - Rest Framework(七）- 手動編寫配置檔案、分頁器和版本控制

分頁器和版本控制的總結使用

設定 content size，實現水平捲動，上下捲動和分頁的 scroll view

給出任意一個時間點，求出指標和分針之間的角度

7 Django分頁器文章分頁

python---基礎知識回顧（十）進程和線程（自定義線程池，上下文管理器和協程的使用）

生成器，迭代器和裝飾器

django -----分頁器元件分頁器元件

solr 的分析器，分詞器和分詞過濾器

Solr提供了下列TokenizerFactories(Tokenizers and TokenFilters)

1.solr.KeywordTokenizerFactory

TokenFilterFactories

1.solr.LowerCaseFilterFactory

相關推薦