1. 程式人生 > >Solr自定義分詞器-通過特殊字元分詞

Solr自定義分詞器-通過特殊字元分詞

摘要: 在對英文句子分詞的時候,一般採用採用的分詞器是WhiteSpaceTokenizerFactory,有一次因業務要求,需要根據某一個特殊字元(以逗號分詞,以豎線分詞)分詞。感覺這種需求可能與WhiteSpaceTokenizerFactory相像,於是自己根據Solr原始碼自定義了分詞策略。

業務場景

有一次,我拿到的資料都是以豎線“|”分隔,分詞的時候,需要以豎線為分詞單元。比如下面的這一堆資料:
列表內容
有可能你拿到的是這樣的資料,典型的例子就是來自csv檔案的資料,格式和下面這種類似:
這裡寫圖片描述

分詞思路

在Solr的schema.xml檔案中,有這樣的配置

<fieldType
name="text_ws" class="solr.TextField" positionIncrementGap="100">
<analyzer> <tokenizer class="solr.WhitespaceTokenizerFactory"/> </analyzer> </fieldType>

對於欄位型別text_ws,指定了一個分詞器工廠WhitespaceTokenizerFactory,根據這個類,可以實現通過空格來分詞,那麼我通過豎線分詞的程式碼應該與之類似。

修改原始碼

在Java工程中引入如下jar包:

<dependency>
        <groupId>org.apache.solr</groupId>
        <artifactId>solr-core</artifactId>
        <version>6.0.0</version>
</dependency>

參照WhitespaceTokenizerFactory的原始碼,寫一個自己的MyVerticalLineTokenizerFactory,內容基本不變:

package com.trainning.project.custom;

import
java.util.Arrays; import java.util.Collection; import java.util.Map; import org.apache.lucene.analysis.Tokenizer; import org.apache.lucene.analysis.core.UnicodeWhitespaceTokenizer; import org.apache.lucene.analysis.util.TokenizerFactory; import org.apache.lucene.util.AttributeFactory; /** * @author JiangChao * @date 2017年4月2日下午3:41:13 */ public class MyVerticalLineTokenizerFactory extends TokenizerFactory{ public static final String RULE_JAVA = "java"; public static final String RULE_UNICODE = "unicode"; private static final Collection<String> RULE_NAMES = Arrays.asList(RULE_JAVA, RULE_UNICODE); private final String rule; /** Creates a new MyVerticalLineTokenizerFactory */ public MyVerticalLineTokenizerFactory(Map<String,String> args) { super(args); rule = get(args, "rule", RULE_NAMES, RULE_JAVA); if (!args.isEmpty()) { throw new IllegalArgumentException("Unknown parameters: " + args); } } @Override public Tokenizer create(AttributeFactory factory) { switch (rule) { case RULE_JAVA: return new MyVerticalLineTokenizer(factory); case RULE_UNICODE: return new UnicodeWhitespaceTokenizer(factory); default: throw new AssertionError(); } } }

具體做分詞的MyVerticalLineTokenizer程式碼如下

package com.trainning.project.custom;

import org.apache.lucene.analysis.util.CharTokenizer;
import org.apache.lucene.util.AttributeFactory;

/**
* @author JiangChao
* @date 2017年4月2日下午9:46:18
*/
public class MyVerticalLineTokenizer extends CharTokenizer {

    public MyVerticalLineTokenizer() {

    }
    public MyVerticalLineTokenizer(AttributeFactory factory) {
        super(factory);
      }

      /** Collects only characters which do not satisfy
       *  引數c指的是term的ASCII值,豎線的值為 124
       */
      @Override
      protected boolean isTokenChar(int c) {
        return !(c == 124);
      }
}

這裡最主要的方法就是isTokenChar,它控制了分詞的字元,如果需要使用逗號分詞的話,字需要將這個方法修改成下面這樣:

    /** Collects only characters which do not satisfy
     *  引數c指的是term的ASCII值,逗號的值為 44
     */
     @Override
     protected boolean isTokenChar(int c) {
        return !(c == 44);
     }

整合

程式碼寫好了,怎麼使用呢?首先,需要把剛才的java檔案打成jar包。我使用的是Eclipse,直接選中兩個類檔案,右鍵 -> Export -> JAR File -> Select the export destination: ->選擇輸出路徑,填一個jar名字:MyVerticalLineTokenizerFactory -> Finish

得到的MyVerticalLineTokenizerFactory.jar檔案大約3KB,將改檔案放置到.\solr_home\lib下,在shcema.xml中定義自己的field

<fieldType name="vertical_text" class="solr.TextField">
    <analyzer>
      <tokenizer class="com.trainning.project.custom.MyVerticalLineTokenizerFactory"/>
    </analyzer>
  </fieldType>
  <field name="custom" type="vertical_text" indexed="true" stored="false"/>

注意這裡的class是剛才自己寫的分詞器的完整類名。

開啟Solr主頁,在Analysis頁面測試一下,是否實現了預期?

程式碼倉庫:GitHub
Jar包檔案:CSDN下載