1. 程式人生 > >Solr-6.5.1配置中文分詞器smartcn

Solr-6.5.1配置中文分詞器smartcn

solr的同步發行包smartcn可進行中文切詞,smartcn的分詞準確率不錯,但就是不能自己定義新的詞庫,不過smartcn是跟solr同步的,所以不需要額外的下載,只需在solr的例子中拷貝進去即可。
第一步:
找到如下目錄,複製中文分詞器jar到solr專案的WEB-INF/lib目錄下:
這裡寫圖片描述
這裡寫圖片描述
第二步:
在自定義的core下配置schema(schema目錄可檢視之前的文章):

<types>
    ........
    <!-- 配置中文分詞器 -->
    <fieldType name="text_smartcn" class
="solr.TextField" positionIncrementGap="100">
<analyzer type="index"> <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/> </analyzer> <analyzer type="query"> <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"
/>
</analyzer> </fieldType> </types>

第三步:

將需要中文分詞的欄位型別替換成上述型別:

<field name="goodsName" type="text_smartcn" indexed="true" stored="true" required="true" multiValued="false" />