【Apache Solr系列】使用IKAnalyzer中文分詞以及自定義分詞字典

阿新 • • 發佈：2018-12-26

之前寫的Apache Solr只介紹了簡單的搭建以及匯入資料等功能，最近由於專案要求，新增索引分詞和搜尋分詞功能；分詞的專案有包括好幾個：smartcn、ictclas4j、IK、jeasy、庖丁、mmseg4j；

以上幾種分詞器各有優缺點，根據不同場景可分可定製和不可定製兩種：

一種是基於中科院ICTCLAS的隱式馬爾科夫HMM演算法的中文分詞器，如smartcn，ictclas4j，優點是分詞準確度高，缺點是不能使用使用者自定義詞庫；

另一種是基於最大匹配的分詞器，如IK ，Jeasy，庖丁，優點是可以自定義詞庫，增加新詞，缺點是分出來的垃圾詞較多。

檔案下載

IKAnalyzer下載地址：https://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip

這裡我使用的是IK Analyzer 2012FF_hf1.zip這個包；因為我用的是solr4.x的；

解壓、檔案拷貝

下載之後用unzip解壓，沒有安裝unzip童鞋安裝下；

解壓之後講IKAnalyzer的jar包拷貝到$SOLR_HOME的lib目錄下；將IKAnalyzer.conf.xml和stopword.dic放到classes目錄下，我這裡的classes目錄是

/data/projects/apprank-solr.zqgame.com/WEB-INF/classes

重點檔案說明

* IKAnalyzer.conf.xml主要的作用是用於自定義分詞字典以及停止詞字典的指定；

* stopword.dic是預設自帶的停止詞，你可以新增自己的停止詞到這個檔案中；

配置

這裡我們只講IKAnalyzer的分詞器配置。其實分詞器的配置大同小異，IKAnalyzer具體配置如下；

<fieldType name="text" class="solr.TextField">   
       <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
</fieldType>  
或者是
<fieldType name="text_ik" class="solr.TextField"> 
       <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/> 
       <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/> 
</fieldType>

如果是其他的分詞器；也是類似，將class修改為對應的分詞處理器類就OK；

配置完fieldType之後，我們將要使用到分詞器的field的type屬性修改為我們新新增fieldType；

<field name="name" type="text_ik" indexed="true"/>

這樣重啟之後，分詞器就生效了！來看下效果

之前原本想使用mmseg4j的，但是網上查了之後據說分詞效果不是很好。所以就用IKAnalyzer，而且mmseg4j的配置比IK要複雜一點；

自定義分詞字典

接下來講下自定義分詞字典，前面我們在重點檔案說明中以及提到了IKAnalyzer.cfg.xml的作用；先來看下這個檔案的內容

[email protected]:/data/projects/clusters/IKAnalyzer$ more IKAnalyzer.cfg.xml 
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
        <comment>IK Analyzer 擴充套件配置</comment>
        <!--使用者可以在這裡配置自己的擴充套件字典 
        <entry key="ext_dict">ext.dic;</entry> 
        -->
        <!--使用者可以在這裡配置自己的擴充套件停止詞字典-->
        <entry key="ext_stopwords">stopword.dic;</entry> 

</properties>

配置一目瞭然，很簡單；

我們在IKAnalyzer.cfg.xml的同級目錄下新增一個ext.dic的檔案，檔案內新增自己的分詞字典，重啟就可以了！

注：這裡要把上面的ext_dict項的註釋去掉，要不然不會起作用的；

看下我們的自定義分詞字典ext.dic

天天跑酷
天天愛消除
天天

這裡比較簡單，我只添加了三個自定義分詞，那麼來看下效果把！

大家可以看到效果還不錯。呵呵！

轉載請註明來源地址：http://blog.csdn.net/weijonathan/article/details/18354723

【Apache Solr系列】使用IKAnalyzer中文分詞以及自定義分詞字典

之前寫的Apache Solr只介紹了簡單的搭建以及匯入資料等功能，最近由於專案要求，新增索引分詞和搜尋分詞功能；分詞的專案有包括好幾個：smartcn、ictclas4j、IK、jeasy、庖丁、mmseg4j；以上幾種分詞器各有優缺點，根據不同場景可分可定製和不可定

【Apache Solr系列之三】Solr客戶端SolrJ API使用文件-增刪改

通過之前兩篇文章的學習之後，使用solr對mysql進行資料匯入以及增量索引應該都會了！接下來我們學習下如果從Solr中讀取我們想要的資料。同時你也可以結合Solr的web介面進行驗證，看看你的查詢結果是否正確。環境準備：從之前下載的solr安裝包中解壓獲取以下ja

【Apache Beam系列】Apache Beam Pipeline設計

微信公眾號(SZBigdata-Club)：後續部落格的文件都會轉到微信公眾號中。 1、公眾號會持續給大家推送技術文件、學習視訊、技術書籍、資料集等。 2、接受大家投稿支援。 3、對於各公司hr招聘的，可以私下聯絡我，把招聘資訊發給我我會在公眾號中進行推送。技術

【Apache Flume系列】Flume-ng failover 以及Load balance測試及注意事項

好久沒寫部落格了。最近在研究storm、flume和kafka。今天給大夥寫下我測試flume failover以及load balance的場景以及一些結論；測試環境包含5個配置檔案，也就是5個agent。一個主的配置檔案，也就是我們配置failover以及load

【機器學習系列】特徵值、奇異值以及奇異值分解

前言：上一次寫了關於PCA與LDA的文章，PCA的實現一般有兩種，一種是用特徵值分解去實現的，一種是用奇異值分解去實現的。在上篇文章中便是基於特徵值分解的一種解釋。特徵值和奇異值在大部分人的印象中，往往是停留在純粹的數學計算中。而且線性代數或者矩陣論裡面

【Unity編輯器】使用反射和Attribute實現自定義右鍵選單

unity提供了許多Attribute，比如[MenuItem]和[ContextMenu]，一個是在編輯器選單欄中新增選單按鈕，一個是在檢視面板新增上下文選單，由於其原理是基於C#的Attribute功能，我們自然可以想到，是否可以自己編寫一套自定義Attribute，來

Python之路65-Django分頁、自定義分頁

python目錄一、XSS二、分頁1三、分頁2四、分頁3一、XSS有下面一段代碼，想將這段代碼中的字符串渲染到HTML頁面中，默認Django是不能這樣去操作的views.pydef user_list(request): page_str = """ <a href="/use

python/Djangof分頁與自定義分頁

from r+ else active count() 返回 log 多少 pan python/Djangof分頁與自定義分頁 Django分頁 1 ##============================================分頁========

cookie和session以及自定義分頁

cookie值無法解析 link try render 強制 raise 需求 cookie Cookie的由來大家都知道HTTP協議是無狀態的。無狀態的意思是每次請求都是獨立的，它的執行情況和結果與前面的請求和之後的請求都無直接關系，它不會受前面的請求響應情況直

Elasticsearch 之（12）query string的分詞，修改分詞器以及自定義分詞器

query string分詞query string必須以和index建立時相同的analyzer進行分詞query string對exact value和full text的區別對待（第10節中詳細闡述過）date：exact value_all：full text比如我

搜尋引擎solr7.2.1+Jetty 分詞及自定義擴充套件詞庫的配置

分詞我理解的是，輸入的一句話，按照它自己定義的規則分為常用詞語。首先，Solr有自己基本的型別，string、int、date、long等等。對於string型別，比如在你的core/conf/manage-schema檔案中，配置一個欄位型別為string型別，如果查詢

【中文分詞系列】 5. 基於語言模型的無監督分詞

轉載：https://spaces.ac.cn/archives/3956/ 迄今為止，前四篇文章已經介紹了分詞的若干思路，其中有基於最大概率的查詞典方法、基於HMM或LSTM的字標註方法等。這些都是已有的研究方法了，筆者所做的就只是總結工作而已。查詞典方法和字

【表格建模系列】五、創建分區

ant ntp amt intern cost track end pct 2-0 右鍵單擊FactInternetSales > 分區。創建如下分區： FactInternetSales2010。SQL: SELECT [dbo].[FactInterne

【Docker系列】認識ELK,docker安裝ELK和IK分詞器

1.ELK簡介 ELK是三個開源軟體的縮寫，分別表示：Elasticsearch , Logstash, Kibana , 它們都是開源軟體。新增了一個FileBeat，它是一個輕量級的日誌收集處理工具(Agent)，Filebeat佔用資源少，適合於在各個伺服器上搜集日誌後傳輸給Logstash，官方也推

【iOS開發系列】將阿拉伯數字轉換為中文數字

/** * 將阿拉伯數字轉換為中文數字 */ +(NSString *)translationArabicNum:(NSInteger)arabicNum { NSString *arabicNumStr = [NSString stringWithForma

【iOS開發系列】九宮格布局

使用 objc with div self. orm i++ back hab /** * 這個盡管非常easy,算是一個小技巧,可是碰到了就記錄下來吧.積跬步,致千裏嘛. */ - (void)scratchableLatex { for (int i=

【JVM命令系列】jmap

mark bsp null 參考 nfa location bootstra 內容遠程debug 命令基本概述 Jmap是一個可以輸出所有內存中對象的工具，甚至可以將VM 中的heap，以二進制輸出成文本。打印出某個java進程（使用pid）內存內的，所有‘對象’的情況（

【iOS開發系列】NSObject方法介紹

ati ber oid ring cto rgb dst -s 推斷 NSObject是OC中的基類，全部類都繼承於此，這裏面也給我們提供了非常多與“類”和“方法”相關的方法，本文將解說幾個非常有用的方法。正文： Per

【大數據系列】HDFS文件權限和安全模式、安裝

重新啟動 inux 客戶元數據 masters cnblogs 格式新的檢測 HDFS文件權限 1、與linux文件權限類型 r:read w:write x:execute權限x對於文件忽略，對於文件夾表示是否允許訪問其內容 2、如果linux系統用戶sanglp

【大數據系列】MapReduce示例好友推薦

trac [0 ont protect run task main orm pat package org.slp; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text;

【Apache Solr系列】使用IKAnalyzer中文分詞以及自定義分詞字典

相關推薦