solr-4.10.3 安裝在windows 7 並整合IK分詞器
硬體環境
window版本為:windows 7 64位
軟體環境
JDK版本:1.7.0_17
solr版本:4.10.3
tomcat版本:tomcat 7
安裝過程
步驟一:將下載好的solr-4.10.4.zip解壓,解壓後拷貝%solrhome%\example\solr該目錄下所有檔案到C:/solr
步驟二:複製%solr%\dist\solr-4.10.3.war到tomcat安裝目錄下的webapp目錄,並修改其名稱為:solr.war
步驟三:修改C:\solr\collection1\conf目錄下solrconfig.xml檔案,將dataDir節點的值指向步驟一所配置的檔案路徑。如下圖所示:
步驟四:修改%tomcat%\webapp\solr\WEB-INF\web.xml檔案,如下所示:
步驟五:拷貝%solr%\dist\solrj-lib 目錄下所有jar包到%tomcat%\lib目錄下
步驟六:拷貝%solr%\example\lib\ext 目錄下所有jar包到%tomcat%\webapp\solr\WEB-INFlib目錄下。
值得注意的是,在使用solr的過程中,為了避免因為中文亂碼導致搜尋不到結果,需要修改tomcat的config/server.xml中Connector的配置:
整合ikanalyzer中文分詞器
1、在谷歌http://code.google.com/p/ik-analyzer/downloads/list下載IK Analyzer 2012FF_hf1解壓後得到如下目錄結構:
2、將IKAnalyzer2012FF_u1.jar包copy到 apache-tomcat-7.0.56/webapps/solr/WEB-INF/lib 下。
在apache-tomcat-7.0.56/webapps/solr/WEB-INF/下建立classes目錄
將IKAnalyzer.cfg.xml、stopword.dic copy到 apache-tomcat-7.0.56/webapps/solr/WEB-INF/classes
3、修改apache-tomcat-7.0.56/webapps/solr/solr_home/collection1/conf/schema.xml
在第一個節點內新增如下配置:
<fieldType name="text_ik" class="solr.TextField"> <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/> <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/> </fieldType>將對應需要用ik分詞的欄位的type改為以上定義的name值 text_ik(大約120行處):
<field name="sku" type="text_en_splitting_tight" indexed="true" stored="true" omitNorms="true"/> <field name="name" type="text_ik" indexed="true" stored="true"/> <field name="manu" type="text_ik" indexed="true" stored="true" omitNorms="true"/>根據我們配置的中文分詞器,選擇Manu:
分析一個熊孩子造的句子:小明吃完水果然後喝水
發現非常智慧的構建出關鍵詞了。