1. 程式人生 > >Elasticsearch教程(二),IK分詞器安裝

Elasticsearch教程(二),IK分詞器安裝

怕麻煩就看上面的(極速版),是我已經打包好的 IK分詞器  需要的東西。

首先說說分詞器,分詞,英語分詞很好分,就是按固定的英文的空格,或者“-”。中文分詞就稍微有點複雜了,而 Elasticsearch  預設是帶分詞器了,我們來測試一下。

  1. http://123.88.88.88:9200/_analyze?analyzer=standard&pretty=true&text=sojson線上工具

得出的結果如下:

  1. {
  2. "tokens":[{
  3. "token":"sojson",
  4. "start_offset":0,
  5. "end_offset":6,
  6. "type":"",
  7. "position":0
  8. },{
  9. "token"
    :"在",
  10. "start_offset":6,
  11. "end_offset":7,
  12. "type":"",
  13. "position":1
  14. },{
  15. "token":"線",
  16. "start_offset":7,
  17. "end_offset":8,
  18. "type":"",
  19. "position":2
  20. },{
  21. "token":"工",
  22. "start_offset":8,
  23. "end_offset":9,
  24. "type":"",
  25. "position":3
  26. },{
  27. "token":"具",
  28. "start_offset":9,
  29. "end_offset":10,
  30. "type":"",
  31. "position":4
  32. }]
  33. }

發現中文是一個字一個字的分對吧。我們要的需求應該是,sojson、線上、工具吧。


開始安裝。

1、下載

2、解壓。

把下載的 elasticsearch-analysis-ik.zip解壓。

3、 Maven  打包

進入elasticsearch-analysis-ik-master/ 下,打包。注意:打包後的檔案在elasticsearch-analysis-ik-master/target/目錄下

  1. mvn clean package

4.然後在elasticsearch-2.2.0/plugins下建立目錄 ik

  1. cd elasticsearch-2.2.0/plugins
  2. mkdir ik
  3. cd ik

然後將打包後的elasticsearch-analysis-ik-1.8.0.jar 放入當前目錄下,然後解壓。

5、設定(2.0以上可以不設定,我沒有設定)。

 Elasticsearch  的config下的elasticsearch.yml檔案中,新增如下程式碼。

  1. index:
  2. analysis:
  3. analyzer:
  4. ik:
  5. alias:[ik_analyzer]
  6. type: org.elasticsearch.index.analysis.IkAnalyzerProvider
  7. ik_max_word:
  8. type: ik
  9. use_smart:false
  10. ik_smart:
  11. type: ik
  12. use_smart:true

或者簡單配置:

  1. index.analysis.analyzer.ik.type :ik

6、啟動測試。

  1. http://123.88.88.88:9200/_analyze?analyzer=ik&pretty=true&text=sojson線上工具

結果為:

  1. {
  2. "tokens":[{
  3. "token":"sojson",
  4. "start_offset":0,
  5. "end_offset":6,
  6. "type":"ENGLISH",
  7. "position":0
  8. },{
  9. "token":"線上",
  10. "start_offset":6,
  11. "end_offset":8,
  12. "type":"CN_WORD",
  13. "position":1
  14. },{
  15. "token":"工具",
  16. "start_offset":8,
  17. "end_offset":10,
  18. "type":"CN_WORD",
  19. "position":2
  20. }]
  21. }

over了,當然我以前用的版本是0.9現在是2.0,跨度太大了,所以寫這個Blog話費時間較多,中間可能有一點考慮不到的因素,如果你有疑問,可以聯絡我,或者加群找我,我有時間的情況下,可以和你探討。