Elasticsearch1.x 拼音分詞實現全拼首字母中文混合搜尋

阿新 • • 發佈：2019-01-12

一、外掛簡介

elasticsearch-analysis-lc-pinyin是一款elasticsearch拼音分詞外掛，可以支援按照全拼、首字母，中文混合搜尋。

首先舉個栗子說明下，我們在淘寶搜尋框中輸入“jianpan” 可以搜尋到關鍵字包含“鍵盤”的商品。不僅僅輸入全拼，有時候我們輸入首字母、拼音和首字母、中文和首字母的混合輸入，比如：“鍵pan”、“j盤”、“jianp”、“jpan”、“jianp”、“jp” 等等，都應該匹配到鍵盤。通過elasticsearch-analysis-lc-pinyin這個外掛就能做到類似的搜尋

二、安裝外掛

elasticsearch-analysis-lc-pinyin一共有兩個版本分別是1.4.5和2.2.2，和es的版本對應

1.4.5 這個版本對應ES1.X

2.2.2這個版本對應ES2.X

請根據需要安裝對應的版本，下面地址中壓縮包已經包含了這兩個版本

當然也可以自己下載elasticsearch-analysis-lc-pinyin的原始碼自己maven build出來，這樣可以避免版本衝突

git 地址：http://git.oschina.net/music_code_m/elasticsearch-analysis-lc-pinyin

如下，我已將下載下來的包放在 /home/chennan/soft 目錄下，下面我將以elasticsearch1.4.5為例安裝elasticsearch-analysis-lc-pinyin-1.4.5拼音分詞器

進入到es的plugins目錄，下面是未安裝時的樣子

接著開啟終端命令列執行如下命令安裝外掛

./../bin/plugin --install analysis-lc-pinyin --url file:/home/chennan/soft/elasticsearch-analysis-lc-pinyin-1.4.5.zip

粗線上面結果就表示安裝成功了 ^ ^，安裝完成後會在plugins目錄下生成一個 analysis-lc-pinyin的目錄，如下

接下來配置elasticsearch.yml，在末尾加上如下配置，如下因為我也安裝了IK分詞器所以配置這樣，如果你沒有安裝IK可以將下面ik的部分刪除

index:
  analysis:
    analyzer:
      ik:
          alias: [ik_analyzer]
          type: org.elasticsearch.index.analysis.IkAnalyzerProvider
      ik_max_word:
          type: ik
          use_smart: false
      ik_smart:
          type: ik
          use_smart: true
      lc:
         alias: [lc_analyzer]
         type: org.elasticsearch.index.analysis.LcPinyinAnalyzerProvider
      lc_index:
         type: lc
         analysisMode: index
      lc_search:
         type: lc
         analysisMode: search

然後啟動es，這裡我啟動兩個節點。從啟動日誌中可以看到es成功載入了拼音外掛，如下

到這裡，外掛就安裝完成了。我們可以通過一個簡單的curl命令來測試分詞器時候正常工作

curl -XGET '192.168.0.107:9200/_analyze?analyzer=lc_search&pretty' -d 'dafeiji'

輸入“dafeiji”可以切分出來“da”、“fei”、“ji” 證明一切都OK啦

接下來就來試試藉助這個拼音分詞器來執行搜尋，看看效果

1、首先建立一個索引，然後執行putmapping , 這裡的索引名叫index，type叫fulltext，其中content這個欄位採用拼音分詞。注意這裡用到兩個不同的分詞器

索引過程採用：lc_index分詞器

搜尋過程採用：lc_search分詞器

curl -XPUT http://localhost:9200/index

curl -XPOST http://localhost:9200/index/fulltext/_mapping -d'
{
    "fulltext": {
             "_all": {
            "index_analyzer": "lc_index",
            "search_analyzer": "lc_search",
            "term_vector": "no",
            "store": "false"
        },
        "properties": {
            "content": {
                "type": "string",
                "store": "no",
                "term_vector": "with_positions_offsets",
                "index_analyzer": "lc_index",
                "search_analyzer": "lc_search",
                "include_in_all": "true",
                "boost": 8
            }
        }
    }
}'

然後索引幾條資料，這裡索引的4個公司的名稱，陸金所、阿里巴巴、騰訊、百度、如下：

接下來執行幾個搜尋，查詢的DSL像這樣

{
  "query": {
    "match": {
      "content": {
        "query": "bai度",
        "analyzer": "lc_search",
        "type": "phrase"
      }
    }
  },
  "highlight": {
    "pre_tags": [
      "<tag1>"
    ],
    "post_tags": [
      "</tag1>"
    ],
    "fields": {
      "content": {}
    }
  }
}

搜尋“bai度”

搜尋“阿li巴b”

搜尋“ljs”

搜尋“alibb”

搜尋“lujinsuo”

下面使用es 客戶端來做查詢

@Test
    public void testPinyinSearch() {
        final String index = "index";
        final String type = "fulltext";
        SearchRequestBuilder requestBuilder = elasticIndexOperateHelper.getClient().prepareSearch(index).setTypes(type);

        QueryBuilder pinyinSearch = QueryBuilders
                .matchQuery("content", "lu金s")
                .type(MatchQueryBuilder.Type.PHRASE)
                .analyzer("lc_search")
                .zeroTermsQuery(MatchQueryBuilder.ZeroTermsQuery.NONE);

        SearchResponse response = requestBuilder
                .setQuery(pinyinSearch)
                .setHighlighterPreTags("</tag1>")
                .setHighlighterPostTags("<tag1>")
                .addHighlightedField("content")
                .execute().actionGet();
        System.out.println(response);

    }

查詢結果如下：

Elasticsearch1.x 拼音分詞實現全拼首字母中文混合搜尋

Elasticsearch1.x 拼音分詞實現全拼首字母中文混合搜尋

java之獲取中文全拼/首字母工具（大小寫轉換）

java獲取中文全拼/首字母工具以及大小寫轉換

lucene6.6+拼音分詞+ik分詞實現

一種拼音分詞器的JAVA實現

elasticsearch實現中文分詞和拼音分詞混合查詢+CompletionSuggestion

elasticsearch ik分詞實現中文、拼音、同義詞搜尋

elasticsearch 拼音+ik分詞，spring data elasticsearch 拼音分詞

JS實現獲取漢字首字母拼音、全拼音及混拼音的方法

Lucene筆記20-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器（良好設計方案）

Lucene筆記19-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器

Lucene筆記18-Lucene的分詞-實現自定義同義詞分詞器-思路分析

基於java版jieba分詞實現的tfidf關鍵詞提取

和我一起打造個簡單搜索之IK分詞以及拼音分詞

和我一起打造個簡單搜尋之IK分詞以及拼音分詞

Elasticsearch拼音分詞和IK分詞的安裝及使用

es配置中文和拼音分詞器

ElasticSearch學習筆記（二）IK分詞器和拼音分詞器的安裝

使用 Elasticsearch ik分詞實現同義詞搜尋

Solr6.5配置中文分詞IKAnalyzer和拼音分詞pinyinAnalyzer (二)

Elasticsearch1.x 拼音分詞實現全拼首字母中文混合搜尋

相關推薦