elasticsearch5.11整合ik+pinyin分詞java api

阿新 • • 發佈：2019-01-05

1.建立index並初制定分詞

由於官方提供的XContentBuilder工具沒有直接寫json來的直接，這裡我就直接把setting用json建立

/**
	 * 建立索引
	 * @param indexName	索引名
	 */
	public static void createIndex(String indexName){
		try {
			EsTools esTools = new EsTools();
			TransportClient client = esTools.getClient();
			/**1.建立索引對映*/
			client.admin().indices()
			.prepareCreate(indexName).setSettings("{\"index\" : "
													+ "{\"analysis\" : "
														+ "{\"analyzer\" : "
															+ "{\"ik_pinyin_analyzer\" : "
																+ "{\"tokenizer\" : \"ik_max_word\", "
																+ "\"filter\" : [\"my_pinyin\",\"word_delimiter\"]}},"
																+ "\"filter\" : {\"my_pinyin\" : "
																+ "{\"type\" : \"pinyin\", \"first_letter\" : \"prefix\",\"padding_char\" : \" \" }}}}}").get();
			System.out.println("索引建立成功");
			
		} catch (Exception e) {
			e.printStackTrace();
			System.out.println("索引建立失敗");
		}
	}

2.建立type並設定mapping

/**
	 * 建立型別並設定mapping
	 * @param indexName	索引名
	 * @param typeName	型別名
	 */
	public static void createMapping(String indexName,String typeName,String columnName){
		EsTools esTools = new EsTools();
		TransportClient client = esTools.getClient();
		//建立mapping
		PutMappingRequest mapping = Requests.putMappingRequest(indexName).type(typeName)
				.source("{\""+ typeName +"\": {\"properties\": "
						+ "{\"name\": {\"type\": \"string\",\"analyzer\": \"ik_pinyin_analyzer\"}}}}");
		
		client.admin().indices().putMapping(mapping).actionGet();
		System.out.println("mapping建立成功");
	}

這裡需要提到的是：first_letter即拼音首字母，可以設定為(預設為none)： prefix , append , only 和none，如“中國”的分詞效果分別為”zg zhong guo","zhong guo zg","zg","zhong guo"

3.插入資料

/**
	 * 插入資料
	 * @param indexName	索引名
	 * @param typeName	型別
	 * @param column	列
	 * @param value	值
	 */
	public static void setDate(String indexName,String typeName,String column,String value){
		try {
			EsTools esTools = new EsTools();
			TransportClient client = esTools.getClient();
			/**2.插入資料*/
			IndexResponse response = client.prepareIndex(indexName,typeName)
			        .setSource(jsonBuilder()
			                    .startObject().field(column, value).endObject()
			                  )
			        .setId(UUID.randomUUID().toString()+"")
			        .get();
			System.out.println("插入成功");
		} catch (IOException e) {
			e.printStackTrace();
			System.out.println("插入失敗");
		}
		
	}

4.查詢並高亮顯示

/**
	 * 查詢列印
	 * @param index	索引
	 * @param type	型別
	 * @param column	列
	 * @param key	關鍵詞
	 * @throws UnknownHostException
	 */
	public static void findPrint(String index,String type,String column,String key) throws UnknownHostException{
		// 設定叢集名稱
        Settings settings = Settings.builder()
                .put("cluster.name", "my-application").build();
        // 建立client
		TransportClient client = new PreBuiltTransportClient(settings)
                .addTransportAddress(new InetSocketTransportAddress(
                        InetAddress.getByName("127.0.0.1"), 9300));
        QueryBuilder matchQuery = QueryBuilders.matchQuery(column, key);
        HighlightBuilder hiBuilder=new HighlightBuilder();
        hiBuilder.preTags("<h2>");
        hiBuilder.postTags("</h2>");
        hiBuilder.field(column);
        // 搜尋資料
        SearchResponse response = client.prepareSearch(index)
        		.setTypes(type)
                .setQuery(matchQuery)
                .highlighter(hiBuilder)
                .execute().actionGet();
        //獲取查詢結果集
        SearchHits searchHits = response.getHits();
        System.out.println("共搜到:"+searchHits.getTotalHits()+"條結果!");
        //遍歷結果
        for(SearchHit hit:searchHits){
            System.out.println("String方式列印文件搜尋內容:");
            System.out.println(hit.getSourceAsString());

            if(null != hit && null != hit.getHighlightFields() && hit.getHighlightFields().size() > 0 ){
            	System.out.println("Map方式列印高亮內容");
                System.out.println(hit.getHighlightFields());
            	
            	System.out.println("遍歷高亮集合，列印高亮片段:");
                Text[] text = hit.getHighlightFields().get(column).getFragments();
                for (Text str : text) {
                    System.out.println(str.string());
                }
            }
            
        }
	}

呼叫

public static void main(String[] args) throws IOException{
		String indexName = "index3";
		String typeName = "t3";
		String columnName = "name";
		
//		//建立索引
		createIndex(indexName);
//		
//		//建立型別並設定mapping
		createMapping(indexName,typeName,columnName);
//		
//		//插入資料
		setDate(indexName,typeName,columnName,"曹操官渡大破袁紹，為吞併河北打開了勝利的大門");
		
		//查詢資料
		findPrint(indexName,typeName,columnName,"w");
    }

elasticsearch5.11整合ik+pinyin分詞java api

1.建立index並初制定分詞由於官方提供的XContentBuilder工具沒有直接寫json來的直接，這裡我就直接把setting用json建立 /** * 建立索引 * @param indexName 索引名 */ public static voi

elasticsearch 安裝Ik+pinyin分詞配置詳解

一、拼音分詞的應用拼音分詞在日常生活中其實很常見，也許你每天都在用。開啟淘寶看一看吧,輸入拼音”zhonghua”,下面會有包含”zhonghua”對應的中文”中華”的商品的提示：拼音分詞是根據輸入的拼音提示對應的中文，通過拼音分詞提升搜尋體驗、加

solr5.3.1 整合IK中文分詞器

參考文章：http://www.cnblogs.com/sword-successful/p/5604541.html 轉載文章：http://www.cnblogs.com/pazsolr/p/5796813.html 1.下載IK分詞器包。連結：http://

solr5.x整合IK中文分詞

在solr5.x中加入IK中文分詞，首先要下載適用於solr5.x版本的IK對應的jar檔案把下載下來的jar包放到solr/WEB-INF/lib下然後我們需要在mynode（具體看搭建環境那塊）中的conf檔案下找到schema.xml。並在其最後加上： &l

elasticsearch6.x ik中文分詞整合

Elasticsearch是一個基於Apache Lucene(TM)的開源、實時分散式搜尋和分析引擎。它用於全文搜尋、結構化搜尋、分析以及將這三者混合使用。IK Analysis外掛將Lucene IK分析器整合到elasticsearch中，支援自定義詞典。 1. 選擇

IK和pinyin分詞器

一、拼音分詞的應用拼音分詞在日常生活中其實很常見，也許你每天都在用。開啟淘寶看一看吧,輸入拼音”zhonghua”,下面會有包含”zhonghua”對應的中文”中華”的商品的提示：拼音分詞是根據輸入的拼音提示對應的中文，通過拼音分詞提升搜尋體驗、加快搜索速度。

Elasticsearch5.5.1安裝IK中文分詞器

安裝步驟：一、參照官方文件安裝IK分詞器 1、直接到https://github.com/medcl/elasticsearch-analysis-ik/releases下載對應版本zip包解壓到elasticsearch的plugin目錄下 unzip elasti

elasticsearch5 ik+拼音分詞_java程式碼

QueryBuilder query=QueryBuilders.termQuery("name.pinyin", "搜尋的詞"); HighlightBuilder hiBuilder=new HighlightBuilder(); hiBuilder.preTag

es5.4安裝head、ik中文分詞插件

es安裝maven打包工具wget http://mirror.bit.edu.cn/apache/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gz tar -xf apache-maven-3.3.9-bin.tar.gz mv apach

11款開放中文分詞引擎大比拼

是否人的 tro 例子 googl 進行北大 art play 在逐漸步入DT（Data Technology）時代的今天，自然語義分析技術越發不可或缺。對於我們每天打交道的中文來說，並沒有類似英文空格的邊界標誌。而理解句子所包括的詞語，則是理解漢語語句的第一步。

Solr6.6.0添加IK中文分詞器

其中開發其余下載鏈接 classes 項目實現 .com 擴展 IK分詞器就是一款中國人開發的，擴展性很好的中文分詞器，它支持擴展詞庫，可以自己定制分詞項，這對中文分詞無疑是友好的。 jar包下載鏈接：http://pan.baidu.com/s/1o85I15o

elastic ik中文分詞測試

RoCE img ken tar png art mark fse 分享 1、發送_analyze請求2、返回結果：{"tokens": [{"token": "珠江口","start_offset&qu

Solr6.2搭建和配置ik中文分詞器

首先需要的準備好ik分詞器,因為Solr6.0版本比較高,所以ik分詞器的版本最好高一點,我是用ikanalyzer-solr5來搭建的. 第一步解壓ikanalyzer-solr5. 第二步複製ik-analyzer-solr5-5.x.jar並將其放在solr-6.2.1\se

中文分詞Java簡單實現

中文分詞Java簡單實現存備忘 package helloJavaWorld; //用棧存取詞語 class StackTest { private Object[] stack; //元素個數; private int size; //預設長度

IK中文分詞器安裝

分詞器路徑 https://github.com/medcl/elasticsearch-analysis-ik/releases 下載與elasticsearch一樣的版本 wget https://github.com/medcl/elasticsearch-analysis-ik/

solr與ik中文分詞的配置，以及新增Core（Add Core）的方式

在下用的版本是solr7.2.1與ikanalyzer-solr6.5：說明：在solr版本5之後就可以不用依賴tomcat進行啟動，可以自行啟動，啟動方式下面會進行講解。需要注意的是：對於solr6以下的版本可用jdk7，從solr6開始只能使用jdk8了。 so

學習筆記:從0開始學習大資料-29. solr增加ik中文分詞器並匯入doc，pdf文件全文檢索

環境 centos7,solr7.5.0 1. 新建core 從 solr-7.5.0/example/files/conf 作為配置檔案模板，建立core，名為mycore 2.下載分詞器從https://search.maven.org/search?q=g:com

solr 6.2.0系列教程（二）IK中文分詞器配置及新增擴充套件詞、停止詞、同義詞

前言 2、solr的不同版本，對應不同版本的IK分詞器。由於IK 2012年停止更新了。所以以前的版本不適合新版的solr。有幸在網上扒到了IK原始碼自己稍微做了調整，用來相容solr6.2.0版本。IK原始碼下載地址步驟 1、解壓下載的src.rar壓縮包，這是我建

淘淘商城23_solr在Linux上的操作02_安裝IK中文分詞器

一、思想 1、在solr中預設是沒有中文分析器，需要手工配置，配置一個FieldType，在FieldType中指定中文分析器。 2、Solr中的欄位必須是先定義後使用。二、步驟 1. 配置IKAnalyzer的jar包將上面圖片中的IK Analyze

solr5.5版本中ik中文分詞配置

這裡我使用的是solr5.5進行匹配的分詞器首先需要先下載IKAnalyzer 分詞器下載地址: IK分詞器jar 將下載好的jar 放到 webapps\solr\WEB-INF\lib

elasticsearch5.11整合ik+pinyin分詞java api

相關推薦