es學習(三)：分詞器介紹以及中文分詞器ik的安裝與使用

什麼是分詞

把文字轉換為一個個的單詞，分詞稱之為analysis。es預設只對英文語句做分詞，中文不支援，每個中文字都會被拆分為獨立的個體。

示例

POST http://192.168.247.8:9200/_analyze

{
    "analyzer":"standard",
    "text":"good good study"
}

# 返回

{
    "tokens": [
        {
            "token": "good",
            "start_offset": 0,
            "end_offset": 4,
            "type": "<ALPHANUM>",
            "position": 0
        },
        {
            "token": "good",
            "start_offset": 5,
            "end_offset": 9,
            "type": "<ALPHANUM>",
            "position": 1
        },
        {
            "token": "study",
            "start_offset": 10,
            "end_offset": 15,
            "type": "<ALPHANUM>",
            "position": 2
        }
    ]
}

如果想在某個索引下進行分詞

POST /my_doc/_analyze
{
    "analyzer": "standard",
    "field": "name",
    "text": "text文字"
}

es內建分詞器

standard：預設分詞，單詞會被拆分，大小會轉換為小寫。
simple：按照非字母分詞。大寫轉為小寫。
whitespace：按照空格分詞。忽略大小寫。
stop：去除無意義單詞，比如the/a/an/is…
keyword：不做分詞。把整個文字作為一個單獨的關鍵詞

建立ik中文分詞器

下載

Github：https://github.com/medcl/elasticsearch-analysis-ik

這裡需要選擇和你的es版本一致的ik。我的是7.5.1

解壓

[root@localhost software]# ls
elasticsearch-7.5.1-linux-x86_64.tar.gz  elasticsearch-analysis-ik-7.5.1.zip
[root@localhost software]# unzip elasticsearch-analysis-ik-7.5.1.zip -d /usr/local/elasticsearch-7.5.1/plugins/ik

重啟es

ik_max_word 和 ik_smart 什麼區別?

ik_max_word: 會將文字做最細粒度的拆分，比如會將“中華人民共和國國歌”拆分為“中華人民共和國,中華人民,中華,華人,人民共和國,人民,人,民,共和國,共和,和,國國,國歌”，會窮盡各種可能的組合，適合 Term Query；
ik_smart: 會做最粗粒度的拆分，比如會將“中華人民共和國國歌”拆分為“中華人民共和國,國歌”，適合 Phrase 查詢。

測試

POST http://192.168.247.8:9200/_analyze

{
    "analyzer":"ik_max_word",
    "text":"上下班做公交"
}

# 返回

{
    "tokens": [
        {
            "token": "上下班",
            "start_offset": 0,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "上下",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "下班",
            "start_offset": 1,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "做",
            "start_offset": 3,
            "end_offset": 4,
            "type": "CN_CHAR",
            "position": 3
        },
        {
            "token": "公交",
            "start_offset": 4,
            "end_offset": 6,
            "type": "CN_WORD",
            "position": 4
        }
    ]
}

自定義中文詞庫

1.進入IKAnalyzer.cfg.xml 配置如下

    <!--使用者可以在這裡配置自己的擴充套件字典 -->
    <entry key="ext_dict">custom.dic</entry>

2.儲存後再同級目錄下建立custom.dic

[esuser@localhost config]$  cat custom.dic 
崔神
牛皮

3.重啟es
4.測試

POST http://192.168.247.8:9200/_analyze
{
    "analyzer":"ik_smart",
    "text":"崔神牛皮"
}

# 返回

{
    "tokens": [
        {
            "token": "崔神",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "牛皮",
            "start_offset": 2,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 1
        }
    ]
}

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    es學習(三)：分詞器介紹以及中文分詞器ik的安裝與使用
      什麼是分詞
把文字轉換為一個個的單詞，分詞稱之為analysis。es預設只對英文語句做分詞，中文不支援，每個中文字都會被拆分為獨立的個體。
示例
POST http://192.168.247.8:9200/_analyze

{
    "analyzer":"standar 

  
 

    

    
    Es學習第五課， 分詞器介紹和中文分詞器配置
       上課我們介紹了倒排索引，在裡面提到了分詞的概念，分詞器就是用來分詞的。 
 
  
  分詞器是ES中專門處理分詞的元件，英文為Analyzer，定義為：從一串文字中切分出一個一個的詞條，並對每個詞條進行標準化。它由三部分組成， 
   
   Character Filters：分詞之前進行預處 

  
 

    

    
    CUPS學習三：CUPS主要模組介紹。
      
                CUPS是以客戶機、伺服器為基礎工作的。客戶機和伺服器通常位於同一臺機器上。當列印檔案時，此機器（或應用程式）就是客戶機。伺服器就是在後臺執行的、用以列印檔案的CUPS程式。    圖1-11. 作業：  提交列印的一個檔案或一組檔案稱為“作業”。作業有從1開始計數的唯一數字 

  
 

    

    
    Keepalived介紹以及在Linux系統下的安裝與配置
      一、簡介 
Keepalived是一個免費開源的，用C編寫的類似於layer3, 4 & 7交換機制軟體，具備我們平時說的第3層、第4層和第7層交換機的功能。主要提供loadbalancing（負載均衡）和 high-availability（高可用）功能，負載均衡實現需要依賴Linux的虛 

  
 

    

    
    搜索引擎系列四：Lucene提供的分詞器、IKAnalyze中文分詞器集成
      author   oid   core   長度   maven項目   int   get   attribute   clu   一、Lucene提供的分詞器StandardAnalyzer和SmartChineseAnalyzer
1.新建一個測試Lucene提供的分詞器的maven項目LuceneAn 

  
 

    

    
    Skype For Business 2015綜合部署系列三：配置Skype後端SQL數據服務器
      sql server 2012 部署   skype for business   sfb後端數據服務器部署   sql安裝配置   windows  安裝sql 2012   本篇博文進入Skype for business 2015 綜合部署系列的第三部分：配置Skype for business 201 

  
 

    

    
    MySQL(三)：MHA實現MySQL主從架構中主服務器的高可用，zabbix完成manager重啟
      code   parallel   可以登錄   authorize   sudo   word   systemctl   命令   nag   MHA（Master High Availability）是目前在MySQL高可用方面相對成熟的一個解決方案，MHA在監控到master節點故障時，會提升其中擁有 

  
 

    

    
    《數學之美》讀書記錄【思維導圖記錄】：第四章，談談中文分詞
      post   IT   .cn   splay   top   style   title   mage   blog          《數學之美》讀書記錄【思維導圖記錄】：第四章，談談中文分詞 

  
 

    

    
    MySQL學習(三)： 初識數據表
      png   技術   rom   建立   .com   類型   ima   ID   mysq   打開數據庫：

USE db_name : 打開數據庫。
創建數據表：


查看數據表：

查看數據表結構：

數據簡單的插入與查找：

插入：INSERT [INTO] tbl_name [(col_na 

  
 

    

    
    JAVA多線程基礎學習三：volatile關鍵字
      編譯   一定的   true   AD   throws   行操作   執行效率   操作   分享圖片   Java的volatile關鍵字在JDK源碼中經常出現，但是對它的認識只是停留在共享變量上，今天來談談volatile關鍵字。
volatile，從字面上說是易變的、不穩定的，事實上，也確實如此 

  
 

    

    
    Scala系統學習(三)：Scala基礎語法
      light   The   nload   兩種   return   .com   ide   ref   hello   如果您熟悉Java語言語法和編程，那麽學習Scala將會很容易。Scala和Java之間最大的句法差異在於行結束字符的分號(;) 是可選的。
當編寫Scala程序時，它可以被定義為通過 

  
 

    

    
    flask學習(三)：flask入門(URL)
      bsp   mys   style   jinja2   mage   做的   新建   原因   容易   一. flask簡介
flask是一款非常流行的python web框架，出生於2010年，作者是Armin Ronacher，本來這個項目只是作者在愚人節的一個玩笑，後來由於非常受歡迎，進而成為 

  
 

    

    
    Redis學習三：Redis數據類型
      sco   htable   內容   ltrim   二進制   double   索引   car   字符串   一、Redis的五大數據類型
1.String（字符串）
string是redis最基本的類型，你可以理解成與Memcached一模一樣的類型，一個key對應一個value。string 

  
 

    

    
    統計學習三：2.K近鄰法代碼實現（以最近鄰法為例）
      數據集   learning   pytho   port   4.3   @property   存儲   uil   github   通過上文可知感知機模型的基本原理，以及算法的具體流程。本文實現了感知機模型算法的原始形式，通過對算法的具體實現，我們可以對算法有進一步的了解。具體代碼可以在我的githu 

  
 

    

    
    python學習筆記：第11天 閉包及迭代器
      目錄 
 
 1. 函式名的使用 
 2. 閉包 
 3. 迭代器 
 
1. 函式名的使用 
其實函式名也是一個變數，但它是一個比較特殊的變數，與小括號配合可以執行函式的變數： 
 
 函式名其實和記憶體一樣，也可以使用print檢視它的記憶體地址： 
 
In[22]: def func1():
   . 

  
 

    

    
    Linux下ElasticSearch6.4.x、ElasticSearch-Head、Kibana以及中文分詞器IK的安裝配置
       
 
 
 ElasticSearch 安裝配置 
 下載 
 # 官網下載壓縮包
[[email protected] /home]#  wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6. 

  
 

    

    
    強化學習三：Dynamic Programming
      1，Introduction 
1.1 What is Dynamic Programming?   
  Dynamic：某個問題是由序列化狀態組成，狀態step-by-step的改變，從而可以step-by-step的來解這個問題。   &nbs 

  
 

    

    
    zuul：（一）SpringCloud的閘道器介紹和zuul閘道器的使用
      1）什麼是閘道器？         API Gateway，是系統的唯一對外的入口，介於客戶端和伺服器端之間的中間層，處理非業務功能 提供路由請求、鑑權、監控、快取、限流等功能 
 
 統一接入
     智慧路由
      

  
 

    

    
    Android JNI 學習(三)：JNI 數據類型和數據結構
      pub   bsp   強制   int   mat   bool   table   sign   java vm   本文我們來討論一下JNI如何將Java類型映射到本機C類型。
一、基本數據類型
如下圖表整理了Java基本類型和native對應的關系：



Java類型
Native類型
描述


b 

  
 

    

    
    es6學習三：字串相關擴充套件
       
 
 includes() ： 
 判斷字串中是否包含指定的字串（有的話返回true，否則返回false） 引數一：匹配的字串；引數二：從第幾個開始匹配 
 console.log('hello world'.includes('world')); 
  
 console.log('hello worl

es學習(三)：分詞器介紹以及中文分詞器ik的安裝與使用

什麼是分詞

示例

es內建分詞器

建立ik中文分詞器

下載

解壓

重啟es

ik_max_word 和 ik_smart 什麼區別?

測試

自定義中文詞庫

es學習(三)：分詞器介紹以及中文分詞器ik的安裝與使用

Es學習第五課，分詞器介紹和中文分詞器配置

CUPS學習三：CUPS主要模組介紹。

Keepalived介紹以及在Linux系統下的安裝與配置

搜索引擎系列四：Lucene提供的分詞器、IKAnalyze中文分詞器集成

Skype For Business 2015綜合部署系列三：配置Skype後端SQL數據服務器

MySQL(三)：MHA實現MySQL主從架構中主服務器的高可用，zabbix完成manager重啟

《數學之美》讀書記錄【思維導圖記錄】：第四章，談談中文分詞

MySQL學習(三)：初識數據表

JAVA多線程基礎學習三：volatile關鍵字

Scala系統學習(三)：Scala基礎語法

flask學習(三)：flask入門(URL)

Redis學習三：Redis數據類型

統計學習三：2.K近鄰法代碼實現（以最近鄰法為例）

python學習筆記：第11天閉包及迭代器

Linux下ElasticSearch6.4.x、ElasticSearch-Head、Kibana以及中文分詞器IK的安裝配置

強化學習三：Dynamic Programming

zuul：（一）SpringCloud的閘道器介紹和zuul閘道器的使用

Android JNI 學習(三)：JNI 數據類型和數據結構

es6學習三：字串相關擴充套件