Es學習第五課，分詞器介紹和中文分詞器配置

阿新 • • 發佈：2018-11-12

上課我們介紹了倒排索引，在裡面提到了分詞的概念，分詞器就是用來分詞的。

分詞器是ES中專門處理分詞的元件，英文為Analyzer，定義為：從一串文字中切分出一個一個的詞條，並對每個詞條進行標準化。它由三部分組成，

Character Filters：分詞之前進行預處理，比如去除html標籤
Tokenizer：將原始文字按照一定規則切分為單詞
Token Filters：針對Tokenizer處理的單詞進行再加工，比如轉小寫、刪除或增新等處理，也就是標準化

預定義的分詞器

ES自帶的分詞器有如下：

Standard Analyzer
- 預設分詞器
- 按詞切分，支援多語言
- 小寫處理
- 支援中文采用的方法為單字切分
Simple Analyzer
- 按照非字母切分
- 小寫處理
Whitespace Analyzer
- 空白字元作為分隔符
Stop Analyzer
- 相比Simple Analyzer多了去除請用詞處理
- 停用詞指語氣助詞等修飾性詞語，如the, an, 的，這等
Keyword Analyzer
- 不分詞，直接將輸入作為一個單詞輸出
Pattern Analyzer
- 通過正則表示式自定義分隔符
- 預設是\W+，即非字詞的符號作為分隔符

ES預設對中文分詞是一個一個字來解析，這種情況會導致解析過於複雜，效率低下，所以目前有幾個開源的中文分詞器，來專門解決中文分詞，其中常用的叫IK

中文分詞

難點
- 中文分詞指的是將一個漢字序列切分為一個一個的單獨的詞。在英文中，單詞之間以空格作為自然分界詞，漢語中詞沒有一個形式上的分界符
- 上下文不同，分詞結果迥異，比如交叉歧義問題
常見分詞系統
- IK：實現中英文單詞的切分，可自定義詞庫，支援熱更新分詞詞典
- jieba：支援分詞和詞性標註，支援繁體分詞，自定義詞典，並行分詞等
- Hanlp：由一系列模型與演算法組成的Java工具包，目標是普及自然語言處理在生產環境中的應用
- THUAC：中文分詞和詞性標註

安裝配置ik中文分詞外掛

# 在Elasticsearch安裝目錄下執行命令，然後重啟es
bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.0/elasticsearch-analysis-ik-6.3.0.zip

# 如果由於網路慢，安裝失敗，可以先下載好zip壓縮包，將下面命令改為實際的路徑，執行，然後重啟es
bin/elasticsearch-plugin install file:///path/to/elasticsearch-analysis-ik-6.3.0.zip

ik兩種分詞模式ik_max_word 和 ik_smart 什麼區別?

ik_max_word: 會將文字做最細粒度的拆分，比如會將“中華人民共和國國歌”拆分為“中華人民共和國,中華人民,中華,華人,人民共和國,人民,人,民,共和國,共和,和,國國,國歌”，會窮盡各種可能的組合；
ik_smart: 會做最粗粒度的拆分，比如會將“中華人民共和國國歌”拆分為“中華人民共和國,國歌”。

你也可以直接上IK的github的教程來配置，https://github.com/medcl/elasticsearch-analysis-ik。

安裝完後，修改elasticsearch.yml檔案，把ik分詞器設定為es的預設分詞器

index.analysis.analyzer.default.type:ik

重啟es，注意es中的每個節點都要進行上述配置。

Es學習第五課，分詞器介紹和中文分詞器配置

上課我們介紹了倒排索引，在裡面提到了分詞的概念，分詞器就是用來分詞的。分詞器是ES中專門處理分詞的元件，英文為Analyzer，定義為：從一串文字中切分出一個一個的詞條，並對每個詞條進行標準化。它由三部分組成， Character Filters：分詞之前進行預處

Es學習第六課， ES基本搜索_search

目的 time pretty 兩種 dice 插入點對點相關安裝前面幾課ES的基本概念、安裝和分詞都講過了，下面我們就來實戰一下ES的核心功能-搜索，這節課我們主要講的是基本搜索 _search(註意：ES的關鍵字都要加前綴_,所以我們在定義索引、類型名稱時不要

Es學習第六課， ES基本搜尋_search

前面幾課ES的基本概念、安裝和分詞都講過了，下面我們就來實戰一下ES的核心功能-搜尋，這節課我們主要講的是基本搜尋 _search(注意：ES的關鍵字都要加字首_,所以我們在定義索引、型別名稱時不要帶_)。我們先通過kibana插入幾條三個文件 PUT /custom

Es學習第七課， term、terms、match等基本查詢語法

term、terms查詢 term query會去倒排索引中尋找確切的term，它並不知道分詞器的存在，這種查詢適合keyword、numeric、date等明確值的 term：查詢某個欄位裡含有某個關鍵詞的文件 GET /customer/doc/_search/ {

Es學習第九課，聚合查詢和複合查詢

ES除了實現前幾課的基本查詢，也可以實現類似關係型資料庫的聚合查詢，如平均值sum、最小值min、最大值max等等我們就用上一課的資料作為參考來舉例聚合查詢 sum聚合 sum是一個求累加值的聚合，其作用與關係型資料庫中相同。 GET /lib4/items/_search { "si

Es學習第十課，ElasticSearch集群搭建

子網日誌工具 resp 配置約束 location 開始根據前面幾課我們已經把ES的基本概念和查詢了解了，大家知道ES的核心優勢就是天生支持分布式，所以，這課我們專門講講怎麽搭建實現ES的集群部署。 ES分布式原理 1、es分布式概念主分片（Prima

Asp.net MVC4高級編程學習筆記-模型學習第五課MVC表單和HTML輔助方法20171101

流量取值工作 sin 輔助一個點大量元數據 view MVC表單和HTML輔助方法一、表單的使用。表單中的action與method特性。Action表示表單要提交往那裏，因此這裏就有一個URL。這個URL可以是相對或絕對地址。表單默認的method屬性值是g

電腦小白學習第五課---瀏覽器及代理服務器設置

blog color 瀏覽器 opera 學習電腦都是 mage sha 常用瀏覽器 IE 、chrome、firefox、maxthon、360、sougou、baidu、opera、UC等等。代理服務器是為了保障上網的安全，同時提高局域網內訪問互聯網的速度。一般都是

Python第五課，類對象、排序、單例、繼承

減少代碼冗余 and sta 類繼承 single 擁有 person 繼承 port 對象使用：類名（參數）可以使用self調用 def _new_(cls) 用來創建對象，但必須有返回值，就是實例化 def _init_(self,參數) 初始化方法，用來給參數定義初

VBA學習第五課

Sub shishi() Dim rng As Range For Each rng In Range("b2:b20") If rng.Offset(0, -1) = "男" Then rng = "先生" Else: rng = "女士" End If Next

Linux學習第五課

vim編輯器/vi編輯器的提升版 1、使用簡單 2、使用範圍廣 ctrl + shift + + 增大字型 ctrl + - 縮小字型三種模式： 1、編輯模式：對檔案進行內容編輯

CoreJava學習第五課 --- 進入第二階段：面向物件程式設計思想

面向物件程式設計思想 1.面向過程從計算機執行角度出發，程式碼執行過程核心為從程式的執行過程出發,構建程式設計思路,例：哥德巴赫猜想 // 面向過程 1 使用者輸入一個數n 2 驗證數字的正確性 2.1 正確就繼續向下

Python系統學習第五課

#四類引數 ·普通引數 ·預設引數 ·關鍵字引數 ·收集引數 #普通引數 def stu(name, age, addr): print("i am student!") print("我叫{0},今年{1},我住{2}".format(name, age, addr))

v2 吳恩達老師深度學習第五課第二週程式設計作業2

吳恩達老師深度學習第五課第二週程式設計作業2，包含答案！ Emojify! Welcome to the second assignment of Week 2. You are going to use word vector representation

opencv視訊學習第五課（視訊播放控制）筆記整理

這次是學習怎麼建立一個控制檯的滾動條，並且使用它控制視訊的播放。為了測試一些東西，改編了視訊教程中的程式碼。#include "stdafx.h" #include "highgui.h" #include "cv.h" CvCapture* g_capture = NUL

深度學習第五課-訓練注意事項與框架使用

說明：本文是七月演算法5月深度學習班第五次課聽課筆記。黃色標註的部分為自己不太確定的部分。訓練 mini-batch SGD 神經網路使用mini-batch SGD訓練得到最優權重。訓練過程如下：（以下參考了andrew ng的機器學習課程）例如訓練樣本量m=

es學習(三)：分詞器介紹以及中文分詞器ik的安裝與使用

什麼是分詞把文字轉換為一個個的單詞，分詞稱之為analysis。es預設只對英文語句做分詞，中文不支援，每個中文字都會被拆分為獨立的個體。示例 POST http://192.168.247.8:9200/_analyze { "analyzer":"standar

馬士兵-多執行緒學習第03課執行緒的合併,禮讓和優先順序

1.執行緒的合併API join表示執行緒的合併,簡單理解為呼叫某個方法，變成順序執行程式碼:package org.yla.msb.day03; class MyThr

跟我一起學opencv 第五課之調整圖像亮度和對比度

key 代碼 urn name -- 修改圖像 load auto 一.調整圖像亮度與對比度 1.圖像變換 ---像素變換-點操作 ---鄰域操作-區域操作調整圖像亮度和對比度屬於像素變換-點操作公式為：g(i,j) = αf(i,j) + &b

學習筆記（一） Go語言的介紹和編譯器安裝及環境配置

Subject: Re: prog lang discussion From: Rob 'Commander' Pike Date: Tue, Sep 25, 2007 at 3:12 PM To: Robert Griesemer, Ken Thompson i had a co

Es學習第五課， 分詞器介紹和中文分詞器配置

預定義的分詞器

中文分詞

安裝配置ik中文分詞外掛

相關推薦

Es學習第五課，分詞器介紹和中文分詞器配置