淺談es的原理、機制，IK分詞原理

阿新 • • 發佈：2019-01-14

1、分散式的架構es都有哪些機制？

1、主備
primary shard 的副本 replica shard
primary shard不能和自己的replica shard放在同一個節點上、

2、容錯
使用選舉機制
master node宕機，選舉master node，提升replica 為primary、
宕機的node重啟資料恢復

2、IK分詞原理

IK 分詞器，
1、詞典樹Tire Tree的構建，即將現在的詞典載入到一個記憶體結構中去
2、詞的匹配查詢，就是切詞
3、歧義判斷，即對不同切分方式的判定，哪種應是更合理的

2.1、詞典樹的構建

class DictSegment implements Comparable<DictSegment>{  
  
    //公用字典表，儲存漢字  
    private static final Map<Character , Character> charMap = new HashMap<Character , Character>(16 , 0.95f);  
    //陣列大小上限  
    private static final int ARRAY_LENGTH_LIMIT = 3;  
  
      
    //Map儲存結構   

    private Map<Character , DictSegment> childrenMap;  
    //陣列方式儲存結構  
    private DictSegment[] childrenArray;  
  
  
    //當前節點上儲存的字元  
    private Character nodeChar;  
    //當前節點儲存的Segment數目  
    //storeSize <=ARRAY_LENGTH_LIMIT ，使用陣列儲存， storeSize >ARRAY_LENGTH_LIMIT ,則使用Map儲存  
    private 
 int storeSize = 0;  
    //當前DictSegment狀態 ,預設 0 , 1表示從根節點到當前節點的路徑表示一個詞  
    private int nodeState = 0;    
    ……

ARRAY_LENGTH_LIMIT 的閥值來判斷，資料較小存在陣列，資料較大，存在HashMap 中；
如資料較小，存陣列，採用二分查詢的方式、
若資料較大，存在HashMap中時候，使用遞迴呼叫寫入字典樹，直接查詢的方式；

private synchronized void fillSegment(char[] charArray , int begin , int length , int enabled){  
 
     ……       
    //搜尋當前節點的儲存，查詢對應keyChar的keyChar，如果沒有則建立  
    DictSegment ds = lookforSegment(keyChar , enabled);  
    if(ds != null){  
        //處理keyChar對應的segment  
        if(length > 1){  
            //詞元還沒有完全加入詞典樹  
            ds.fillSegment(charArray, begin + 1, length - 1 , enabled);  
        }else if (length == 1){  
            //已經是詞元的最後一個char,設定當前節點狀態為enabled，  
            //enabled=1表明一個完整的詞，enabled=0表示從詞典中遮蔽當前詞  
            ds.nodeState = enabled;  
        }  
    }   
}

2.2、切詞

切詞的2種方式
1、非smart模式
IK分詞輸出所有分詞、
2、smart模式
IK分詞器則會根據內在方法輸出一個認為最合理的分詞結果，這就涉及到了歧義判斷、
、
smart模式張三 | 說的 | 確實 | 在理
非smart模式張三 | 三 | 說的 | 的確 | 的 | 確實 | 實在 | 在理

IK中預設用到三個子分詞器，
LetterSegmenter（字母分詞器），CN_QuantifierSegment(量詞分詞器)，CJKSegmenter(中日韓分詞器)。分詞是會先後經過這三個分詞器，我們這裡重點根據CJKSegment分析。其核心是一個analyzer方法。

public void analyze(AnalyzeContext context) {  
    …….  
          
        //優先處理tmpHits中的hit  
        if(!this.tmpHits.isEmpty()){  
            //處理詞段佇列  
            Hit[] tmpArray = this.tmpHits.toArray(new Hit[this.tmpHits.size()]);  
            for(Hit hit : tmpArray){  
                hit = Dictionary.getSingleton().matchWithHit(context.getSegmentBuff(), context.getCursor() , hit);  
                if(hit.isMatch()){  
                    //輸出當前的詞  
                    Lexeme newLexeme = new Lexeme(context.getBufferOffset() , hit.getBegin() , context.getCursor() - hit.getBegin() + 1 , Lexeme.TYPE_CNWORD);  
                    context.addLexeme(newLexeme);  
                      
                    if(!hit.isPrefix()){//不是詞字首，hit不需要繼續匹配，移除  
                        this.tmpHits.remove(hit);  
                    }  
                      
                }else if(hit.isUnmatch()){  
                    //hit不是詞，移除  
                    this.tmpHits.remove(hit);  
                }                     
            }  
        }             
          
        //*********************************  
        //再對當前指標位置的字元進行單字匹配  
        Hit singleCharHit = Dictionary.getSingleton().matchInMainDict(context.getSegmentBuff(), context.getCursor(), 1);  
        if(singleCharHit.isMatch()){//首字成詞  
            //輸出當前的詞  
            Lexeme newLexeme = new Lexeme(context.getBufferOffset() , context.getCursor() , 1 , Lexeme.TYPE_CNWORD);  
            context.addLexeme(newLexeme);  
 
            //同時也是詞字首  
            if(singleCharHit.isPrefix()){  
                //字首匹配則放入hit列表  
                this.tmpHits.add(singleCharHit);  
            }  
        }else if(singleCharHit.isPrefix()){//首字為詞字首  
            //字首匹配則放入hit列表  
            this.tmpHits.add(singleCharHit);  
        }  
   ……  
}

2.3、歧義判斷

IKArbitrator(歧義分析裁決器)是處理歧義的主要類。

淺談es的原理、機制，IK分詞原理

1、分散式的架構es都有哪些機制？ 1、主備 primary shard 的副本 replica shard primary shard不能和自己的replica shard放在同一個節點上、 2、容錯使用選舉機制 master node宕機，選舉mast

elasticsearch5.x叢集搭建，ik分詞器，head外掛

目標： 1，安裝elasticsearch叢集（一個伺服器，兩個節點） 2，安裝head外掛 3，使用ik分詞器現狀： 1，系統centos6.9+jdk1.8 2，提前修改好ulimit，調整

ES中的分析器和IK分詞器外掛

一些概念 Token（詞元）全文搜尋引擎會用某種演算法對要建索引的文件進行分析，從文件中提取出若干Tokenizer(分詞器) Tokenizer(分詞器) 這些演算法叫做Tokenizer(分詞器) Token F

elasticsearch　6.x 叢集佈署與head、Kibana和IK分詞外掛的配置

　　首先準備三臺linux伺服器，在三臺伺服器上安裝ElasticSearch.6.3，及其head、Kibana和IK分詞外掛，外掛只需安裝在其中一臺即可。elasticsearch 6.x以後變化有點的，head和Kibana，不能放在elasticsear

Linux安裝elasticsearch6.0.1及head外掛，ik分詞器

一、安裝elasticserch 1.elasticsearch的安裝直接下載解壓，elasticsearch-6.0.1，該版本及以上需要在jdk1.8以上執行你可以選擇線上安裝，我是下載解壓後上傳進行的安裝 2.進入elasticsearch-6.0.1/co

Elasticsearch教程（二），IK分詞器安裝

怕麻煩就看上面的（極速版），是我已經打包好的 IK分詞器需要的東西。首先說說分詞器，分詞，英語分詞很好分，就是按固定的英文的空格，或者“-”。中文分詞就稍微有點複雜了，而 Elasticsearch 預設是帶分詞器了，我們來測試一下。http://123.88.88.8

IK分詞原理深度解析

導讀：IK分詞是一款國人開發的相對簡單的中文分詞器，但自2012年之後開發者就不在維護了，但在工程應用中IK算是比較流行的一款！ 1、IK分詞器也是基於正向匹配的分詞演算法。 2、IK分詞器，基本可分為兩種模式，一種為smart模式，一種為非smart模式 3、非s

淺談express 中介軟體機制及實現原理

中介軟體機制可以讓我們在一個給定的流程中新增一個處理步驟，從而對這個流程的輸入或者輸出產生影響，或者產生一些中作用、狀態，或者攔截這個流程。中介軟體機制和tomcat的過濾器類似，這兩者都屬於責任鏈模式的具體實現。 express 中介軟體使用案例 1 2

淺談Java SE、Java EE、Java ME三者的區別

網絡 orien service 離線 web 手機規範嵌入 ice 1. Java SE（Java Platform，Standard Edition）。Java SE 以前稱為 J2SE。它允許開發和部署在桌面、服務器、嵌入式環境和實時環境中使用的 Java 應用程

淺談WebService SOAP、Restful、HTTP（post/get）請求

定義傳遞 restfu 訪問用戶符號方式 http協議簡單摘要: Webservice 兩種實現方式跟HTTP（post/get）直接請求各個優缺點，以及如何判斷選擇使用哪一種。 HTTP-GET 和 HTTP-POST HTTP-GET和HTTP-POS

淺談BloomFilter【上】基本概念和實現原理

pty 是否的人它的構建網絡爬蟲 ace head filters ? ??在日常生活中。包括在設計計算機軟件時，我們常常要推斷一個元素是否在一個集合中。

淺談項目管理機制

世界包括原則定性 smi pre 利益相關者大型審批一.項目及項目管理 1.什麽是項目要討論項目管理，就必須首先理解項目這個概念。項目是為完成某一獨特的產品或服務所做的一次性努力。項目一般要涉及一些人員，由這些人員完成一些相互關聯的活動，項目發起人通常希望能夠

學習之路（二）淺談：bash及其特性，命令歷史以及用戶管理及權限，shell的類型

bash 管理權限過了一周了，進度似乎有點懈怠，不過過了周末重整旗鼓啦shell（外殼）GUI：Gnome，KDE，xfceCLI：sh，csh，ksh，bashbash（父進程）-----bash（子進程）他們相互獨立彼此不知命令歷史：historybash支持的引號：‘ ’命令替換（鍵盤~的按鍵

學習之路（三）淺談：輸出重定向，grep及正則表達式，egrep

grep 地址總線：內存尋址數據總線：傳輸數據控制總線：控制指令 > :輸出重定向（會覆蓋原有內容） >>: 追加重定向（不會覆蓋，追加輸出） 2>: 重定向錯誤輸出 2

淺談ajax同步、異步的問題

con 處理服務器 async tro 分開按順序 spa 順序最近實習的時候看到過firefox的同步、異步的警告，想著概念不是那麽清楚，於是整理了一下ajax同步異步方面的知識。我是小白，做個筆記。首先就是概念問題，ajax根據async進行區分同步和異步過

淺談空指標和棧，堆記憶體

/** * 堆記憶體(heap):儲存每一個物件的屬性，使用一個物件時，一定需要一個對應堆記憶體的指向，而堆記憶體空間的開闢需要用關鍵字 *new，每一個物件在剛剛例項化後，裡面的屬性都是其對應資料型別的預設值，一塊堆記憶體可以被多個棧

4關於Cookie的原理、作用，區別以及使用

1、cookie的作用：我們在瀏覽器中，經常涉及到資料的交換，比如你登入郵箱，登入一個頁面。我們經常會在此時設定30天內記住我，或者自動登入選項。那麼它們是怎麼記錄資訊的呢，答案就是今天的主角cookie了，Cookie是由HTTP伺服器設定的，儲存在瀏覽器中，但HTTP協議是一種無狀態協議，

《JAVA》淺談——順序查詢、折半查詢

順序查詢基本原理：依次遍歷 public class Solution { public static int SequenceSearch(int[] sz, int key) { for (int i = 0; i < sz.

Cookie的原理、作用，區別以及使用

淺談Event Flow、Process、Method及其Applications

事件流動（Event Flow）：　　DOM(文件物件模型)結構是一個樹型結構，當一個HTML元素產生一個事件時，該事件會在元素節點與根結點之間的路徑傳播，路徑所經過的結點都會收到該事件，這個傳播過程可稱為DOM事件流。DOM事件流最獨特的性質是，文字節點也觸發事件（在IE中不會），當滑鼠單擊“單擊此文字

淺談es的原理、機制 ，IK分詞原理

相關推薦

淺談es的原理、機制，IK分詞原理