elasticsearch面試總結

阿新 • • 發佈：2018-12-17

Elasticsearch是如何實現Master選舉的？

Elasticsearch的選主是ZenDiscovery模組負責的，主要包含Ping（節點之間通過這個RPC來發現彼此）和Unicast（單播模組包含一個主機列表以控制哪些節點需要ping通）這兩部分；
對所有可以成為master的節點（node.master: true）根據nodeId字典排序，每次選舉每個節點都把自己所知道節點排一次序，然後選出第一個（第0位）節點，暫且認為它是master節點。
如果對某個節點的投票數達到一定的值（可以成為master節點數n/2+1）並且該節點自己也選舉自己，那這個節點就是master。否則重新選舉一直到滿足上述條件。

補充：master節點的職責主要包括叢集、節點和索引的管理，不負責文件級別的管理；data節點可以關閉http功能。

Elasticsearch中的節點（比如共20個），其中的10個選了一個master，另外10個選了另一個master，怎麼辦？

當叢集master候選數量不小於3個時，可以通過設定最少投票通過數量（discovery.zen.minimum_master_nodes）超過所有候選節點一半以上來解決腦裂問題；
當候選數量為兩個時，只能修改為唯一的一個master候選，其他作為data節點，避免腦裂問題。

客戶端在和叢集連線時，如何選擇特定的節點執行請求的？

TransportClient利用transport模組遠端連線一個elasticsearch叢集。它並不加入到叢集中，只是簡單的獲得一個或者多個初始化的transport地址，並以輪詢的方式與這些地址進行通訊。

詳細描述一下Elasticsearch索引文件的過程。

協調節點預設使用文件ID參與計算（也支援通過routing），以便為路由提供合適的分片。

shard = hash(document_id) % (num_of_primary_shards)

當分片所在的節點接收到來自協調節點的請求後，會將請求寫入到Memory Buffer，然後定時（預設是每隔1秒）寫入到Filesystem Cache，這個從Momery Buffer到Filesystem Cache的過程就叫做refresh；

當然在某些情況下，存在Momery Buffer和Filesystem Cache的資料可能會丟失，ES是通過translog的機制來保證資料的可靠性的。其實現機制是接收到請求後，同時也會寫入到translog中，當Filesystem cache中的資料寫入到磁碟中時，才會清除掉，這個過程叫做flush；
在flush過程中，記憶體中的緩衝將被清除，內容被寫入一個新段，段的fsync將建立一個新的提交點，並將內容重新整理到磁碟，舊的translog將被刪除並開始一個新的translog。
flush觸發的時機是定時觸發（預設30分鐘）或者translog變得太大（預設為512M）時；

補充：關於Lucene的Segement：

Lucene索引是由多個段組成，段本身是一個功能齊全的倒排索引。
段是不可變的，允許Lucene將新的文件增量地新增到索引中，而不用從頭重建索引。
對於每一個搜尋請求而言，索引中的所有段都會被搜尋，並且每個段會消耗CPU的時鐘周、檔案控制代碼和記憶體。這意味著段的數量越多，搜尋效能會越低。
為了解決這個問題，Elasticsearch會合並小段到一個較大的段，提交新的合併段到磁碟，並刪除那些舊的小段。

詳細描述一下Elasticsearch更新和刪除文件的過程。

刪除和更新也都是寫操作，但是Elasticsearch中的文件是不可變的，因此不能被刪除或者改動以展示其變更；
磁碟上的每個段都有一個相應的.del檔案。當刪除請求傳送後，文件並沒有真的被刪除，而是在.del檔案中被標記為刪除。該文件依然能匹配查詢，但是會在結果中被過濾掉。當段合併時，在.del檔案中被標記為刪除的文件將不會被寫入新段。
在新的文件被建立時，Elasticsearch會為該文件指定一個版本號，當執行更新時，舊版本的文件在.del檔案中被標記為刪除，新版本的文件被索引到一個新段。舊版本的文件依然能匹配查詢，但是會在結果中被過濾掉。

詳細描述一下Elasticsearch搜尋的過程。

搜尋被執行成一個兩階段過程，我們稱之為 Query Then Fetch；
在初始查詢階段時，查詢會廣播到索引中每一個分片拷貝（主分片或者副本分片）。每個分片在本地執行搜尋並構建一個匹配文件的大小為 from + size 的優先佇列。PS：在搜尋的時候是會查詢Filesystem Cache的，但是有部分資料還在Memory Buffer，所以搜尋是近實時的。
每個分片返回各自優先佇列中 所有文件的 ID 和排序值 給協調節點，它合併這些值到自己的優先佇列中來產生一個全域性排序後的結果列表。
接下來就是 取回階段，協調節點辨別出哪些文件需要被取回並向相關的分片提交多個 GET 請求。每個分片載入並豐富文件，如果有需要的話，接著返回文件給協調節點。一旦所有的文件都被取回了，協調節點返回結果給客戶端。
補充：Query Then Fetch的搜尋型別在文件相關性打分的時候參考的是本分片的資料，這樣在文件數量較少的時候可能不夠準確，DFS Query Then Fetch增加了一個預查詢的處理，詢問Term和Document frequency，這個評分更準確，但是效能會變差。

在Elasticsearch中，是怎麼根據一個詞找到對應的倒排索引的？

SEE：

Elasticsearch在部署時，對Linux的設定有哪些優化方法？

64 GB 記憶體的機器是非常理想的，但是32 GB 和16 GB 機器也是很常見的。少於8 GB 會適得其反。
如果你要在更快的 CPUs 和更多的核心之間選擇，選擇更多的核心更好。多個核心提供的額外併發遠勝過稍微快一點點的時鐘頻率。
如果你負擔得起 SSD，它將遠遠超出任何旋轉介質。基於 SSD 的節點，查詢和索引效能都有提升。如果你負擔得起，SSD 是一個好的選擇。
即使資料中心們近在咫尺，也要避免叢集跨越多個數據中心。絕對要避免叢集跨越大的地理距離。
請確保執行你應用程式的 JVM 和伺服器的 JVM 是完全一樣的。在 Elasticsearch 的幾個地方，使用 Java 的本地序列化。
通過設定gateway.recover_after_nodes、gateway.expected_nodes、gateway.recover_after_time可以在叢集重啟的時候避免過多的分片交換，這可能會讓資料恢復從數個小時縮短為幾秒鐘。
Elasticsearch 預設被配置為使用單播發現，以防止節點無意中加入叢集。只有在同一臺機器上執行的節點才會自動組成叢集。最好使用單播代替組播。
不要隨意修改垃圾回收器（CMS）和各個執行緒池的大小。
把你的記憶體的（少於）一半給 Lucene（但不要超過 32 GB！），通過ES_HEAP_SIZE 環境變數設定。
記憶體交換到磁碟對伺服器效能來說是致命的。如果記憶體交換到磁碟上，一個 100 微秒的操作可能變成 10 毫秒。再想想那麼多 10 微秒的操作時延累加起來。不難看出 swapping 對於效能是多麼可怕。
Lucene 使用了大量的檔案。同時，Elasticsearch 在節點和 HTTP 客戶端之間進行通訊也使用了大量的套接字。所有這一切都需要足夠的檔案描述符。你應該增加你的檔案描述符，設定一個很大的值，如 64,000。

補充：索引階段效能提升方法

使用批量請求並調整其大小：每次批量資料 5–15 MB 大是個不錯的起始點。
儲存：使用 SSD
段和合並：Elasticsearch 預設值是 20 MB/s，對機械磁碟應該是個不錯的設定。如果你用的是 SSD，可以考慮提高到 100–200 MB/s。如果你在做批量匯入，完全不在意搜尋，你可以徹底關掉合併限流。另外還可以增加 index.translog.flush_threshold_size 設定，從預設的 512 MB 到更大一些的值，比如 1 GB，這可以在一次清空觸發的時候在事務日誌裡積累出更大的段。
如果你的搜尋結果不需要近實時的準確度，考慮把每個索引的index.refresh_interval 改到30s。
如果你在做大批量匯入，考慮通過設定index.number_of_replicas: 0 關閉副本。

對於GC方面，在使用Elasticsearch時要注意什麼？

SEE：https://elasticsearch.cn/article/32
倒排詞典的索引需要常駐記憶體，無法GC，需要監控data node上segment memory增長趨勢。
各類快取，field cache, filter cache, indexing cache, bulk queue等等，要設定合理的大小，並且要應該根據最壞的情況來看heap是否夠用，也就是各類快取全部佔滿的時候，還有heap空間可以分配給其他任務嗎？避免採用clear cache等“自欺欺人”的方式來釋放記憶體。
避免返回大量結果集的搜尋與聚合。確實需要大量拉取資料的場景，可以採用scan & scroll api來實現。
cluster stats駐留記憶體並無法水平擴充套件，超大規模叢集可以考慮分拆成多個叢集通過tribe node連線。
想知道heap夠不夠，必須結合實際應用場景，並對叢集的heap使用情況做持續的監控。

Elasticsearch對於大資料量（上億量級）的聚合如何實現？

Elasticsearch 提供的首個近似聚合是cardinality 度量。它提供一個欄位的基數，即該欄位的distinct或者unique值的數目。它是基於HLL演算法的。HLL 會先對我們的輸入作雜湊運算，然後根據雜湊運算的結果中的 bits 做概率估算從而得到基數。其特點是：可配置的精度，用來控制記憶體的使用（更精確＝更多記憶體）；小的資料集精度是非常高的；我們可以通過配置引數，來設定去重需要的固定記憶體使用量。無論數千還是數十億的唯一值，記憶體使用量只與你配置的精確度相關。

在併發情況下，Elasticsearch如果保證讀寫一致？

可以通過版本號使用樂觀併發控制，以確保新版本不會被舊版本覆蓋，由應用層來處理具體的衝突；
另外對於寫操作，一致性級別支援quorum/one/all，預設為quorum，即只有當大多數分片可用時才允許寫操作。但即使大多數可用，也可能存在因為網路等原因導致寫入副本失敗，這樣該副本被認為故障，分片將會在一個不同的節點上重建。
對於讀操作，可以設定replication為sync(預設)，這使得操作在主分片和副本分片都完成後才會返回；如果設定replication為async時，也可以通過設定搜尋請求引數_preference為primary來查詢主分片，確保文件是最新版本。

如何監控Elasticsearch叢集狀態？

Marvel 讓你可以很簡單的通過 Kibana 監控 Elasticsearch。你可以實時檢視你的叢集健康狀態和效能，也可以分析過去的叢集、索引和節點指標。

介紹下你們電商搜尋的整體技術架構。

介紹一下你們的個性化搜尋方案？

SEE 基於word2vec和Elasticsearch實現個性化搜尋

是否瞭解字典樹？

常用字典資料結構如下所示：

Trie的核心思想是空間換時間，利用字串的公共字首來降低查詢時間的開銷以達到提高效率的目的。它有3個基本性質：

根節點不包含字元，除根節點外每一個節點都只包含一個字元。
從根節點到某一節點，路徑上經過的字元連線起來，為該節點對應的字串。
每個節點的所有子節點包含的字元都不相同。

可以看到，trie樹每一層的節點數是26^i級別的。所以為了節省空間，我們還可以用動態連結串列，或者用陣列來模擬動態。而空間的花費，不會超過單詞數×單詞長度。
實現：對每個結點開一個字母集大小的陣列，每個結點掛一個連結串列，使用左兒子右兄弟表示法記錄這棵樹；
對於中文的字典樹，每個節點的子節點用一個雜湊表儲存，這樣就不用浪費太大的空間，而且查詢速度上可以保留雜湊的複雜度O(1)。

拼寫糾錯是如何實現的？

拼寫糾錯是基於編輯距離來實現；編輯距離是一種標準的方法，它用來表示經過插入、刪除和替換操作從一個字串轉換到另外一個字串的最小操作步數；
編輯距離的計算過程：比如要計算batyu和beauty的編輯距離，先建立一個7×8的表（batyu長度為5，coffee長度為6，各加2），接著，在如下位置填入黑色數字。其他格的計算過程是取以下三個值的最小值：

如果最上方的字元等於最左方的字元，則為左上方的數字。否則為左上方的數字+1。（對於3,3來說為0）
左方數字+1（對於3,3格來說為2）
上方數字+1（對於3,3格來說為2）

最終取右下角的值即為編輯距離的值3。

對於拼寫糾錯，我們考慮構造一個度量空間（Metric Space），該空間內任何關係滿足以下三條基本條件：

d(x,y) = 0 -- 假如x與y的距離為0，則x=y
d(x,y) = d(y,x)  -- x到y的距離等同於y到x的距離
d(x,y) + d(y,z) >= d(x,z) -- 三角不等式

根據三角不等式，則滿足與query距離在n範圍內的另一個字元轉B，其與A的距離最大為d+n，最小為d-n。
BK樹的構造就過程如下：每個節點有任意個子節點，每條邊有個值表示編輯距離。所有子節點到父節點的邊上標註n表示編輯距離恰好為n。比如，我們有棵樹父節點是”book”和兩個子節點”cake”和”books”，”book”到”books”的邊標號1，”book”到”cake”的邊上標號4。從字典裡構造好樹後，無論何時你想插入新單詞時，計算該單詞與根節點的編輯距離，並且查詢數值為d(neweord, root)的邊。遞迴得與各子節點進行比較，直到沒有子節點，你就可以建立新的子節點並將新單詞儲存在那。比如，插入”boo”到剛才上述例子的樹中，我們先檢查根節點，查詢d(“book”, “boo”) = 1的邊，然後檢查標號為1的邊的子節點，得到單詞”books”。我們再計算距離d(“books”, “boo”)=2，則將新單詞插在”books”之後，邊標號為2。
查詢相似詞如下：計算單詞與根節點的編輯距離d，然後遞迴查詢每個子節點標號為d-n到d+n（包含）的邊。假如被檢查的節點與搜尋單詞的距離d小於n，則返回該節點並繼續查詢。比如輸入cape且最大容忍距離為1，則先計算和根的編輯距離d(“book”, “cape”)=4，然後接著找和根節點之間編輯距離為3到5的，這個就找到了cake這個節點，計算d(“cake”, “cape”)=1，滿足條件所以返回cake，然後再找和cake節點編輯距離是0到2的，分別找到cape和cart節點，這樣就得到cape這個滿足條件的結果。

elasticsearch面試總結

Elasticsearch是如何實現Master選舉的？ Elasticsearch的選主是ZenDiscovery模組負責的，主要包含Ping（節點之間通過這個RPC來發現彼此）和Unicast（單播模組包含一個主機列表以控制哪些節點需要ping通）這兩部分；對所有可以成為mas

Elasticsearch 之 Elasticsearch面試總結

一、Elasticsearch監控的常用工具我大概用過如下的監控外掛（注意此處外掛的版本，不同es的版本，監控工具的安裝方式可能不一樣） 1. bigdesk 統計分析和圖表化elasticsearch的叢集資訊狀態

前端面試總結（css）

pan html元素內容 brush bre 省略號 import als earlier 表格:Cellspacing:單元格間距，cellpadding:單元格內容之間的空隙，colspan：合並列數，rowspan：合並行數,表頭caption，border-sp

前端面試總結（JavaScript）

javascrip 類型作用域鏈 word doc locals session jsonp 作用域 ajax優缺點 json和jsonP區別省市聯動全選數組去重: 如何消除一個數組裏面重復的元素？ // 方法一： var arr1 =[1,2,2,2,3,3,3

常用C++面試總結

pac 占用 .cn 類型 ++ http 內存 ack 總結指定對齊值：#pragma pack(n)，n=1,2,4,8,16改變系統的對齊系數struct和union都是由多個不同的數據類型成員組成, 但在任何同一時刻, union中只存放了一個被選中的成員, 而s

Java 面試總結面試常問的關鍵字總結

tile 說明 exception 處理通信析構單繼承完成參數表文章出處http://www.cnblogs.com/IUbanana/p/7116520.html 關鍵字： final finalize finally throws和throw static

python 面試總結

python 面試題金* python開發工程師：1. 字符串連接+和join的區別：主要考察兩種實現方式內存管理: 字符串對象是不可改變的，Python創建一個字符串後，你不能把這個字符中的某一部分改變。任何對字符串的操作包括‘+‘操作符, 每次‘+’連接時都將申請一個內存空間，創建一個新的字符

面試總結之mysql

知識一個 details mysql常用命令 target lte itl evo 效率總結自己在面試過程遇到的數據庫問題，以備不時之需。 1、你在你們公司用的什麽版本的mysql數據庫，用過mysql5.7嗎？在學校學習mysql的時候用的5.5，在公司的時候用

iOS - 面試總結

機制不定 pack 目錄結構沙盒目錄 ios多線程必須 ken 隱藏參數唐巧的一篇面試總結設計模式是什麽？你知道哪些設計模式，並簡要敘述？設計模式是一種編碼經驗，就是用比較成熟的邏輯去處理某一種類型的事情。 1). MVC模式：Model View Con

360 php 面試總結

public tree 語句位置 eth spa 退出系統保存一面沒位置就沒做面試題隨便找個了地方面試，一面問了幾個基礎的東西。回答的不是很好基礎的好多東西都忘了。現在大概整理下一個面試題：字符串翻轉寫一個函數可以把“360安全衛士” 轉成“士衛

Elasticsearch學習總結

web Lucene arc search 服務器搜索服務能力全文搜索 log ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分布式多用戶能力的全文搜索引擎，基於RESTful web接口。結構圖： Elasticsearch學習總結

史上最全的JAVA面試總結

java數據庫類作為後端開發，可以說數據庫是重之又重。提問的比例也相當之大。所以這裏先記錄下這個。如何快速導入10萬條數據到MySQL數據庫？這個應該當時很緊張，居然半天說不出來。其實當時心裏有一個答案了，就是存儲過程。但是因為平常開發基本上沒用到過這東西，所以都不敢說了。。網上還有有一些答案說批處理，通過s

JAVA面試總結

訪問列表無法 strong 實例執行 clas 方法名 jvm加載類 1、java基本語法 static ：靜態的~ static ：靜態變量、靜態方法；　　被修飾的成員變量或者方法獨立於該類的任何對象，只要該類被加載，被修飾的成員變量或者方法就存在並可以使用。　

JAVA面試總結--集合

fifo hash enumset -a next() 專用 table 集合接口 sorted 1、集合樹狀圖 Collection：最基本的集合接口　　----List：有序集合，集合中的元素可以重復，訪問集合中的元素可以根據元素的索引來訪問　　　　----Arra

2年Java開發工作經驗面試總結

adl tab 生產者 myba 命令面試題總結 lee 創建線程 hash 最近換了個公司，從三月底開始面，面到四月底，面了有快二十家公司。我是一個喜歡總結經驗的人，每經過一場面試，我在回來的路上都會仔細回想今天哪些問題可以答的更好，或者哪些問題是自己之前沒遇到過的，或

Web前端面試總結

tcs 一個網站 ack 平時工程師 htm javascrip itl Base Prepration: 作為一名Web前端開發工程師，應該要有自己的個人作品（如個人網站之類），博客，和所關註的用於學習和分享Web前端技術的社區或貼吧（如github, w3cs

Java面試總結(2017.10)

核心線程數據結構 java面試結構優化單位空間可用算法工作經驗 Java面試總結(2017.10) 把最近一個月的面試經歷總結一下吧。期間有面試大數據和java，以下主要針對java大概總結一下。一、某滴（套路：項目、數據結構、算法、數據庫

mysql數據庫面試總結(一)

strong shu 相對怎樣解決問題一是一次數據庫優化 date 1、數據庫優化　 1）數據庫範式　　第一範式（1NF）：強調的是列的原子性，即列不能夠再分成其他幾列。　　如電話列可進行拆分---家庭電話、公司電話　　第二範式（2NF）：首先是 1NF，另

【轉】PHP面試總結

tar htm itl body .cn clas tps html ref 文章出處：https://www.cnblogs.com/codetao/p/6418127.html【轉】PHP面試總結

上周面試回來後的Java面試總結，想進BAT必看

編程語言 Java 上周陪同之前一起工作的同事去面試（喬治，小袁，鵬飛（面試人）），第一站是去深圳，第二站上海，第三站杭州。面試什麽公司我在這裏就不多說了，你們知道是一線公司就行。其實本來真的沒打算寫這篇文章，主要是自己的記憶力不是很好，再者是最近好多人詢問2018年最新的面試題有點多，我實在回答不過

elasticsearch面試總結

Elasticsearch是如何實現Master選舉的？

Elasticsearch中的節點（比如共20個），其中的10個選了一個master，另外10個選了另一個master，怎麼辦？

客戶端在和叢集連線時，如何選擇特定的節點執行請求的？

詳細描述一下Elasticsearch索引文件的過程。

詳細描述一下Elasticsearch更新和刪除文件的過程。

詳細描述一下Elasticsearch搜尋的過程。

在Elasticsearch中，是怎麼根據一個詞找到對應的倒排索引的？

Elasticsearch在部署時，對Linux的設定有哪些優化方法？

對於GC方面，在使用Elasticsearch時要注意什麼？

Elasticsearch對於大資料量（上億量級）的聚合如何實現？

在併發情況下，Elasticsearch如果保證讀寫一致？

如何監控Elasticsearch叢集狀態？

介紹下你們電商搜尋的整體技術架構。

介紹一下你們的個性化搜尋方案？

是否瞭解字典樹？

拼寫糾錯是如何實現的？

相關推薦