1. 程式人生 > >分散式搜尋elasticsearch 基本概念

分散式搜尋elasticsearch 基本概念

ElasticSearch官網:http://www.elasticsearch.org/

先上一張elasticsearch的總體框架圖:



ElasticSearch是基於Lucene開發的分散式搜尋框架,包含如下特性:

分散式索引、搜尋

索引自動分片、負載均衡

自動發現機器、組建叢集

支援Restful 風格介面

配置簡單等。

下圖是ElasticSearch的第三方外掛管理工具,通過它可以很清晰的看到它索引分佈的情況:哪塊分佈在那裡,佔用空間多少都可以看到,並且可以管理索引。


當一臺機掛了時,整個系統會對掛機裡的內容重新分配到其它機器上,當掛掉的機重新加入叢集時,又會重新把索引分配給它。當然,這些規則都是可以根據引數進行設定的,非常靈活。ElasticSearch是先把索引的內容儲存到記憶體之中,當記憶體不夠時再把索引持久化到硬碟中,同時它還有一個佇列,是在系統空閒時自動把索引寫到硬碟中。

的後端儲存方式可以有一下四種:

1. 像普通的 Lucene 索引,儲存在本地檔案系統中;

2. 儲存在分散式檔案系統中,如 freeds;

3. 儲存在 Hadoop 的 hdfs中;

4. 儲存在亞馬遜的 S3 雲平臺中。

它支援外掛機制,有豐富的外掛。比如和 mongoDB、couchDB 同步的river 外掛,分詞外掛,Hadoop 外掛,指令碼支援外掛等。

下面介紹elasticsearch的幾個概念:

cluster

代表一個叢集,叢集中有多個節點,其中有一個為主節點,這個主節點是可以通過選舉產生的,主從節點是對於叢集內部來說的。es 的一個概念就是去中心化,字面上理解就是無中心節點,這是對於叢集外部來說的,因為從外部來看 es 叢集,在邏輯上是個整體,與任何一個節點的通訊和與整個 es 叢集通訊是等價的。在配置檔案中可以配置叢集的名字,在同一區域網內的機器,配置相同的cluster名字,將會自動組建叢集,不需要其它特殊配置。

shards

代表索引分片,es 可以把一個完整的索引分成多個分片,這樣的好處是可以把一個大的索引拆分成多個,分佈到不同的節點上,構成分散式搜尋。分片的數量只能在索引建立前指定,並且索引建立後不能更改。

replicas

代表索引副本,es 可以設定多個索引的副本,副本的作用一是提高系統的容錯性,當某個節點某個分片損壞或丟失時可以從副本中恢復。二是提高es的查詢效率,es 會自動對搜尋請求進行負載均衡。

recovery

代表資料恢復或叫資料重新分佈,es 在有節點加入或退出時會根據機器的負載對索引分片進行重新分配,掛掉的節點重新啟動時也會進行資料恢復。

river

代表 es 的一個數據源,也是其它儲存方式(如:資料庫)同步資料到es的一個方法。它是以外掛方式存在的一個 es 服務,通過讀取 river 中的資料並把它索引到 es 中,官方的 river 有 couchDB、RabbitMQ、Twitter、Wikipedia。

gateway

代表 es 索引的持久化儲存方式,es預設是先把索引存放到記憶體中,當記憶體滿了時再持久化到硬碟。當這個 es 叢集關閉再重新啟動時就會從 gateway 中讀取索引資料。es 支援多種型別的 gateway,有本地檔案系統(預設),分散式檔案系統,Hadoop 的 HDFS 和 amazon 的 s3 雲端儲存服務。

discovery.zen

代表 es 的自動發現節點機制,es是一個基於 p2p 的系統,它先通過廣播尋找存在的節點,再通過多播協議來進行節點之間的通訊,同時也支援點對點的互動。

Transport

代表es 內部節點或叢集與客戶端的互動方式,預設內部是使用 tcp 協議進行互動,同時它支援 http 協議(json格式)、thrift、servlet、memcached、zeroMQ等的傳輸協議(通過外掛方式整合)。