快速掌握分散式搜尋引擎ElasticSearch(一)
前言
由於最近在專案中接觸使用到了ElasticSearch,從本篇部落格開始將給大家分享這款風靡全球的產品。將涉及到ElasticSearch的安裝、基礎概念、基本用法、高階查詢、中文分詞器、與SpringBoot整合進行介面開發等相關知識。
ElasticSearch簡述
如果大家接觸過大資料的話,相信大家或多或少的聽說過ELK。ELK是目前非常主流的用於網站監控,流量監控,日誌監控,集中日誌管理的一套解決方案。而ElasticSearch如同ELK的心臟一般,起到一個非常核心的作用。簡單來說,Logstash通過把日誌收集到ElasticSearch中,進行儲存,kibana負責視覺化的展現結果。

ELK
說白了,ElasticSearch就是一款大資料搜尋引擎,那麼在市面上還有哪些類似的產品呢?在Java開源界的話,主要就是Lucene、Solr和ElasticSearch了。
Lucene,Java領域的搜尋引擎鼻祖,是一個比較底層的東西,需要深厚的搜尋理論基礎才可以掌握,比較複雜(它本身不是一個完整的解決方案,需要額外的開發工作)。因此,為了方便使用,遮蔽複雜性,Solr和ElasticSearch在lucene的基礎上進行了二次開發。
Solr相比ElasticSearch而言擁有更加成熟的社群,比較穩定,但是隨著資料量越來越大,對實時性要求越來越高,Solr的搜尋效率在下降,而ElasticSearch卻沒有明顯的變化。因此ElasticSearch非常適合實時搜尋的應用。(比如大名鼎鼎的Github的站內實時搜尋就在應用ES)
另外,由於ElasticSearch提供了簡單易用的Restful API,輕鬆的橫向擴充套件機制(說白了,可以通過加機器來擴充套件容量),能支援PB級別的結構化或非結構化資料處理,具有強大的分散式儲存能力。
ElasticSearch的安裝
安裝比較簡單,下載地址是:
https://www.elastic.co/cn/downloads/elasticsearch
下載後直接解壓,執行即可。

執行es

預設啟動埠9200

檢視es啟動狀態
注意上面的方式是單例項的安裝,那麼分散式安裝呢?
其實,對於分散式安裝,無非注意下面幾個配置要點:
指明誰是master,誰是slave,叢集的名字,節點啟動的埠(特別是在同一臺機器上模擬分散式)。
幾個重要的基礎概念
索引,含有相同屬性的文件集合。
型別,索引可以定義一個或者多個型別,文件必須屬於一個型別。
文件,文件是可以被索引的基本資料單位。
看起來,比較繞,我們用類比的思路來理解:

類比理解
索引相當於database,型別相當於table,文件相當於一條記錄,文件Document是es裡面最小的儲存單位。需要注意的是索引在es中的名稱必須是英文字母小寫且不包含中劃線。和索引相關的有2個高階概念,一個是分片,一個是備份。
分片:每個索引都有多個分片,每個分片是一個lucene索引。
備份:拷貝一個分片就完成了分片的備份。
假設索引的資料很大,就會造成硬碟的壓力很大,同時搜尋速度也會出現瓶頸。那麼可以將索引分成多個分片,從而分攤壓力。分片的同時,還可以允許使用者進行水平擴充套件和拆分,進行分散式的儲存,從而提高搜尋的效率。
當一個主分片出現問題時,備份的分片可以代替工作,從而提高了es的可用性。
es在預設建立索引時,會建立5個分片,一個備份。
假設我們的es是一個master,2個slave,建立索引時,走的預設配置(5個分片,1個備份),那麼圖示如下:

分片和備份
圖中標綠顏色的是主分片,其他是備份的分片。
建立ES索引、型別
本文前面提到es提供了簡單易用的Restful API來操作索引/型別/文件,下面介紹下基本格式:
API基本格式 http://ip:port/索引/型別/文件id
http常用方法 get/put/post/delete
下面,我們演示一下利用postman來建立一個索引和型別:

建立索引和型別

查詢索引、型別資訊
好了,本篇部落格就介紹到這裡,下一篇部落格再來給大家介紹文件的增刪改查操作等。
see u next time~
張豐哲
2018.11.10