1.ElasticSearch的簡介

ElasticSearch:智慧搜尋,分散式的搜尋引擎

是ELK的一個組成,是一個產品,而且是非常完善的產品,ELK代表的是:E就是ElasticSearch,L就是Logstach,K就是kibana

E:EalsticSearch 搜尋和分析的功能

L:Logstach 蒐集資料的功能

K:Kibana 資料視覺化(分析),可以用圖表的方式來去展示,文不如表,表不如圖

什麼是搜尋?

1)百度,谷歌,必應。我們可以通過他們去搜索我們需要的東西。但是我們的搜尋不只是包含這些,還有京東站內搜尋啊。

2)網際網路的搜尋:電商網站。招聘網站。新聞網站。各種APP(百度外賣,美團等等)

3)windows系統的搜尋,OA軟體,淘寶SSM網站,前後臺的搜尋功能

總結:搜尋無處不在。通過一些關鍵字,給我們查詢出來跟這些關鍵字相關的資訊

什麼是全文檢索

全文檢索是指計算機索引程式通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程式就根據事先建立的索引進行查詢,並將查詢的結果反饋給使用者的檢索方式。這個過程類似於通過字典中的檢索字表查字的過程。

全文檢索的方法主要分為按字檢索和按詞檢索兩種。按字檢索是指對於文章中的每一個字都建立索引,檢索時將詞分解為字的組合。對於各種不同的語言而言,字有不同的含義,比如英文中字與詞實際上是合一的,而中文中字與詞有很大分別。按詞檢索指對文章中的詞,即語義單位建立索引,檢索時按詞檢索,並且可以處理同義項等。英文等西方文字由於按照空白切分詞,因此實現上與按字處理類似,新增同義處理也很容易。中文等東方文字則需要切分字詞,以達到按詞索引的目的,關於這方面的問題,是當前全文檢索技術尤其是中文全文檢索技術中的難點,在此不做詳述。

什麼是Lucene

Lucene就是一個jar包,裡面包含了各種建立倒排索引的方法,java開發的時候只需要匯入這個jar包就可以開發了。

典型的用空間換時間。

ES 和 Lucene的區別

Lucene不是分散式的。

ES的底層就是Lucene,ES是分散式的

ES的官網

簡單使用如下圖,可以切換成中文的文件

或者使用spark的中文網站,也有ES的文件,傳送門在下面

ES的由來

因為Lucene有兩個難以解決的問題,

1)資料越大,存不下來,那我就需要多臺伺服器存資料,那麼我的Lucene不支援分散式的,那就需要安裝多個Lucene然後通過程式碼來合併搜尋結果。這樣很不好

2)資料要考慮安全性,一臺伺服器掛了,那麼上面的資料不就消失了。

ES就是分散式的叢集,每一個節點其實就是Lucene,當用戶搜尋的時候,會隨機挑一臺,然後這臺機器自己知道資料在哪,不用我們管這些底層、

ES的優點

1.分散式的功能

2、資料高可用,叢集高可用

3.API更簡單

4.API更高階。

5.支援的語言很多

6.支援PB級別的資料

7.完成搜尋的功能和分析功能

基於Lucene,隱藏了Lucene的複雜性,提供簡單的API

ES的效能比HBase高,咱們的競價引擎最後還是要存到ES中的。

ES支援的語言

Curl、java、c#、python、JavaScript、php、perl、ruby

Curl 'www.baidu.com' 就是linux的shell命令。可以訪問百度,返回的是百度的網頁程式碼

ES的作用

1)全文檢索:

類似 select * from product where product_name like '%牙膏%'

類似百度效果(電商搜尋的效果)

2)結構化搜尋:

類似 select * from product where product_id = '1'

3)資料分析

類似 select count (*) from product

ES的安裝

直接解壓就能用(針對中小型專案),大型專案還是要調一調引數的

2.用資料庫實現搜素的功能

3.ES的核心概念

3.1 NRT(Near Realtime)近實時

3.2 cluster叢集,ES是一個分散式的系統

ES直接解壓不需要配置就可以使用,在hadoop1上解壓一個ES,在hadoop2上解壓了一個ES,接下來把這兩個ES啟動起來。他們就構成了一個叢集。

在ES裡面預設有一個配置,clustername 預設值就是ElasticSearch,如果這個值是一樣的就屬於同一個叢集,不一樣的值就是不一樣的叢集。

3.3 Node節點,就是叢集中的一臺伺服器

3.4 index 索引(索引庫)

我們為什麼使用ES?因為想把資料存進去,然後再查詢出來。

我們在使用Mysql或者Oracle的時候,為了區分資料,我們會建立不同的資料庫,庫下面還有表的。

其實ES功能就像一個關係型資料庫,在這個資料庫我們可以往裡面新增資料,查詢資料。

index類似於我們Mysql裡面的一個資料庫 create database user; 好比就是一個索引庫

3.5 type型別

在每一個index下面,可以有一個或者多個type,好比資料庫裡面的一張

3.6 document:文件

是ES裡面最小的資料單元,就好比表裡面的一條資料

3.7 Field 欄位

好比關係型資料庫中列的概念,一個document有一個或者多個field組成。

例如:

朝陽區:一個Mysql資料庫

房子:create database chaoyaninfo

房間:create table people

3.8 shard:分片

一臺伺服器,無法儲存大量的資料,ES把一個index裡面的資料,分為多個shard,分散式的儲存在各個伺服器上面。

kafka:為什麼支援分散式的功能,因為裡面是有topic,支援分割槽的概念。所以topic A可以存在不同的節點上面。就可以支援海量資料和高併發,提升效能和吞吐量

3.9 relica:副本

一個分散式的叢集,難免會有一臺或者多臺伺服器宕機,如果我們沒有副本這個概念。就會造成我們的shard發生故障,無法提供正常服務。

我們為了保證資料的安全,我們引入了relica的概念,跟hdfs裡面的概念是一個意思。

可以保證我們資料的安全。

在ES叢集中,我們一模一樣的資料有多份,能正常提供查詢和插入的分片我們叫做 primary shard,其餘的我們就管他們叫做 replica shard(備份的分片) 

當我們去查詢資料的時候,我們資料是有備份的,它會同時發出命令讓我們有資料的機器去查詢結果,最後誰的查詢結果快,我們就要誰的資料(這個不需要我們去控制,它內部就自己控制了)

總結:

在預設情況下,我們建立一個庫的時候,預設會幫我們建立5個主分片(primary shrad)和5個副分片(replica shard),所以說正常情況下是有10個分片的。

同一個節點上面,副本和主分片是一定不會在一臺機器上面的,就是擁有相同資料的分片,是不會在同一個節點上面的。

所以當你有一個節點的時候,這個分片是不會把副本存在這僅有的一個節點上的,當你新加入了一臺節點,ES會自動的給你在新機器上建立一個之前分片的副本。

4. ES叢集的安裝

4.1 下載

點選上面的官網傳送門,點選downloads

關於ES的版本,現在大多數網上和書寫的都是ES 2.x系列的書,有部分比較新的講的是ES 5的

沒有3,4一說。是這樣的,ELK 產品是一個非常完善的系統,跟大資料沒什麼關係,後來我們發現可以處理一些大資料的東西。可以和hadoop和spark整合。因為ELK三個產品是不同的公司出的。有一天一個人想把它們整合在一起,發現E發展到了2的版本,L發展到了3的版本,K發展到了4的版本。這樣會有一個問題,什麼樣的hive和hbase配合什麼樣的hadoop,這樣引發了一個匹配不匹配的問題。三個廠家就決定,從下一代產品我們一起升級就從5版本開始,所以如果你E用5.6,L也應該用5.6,K也應該用5.6,這樣就進行了匹配。

這裡我們下載安裝目前最新版本的6.3.2的ES,注意需要安裝好JDK,因為是由java開發的。

4.2 安裝並啟動ES

直接解壓即可,進入bin目錄,本文為 G:\myProgram\ElasticSearch\elasticsearch-6.3.2\bin 下進入cmd,

輸入elasticsearch

驗證ES是否啟動成功

5. 安裝 Kibana

5.1 為什麼要安裝

為了方便我們去操作ES,如果不安裝去操作ES很麻煩,需要通過shell命令的方式。

5.2 安裝並啟動

直接解壓即可,進入bin目錄下,本文為G:\myProgram\kibana\kibana-6.3.2-windows-x86_64\bin 的cmd,執行kibana

不需要配置任何引數,自動識別localhost

然後在左側找到Dev Tools,在這裡就可以進行操作了

輸入GET _cat/health 檢視叢集的健康狀況

5.3 引數解析:

green:每個索引的primary shard和replica shard 都處於active的狀態。

下圖是一個ES叢集有兩個節點。主分片是支撐使用者的讀寫。副只支援讀資料。這樣就造成主分片壓力會大一點,所以ES叢集在分配分片的時候會考慮負載均衡,依據就是按照主分片的情況來。

yellow:每個索引的primary shard是active的狀態,但是部分replica shard不是active的狀態,處於不可用的狀態。

使用GET _cat/indices 命令查詢ES中所有的index

但是可能查詢的不全,我們使用下面的命令

GET _all

但是可能會質疑,我們剛搭建好什麼資料也沒插入,為什麼會有資料查出來。

下面這段話講的是5.6.3版本。

我們通過啟動Kibana進行對接的ES,預設自動在ES上建立了一個index庫,這個庫有個特點,這個庫有一個主分片primary shard,有一個replica shard 副分片

如下圖所示,我們目前windows的狀況是啟動了一個ES的叢集,這個叢集裡面只有一個ES的節點。

然後我們啟動了一個kibana

kibana識別到了這個ES節點,kibana預設在上面建立了一個index,這個index的分片情況是 1 primary shard 和1 replica shard

但是可能咱們現在用的這個版本有了一些優化可能就跟上面說的不一樣了。我們現在ES的狀態是green

如何把叢集的狀態由yellow變成green?

我再啟動一個節點(換個路徑再次解壓ES的壓縮包在啟動起來),讓之前的那個有地方放置就好了。

再次執行查詢健康的命令,效果圖如下

red:不是所有的primary shard 都是active的狀態,這時候是危險的,至少我們不能保證寫資料是安全的。

6. ES的相關命令

這裡的效果圖是沒有搭建第二個ES的節點的(因為電腦空間不太夠了)

GET _cat/health 檢視叢集的健康狀況

GET _all

PUT 類似於SQL中的增

DELETE 類似於SQL中的刪

POST 類似於SQL中的改

GET 類似於SQL中的查

index的操作:

PUT /aura_index 增加一個aura_index的index庫

GET _cat/indices 命令查詢ES中所有的index索引庫

5:代表的是 primary shard的個數

1:代表的是replica shard的個數是5,因為副本數為1代表有5個副分片,注意這個地方說的1是不包括自己本身的,我們的HDFS block3代表的是包括自己本身的

DELETE /aura_index 刪除一個aura_index的index庫

7. ES的CURD操作

通過演示一個電商的例子,感受到ES的語法特點

1)插入一條商品資料

注意:我們插入資料的時候,如果我們的語句中指明瞭index和type,如果ES裡面不存在,預設幫我們自動建立

2)查詢商品資料

使用這種語法: GET /index/type/id

3)修改商品資料

使用POST來修改資料,其實使用PUT也可以實現修改資料,原理和hbase比較像。POST的修改資料的方法在第4條中

換個方式,下面這種操作也是成功的,會丟資料,是全域性的修改

4)刪除商品資料

再次插入之前的資料,發現version是5,這就說明跟hbase是類似的,不會立刻刪除,會在合適的時機進行刪除。

這次我們使用POST的方式進行修改資料,POST是區域性更新資料,別的資料不動。PUT是全域性更新

5)接著插入兩條資料

現在檢視所有資料,類似於全表掃描

took:耗費了6毫秒

shards:分片的情況

hits:獲取到的資料的情況

total:3 總的資料條數

max_score:1 所有資料裡面打分最高的分數

_index:"ecommerce" index名稱

_type:"product" type的名稱

_id:"2" id號

_score:1 分數,這個分數越大越靠前出來,百度也是這樣。除非是花錢。否則匹配度越高越靠前

8.DSL語言

ES最主要是用來做搜尋和分析的。所以DSL還是對於ES很重要的

下面我們寫的程式碼都是RESTful風格

query  DSL:domain Specialed Lanaguage 在特定領域的語言

案例:我們要進行全表掃描使用DSL語言,查詢所有的商品

使用match_all 可以查詢到所有文件,是沒有查詢條件下的預設語句。

案例:查詢所有名稱裡面包含chenyi的商品,同時按價格進行降序排序

如上圖所示,name為dior chenyi的資料會在ES中進行倒排索引分詞的操作,這樣的資料也會被查詢出來。

match查詢是一個標準查詢,不管你需要全文字查詢還是精確查詢基本上都要用到它。

下面我們按照價格進行排序:因為不屬於查詢的範圍了。所以要寫一個 逗號

這樣我們的排序就完成了

案例:實現分頁查詢

條件:根據查詢結果(包含chenyi的商品),再進行每頁展示2個商品

案例:進行全表掃面,但返回指定欄位的資料

現在的情況是把所有的資料都返回了,但是我們想返回指定欄位的資料內容就需要下面的方法了

案例:搜尋名稱裡面包含chenyi的,並且價格大於250元的商品

相當於 select * form product where name like %chenyi% and price >250;

因為有兩個查詢條件,我們就需要使用下面的查詢方式

如果需要多個查詢條件拼接在一起就需要使用bool

 bool 過濾可以用來合併多個過濾條件查詢結果的布林邏輯,它包含以下操作符:

    must :: 多個查詢條件的完全匹配,相當於 and

    must_not :: 多個查詢條件的相反匹配,相當於 not

    should :: 至少有一個查詢條件匹配, 相當於 or

    這些引數可以分別繼承一個過濾條件或者一個過濾條件的陣列

案例:展示一個全文檢索的效果

首先查詢條件也會進行分詞

kama

chenyi

並集

案例:不要把條件分詞,要精確匹配

但是我們現有有一種需求我就是想查詢kama chenyi不要分詞,要精確匹配到

百度就類似於這樣

案例:把查詢結果進行高亮展示

<em>kama</em>這個標籤是預設的標籤,是可以自定義的進行替換的,比如我們可以替換成<span style="color:red">kama</span>,把這個輸出到網頁上,自然而然就是紅色的了。

9.聚合分析

案例:計算每個標籤tag下商品的數量

按標籤進行分組類似於 select count(*) from product group by tag;

terms 跟 term 有點類似,但 terms 允許指定多個匹配條件。 如果某個欄位指定了多個值,那麼文件需要一起去做匹配

error是報錯,但是這個語句是對的,這個報錯在ES2之前是沒有的,在ES5以後才有的,在5中fielddata=true 預設是false,以前都是true

group_by_tag是個名字隨意取

所以我們需要先執行下面的程式碼進行一下設定的修改:

再次執行一次

案例:對商品名稱裡面包含chenyi的,計算每個tag下商品的數量

案例:查詢商品名稱裡面包含chenyi的資料,並且按照tag進行分組,計算每個分組下的平均價格

案例:查詢商品名稱裡面包含chenyi的資料,並且按照tag進行分組,計算每個分組下的平均價格,按照平均價格進行降序排序

注意寫的位置

案例:查詢出producer裡面包含producer的資料,按照指定的價格區間進行分組,在每個組內再按tag進行分組,分完組以後再求每個組的平均價格,並且按照降序進行排序

range過濾允許我們按照指定範圍查詢一批資料

10.ES的隱藏性

ES是一個分散式的系統,裡面我們在使用的時候隱藏了複雜的分散式的機制

1)分片機制

插入資料的時候不是根據負載均衡來插入的,是根據一定的路由規則,比如我們就取雜湊值取模,

我們在建立一個index庫的時候,我們可以指定primary shard的數量,也可以指定replica的數量,如果不指定,那麼預設primary shard=5 replica=1 所以 replica shard=5,過了一段時間發現數據量很大,我們primary shard不夠用了,那麼這個時候想修改shard 的個數,能不能改成20個?答案:不能!!原來本應該插入到8的位置,結果插入到了9的位置,這樣計算查詢規則就錯了。所以主分片個數是不能修改的,但是副分片的個數是可以進行修改的。具體怎麼完成的那是ES內部的事情,我們先不用考慮。我們寫了段java的程式碼插入資料到主分片裡面去了。具體怎麼插入的,插入到哪個主分片裡面是不需要我們來管的。所以就是把這些功能給隱藏起來了。

如果真的遇見了這樣的事,再建一個庫,那個庫的分片是20,用程式碼查詢出來再匯入到這個庫中,只能用這個方法

總結:我們操作的時候很輕鬆的就把資料存入到我們的ES裡面了。存入的時候我們並不關心,資料存到哪個分片裡面去。

2)叢集的發現機制

我們做過一個實驗,一開始我們只啟動了一個ES的節點,這個時候這個ES的狀態是yellow,後來我們又啟動了一個ES節點,發現顏色變成了green,這說明,我們後面啟動的這個節點,也自動加入了這個叢集。那麼這個機制就是叢集的發現機制。對於我們也是隱藏起來了。我們沒必要知道

3)shard 會進行負載均衡

Hbase中如果你新加入了一個Hbase節點,不會自動的進行負載均衡,需要執行一個命令

但是ES不一樣。只要你加入了一個節點,會自動幫你進行負載均衡

11.ES叢集的擴容問題

擴容分為:垂直和水平擴容

我們之前的大資料技術都是分散式的部署在叢集上面的。如果我們的資源不夠用了,這個時候就涉及到了擴容,我們是垂直擴容還是水平擴容呢?

假設我們每個節點能儲存1T的資料,現在我們要儲存5T的資料,

垂直擴容就是把其中的一臺換了,換成效能更強的節點。有可能一臺節點就能存5T。

水平擴容就是新加伺服器直到能存下來5T的資料,我們一般都是用水平擴容,比如1T是1萬。5臺5萬,但是單臺5T的價錢可能是50萬。所以我們幾乎不太可能用這種方式。

但是可能那麼namenode節點可能是採用垂直擴容

12.對等式架構

在分散式的技術裡面。我們大多都是主從式架構

ES是對等式的架構。ES裡面也有master節點一說。但是我們不太關心。只需要在配置檔案中指定一下讓哪幾個節點有機會成為主節點。

ES中master的作用

1)管理叢集的元資料,比如說索引的建立,和刪除等等

2)叢集裡面master也是自動選舉的。

看到這裡有個疑問這不也是主從式架構麼?為什麼叫對等式架構呢?

HDFS是主從式架構,有namenode和datanode,我們無論是上傳資料也好還是下載資料也好都要跟namenode進行互動,互動完才能到datanode中,但是我們的ES無論上傳和下載資料也好,我們不需要跟master進行互動。節點之間的關係都是對等的,每個節點都可以進行接收請求和相應請求。

在ES中,我們開發好了java程式碼要跟ES進行互動。他會隨意找一臺節點,但是這臺節點不一定有我們要查詢的資料,但是我們不知道,ES節點是知道的,每個ES裡面都知道其他的資料存在哪,ES的節點會自動幫你把請求發到要查詢資料的節點上。這樣就真的查詢出來了。而我們隨意找的這個節點叫做協調節點,真正資料存放的節點會把資料返回給協調節點。協調節點再給我們java的程式碼

每一個節點都可以接受和相應請求。如果隨機找的剛好是資料所在的節點,那麼這個節點即是協調節點又是響應節點。

13.ES的primary shard和replica shard

1)index可以包含多個type,同樣一個index下面也可以有多個shard

2)在ES裡面每個shard就是最小的一個工作單元,承載了部分資料

3)如果在ES叢集裡面增加或減少節點,shard會自動的實現負載均衡

4)primary shard樂意進行讀和寫,replica shard負責讀

5)primary shard在建立index的時候就固定了,不能修改了。

6)預設建立一個index的時候,primary shard的數量是5,replica的數量是1,也就是說預設情況下有10個shard,其中有5個primary shard,5個是replica shard

7)primary shard和自己的replica shard是不能在同一臺伺服器上的。

14.ES的容錯機制

1)master的選舉

2)replica的容錯

3)資料恢復

15.自動生成ID號

下圖是指定ID號的方式

下圖是自動生成ID號

16.version之悲觀鎖和樂觀鎖

悲觀鎖:很悲觀,自己操作的時候別的執行緒就不能進行操作。所以在電商的情況下體驗性很不好,但是不容易出錯

樂觀鎖:很樂觀,因為現在剩3件了,假設version號是5,A,B執行緒同時進行訪問操作,AB執行緒拿到的都是3件,version都是5,A執行緒先購買了一件就是3-1=2 ,然後A執行緒拿著2和version號5去更新資料,發現version是5就把3件更新為2件,同時version變成了6;然後B執行緒買了一件就是3-1=2 然後拿著2和version號5去更新,發現version號不匹配,此時重新獲取一下version號和僅剩的件數2,然後2-1=1,然後拿著1和version號6去更新資料,發現version對上了。此時更新成功。

17.ES實戰之專案效果

模仿百度文庫的效果。

18.專案實戰

1)首先用IDEA新建web maven專案

然後一直下一步就行了。

配置pom.xml檔案為如下所示

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>

  <groupId>jenrey</groupId>
  <artifactId>ES_project</artifactId>
  <version>1.0-SNAPSHOT</version>
  <packaging>war</packaging>

  <name>ES_project Maven Webapp</name>
  <!-- FIXME change it to the project's website -->
  <url>http://www.example.com</url>

  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <maven.compiler.source>1.7</maven.compiler.source>
    <maven.compiler.target>1.7</maven.compiler.target>
  </properties>

  <dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>4.12</version>
      <scope>test</scope>
    </dependency>

    <dependency>
      <groupId>javax.servlet</groupId>
      <artifactId>javax.servlet-api</artifactId>
      <version>3.1.0</version>
      <scope>provided</scope>
    </dependency>

    <dependency>
      <groupId>mysql</groupId>
      <artifactId>mysql-connector-java</artifactId>
      <version>5.1.6</version>
    </dependency>

    <dependency>
      <groupId>org.elasticsearch.client</groupId>
      <artifactId>transport</artifactId>
      <version>6.3.2</version>
    </dependency>

  </dependencies>

  <build>
    <finalName>ES_project</finalName>
    <pluginManagement><!-- lock down plugins versions to avoid using Maven defaults (may be moved to parent pom) -->
      <plugins>
        <plugin>
          <artifactId>maven-clean-plugin</artifactId>
          <version>3.0.0</version>
        </plugin>
        <!-- see http://maven.apache.org/ref/current/maven-core/default-bindings.html#Plugin_bindings_for_war_packaging -->
        <plugin>
          <artifactId>maven-resources-plugin</artifactId>
          <version>3.0.2</version>
        </plugin>
        <plugin>
          <artifactId>maven-compiler-plugin</artifactId>
          <version>3.7.0</version>
        </plugin>
        <plugin>
          <artifactId>maven-surefire-plugin</artifactId>
          <version>2.20.1</version>
        </plugin>
        <plugin>
          <artifactId>maven-war-plugin</artifactId>
          <version>3.2.0</version>
        </plugin>
        <plugin>
          <artifactId>maven-install-plugin</artifactId>
          <version>2.5.2</version>
        </plugin>
        <plugin>
          <artifactId>maven-deploy-plugin</artifactId>
          <version>2.8.2</version>
        </plugin>
      </plugins>
    </pluginManagement>
  </build>
</project>

啟動專案:

出現上圖的No artifacts marked for deployment的警告並出現如下幾張圖所示的效果。

這時候不要慌!!!按照下圖所示進行操作,再次開啟配置選單

新增xxxxxxx:war exploded 

Tomcat部署中war與war exploded區別

  • war模式:即釋出模式,將Web工程以war包的形式上傳到伺服器。
  • war exploded模式:將Web工程以當前資料夾的位置關係上傳到伺服器。 

【注】 

  1. 此模式直接把資料夾、jsp頁面等相關檔案移動到Tomcat部署資料夾裡進行載入部署。因此此模式支援熱部署。
  2. 使用熱部署,需要對其他選項進行設定 

然後儲存,然後再按照下圖修改,應用,確定