1. 程式人生 > >Elasticsearch 通關教程(三): 索引別名Aliases問題

Elasticsearch 通關教程(三): 索引別名Aliases問題

業務問題

業務需求是不斷變化迭代的,也許我們之前寫的某個業務邏輯在下個版本就變化了,我們可能需要修改原來的設計,例如資料庫可能需要新增一個欄位或刪減一個欄位,而在搜尋中也會發生這件事,即使你認為現在的索引設計已經很完美了,在生產環境中,還是有可能需要做一些修改的,需要新增對映欄位或者需要修改欄位型別等等。

資料庫中我們可以直接修改原來的表設計語句,前提是需要做好資料遷移。但是在 Elasticsearch 中就沒那麼簡單了。儘管可以增加新的型別到索引中,或者增加新的欄位到型別中,但是不能新增新的分析器或者對現有的欄位做改動。如果你那麼做的話,結果就是那些已經被索引的資料就不正確,搜尋也不能正常工作。針對這個問題必須重新建立索引。

別名定義

重新建立索引的問題是必須更新應用中的索引名稱,索引別名就是用來解決這個問題的!

假設我們有個學生的原始索引 student_index_v1,我們給它起個別名 student_index,程式中也是用別名 student_index 進行搜尋,當我們的業務需求發生改變需要修改索引的時候,我們重新建立個索引 student_index_v2,同時將別名 student_index 指向新的索引 student_index_v2,同時將 student_index_v1 的資料遷移到新的 student_index_v2,這樣我們就可以做到在零停機下從舊索引切換到新索引。

索引別名

就像一個快捷方式或軟連線,可以指向一個或多個索引,也可以給任何一個需要索引名的API來使用,而且別名不能與索引同名。

別名帶給我們極大的靈活性,允許我們做下面這些:

  • 在執行的叢集中可以無縫的從一個索引切換到另一個索引。
  • 給多個索引分組。
  • 給索引的一個子集建立檢視。

別名管理

別名還可以對映到某個索引也可以對映到多個索引。別名還可以與篩選器關聯,篩選器將在搜尋和路由值時自動應用,別名不能與索引同名。

Elasticsearch 中有兩種方式管理別名: _alias 用於單個操作, _aliases 用於執行多個原子級操作。

單個索引別名

POST /_aliases
{
    "actions" : [
        { "add" : { "index" : "test1", "alias" : "alias1" } }
    ]
}

刪除別名

POST /_aliases
{
    "actions" : [
        { "remove" : { "index" : "test1", "alias" : "alias1" } }
    ]
}

重新命名別名

POST /_aliases
{
    "actions" : [
        { "remove" : { "index" : "test1", "alias" : "alias1" } },
        { "add" : { "index" : "test2", "alias" : "alias1" } }
    ]
}

重新命名別名是一個簡單的刪除然後指向新的索引。這個操作是原子性的,因此不需要擔心短時間內的別名不指向一個索引。

將別名與多個索引關聯

POST /_aliases
{
    "actions" : [
        { "add" : { "index" : "test1", "alias" : "alias1" } },
        { "add" : { "index" : "test2", "alias" : "alias1" } }
    ]
}

亦可以通過索引陣列的方式來實現

POST /_aliases
{
    "actions" : [
        { "add" : { "indices" : ["test1", "test2"], "alias" : "alias1" } }
    ]
}

對於上面的示例,還可以使 glob pattern 將別名關聯到擁有公共名稱的多個索引:

POST /_aliases
{
    "actions" : [
        { "add" : { "index" : "test*", "alias" : "all_test_indices" } }
    ]
}

Filtered Aliases

過濾器別名提供了一個簡單的方法對同一個索引來建立不同的“檢視”。過濾器能夠使用Query DSL來定義並且被應用到所有的搜尋,統計,通過查詢刪除和其它類似的行為。

為了建立一個帶過濾器的別名,首先需要確保對映的欄位已經存在於mapping中。

PUT /test1
{
  "mappings": {
    "_doc": {
      "properties": {
        "user" : {
          "type": "keyword"
        }
      }
    }
  }
}

然後我們可以建立一個在user欄位上帶過濾器的別名。

POST /_aliases
{
    "actions" : [
        {
            "add" : {
                 "index" : "test1",
                 "alias" : "alias2",
                 "filter" : { "term" : { "user" : "kimchy" } }
            }
        }
    ]
}

成功則返回

{"acknowledged":true}

這樣設定之後,我們通過 test1 這個 index 直接進行搜尋可以看到索引的全部文件,但是通過 alias2 這個別名就只能看到符合過濾器過濾後的結果了,即只有一個 user 為 "kimchy" 的結果。

Routing

可以將路由值與別名關聯。這個特性可以與過濾別名一起使用,以避免不必要的碎片操作。

何為路由?
所有的文件 API( get 、 index 、 delete 、 bulk 、 update 以及 mget )都接受一個叫做 routing 的路由引數 ,通過這個引數我們可以自定義文件到分片的對映。一個自定義的路由引數可以用來確保所有相關的文件---例如所有屬於同一個使用者的文件都被儲存到同一個分片中。

以下命令建立一個指向索引 test 的新別名 alias1。建立 alias1 後,所有具有此別名的操作將自動修改為使用值 1 進行路由:

POST /_aliases
{
    "actions" : [
        {
            "add" : {
                 "index" : "test",
                 "alias" : "alias1",
                 "routing" : "1"
            }
        }
    ]
}

還可以為搜尋和索引操作指定不同的路由值

POST /_aliases
{
    "actions" : [
        {
            "add" : {
                 "index" : "test",
                 "alias" : "alias2",
                 "search_routing" : "1,2",
                 "index_routing" : "2"
            }
        }
    ]
}

如上例所示,搜尋路由(search_routing)可能包含幾個用逗號分隔的多個值,但是 索引路由(index_routing)就只能包含一個值

如果使用路由別名的搜尋操作也有路由引數,則使用搜索別名路由和引數中指定的路由的交集。例如,下面的命令將使用“2”作為路由值。因為搜尋操作中有路由引數2,3,而搜尋路由設定的是1,2,所以取交集即為2。

GET /alias2/_search?q=user:kimchy&routing=2,3

別名示例

仍然以上面學生的例子, student_index 是一個指向當前真實索引的別名。真實索引包含一個版本號: student_index_v1 , student_index_v2 等等。

首先,建立索引 student_index_v1 ,然後將別名 student_index 指向它:

PUT /student_index_v1  // 建立索引 student_index_v1 。
PUT /student_index_v1/_alias/student_index  //設定別名 student_index 指向 student_index_v1 。

你可以檢測這個別名指向哪一個索引:

GET /*/_alias/student_index

或哪些別名指向這個索引:

GET /student_index_v1/_alias/*

兩者都會返回下面的結果:

{
    "student_index_v1" : {
        "aliases" : {
            "student_index" : { }
        }
    }
}

然後,我們決定修改索引中一個欄位的對映。當然,我們不能修改現存的對映,所以我們必須重新索引資料。 首先, 我們用新對映建立索引 student_index_v2 :

PUT /student_index_v2
{
    "mappings": {
        "my_type": {
            "properties": {
                "tags": {
                    "type":   "string",
                    "index":  "not_analyzed"
                }
            }
        }
    }
}

然後我們將資料從 student_index_v1 索引到 student_index_v2 ,下面的過程在重新索引你的資料 中已經描述過。一旦我們確定文件已經被正確地重索引了,我們就將別名指向新的索引。

一個別名可以指向多個索引,所以我們在新增別名到新索引的同時必須從舊的索引中刪除它。這個操作需要原子化,這意味著我們需要使用 _aliases 操作:

POST /_aliases
{
    "actions": [
        { "remove": { "index": "student_index_v1", "alias": "student_index" }},
        { "add":    { "index": "student_index_v2", "alias": "student_index" }}
    ]
}

經過以上幾步操作,你的應用就成功在零停機的情況下從舊索引遷移到新索引了。其實別名還有更多管理的語法。

文件遷移

對於新舊索引的文件資料遷移,欄位 _source 的一個優點是在Elasticsearch中已經有整個文件。你不必從源資料中重建索引,而且那樣通常比較慢。

為了有效的重新索引所有在舊的索引中的文件,用 scroll 從舊的索引檢索批量文件 , 然後用 bulk API 把文件推送到新的索引中。

對現有資料的這類改變最簡單的辦法就是重新索引:用新的setting建立新的索引並把文件從舊的索引複製到新的索引。

總結

在你的應用中最好的方式是使用別名而不是索引名。這樣你就可以在任何時候重建索引。別名的開銷很小,應該廣泛使用。本文主要整理自官方文件。