問題描述

我們有個系統設計的時候針對Hive建立表、刪除表, 需要更新ES中的一個狀態,標記是否刪除,在幾乎同時執行兩條下面的語句的時候,發現在ES 中出現表即使被建立了還是無法被查詢到的情況,針對該問題記錄下排查分析過程.

  1. drop table if exists tmp.test_create_table;
  2. create table if not exists tmp.test_create_table(
  3. id int,
  4. name string
  5. ) stored as parquet;

問題排查

檢視ES資料

發現ES建立表的狀態沒有正常更新 yn 還是0

檢視日誌

檢視日誌, 擷取部分關鍵資訊:

  1. ReceiverController] [4eb1c8fd7b6987ae] - 接收的hive元資料為:{"data": ...
  2. "eventType":"DROP_TABLE" ...
  3. ReceiverController] [d1aa226b8739d352] - 接收的hive元資料為:{"data": ...
  4. "eventType":"CREATE_TABLE" ...
  5. [Kafka-Consume-Thread-bigdata_aa-0] [ec812addb0bf424d] - update table data to es: ... "yn":0}
  6. [Kafka-Consume-Thread-bigdata_aa-0] [3085b7329053aaac] - update table data to es: ... "yn":1}

日誌裡有幾個關鍵線索:

  1. 建表與刪除表的Hive元資料資訊正常上報上來了

  2. 建表刪表事件都執行了更新資料到ES的操作, [Kafka-Consume-Thread-bigdata_aa-0] 可以看出是單執行緒更新ES, 所以不會存在多執行緒併發的問題

  3. 基本可以定位是在es更新這塊出問題了

看對應程式碼

  1. final TableDocBean docBean = baseSearchService.getById(id);
  2. setValueForBean(afterColumns, docBean);
  3. log.info("update table data to es: {}", JSON.toJSONString(docBean));
  4. baseSearchService.update(docBean);

程式碼先通過表id 獲取對應ES文件,然後賦值 執行更新資料操作

這塊沒有看出什麼問題,考慮到兩個事件同時執行時間間隔較短,採用了在程式碼裡Thread.sleep(1000) 睡眠下試試,發現兩條SQL語句同時執行的基本每次都成功,可以在ES搜尋到.

這種操作不免讓人覺得ES裡執行更新操作,肯定是有延遲的,具體為什麼延遲,就需要看下ES的更新原理

更新原理

ES更新請求先將index-buffer中文件(document)解析完成的segment寫到filesystem cache之中,這樣避免了比較損耗效能io操作,又可以使document可以被搜尋 , 從index-buffer中取資料到filesystem cache中的過程叫做refresh。es預設的refresh間隔時間是1s

ES資料在更新的時候並不是在原來的資料上做修改的, 而是找到該資料的索引Id,把原來的資料刪掉,再重新插入一條,但索引id是相同的

當刪除、更新兩個操作間隔很短時間執行,上一個資料還沒有refresh 到 FileSystem Cache區域,就無法查詢,final TableDocBean docBean = baseSearchService.getById(id);

獲取不到資料,所以會導致資料更新失敗

解決方案

修改ES refresh到cache區域間隔時間:

  1. curl -XPUT http://ip:9200/meta_es_data/_settings?pretty -d '
  2. {
  3. "refresh_interval" : "500ms"
  4. }'

在每次更新操作後,休眠1s:

  1. baseSearchService.update(docBean);
  2. Thread.sleep(1000);

ES 請求介面有請求後強制重新整理方法,但是一般用於測試,不建議線上用

setRefreshPolicy(WriteRequest.RefreshPolicy.IMMEDIATE);

總結

  1. 不要忽視一個看起來貌似是一個小的問題,其背後有一定的設計、原理在裡面
  2. 程式碼關鍵處加一些有意義且清晰的日誌是非常必要的, 可以提高解決問題的效率
  3. 排查問題就像破案,要有耐心找到一個個關鍵線索,最終破案. 現實工作中解決問題的能力非常重要