Spark2.1.0——深入淺出度量系統

阿新 • • 發佈：2018-12-14

對於一個系統而言，首先考慮要滿足一些業務場景，並實現功能。隨著系統功能越來越多，程式碼量級越來越高，系統的可維護性、可測試性、效能都會成為新的挑戰，這時監控功能就變得越來越重要了。在國內，絕大多數IT公司的專案都以業務為導向，以完成功能為目標，這些專案在立項、設計、開發、上線的各個階段，很少有人會考慮到監控的問題。在國內，開發人員能夠認真的在程式碼段落中列印日誌，就已經屬於最優秀的程式設計師了。然而，在國外的很多專案則不會這樣，看看久負盛名的Hadoop的監控系統就可見一斑，尤其是在Facebook，更是把功能、日誌以及監控列為同等重要，作為一個合格工程師的三駕馬車。

Spark作為優秀的開源系統，在監控方面也有自己的一整套體系。一個系統有了監控功能後將收穫諸多益處，如可測試性、效能優化、運維評估、資料統計等。Spark的度量系統使用codahale提供的第三方度量倉庫Metrics，本節將著重介紹Spark基於Metrics構建度量系統的原理與實現。對於Metrics感興趣的讀者，可以參考閱讀《

附錄D Metrics簡介》中的內容。

Spark的度量系統中有三個概念：

Instance：指定了度量系統的例項名。Spark按照Instance的不同，區分為Master、Worker、Application、Driver和Executor；
Source：指定了從哪裡收集度量資料，即度量資料的來源。Spark提供了應用的度量來源（ApplicationSource）、Worker的度量來源（WorkerSource）、DAGScheduler的度量來源（DAGSchedulerSource）、BlockManager的度量來源（BlockManagerSource）等諸多實現，對各個服務或元件進行監控。

Sink：指定了往哪裡輸出度量資料，即度量資料的輸出。Spark中使用MetricsServlet作為預設的Sink，此外還提供了ConsoleSink、CsvSink、JmxSink、MetricsServlet、GraphiteSink等實現。

為了更加直觀的表現上述概念，我們以圖1來表示Spark中度量系統的工作流程。

今後將繼續提供博文對以下內容進行詳細介紹：

關於《Spark核心設計的藝術架構設計與實現》

經過近一年的準備，《Spark核心設計的藝術架構設計與實現》一書現已出版發行，圖書如圖：

紙質版售賣連結如下：

Spark2.1.0——深入淺出度量系統

關於《Spark核心設計的藝術架構設計與實現》

Spark2.1.0——深入淺出度量系統

深入淺出Spark2.1.0度量系統——Source繼承體系

深入淺出Spark2.1.0度量系統——Sink繼承體系

在Spark2.1.0中使用Date作為DateFrame列

Spark2.1.0——運行環境準備

基於墨刀的視頻編輯軟件Xedit 1.0原型化系統

eclipse4.7.0+maven3.3.9+scala2.11.8+spark2.1.0+hadoop2.7.1在ubuntu16裡的wordcount例項

spark2.1.0 on yarn with CDH5.8.0 安裝實戰

spark2.1.0編譯 cdh5.7.0版本

Spark2.1.0模型設計與基本架構（上）

百度-Apollo 1.0硬體和系統安裝指南

Spark2.1.0事件匯流排分析——LiveListenerBus詳解

Spark2.1.0模型設計與基本架構（下）

spark2.1.0釋出了

Apache spark2.1.0編譯hadoop-2.6-cdh5.11.2的對應版本

Spark2.1.0事件匯流排分析——ListenerBus的繼承體系

Spark2.1.0——內建RPC框架詳解

Spark2.1.0——SparkContext概述

Spark2.1.0——SparkContext初始化之Spark環境的建立

CentOS7+Hadoop2.7.2(HA高可用+Federation聯邦)+Hive1.2.1+Spark2.1.0 完全分散式叢集安裝

Spark2.1.0——深入淺出度量系統

關於《Spark核心設計的藝術 架構設計與實現》

相關推薦

關於《Spark核心設計的藝術架構設計與實現》