1. 程式人生 > >chukwa——apache 日誌分析系統

chukwa——apache 日誌分析系統

一、概述

Apache 的開源專案 hadoop, 作為一個分散式儲存和計算系統,已經被業界廣泛應用。很多大型企業都有了各自基於 hadoop 的應用和相關擴充套件。當 1000+ 以上個節點的 hadoop 叢集變得常見時,叢集自身的相關資訊如何收集和分析呢?針對這個問題, Apache 同樣提出了相應的解決方案,那就是 chukwa。 chukwa 的官方網站是這樣描述自己的: chukwa 是一個開源的用於監控大型分散式系統的資料收集系統。這是構建在 hadoop 的 hdfs 和 map/reduce 框架之上的,繼承了 hadoop 的可伸縮性和魯棒性。Chukwa 還包含了一個強大和靈活的工具集,可用於展示、監控和分析已收集的資料。 在一些網站上,甚至聲稱 chukwa 是一個“日誌處理/分析的full stack solution”。 說了這麼多,你心動了嗎?

二、架構








其中主要的部件為: 
  1. agents : 負責採集最原始的資料,併發送給 collectors 
  2. adaptor : 直接採集資料的介面和工具,一個 agent 可以管理多個 adaptor 的資料採集 
  3. collectors 負責收集 agents 收送來的資料,並定時寫入叢集中 
  4. map/reduce jobs 定時啟動,負責把叢集中的資料分類、排序、去重和合並 
  5. HICC 負責資料的展示