1. 程式人生 > >深度解析大快DKM大資料運維管理平臺功能

深度解析大快DKM大資料運維管理平臺功能

深度解析大快DKM大資料運維管理平臺功能
之前幾周的時間一直是在圍繞DKhadoop的執行環境搭建寫分享,有一些朋友留言索要了dkhadoop安裝包,不知道有沒有去下載安裝一探究竟。關於DKHadoop下載安裝基本已經講清楚了,這幾天有點空閒把大快DKM大資料運維管理平臺的內容整理了一些,作為DKHadoop相配套的管理平臺,是有必要對DKM有所瞭解的。
DKM 是DKHadoop管理平臺。作為大資料平臺端到端Apache Hadoop 的管理應用,DKM 對 DKH 的每個部件都提供了細粒度的視覺化和控制。通過DKM ,運維人員是可以提高叢集的效能,提升服務質量,提高合規性並降低管理成本。
DKM 設計的目的是為了使得對於企業資料中心的管理變得簡單和直觀。通過DKM ,可以方便地部署,並且集中式的操作完整的大資料軟體棧。該應用軟體會自動化安裝過程,從而減少了部署叢集的時間。通過DKM 可以提供一個叢集範圍內的節點實時執行狀態檢視。同時,還提供了一箇中央控制檯,可以用於配置叢集。總結DKM 能夠提供的功能主要有以下幾點:
1.自動化Hadoop 安裝過程,大幅縮短部署時間;
2.提供實時的叢集概況,例如節點,服務的執行狀況;
3.提供了集中的中央控制檯對叢集的配置進行更改;
4.包含全面的報告和診斷工具,幫助優化效能和利用率;
基本功能:DKM的基本功能主要可以分為四大模組:管理功能,監控功能,診斷功能和整合功能。本篇我們就先來看以下管理功能:
1、批量部署
我們都知道Hadoop 本身是一個分散式的系統,因此在安裝時,需要對每一個節點進行元件的安裝,並且由於是開源軟體,其安裝過程相對比較複雜,Hadoop 每個元件都需要做很多的配置工作,這一點相信各位深有體會。DKH 提供了DKM 來自動化安裝部署Hadoop 。 大大縮短了Hadoop 的安裝時間,同時也簡化了安裝Hadoop 的過程。(DKHADOOP安裝步驟請參考此前分享的文章)
自動化安裝的過程如下:
1.安裝環境準備,下載DKM 以及DKH 的安裝檔案,安裝JDK,yum 等基本軟體。
2.挑選一臺節點,安裝DKM ,使用者只需要啟動安裝指令碼即可,通常情況下幾分鐘就能夠完成。
3.DKM 是一個web 應用,提供了基於瀏覽器的介面,使用者可以通過瀏覽器視覺化的進行DKH的安裝部署。
4.通過DKM 介面,新增其他需要的安裝的節點,選擇要安裝的Hadoop 元件,以及每個節點承擔的角色,選擇安裝,DKM 會自動地將需要安裝的軟體分發到對應的節點,並完成安裝。
5.當所有節點的軟體都安裝完成之後,DKM 會啟動所有的服務。從上述的安裝過程可以看出DKH 的安裝主要體現兩個特點,批量化以及自動化。只需要在其中一個節點完成,其他節點都可以進行批量化的自動安裝。
2、叢集配置
(1)視覺化引數配置介面
Hadoop 包含許多的元件,不同的元件都包含各種各樣的配置, 並且分佈於不同的主機之上。 DKM 針對這種情況提供了介面化的引數配置功能,並且能夠自動的部署到每個節點。
(2)高可靠配置
DKM 對關鍵的元件使用HA部署方案,避免單點失效的發生,同時DKH 對於元件的異常錯誤提供了自動恢復處理,最大限度的保證服務的可靠性。
(3)HDFS 高可靠
在標準配置中,NameNode 是HDFS群集中的單點故障(SPOF)。每個群集都具有一個NameNode ,如果機器或程序變為不可用,群集整體將變為不可用,直到NameNode 在新主機上重新啟動或上線。Secondary NameNode 不提供故障轉移功能。 為了讓“備用” NameNode 的狀態與“活動”NameNode 在此實施中保持同步,兩個節點均與一組名為JournalNode 的獨立後臺程式進行通訊。由“活動”NameNode 執行任何Namespace 修改時,它會持續記錄其中大部分JournalNode 的修改記錄。 “備用”NameNode 能夠從JournalNode 讀取編輯操作,並不斷監視它們以瞭解編輯日誌發生的更改。當備用節點發現編輯操作時,它會將這些編輯應用於自己的Namespace 。在發生故障轉移時,備用節點將確保首先從JournalNode 讀取所有的編輯操作,然後才會將自己升級為“活動狀態”。這確保了再發生故障轉移之前完全同步Namespace 狀態。
為了提供快速故障轉移,備用NameNode 還需要擁有有關群集中的塊位置的最新資訊。為實現這一目的,DataNode 配置了這兩個NameNode的位置,它們會將這塊位置資訊和檢測訊號傳送給這兩個NameNode。
一次只能有其中一個NameNode 處於活動狀態,這一點對於HA群集的正常執行來說至關重要。否則,Namespace 狀態會在兩者之間快速出現分歧,從而導致資料丟失風險或其他不正確的結果。為了確保此屬性並防止所謂的“大腦分裂狀況”,JournalNode 一次只允許一個NameNode 成為寫入程式。在故障轉移過程中,要進入“活動”狀態的NameNode 將接管JournalNode的寫入角色,這會有效地阻止其它NameNode繼續保持“活動”狀態,使得新的“活動”NameNode可以安全地繼續執行故障轉移。
DKH 預設開啟了HA . 使用者不用擔心此問題。
(4)YARN 高可靠
YARN ResourceManager(RM) 負責跟蹤群集中的資源並安排應用程式(例如,MapReduce作業)。RM 高可用性(HA)功能以活動/待機 RM 對形式新增冗餘,以刪除此單點故障。此外,在從待機RM 到活動RM 進行故障轉移時,應用程式可以從其上次檢查點狀態恢復; 例如,在MapReduce 作業中完成的map 任務不在後續的嘗試中重新執行。這樣可以在不對執行中的應用程式產生任何重要效能影響的情況下,處理以下事件:
計劃外事件,如計算機崩潰。
計劃內維護事件,如在執行ResourceManager的計算機上進行的軟體或硬體升級。
RM HA 要求Zookeeper 和HDFS 服務處於執行狀態。RM HA 通過活動-待機RM 對的方式實施。啟動時,每個RM 處於待機狀態;啟動過程,但未載入狀態。轉換到活動狀態時,RM會從指定的狀態儲存載入內部狀態,並啟動所有內部服務。 管理員(通過CLI)或通過整合的故障轉移控制器(啟用自動故障轉移時)可促進轉換為活動狀態。
DKH 預設開啟了Resource Manager HA 。使用者不需要擔心。
3、許可權管理
對系統管理員,資料庫管理員及其他管理員必須授予不同級別的管理許可權。