1. 程式人生 > >CM+CDH構建企業大資料平臺系列(一)

CM+CDH構建企業大資料平臺系列(一)

問題導讀:

1、CM是什麼?

2、CDH是什麼?

3、CM+CDH是什麼?

4、什麼是企業大資料平臺?

5、如何用CM+CDH構建企業大資料平臺?

..........

帶著種種疑問讓我們開啟真正的企業級大資料平臺搭建之旅。

    隨著網際網路,尤其是移動網際網路和智慧移動裝置的高速發展和大面積普及,資料產生的速度以及資料累積的規模已經超過了以往任何時候,所以我們正在或者已經步入了大資料時代。對於企業來說,企業所擁有的大規模資料正逐漸成為一種重要的生產要素,但是如何盤活企業海量資料資產,充分挖掘大資料背後的價值成為新的挑戰。同時也帶來了很大的機遇,通過對企業海量資料的科學分析,為精益化管理企業提供決策依據,為市場和客戶的精準化營銷提供資料支援,為公司創收提供新的動力,快速擴充套件市場業務,重塑企業核心競爭力,不斷地把企業打造成擁有資料驅動核心競爭力的創新型企業。

一、如何實現上述目標呢?

    首先,企業大資料平臺的建設和運營無疑是重中之重,這也正成為企業資訊化建設的核心任務和目標。通過構建企業大資料平臺,對企業大規模資料進行科學高效的管理、分析、挖掘、監控、視覺化,為公司內部產品的策劃、運營、營銷、財務、決策等提供科學精確的資料支撐,提高企業運營效率、最大化釋放資料價值。

二、如何構建企業大資料平臺呢?

    當然這是一個比較大的話題,也是一個比較複雜的事情,但是核心內容是不變的,無非就是對企業大規模資料的管理、分析和結果視覺化唄。現在企業有了這麼多的資料,怎麼辦?就像生孩子一樣,你不能只管生不管養呀。你還想靠他給你養老送終呢?所以說資料也一樣,有了這麼多資料,你又想從資料裡獲取對企業有用的價值,怎麼辦?總得先儲存起來吧,先養著。OK,那麼現在就帶來了一個問題,怎麼存?也就是如何解決大規模資料的儲存問題?

 (一)如何解決大規模資料的儲存問題?

    這是很大的一塊內容,我們先長話短說,化繁為簡。我們最終要解決的是大規模資料的儲存,資料規模小的話很好解決,假設資料規模特別大,大到超過單臺機器的儲存空間,如果還要儲存那麼該怎麼辦?

常見兩種方法:

    (1)增加本機的磁碟空間。

    但是不可能一直增加,本機儲存空間總會有一個極限。加到一定程度就會超過限制。

    (2)增加機器數量,用共享目錄的方式提供遠端網路化的儲存。

    這種方式就可以理解為分散式檔案系統的雛形,就是把同一檔案切分之後放入不同的機器中,空間不足了還可繼續增加機器,突破本機儲存空間的限制。Hadoop目前最多可以支援到上萬臺機器規模組成的叢集,總之,足夠你用了。這個不用擔心。但是這種方式還是有很多問題的。比如:資料怎麼切分,資料切分之後如何儲存,又怎麼高效的管理儲存在多臺機器上的資料等等複雜問題,肯定不能靠人工去維護吧,那就有點傻了。那麼怎麼辦呢?就要通過系統來解決,即通過分散式檔案系統來管理儲存在多臺機器上的大規模資料。也就是後面會提到的HDFS(Hadoop分散式檔案系統)。

    我們不是為了儲存資料而儲存資料,我們最終的目的是想通過對大規模資料的多維分析挖掘出資料背後對企業運營決策有價值的資訊。

(二)如何對大規模資料進行分析?也就是如何解決大規模資料的計算的問題?

    大規模資料儲存通過分散式儲存解決儲存容量侷限的問題

    大規模資料計算重點考慮的是計算速度的問題。就是怎麼能夠加快大規模資料的處理速度。

    一臺機器資源有限,計算大規模資料可能時間很長,那麼怎麼加快處理速度呢?整多臺,一臺不夠多臺來湊,每個任務處理一部分資料,多臺機器的多個任務分別處理一部分資料,這樣速度肯定會比之前快。

    總之,不管是大資料的儲存還是計算,都是通過分散式系統來解決的,不再通過比較昂貴的小型機,因為小型機成本太高。那麼分散式系統在哪執行呢,就需要構建分散式叢集。所以說我們接下來的重點就是如何構建分散式叢集。

三、什麼叫構建Hadoop分散式叢集?

    構建Hadoop分散式叢集實際上就是在一組通過網路連線的物理計算機組成的叢集上安裝部署Hadoop相關的軟體。

所以接下來我們的任務就是:

(1)首先準備物理叢集

(2)實現物理叢集的網路互聯,就是通過網路把叢集內所有機器連線起來

(3)在實現網路互聯的叢集上安裝部署大資料相關的軟體

四、那麼準備多少臺機器的物理叢集呢?首先要明白機器的數量和哪些因素有關?

(1)資料量(要考慮用多少臺機器組成的叢集能夠儲存這麼大的資料)

1)規劃時間內的資料而不是現有資料

        注意:這個資料量是公司一定規劃時間內(比如兩年)的資料量,不是現有的資料量,因為你不可能隨著資料量的增加每月或每週都往叢集裡增加節點,這樣每天絕大部分時間就都花在叢集維護上了,雖然說我們的確可以隨著資料量的動態變化通過動態的增減節點的個數來調整叢集的儲存和計算能力,但是最好還是要有一個1-2年左右的中長期規劃。

 2)多副本

        因為Hadoop致力於構建在廉價的商用伺服器上的,廉價的就更容易出現故障,出現故障就容易導致資料丟失,資料丟失是絕對不允許的。所以說怎麼保證資料安全性呢?一份不夠,存多份就得了唄,難道你們還能同時丟到,雖然說有可能,但是可能性是不是就小很多了。當然你也不可能買特別垃圾的伺服器。我們需要在採購成本和維護成本之間做好權衡。

3)中間資料、臨時資料和日誌資料需要佔用20-30%左右的空間。

        這個應該很好理解,因為資料不只是需要分析處理的業務資料。

 (2)每臺機器的效能配置

        假設有100T的資料,每臺機器2T硬碟,至少需要50臺,每臺機器4T硬碟,至少需要25臺,所以說機器效能配置的不同也會影響叢集規模的大小。後邊我們會單獨講機器選型及配置選擇。

(3)平臺的功能性和非功能性需求

        平臺實現基本的功能之外還需要實現非功能性需求:

  1)效能需求:

        比如對100G—1T左右的資料進行簡單的查詢分析,能夠在2分-10分鐘之內完成,複雜作業(比如多表連線)能夠在20-1小時內完成,業務資料的增量匯入和資料清洗在1小時之內完成。

  2)可靠性需求:

        比如系統每月宕機次數不能超過1次。

3)可用性需求:

        系統每次宕機的時間不能超過兩小時,還有就是系統內任何一臺計算機每月不可用的時間不能超過總時間的2%。

4)容錯性需求:

        機器宕機、服務停止硬體損壞的情況下資料不會出現丟失,不同情況下的恢復時間也有要求,比如宕機或伺服器停止,恢復時間10分鐘之內,如果NameNode硬體損壞,2小時之內恢復。

    所以接下來我們的任務就是:

(1)先確定選擇什麼樣的機器,也就是機器選型,當然包括機器的資源配置了。

(2)再確定叢集的規模,也就是叢集包含多少臺機器

         注意:在機器選型時並不是每臺機器的配置必須都是一樣的,因為不管是Hadoop中的HDFS還是YARN都是分散式系統,採用的是主從的架構,建議主節點的配置要高於從節點,從節點的配置建議一樣,不同元件的安裝部署配置可以不同。具體根據不同的業務場景進行不同的配置選擇。

完整視訊+圖文資料獲取及技術答疑請加:大講臺大資料研習社⑦ :695520445

相關推薦

CM+CDH構建企業資料平臺系列

問題導讀:1、CM是什麼?2、CDH是什麼?3、CM+CDH是什麼?4、什麼是企業大資料平臺?5、如何用CM+CDH構建企業大資料平臺?..........帶著種種疑問讓我們開啟真正的企業級大資料平臺搭建之旅。    隨著網際網路,尤其是移動網際網路和智慧移動裝置的高速發展和

CM+CDH構建企業資料平臺系列

一、克隆Linux虛擬機器    1、為什麼要克隆虛擬機器?    第一:我們要搭建分散式叢集,需要多臺虛擬機器    第二:我們不想像安裝第一臺虛擬機器那樣從頭到尾做多次重複的操作,既浪費時間又沒有什麼技術含量。    那麼怎麼辦呢?    所以我們就採用克隆的方式,你想要多少臺虛擬機器就克隆多少臺。但是我

CM+CDH構建企業資料平臺系列

安裝部署多臺Linux虛擬機器一、如何理解安裝部署多臺Linux虛擬機器   1、什麼是Linux虛擬機器?        虛擬機器簡單的你可以把它理解為虛擬的電腦,從功能角度來說,這個虛擬的電腦和真實的電腦幾乎完全一樣,只是說虛擬機器的硬碟是在一個檔案中虛擬出來的。這個簡單

CM+CDH構建企業資料平臺系列十二

完整視訊+圖文資料獲取及技術答疑請加:大講臺大資料研習社⑦ :695520445                            搭建時間伺服器並配置叢集自動時鐘同步一、搭建時間伺服器   (一)為什麼要搭建時間伺服器          因為Hadoop 對叢集中各個機

CM+CDH構建企業資料平臺系列十六

完整視訊+圖文資料獲取及技術答疑請加:大講臺大資料研習社⑦ :695520445                        安裝Cloudera Manager Server四、安裝Cloudera

CM+CDH構建企業資料平臺系列十七

五、下載CDH的parcels包並配置到Cloudera Manager主伺服器上    CM安裝成功之後,接下來我們就可以通過CM安裝CDH的方式構建企業大資料平臺。所以首先需要把CDH的parcels包下載到CM主伺服器上。    那麼Parcels包是什麼?從哪下載呢?怎麼安裝配置到CM主伺服器上?首先

資料乾貨系列--Spark總結

Spark總結一、本質 Spark是一個分散式的計算框架,是下一代的MapReduce,擴充套件了MR的資料處理流程二、mapreduce有什麼問題1.排程慢,啟動map、reduce太耗時2.計算慢,每一步都要儲存中間結果落磁碟3.API抽象簡單,只有map和reduce兩

Ambari搭建資料平臺教程HDP

搭建測試環境本文是公司搭建測試環境大資料平臺時總結的,按安裝相應版本的官方文件的步驟翻譯過來的。其中遇到了一些問題,相應的解決方案也都一一列舉了。按照這個方式一定可以搭建成功。基本資訊:系統:Ubuntu-14.04.1JDK版本:jdk-8u111SCALA版本:MySQ

資料之Spark--- Spark簡介,模組,安裝,使用,一句話實現WorldCount,API,scala程式設計,提交作業到spark叢集,指令碼分析

一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java

資料之scala --- 安裝scala,簡單語法介紹,條件表示式,輸入和輸出,迴圈,函式,過程,lazy ,異常,陣列

一、安裝和執行Scala解釋程式 --------------------------------------------- 1.下載scala-2.11.7.msi 2.管理員執行--安裝 3.進入scala/bin,找到scala.bat,管理員執行,進入scala命

資料之hbase --- HBase介紹,特性,安裝部署,shell命令,client端與hbase的互動過程,程式設計API訪問hbase實現百萬寫入

一、HBase介紹 ---------------------------------------------- 1.基於hadoop的資料庫,具有分散式,可伸縮的大型資料儲存 2.用於對資料的隨機訪問,實時讀寫 3.巨大的表,十億行*百萬列

資料之storm --- storm簡介,核心元件,工作流程,安裝和部署,電話通訊案例分析,叢集執行,單詞統計案例分析,調整併發度

一、storm簡介 --------------------------------------------------------- 1.開源,分散式,實時計算 2.實時可靠的處理無限資料流,可以使用任何語言開發 3.適用於實時分析,線上機器學習

資料技術介紹

早在上世紀八十年代,著名未來學家托夫勒在所著的《第三次浪潮》中提出了“大資料”的概念。《自然》雜誌在2008年9月推出了名為“大資料”的封面專欄。從2009年開始“大資料”開始成為網際網路技術行業中的熱門詞彙。在中國,是從2012開始,大資料的時代才真正大面積的開始流行,為人們所知的。 &

如何使用Office365構建企業內部共享網盤

)Office365中Onedrive為個人網盤,空間預設為1TB(放個彩蛋:後期會有部落格專門接受如何提升空間到**TB)。Sharepoint空間根據購買多少數量許可而不同用完了就需要單獨購買資料儲存,如果公司內部使用主要是解決文件資料共享以及相關許可權控制,所以二者對比起來如果是中小型企業完全可以選

資料架構簡述資料的本質

1.大資料是什麼 大資料由SCI的首席科學家JohmR.Masey於1998年在USENIX大會上首次提出。他在其發表的一篇名為Big Dara and the Next Wave of Infras

資料學習總結 分散式Hadoop系統

Scala tips:在前面的類層次結構圖中可以看到,Null型別是所有AnyRef型別的子型別,也即它處於AnyRef類的底層,對應java中的null引用。而Nothing是scala類中所有類的子類,它處於scala類的最底層。     近期投入大資料組工作,就寫一

機器學習十算法系列——邏輯迴歸

  本系列博文整理了常見的機器學習演算法,大部分資料問題都可以通過它們解決: 1.線性迴歸 (Linear Regression) 2.邏輯迴歸 (Logistic Regression) 3.決策樹 (Decision Tree) 4.支援向量機(SV

企業資料平臺架構

目錄: 什麼是大資料Hadoop介紹-HDFS、MR、Hbase大資料平臺應用舉例-騰訊公司的大資料平臺架構 “就像望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大資料正在改變我們的生活以及理解世界的方式……”。 大資料的4V特徵-來源 公司的“大資

從零開始搭建資料平臺系列0——目錄彙總

寫在前面 看了許多別人寫的技術系列博文,也想把自己所學系統歸納一下,正好現在打算從零開始搭建一個大資料平臺,就把自己的所學所獲系統整理一下,寫成從零開始搭建大資料平臺系列,歡迎轉載。 以下是本系列博文的目錄。 目錄 6.  Oozie 平臺搭建    

從零開始搭建資料平臺系列1——環境準備

1、機器準備 (1)物理機配置 處理器:Intel® Core™ i7 處理器 記憶體:8.00GB 系統型別:64 位作業系統,基於 x64 的處理器 作業系統:Windows 10 專業版 (2)磁碟陣列 常用磁碟陣列型別:RAID 0,RAID 1,RAI