1. 程式人生 > >大資料技術之Hadoop

大資料技術之Hadoop

大資料產生背景

主要解決海量資料的儲存和海量資料的分析計算問題。

大資料特點

1.大量
2.高速
3.多樣
4.低價值密度

大資料應用場景

1.物流倉儲:大資料分析系統助力商家精細化運營,提升銷量,節約成本。

2.零售:分析使用者消費習慣,為使用者購買商品提供方便,從而提升商品銷量。
3.旅遊:深度結合大資料能力與旅遊行業需求,共建旅遊產業智慧管理,智慧服務和智慧營銷。

4.商品廣告推薦:給使用者推薦可能喜歡的產品。
5.保險:海量資料探勘與風險預測,助力保險行業精準營銷,提升精細化定價能力。
6.金融:多維度體現使用者特徵,幫助金融機構推薦優質客戶,防範欺詐風險。
7.房產:大資料全面助力房地產行業,打造精準機制與營銷,選出更合適的地,建設更適合的樓,賣給更合適的人。
8.人工智慧:

大資料發展前景

1.國家實施大資料戰略
2.十九大提出:推動網際網路,大資料,人工智慧和實體經濟深度融合
3.大資料人才缺口大
4.北大,清華,北郵等高校申請開設大資料課程
5.大資料屬於高新技術,大牛少,升職競爭小
6.大資料一線開發大牛百萬年薪,還在持續上漲

大資料組織結構

Hadoop的優勢

1.高可靠性:Hadoop底層維護多個數據副本,即使Hadoop某個計算元素或儲存出現故障,也不會導致資料的丟失。
2.高擴充套件性:在叢集間分配任務資料,可方便擴充套件數以千計的節點。
3.高效性:在MapReduce的思想下,Hadoop是並行工作的,以加快任務處理速度。
4.高容錯性:能夠自動將任務重新分配。

Hadoop組成

Hadoop1.x和Hadoop2.x區別

在Hadoop1.x時代,Hadoop中的MapReduce同時處理業務邏輯運算和資源排程,耦合性比較大;

在Hadoop2.x時代,增加了Yarn,Yarn只負責資源排程,MapReduce只負責運算。

HDFS架構概述

NameNode:儲存檔案的目錄

DataNode:儲存資料

Secondary NameNode:監控HDFS狀態的輔助後臺程式,並生成快照檔案。

YARN架構概述

1.ResourceManager:
(1)處理客戶端請求
(2)監控NodeManager
(3)資源的分配與排程
2.NodeManager:
(1)管理單個節點上的資源
(2)處理來自ResourceManager的命令
(3)處理ApplicationMaster的命令
3.ApplicationMaster:
(1)負責資料的切分
(2)為應用程式申請資源,並分配給內部的任務
(3)任務的監控與容錯
4.Container:
(1)Container是Yarn中資源的抽象,封裝某個節點上的多維度資源,比如CPU,記憶體,磁碟,網路。

MapReducer架構概述

計算過程分為兩個階段

1.Map階段:並行處理資料
2.Reducer階段:對Map結果進行彙總

大資料技術生態體系