Hadoop大資料平臺架構與實踐

阿新 • • 發佈：2018-12-21

一、什麼是Apache Hadoop？

1.1 定義和特性

可靠的、可擴充套件的、分散式計算開源軟體。
Apache Hadoop軟體庫是一個框架，允許使用簡單的程式設計模型，在計算機叢集分散式地處理大型資料集。
它可以從單個伺服器擴充套件到數千臺機器，每個機器都提供本地計算和儲存。
每一臺計算機都容易出現故障，庫本身的目的是檢測和處理應用層的故障，因此在一組計算機上提供高可用性服務，而不是依靠硬體來提供高可用性。

1.2 主要模組：

Hadoop Distributed File System(HDFS): 一個分散式檔案系統，它提供對應用程式資料的高吞吐量訪問。
Hadoop YARN: 作業排程和叢集資源管理的框架。

Hadoop MapReduce: 基於YARN的大型資料集並行處理系統。

二、Hadoop安裝（以hadoop-1.2.1為例）

2.1 準備條件

Linux作業系統
安裝JDK以及配置相關環境變數

2.2 安裝

將hadoop-1.2.1.tar.gz解壓到指定目錄，如：/opt/hadoop-1.2.1/

2.3 配置hadoop環境變數

在/etc/profile中配置如下資訊：

export JAVA_HOME=/opt/jdk1.8.0_131
export JRE_HOME=/opt/jdk1.8.0_131/jre
export HADOOP_HOME=/opt/hadoop-1.2.1
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/Lib
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$PATH

2.4 修改四個配置檔案

這四個配置檔案均在/opt/hadoop-1.2.1/conf/目錄下。

# The java implementation to use.  Required.
export JAVA_HOME=/opt/jdk1.8.0_131

(b)修改core-site.xml,設定hadoop.tmp.dir,dfs.name.dir,fs.default.name:

<configuration>
  <property>
    <name>hadoop.tmp.dir</name>     <!-- hadoop臨時工作目錄 -->
    <value>/home/jochen/hadoop</value>
  </property>

  <property>
    <name>dfs.name.dir</name>       <!-- hadoop源資料目錄 -->
    <value>/home/jochen/hadoop/name</value>
  </property>

  <property>
    <name>fs.default.name</name>    <!-- 檔案系統namenode => 地址：埠號 -->
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>

©修改mapred-site.xml,設定mapred.job.tracker:

<configuration>
  <property>
    <name>mapred.job.tracker</name>
    <value>localhost:9001</value>
  </property>
</configuration>

(d)修改hdfs-site.xml,設定dfs.data.dir:

<configuration>
  <property>
    <name>dfs.data.dir</name>       <!-- dfs檔案塊存放目錄 -->
    <value>/home/jochen/hadoop/data</value>
  </property>
</configuration>

2.5 格式化

執行命令：

$ hadoop namenode -format

正確執行的結果如下所示：

Warning: $HADOOP_HOME is deprecated.

17/05/19 23:46:05 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = ubuntu/127.0.0.1
STARTUP_MSG:   args = [-format]
STARTUP_MSG:   version = 1.2.1
STARTUP_MSG:   build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-1.2 -r 1503152; compiled by 'mattf' on Mon Jul 22 15:23:09 PDT 2013
STARTUP_MSG:   java = 1.8.0_131
************************************************************/
17/05/19 23:46:05 INFO util.GSet: Computing capacity for map BlocksMap
17/05/19 23:46:05 INFO util.GSet: VM type       = 64-bit
17/05/19 23:46:05 INFO util.GSet: 2.0% max memory = 932184064
17/05/19 23:46:05 INFO util.GSet: capacity      = 2^21 = 2097152 entries
17/05/19 23:46:05 INFO util.GSet: recommended=2097152, actual=2097152
17/05/19 23:46:05 INFO namenode.FSNamesystem: fsOwner=jochen
17/05/19 23:46:05 INFO namenode.FSNamesystem: supergroup=supergroup
17/05/19 23:46:05 INFO namenode.FSNamesystem: isPermissionEnabled=true
17/05/19 23:46:05 INFO namenode.FSNamesystem: dfs.block.invalidate.limit=100
17/05/19 23:46:05 INFO namenode.FSNamesystem: isAccessTokenEnabled=false accessKeyUpdateInterval=0 min(s), accessTokenLifetime=0 min(s)
17/05/19 23:46:05 INFO namenode.FSEditLog: dfs.namenode.edits.toleration.length = 0
17/05/19 23:46:05 INFO namenode.NameNode: Caching file names occuring more than 10 times
17/05/19 23:46:05 INFO common.Storage: Image file /home/jochen/hadoop/dfs/name/current/fsimage of size 112 bytes saved in 0 seconds.
17/05/19 23:46:06 INFO namenode.FSEditLog: closing edit log: position=4, editlog=/home/jochen/hadoop/dfs/name/current/edits
17/05/19 23:46:06 INFO namenode.FSEditLog: close success: truncate to 4, editlog=/home/jochen/hadoop/dfs/name/current/edits
17/05/19 23:46:06 INFO common.Storage: Storage directory /home/jochen/hadoop/dfs/name has been successfully formatted.
17/05/19 23:46:06 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at ubuntu/127.0.0.1
************************************************************/

2.6 啟動

$ cd /opt/hadoop-1.2.1/bin
$ ./start-all.sh

2.7 檢視當前執行的java程序

在Terminal輸入命令，出現如下結果表示hadoop安裝成功：

$ jps
12785 JobTracker
1161 Jps
23626 TaskTracker
23275 DataNode
21659 NameNode
23436 SecondaryNameNode

三、HDFS簡介

3.1 HDFS基本概念

HDFS設計架構

在這裡插入圖片描述

塊（Block）：
- HDFS的檔案被分成塊進行儲存
- HDFS塊的預設大小為64MB
- 塊是檔案儲存處理的邏輯單元
管理節點（NameNode），存放檔案元資料：
- 檔案與資料塊的對映表
- 資料塊與資料節點的對映表
DataNode：
- DataNode是HDFS的工作節點
- 存放資料塊

3.2 資料管理策略與容錯

資料塊副本：每個資料塊至少3個副本，分佈在兩個機架內的多個節點
心跳檢測：DataNode定期向NameNode傳送心跳訊息
二級NameNode：二級NameNode定期同步元資料映像檔案和修改日誌，NameNode發生故障時，二級NameNode替換為主NameNode

3.3 HDFS中檔案的讀寫操作

HDFS讀取檔案的流程

在這裡插入圖片描述

HDFS寫入檔案的流程

在這裡插入圖片描述

3.4 HDFS的特點

資料冗餘，硬體容錯
流式的資料訪問（一次寫入、多次讀取）
適合儲存大檔案
適用性和侷限性
- 適合資料批量讀寫，吞吐量高
- 不適合互動式應用，低延遲很難滿足
- 適合一次寫入多次讀取，順序讀寫
- 不支援多使用者併發寫相同檔案

3.5 HDFS使用

HDFS命令列操作：

hadoop fs -ls dirpath           // 列出某目錄下的檔案和目錄
hadoop fs -mkdir dirname        // 在HDFS中新建目錄
hadoop fs -put filepath dirpath // 將本地檔案上傳到HDFS
hadoop fs -get filepath dirpath // 從HDFS下載檔案到本地
hadoop fs -cat filepath         // 檢視檔案內容
hadoop dfsadmin -report         // 檢視HDFS資訊

四、MapReduce簡介

4.1 MapReduce的原理

分而治之，一個大任務分成多個小的子任務（map），並行執行後，合併結果（reduce）
在這裡插入圖片描述

4.2 MapReduce的執行流程

基本概念

Job(作業) & Task(任務)
一個Job可以分成多個Task（MapTask & ReduceTask）
JobTracker（作業管理節點）
客戶端提交Job，JobTracker將其放入候選佇列中，在適當的時候進行排程，將Job拆分成多個MapTask和ReduceTask，分發給TaskTracker執行。JobTracker的角色：
- 作業排程
- 分配任務、監控任務執行進度
- 監控TaskTracker的狀態
TaskTracker（任務管理節點）
通常TaskTracker和HDFS的DataNode屬於同一組物理節點，實現了移動計算代替移動資料，保證讀取資料開銷最小。TaskTracker的角色：
- 執行任務
- 彙報任務狀態

MapReduce的體系結構

在這裡插入圖片描述

MapReduce作業執行過程

在這裡插入圖片描述

MapReduce的容錯機制

重複執行
預設為最多4次後放棄
推測執行
原因：所有Map端運算完成，才開始執行Reduce端。
作用：保證整個任務的計算，不會因為某一兩個TaskTracker的故障，導致整個任務執行效率很低。

五、YARN - Hadoop 資源管理器

YARN的基本思想是將資源管理和作業排程/監控的功能拆分到不同的守護程序。這種思想需要有一個全域性的資源管理器（RM）和（每個應用程式都要有的）應用程式管理器（AM）。
資源管理器（RM）和節點管理器（NodeManager）形成了資料計算框架。資源管理器（RM）是在系統中所有應用程式間仲裁資源的最終權威。節點管理器（NodeManager）是每臺機器的框架代理，負責容器的管理，監控他們的資源使用情況(cpu、記憶體、磁碟、網路)，並向資源管理器（RM）/排程器報告該情況。
每個應用程式的應用程式管理器（AM）實際上是一個特定的框架的庫，它的任務是與資源管理器（RM）協商資源，並與節點管理器（NodeManager）一起工作來執行和監視任務。
資源管理器（RM）有兩個主要元件:排程程式和應用程式管理器（AM）。
- 排程程式負責將資源分配給各種執行的應用程式。排程程式是純粹的排程器，因為它不執行應用程式的狀態監視或跟蹤。另外，它也不能保證重新啟動失敗的任務，無論是由於應用程式失敗還是硬體故障。
- 應用程式管理器（AM）負責接收提交的工作，協商執行應用程式的第一個容器，並並提供在失敗時重新啟動應用程式管理器(AM)容器的服務。每個應用程式管理器(AM)負責從排程程式中協商適當的資源容器，跟蹤它們的狀態並監視程序。
YARN 還支援資源預定的概念，保留資源以確保重要工作的可預見性執行。預訂系統會對資源進行跟蹤，對預訂進行控制，並動態地指導底層的排程程式，以確保預訂是滿的。

Hadoop大資料平臺架構與實踐

一、什麼是Apache Hadoop？ 1.1 定義和特性可靠的、可擴充套件的、分散式計算開源軟體。 Apache Hadoop軟體庫是一個框架，允許使用簡單的程式設計模型，在計算機叢集分散式地處理大型資料集。它可以從單個伺服器擴充套件到數千臺機器，每個機

hadoop大資料平臺架構之DKhadoop詳解

大資料的時代已經來了，資訊的爆炸式增長使得越來越多的行業面臨這大量資料需要儲存和分析的挑戰。Hadoop作為一個開源的分散式並行處理平臺，以其高拓展、高效率、高可靠等優點越來越受到歡迎。這同時也帶動了hadoop商業版的發行。這裡就通過大快DKhadoop為大家詳細介紹一下h

大資料平臺架構技術選型與場景運用

導讀：本文將大資料的工作角色分為三種類型，包括業務相關、資料科學相關和資料工程。大資料平臺偏向於工程方面，大資料平臺一般包括資料來源、資料採集、資料儲存、資料分析等方面。講師從資料來源、資料來源結構、資料變化程度和資料規模等4個維度對資料來源進行分類，資料來源分類維度的

來看看大資料的實戰魅力：美團大資料平臺架構實踐

今天給大家介紹的內容主要包括以下四個部分首先是介紹一下美團大資料平臺的架構，然後回顧一下歷史，看整個平臺演進的時間演進線，每一步是怎麼做的，以及一些挑戰和應對策略，最後總結一下，聊一聊我對平臺化的看法。美團大資料平臺架構實踐給大家介紹的內容主要包括以下四個部分首先是介紹一下美團大資料平

樂刻大資料平臺架構實踐

樂刻運動大資料是基於hadoop體系搭建的，主要滿足運營的日常報表，以及公司核心指標為主。隨著2016年線上線下的發力，以智慧化健身為主的共享經濟的提出，資料需求量大幅的激增，資料從最初的GB級到現在的PB級急增，我們開始反思如何支撐未來的可預見性資料需求。

大資料平臺架構實踐

說明本篇部落格整理自參考內容，完整內容請檢視原文章；技術選型 MOLAP 與Druid相類似的實時資料分析工具，還有Linkedln的Pinot和eBay的Kylin，它們都是基於Java開發的。Druid相對比較輕量級，用的人也多，畢竟開發

網易大資料平臺架構實踐分享！

隨著網易雲音樂、新聞、考拉、嚴選等網際網路業務的快速發展，網易開始加速大資料平臺建設，以提高資料獲取速度，提升資料分析效率，更快發揮資料價值。本次演講主要分享網易如何圍繞和改造開源技術，以產品化思維打造網易自己的大資料平臺，也會分享一下網易在大資料平臺構建和支撐網際網路業

大資料平臺架構思考

筆者早期從事資料開發時，使用spark開發一段時間，感覺大資料開發差不多學到頭了，該會的似乎都會了。在後來的實踐過程中，發現很多事情需要站在更高的視角來看問題，不然很容易陷入“不識廬山真面目”的境界。最近在思考資料資產管理平臺的建設，進行血緣分析開發，有如下感悟：大資料平臺從資料層面來說，包括資料本身和元

攜程實時計算平臺架構與實踐丨DataPipeline

文 | 潘國慶攜程大資料平臺實時計算平臺負責人本文主要從攜程大資料平臺概況、架構設計及實現、在實現當中踩坑及填坑的過程、實時計算領域詳細的應用場景，以及未來規劃五個方面闡述攜程實時計算平臺架構與實踐，希望對需要構建實時資料平臺的公司和同學有所借鑑。一、攜程大資料平臺之總體架構攜程

Hadoop大資料平臺入門——HDFS和MapReduce

隨著硬體水平的不斷提高，需要處理資料的大小也越來越大。大家都知道，現在大資料有多火爆，都認為21世紀是大資料的世紀。當然我也想打上時代的便車。所以今天來學習一下大資料儲存和處理。大資料學習資料分享群119599574 隨著資料的不斷變大，資料的處理就出現了瓶頸：儲存容量，讀

多圖技術貼：深入淺出解析大資料平臺架構

化資料也爆發式增長。比如： 1、業務系統現在平均每天儲存20萬張圖片，磁碟空間每天消耗100G； 2、平均每天產生簽約視訊檔案6000個，每個平均250M，磁碟空間每天消耗1T; …… 三國裡的“大資料” “草船借箭”和大資料有什麼關係呢？對天象的觀察是基於一種對風、雲、溫度、溼度、光照和

阿里如何實現秒級百萬TPS？搜尋離線大資料平臺架構解讀

什麼是搜尋離線？一個典型的商品搜尋架構如下圖所示，本文將要重點介紹的就是下圖中的離線資料處理系統（Offline System）。何謂離線？在阿里搜尋工程體系中我們把搜尋引擎、線上算分、SearchPlanner等ms級響應使用者請求的服務稱之為“

什麼樣的大資料平臺架構，才是最適合你的？

技術最終為業務服務，沒必要一定要追求先進性，各個企業應根據自己的實際情況去選擇自己的技術路徑。　　它不一定具有通用性，但從一定程度講，這個架構可能比BAT的架構更適應大多數企業的情況，畢竟，大多數企業，資料沒到那個份上，也不可能完全自研，商業和開源的結合可能更好一點，

Spark、Hadoop大資料平臺搭建

下載安裝包 Spark 分散式計算 spark-2.3.2-bin-hadoop2.7，安裝包大小：220M 支援Hadoop 2.7以後的版本 Scala Scala環境，Spark的開發語言 scala-2.12.8.tgz，安裝包大小：20M Hadoo

二、Hadoop大資料處理架構

一、概述 Hadoop是Apache軟體基金會旗下的一個開源分散式計算平臺。是一個能夠對大量資料進行分散式處理的軟體框架。由Java開發，但開發其應用可以使用多種語言，C，C++，跨平臺性非常好。兩大核心：解決了分散式儲存和分散式處理兩大問題 HDFS（Hadoop Distributed Fi

企業大資料平臺架構

目錄：什麼是大資料Hadoop介紹-HDFS、MR、Hbase大資料平臺應用舉例-騰訊公司的大資料平臺架構 “就像望遠鏡讓我們能夠感受宇宙，顯微鏡讓我們能夠觀測微生物一樣，大資料正在改變我們的生活以及理解世界的方式……”。大資料的4V特徵-來源公司的“大資

hadoop大資料平臺手動搭建(二)-hadoop

1.下載列表：winow和linux之間檔案上傳下載FileZilla jdk-7u79-linux-x64.tar.gz apache-maven-3.3.9-bin.tar.gz hadoop-2.6.0-cdh5.8.0.tar.gz hadoop-n

螞蟻區塊鏈BaaS平臺架構與實踐

票據業務邏輯其他應用及其自己發展性能技術開發好的摘要：以“數字金融新原力(The New Force of Digital Finance)”為主題，螞蟻金服ATEC城市峰會於2019年1月4日在上海如期舉辦。在ATEC區塊鏈行業研討會分論壇上，螞蟻金服資

hadoop大資料平臺安全基礎知識入門

概述以 Hortonworks Data Platform (HDP) 平臺為例 ,hadoop大資料平臺的安全機制包括以下兩個方面: 身份認證即核實一個使用者的真實身份，一個使用者來使用大資料引擎平臺，這個使用者需要表明自己是誰，即提供自己的身份證明，大資料平臺需要檢驗這個證明，確定這個證明是有效的，

Hadoop大資料平臺之Kafka部署

環境：CentOS 7.4 （1708 DVD）工具：Xshell+Xftp 1. 使用xftp將kafka上傳到/usr/local目錄下，將kafka解壓並重命名。 2. 編輯kafka/config下的server.properties檔案。 3.

Hadoop大資料平臺架構與實踐

一、什麼是Apache Hadoop？

1.1 定義和特性

1.2 主要模組：

二、Hadoop安裝（以hadoop-1.2.1為例）

2.1 準備條件

2.2 安裝

2.3 配置hadoop環境變數

2.4 修改四個配置檔案

2.5 格式化

2.6 啟動

2.7 檢視當前執行的java程序

三、HDFS簡介

3.1 HDFS基本概念

HDFS設計架構

3.2 資料管理策略與容錯

3.3 HDFS中檔案的讀寫操作

HDFS讀取檔案的流程

HDFS寫入檔案的流程

3.4 HDFS的特點

3.5 HDFS使用

四、MapReduce簡介

4.1 MapReduce的原理

4.2 MapReduce的執行流程

基本概念

MapReduce的體系結構

MapReduce作業執行過程

MapReduce的容錯機制

五、YARN - Hadoop 資源管理器

相關推薦