1. 程式人生 > >入門-Hadoop執行環境搭建(單機)及執行模式

入門-Hadoop執行環境搭建(單機)及執行模式

1、準備工作:

阿里雲伺服器:

作業系統:linux CentOS 7.4 64位
Cpu:1核
記憶體:2G
硬碟:40G
ip:47.105.157.216

jdk-8u60-linux-x64.tar.gz

hadoop-2.7.2.tar.gz

2、環境搭建步驟:

2.1、首先更改主機名,目的是為了方便管理

新增IP和主機名對映(vim /etc/hosts),在配置檔案中使用主機名的話,這個對映必須加。必須使用私有地址

注:主機名稱更改之後,要重啟(reboot)才會生效。

2.2、關閉防火牆

2.3、在opt下建立資料夾

2.4、安裝JDK

解壓jdk到/opt/module目錄下

配置jdk環境變數

開啟/etc/profile 檔案,在 profie 檔案末尾新增 jdk 路徑:

讓修改後的檔案生效:

測試安裝成功

2.5、安裝Hadoop

解壓hadoop檔案到/opt/module下面

在/opt/module/hadoop-2.7.2/etc/hadoop 路徑下配置 hadoop-env.sh

將hadoop新增到環境變數,開啟/etc/profile 檔案(vi /etc/profile),在 profie 檔案末尾新增 jdk 路徑.

讓修改後的檔案生效:

3、執行模式:

Hadoop 執行模式:

(1)本地模式(預設模式): 不需要啟用單獨程序,直接可以執行,測試和開發時使用。

(2)偽分散式模式: 等同於完全分散式,只有一個節點。

(3)完全分散式模式: 多個節點一起執行。

4、本地模式

4.1、官方grep案例

建立在 hadoop-2.7.2 檔案下面建立一個 input 資料夾

將 hadoop 的 xml 配置檔案複製到 input

執行 share 目錄下的 mapreduce 程式(將input下所有dfs開頭a-z接續的檔案都拷貝到output下)

檢視輸出結果(output下有2個檔案,一個是存放內容的,一個是成功標記檔案)

4.2、官方wordcount案例

建立在 hadoop-2.7.2 檔案下面建立一個 wcinput 資料夾,在 wcinput 檔案下建立一個 wc.input 檔案

編輯vim wc.input 檔案,輸入如下內容

hadoop yarn

hadoop mapreduce

atguigu

atguigu

回到 hadoop 目錄/opt/module/hadoop-2.7.2,執行以下命令:

檢視結果(統計出每個單詞的個數)

5、偽分散式模式(只有一個節點)

5.1、啟動 HDFS 並執行 MapReduce 程式

除了完成以上環境搭建後還需要完成以下幾步:

5.1.1、配置叢集

1)、配置:hadoop-env.sh

2)、配置:core-site.xml

3)、配置:hdfs-site.xml

5.1.2、啟動叢集

1)、格式化 namenode(第一次啟動時格式化,以後就不要總格式化)

2)、啟動 namenode

3)、啟動 datanode

5.1.3、檢視叢集

1)、檢視是否啟動成功

2)、檢視產生的 log 日誌

3)、Web端檢視hdfs檔案系統

5.1.4、操作叢集

1)、在 hdfs 檔案系統上建立一個 input 資料夾

2)、將測試檔案內容上傳到檔案系統上

注:wcinput/wc.input為本地檔案目錄,/user/root/input為hdfs檔案節點目錄。

本地執行時使用的本地檔案,而hadoop執行時要使用hdfs檔案。

3)、執行 mapreduce 程式

4)、檢視輸出結果

命令列檢視:

瀏覽器檢視:

5)、將測試檔案內容下載到本地

6)、刪除輸出結果

5.2、YARN 上執行 MapReduce 程式

除了完成以上環境搭建後還需要完成以下幾步:

5.2.1、配置叢集

1)、配置 yarn-env.sh和mapred-env.sh

2)、配置:yarn-site.xml

3)、配置: (對 mapred-site.xml.template 重新命名為) mapred-site.xml

vi mapred-site.xml

5.2.2、啟動叢集

啟動resourcemanager和nodemanager

5.2.3、叢集操作

1)、yarn 的瀏覽器頁面檢視

2)、刪除檔案系統上的 output 檔案

3)、執行 mapreduce 程式

注:此時跑的與之前的不同,控制檯列印內容不同,此時時真正的mr資源呼叫.

4)、檢視執行結果

5.3、配置檔案說明

Hadoop 配置檔案分兩類:預設配置檔案和自定義配置檔案,只有使用者想修改某一預設 配置值時,才需要修改自定義配置檔案,更改相應屬性值。

1)、預設配置檔案:存放在 hadoop 相應的 jar 包中

[core-default.xml]

hadoop-common-2.7.2.jar/ core-default.xml

[hdfs-default.xml]

hadoop-hdfs-2.7.2.jar/ hdfs-default.xml

[yarn-default.xml]

hadoop-yarn-common-2.7.2.jar/ yarn-default.xml

[core-default.xml]

hadoop-mapreduce-client-core-2.7.2.jar/ core-default.xm

2)、自定義配置檔案:存放在$HADOOP_HOME/etc/hadoop

core-site.xml

hdfs-site.xml

yarn-site.xml

mapred-site.xml

相關推薦

入門-Hadoop執行環境搭建(單機)執行模式

1、準備工作: 阿里雲伺服器: 作業系統:linux CentOS 7.4 64位 Cpu:1核 記憶體:2G 硬碟:40G ip:47.105.157.216 jdk-8u60-linux-x64.tar.gz hadoop-2.7.2.tar.gz 2、環境搭建

超級記賬本學習筆記:Hyperledger Fabric 1.0環境搭建執行e2e的問題

Cannot run peer because cannot init crypto, missing /opt/gopath/src/github.com/hyperledger/fabric/peer/crypto/peerOrganizations/org1.example.com/users/[ema

Hadoop分佈環境搭建步驟,自帶MapReduce單詞計數程式實現

參考騰訊雲實驗室 Hadoop分佈環境搭建步驟: 1.軟硬體環境 CentOS 7.2 64 位 JDK- 1.8 Hadoo p- 2.7.4 2.安裝SSH sudo yum install openssh-clients openssh-ser

Hadoop系列003-Hadoop執行環境搭建

本人微信公眾號,歡迎掃碼關注! Hadoop執行環境搭建 1、虛擬機器網路模式設定為NAT 2、克隆虛擬機器 3、修改為靜態ip 4、 修改主機名 5、關閉防火牆 1)檢視防火牆開機啟動狀態 chkconfig iptables --list 2)關閉防火牆 chkconfi

彙編執行環境搭建編譯環境搭建

宿主機:ThinkPad E431  Windows10專業版 作者:不笑貓喲   參考資料: https://blog.csdn.net/doniexun/article/details/45438457 https://blog.csdn.net/xiang_sha

Vue.js 執行環境搭建詳解(基於windows的手把手安裝教學)vue、node基礎知識普及

Vue.js 是一套構建使用者介面的漸進式框架。他自身不是一個全能框架——只聚焦於檢視層。因此它非常容易學習,非常容易與其它庫或已有專案整合。在與相關工具和支援庫一起使用時,Vue.js 也能完美地驅動複雜的單頁應用。   在配置環境之前呢,有些基礎的東西還是要和大家普及一

Debian系列Linux下JavaWEB應用執行環境搭建javaWEB工程部署

本例中使用debian系列的linux來搭建JavaWEB伺服器,從軟體安裝到應用部署都有很詳細的說明(如有不明白的地方請發郵件至本文作者郵箱:[email protected])。 一、環境概述 需要有一臺linux伺服器,可以購買阿里雲、騰訊雲的提供伺服器,

Vue.js 執行環境搭建詳解vue、node基礎知識普及

​Vue.js 是一套構建使用者介面的漸進式框架。他自身不是一個全能框架——只聚焦於檢視層。因此它非常容易學習,非常容易與其它庫或已有專案整合。在與相關工具和支援庫一起使用時,Vue.js 也能完美地驅動複雜的單頁應用。 在配置環境之前呢,有些基礎的東西還是要和大家普及

Hadoop執行環境搭建(開發重點)

虛擬機器環境準備 1. 克隆虛擬機器 2. 修改克隆虛擬機器的靜態IP 3. 修改主機名 4. 關閉防火牆 在/

LinuxserverJboss執行環境搭建步驟和開機自己主動啟動腳本編寫執行

web bin 路徑 for scrip 環境變量 pro app 版本號 Jboss執行環境:Linux+Jdk+Jboss+jsp系統Jboss軟件說明:相似於Tomcat。就是一個跑Jsp系統的環境,他的網站路徑跟Tomcat相似,Tomcat存放網站文件到web

mysql優化-優化入門之MySQL的優化介紹執行步驟

個人 步驟 應該 是不是 查詢優化 重點 開啟 使用 返回 優化到底優化什麽? 優化,一直是面試最常問的一個問題。因為從優化的角度,優化的思路,完全可以看出一個人的技術積累。那麽,關於系統優化,假設這麽個場景,用戶反映系統太卡(其實就是高並發),那麽我們怎麽優化?

[Hadoop]淺談MapReduce原理執行流程

技術分享 情況下 size 原來 per node 有一個 根據 執行流程 MapReduce MapReduce原理非常重要,hive與spark都是基於MR原理 MapReduce采用多進程,方便對每個任務資源控制和調配,但是進程消耗更多的啟動時間,因此MR時效

MATLAB 中搭建MatConvNet執行環境(呼叫GPU執行)以及遇到的錯誤

  安裝 MATLAB、VS、CUDA MatConvNet點選下載 我的環境: Windows 10 64bit MATLAB R2014b VS2015 CUDA9.2 1、編譯 第一步: >>mex -setup >

(轉)Linux 中/etc/profile、~/.bash_profile 環境變數配置執行過程

環境變數是和Shell緊密相關的,使用者登入系統後就啟動了一個Shell。對於Linux來說一般是bash,但也可以重新設定或切換到其它的 Shell。對於UNIX,可能是CShelll。環境變數是通過Shell命令來設定的,設定好的環境變數又可以被所有當前使用者所執行的程式所使用。對於bash這個Shell

S2X環境搭建與示例執行

S2X環境搭建與示例執行 http://dbis.informatik.uni-freiburg.de/forschung/projekte/DiPoS/S2X.html 環境 Maven project Built in Eclipse Eclipse 3.8/4.2/4.3

Android相容性測試GTS-環境搭建、測試執行、結果分析

GTS的全稱是Google Mobile Services Test Suite,所謂的Google Mobile Services即谷歌移動服務,是谷歌開發並推動Android的動力,也是Android系統的靈魂所在。GMS目前提供有Search、Search by Voice、Gmai

ssd-caffe的執行環境搭建

系統:Ubuntu16.04 + cuda9.0 +cudnn7.0 一、下載原始碼 進入想要安裝ssd的目錄下,下載原始碼 mkdir ssd git clone https://github.com/weiliu89/caffe.git git checkout

大資料學習系列之一 ----- Hadoop環境搭建(單機)

一、環境選擇 1,伺服器選擇 阿里雲伺服器:入門型(按量付費) 作業系統:linux CentOS 6.8 Cpu:1核 記憶體:1G 硬碟:40G ip:39.108.77.250 2,配置選擇 JDK:1.8 (jdk-8u144-linux-x64.tar.gz

ubuntu 16.04 go語言開發環境搭建以及helloworld執行

下載安裝golang 烏班圖的話下載安裝golang的過程比較容易。使用以下命令: sudo apt-get install golang 執行以上命令需要輸入使用者密碼。然後等著安裝完就可以了。 可以使用以下命令來確定安裝成功。 go version 配置環境變

Linux 中/etc/profile、~/.bash_profile 環境變數配置執行過程

環境變數是和Shell緊密相關的,使用者登入系統後就啟動了一個Shell。對於Linux來說一般是bash,但也可以重新設定或切換到其它的 Shell。對於UNIX,可能是CShelll。環境變數是通過Shell命令來設定的,設定好的環境變數又可以被所有當前使用者所執行的程式所使用。對於bash這個Shell