hadoop 叢集搭建（詳細）

阿新 • • 發佈：2018-12-27

hadoop 叢集搭建

一、前提準備

安裝 jdk8，配置環境變數在 /etc/profile 中或者 ~/.bash_profile 中都可以

export JAVA_HOME=/usr/java/jdk1.8.0_171-amd64
export HADOOP_HOME=/opt/hadoop-2.6.0-cdh5.7.0
export JRE_HOME=${JAVA_HOME}/jre
export MVN_HOME=/usr/apache-maven-3.6.0
export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${MVN_HOME}/bin:$PATH
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:/opt/so/jna-4.5.1.jar

http://archive.cloudera.com/cdh5/cdh/5/ 在這裡下載 hadoop-2.6.0-cdh5.7.0.tar.gz 壓縮包

必須安裝ssh並且必須執行sshd才能使用管理遠端Hadoop守護程式的Hadoop指令碼（如果要使用可選的啟動和停止指令碼）。此外，建議還安裝pdsh以便更好地進行ssh資源管理。

安裝ssh 可檢視這篇部落格 https://www.cnblogs.com/kaid/p/7985568.html

將hadoop-2.6.0-cdh5.7.0.tar.gz 放到 /opt 目錄下並 tar -zxvf hadoop-2.6.0-cdh5.7.0.tar.gz命令進行解壓

二、hadoop本地模式搭建

（1）配置 /opt/hadoop-2.6.0-cdh5.7.0/etc/hadoop/hadoop_env.sh 的 java_home

# The java implementation to use.
export JAVA_HOME=/usr/java/jdk1.8.0_171-amd64

(2)預設情況下，Hadoop配置為以非分散式模式執行，作為單個Java程序。這對除錯很有用。

以下示例複製解壓縮的conf目錄以用作輸入，然後查詢並顯示給定正則表示式的每個匹配項。輸出將寫入給定的輸出目錄。

  $ mkdir input
  $ cp  /opt/hadoop-2.6.0-cdh5.7.0/etc/hadoop*.xml  input
  $ ./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar grep input output'dfs [az。] +'
  $ cat output/*

./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar pi 2 3

三、 hadoop 偽分散式搭建

（1）配置 /opt/hadoop-2.6.0-cdh5.7.0/etc/hadoop/hadoop_env.sh 的 java_home

# The java implementation to use.
export JAVA_HOME=/usr/java/jdk1.8.0_171-amd64

（2）配置 core-site.xml

  <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.42.85:8020</value>
    </property>
    <property>
      <name>hadoop.tmp.dir</name>
      <value>/home/hadoop/app/tmp</value>
    </property>

(3)配置hdfs-site.xml

只有一個節點，就是自己，所以副本數配置為1

    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>

(4）配置yarn-site.xml

    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

（5）配置 mapred -site.xml

 <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
  </property>

（6）檢查您是否可以在沒有密碼的情況下ssh到localhost

ssh localhost

如果在沒有輸入密碼不能 ssh到localhost的情況下請執行如下命令：

  $ ssh-keygen -t rsa -P'' -  f~ / .ssh / id_rsa
  $ cat~ / .ssh / id_rsa.pub >>〜/ .ssh / authorized_keys
  $ chmod 0600~ / .ssh / authorized_keys

（7）啟動hadoop，訪問 http://192.168.42.85:50070 hdfs web 頁面和 http://192.168.42.85:8088 和 yarn web 頁面

./bin/hdfs namenode -format
./sbin/start-dfs.sh
./sbin/start-yarn.sh

或者可以使用
./sbin/start-all.sh 相當於 （./sbin/start-dfs.sh 和 ./sbin/start-yarn.sh兩個命令）

四、hadoop 全分散式叢集搭建

準備三臺機器，你可以建立一個hadoop 使用者用來區分 root 使用者

執行 hostname 命令檢視當前主機名 localhost.localdomain

(1)分別修改三臺機器的hostname 和 hosts

執行 hostname 命令檢視當前主機名 localhost.localdomain

機器1：hostname 設定：

vim /etc/hostname

hadoop000

vim /etc/sysconfig/network
NETWORKING=YES
HOSTNAME=hadoop000

vim /etc/hosts ，將localhost.localdomain 替換為要設定的主機名
192.168.42.85 hadoop000
192.168.42.71 hadoop001
192.168.42.70 hadoop002

機器2：

vim /etc/hostname

hadoop001

vim /etc/sysconfig/network
NETWORKING=YES
HOSTNAME=hadoop001

vim /etc/hosts ，將localhost.localdomain 替換為要設定的主機名
192.168.42.85 hadoop000
192.168.42.71 hadoop001
192.168.42.70 hadoop002

機器3：

vim /etc/hostname

hadoop002

vim /etc/sysconfig/network
NETWORKING=YES
HOSTNAME=hadoop002

vim /etc/hosts ，將localhost.localdomain 替換為要設定的主機名
192.168.42.85 hadoop000
192.168.42.71 hadoop001
192.168.42.70 hadoop002

（2）ssh 免密碼登入

  $ ssh-keygen -t rsa -P'' -  f~ / .ssh / id_rsa
  $ cat~ / .ssh / id_rsa.pub >>〜/ .ssh / authorized_keys
  $ chmod 0600~ / .ssh / authorized_keys

嘗試執行

ssh hadoop000
ssh hadoop001
ssh hadoop002

（3）以hadoop000 機器為例進行配置

配置 /opt/hadoop-2.6.0-cdh5.7.0/etc/hadoop/hadoop_env.sh 的 java_home

# The java implementation to use.
export JAVA_HOME=/usr/java/jdk1.8.0_171-amd64

配置 core-site.xml

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop000:8020</value>
    </property>
    <property>
      <name>hadoop.tmp.dir</name>
      <value>/home/hadoop/app/tmp</value>
    </property>

配置hdfs-site.xml

    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>

    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/hadoop/app/tmp/dfs/name</value>
    </property>

    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/home/hadoop/app/tmp/dfs/data</value>
    </property>

配置yarn-site.xml

    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
  
  <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
  </property>

    //告訴resourceManager 跑在那個機器上
   <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop000</value>
   </property>

配置mapred -site.xml

 <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
  </property>

 <property>
      <name>mapreduce.jobhistory.address</name>
      <value>hadoop000:10020</value>
  </property>


 <property>
      <name>mapreduce.jobhistory.webapp.address</name>
      <value>hadoop000:19888</value>
  </property>

 <property>
      <name>mapreduce.jobhistory.intermediate-done-dir</name>
      <value>/history/done_intermediate</value>
  </property>

 <property>
      <name>mapreduce.jobhistory.done-dir</name>
      <value>/history/done</value>
  </property>

修改 從節點配置  vim slaves
hadoop000
hadoop001
hadoop002

（4）hadoop000機器配置好了之後，直接將hadoop 分發到另外兩臺機器上

分發公鑰到叢集中的其他機器上面
ssh-copy-id -i ~/.ssh/id_rsa.pub  hadoop000
ssh-copy-id -i ~/.ssh/id_rsa.pub  hadoop001
ssh-copy-id -i ~/.ssh/id_rsa.pub  hadoop002
分發hadoop安裝包到  hadoop001 和 hadoop2 節點上
scp -r  /opt/hadoop-2.6.0-cdh5.7.0  [email protected]: /opt/
scp -r  /opt/hadoop-2.6.0-cdh5.7.0  [email protected]: /opt/
分發環境變數配置檔案到 hadoop001 和 hadoop002 節點上
scp ~/.bash_profile  [email protected]:~/
scp ~/.bash_profile  [email protected]:~/

（5）啟動hadoop叢集

只需要在 hadoop000上面啟動即可

hdfs namenode -format
./sbin/start-all.sh

如果啟動namenode 或者 datanode 啟動失敗，可以檢視日誌找到報錯原因 或者 刪除 配置在hdfs-site.xml
中的namenode 和datanode 的目錄
cd  /home/hadoop/app/tmp
rm -rf   dfs
cd $HADOOP_HOME
#重新啟動 
hdfs namenode -format
./sbin/start-all.sh

#停止hadoop叢集
./sbin/stop-all.sh

（6）開發 hadoop demo專案檢視碼雲地址 https://gitee.com/dzxmy/hadoop-train

（7）更詳細的叢集搭建請參考 https://blog.csdn.net/hliq5399/article/details/78193113#commentBox

和 https://www.cnblogs.com/smartloli/p/4298430.html

（8）哥不是小蘿莉大資料系列教程部落格 https://www.cnblogs.com/smartloli/category/649544.html

hadoop 叢集搭建（詳細）

hadoop 叢集搭建一、前提準備

hadoop叢集搭建（docker）

背景　　　　目前在一家快遞公司工作，因專案需要，對大資料平臺做個深入的瞭解。工欲利其器必先利其器，在網上找了許多教程，然後自己搭建一個本地的環境並記錄下來，增加一些印象。環境搭建 1）Ubuntu docker pull ubuntu:16.04 docker images&nb

HDFS環境搭建（單節點配置） hadoop叢集搭建（hdfs）

【參考文章】：hadoop叢集搭建（hdfs） 1. Hadoop下載　　官網下載地址：　　https://hadoop.apache.org/releases.html，進入官網根據自己需要下載具體的安裝包　　清華大學安裝包的映象檔案下載地址：　　https://mirrors.tuna.

hadoop叢集搭建（超詳細版）

1.準備好需要安裝的軟體虛擬機器VMware12.pro作業系統CentOS 6.5遠端控制虛擬機器的終端SecureCRT8.12.在虛擬機器中安裝CentOS作業系統安裝好虛擬機器，圖形介面如下圖建立新的虛擬機器，選擇自定義（高階），點選下一步虛擬機器硬體相容性預設，瀏覽

搭建多個節點的hadoop叢集環境（CDH）

提示：如果還不瞭解Hadoop的，可以下檢視這篇文章Hadoop生態系統，通過這篇文章，我們可以首先大致瞭解Hadoop及Hadoop的生態系統中的工具的使用場景。搭建一個分散式的hadoop叢集環境，下面是詳細步驟，使用cdh5 。一、硬體準備

Hadoop叢集搭建（三臺電腦）

電腦的作業系統是Ubuntu12.04 32位，ubuntu-12.04.4-desktop-i386.iso。叢集介紹：三臺電腦的使用者名稱都為hadoop 主機名：master 10.10.6.176 服務機：sl

Docker之Hadoop普通叢集搭建（五）

2017-01-08 03:36:29,815 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in secureMain java.net.UnknownHostException: 26b72653d296: 26b7265

zookeeper叢集搭建（備忘錄）

安裝步驟：提示：要關閉虛擬機器的防火牆，執行：service iptables stop 1.準備虛擬機器，安裝並配置jdk 我用的是1.8 2.上傳zookeeper的安裝包 3.4.7版本 3.解壓安裝 tar -xvf ………… 4.配置zookeeper。

YARN 高可用（HA）叢集搭建（CDH）

HDFS 高可用叢集安裝完成之後，緊接著快速搞定YARN的叢集搭建。 1.修改YARN配置檔案 1.1修改yarn-site.xml <configuration> <property> <name>yarn.resourcem

centos7下Hadoop2.8.4全分佈搭建之HDFS叢集搭建（一）

1)搭建前的準備注意：（以下操作可以先配置一臺，然後通過scp命令傳送到其他兩臺虛擬機器上傳送到其他機器 scp -r 主機名: 注意:載入環境變數 source /etc/profile

Redis的分散式叢集搭建（windows）----RedisCluster叢集

今天研究了一下redis的叢集搭建,終於成功了，拿來給大家分享一下，希望對大家有幫助。如果需要原始碼和安裝包可以私我。下載redis.進入redis資料夾呢如果沒有redis.conf檔案，就新建一個，並在裡面寫上配置引數：

Redis單機和叢集搭建（筆記）

單機部署 1.下載安裝包 2.解壓安裝 tar -xzvf redis-4.0.1.tar.gz cd redis-4.0.1/ make PREFIX=/usr/local/redis/ install 如果是一般使用者，前面加sudo 3.拷貝配置檔

高效能 RPC 框架 Dubbo 從入門到深入-服務註冊中心搭建（詳細）

一、前言整體來說，一個公司業務系統的演進流程基本都是從單體應用到多應用。在單體應用時，不同業務模組相互呼叫直接在本地 JVM 程序內就可以完成，而變為多個應用時，相互之間進行通訊的方式就不能簡單的進行本地呼叫了，因為不同業務模組部署到了不同的 JVM 程序裡面，更常見的是部署到了不同的機器，

Linux環境redis叢集搭建（二）叢集維護

叢集維護： 1>叢集新增節點 1、建立兩個redis服務7006和7007，配置檔案與前述一致，注意埠號即可 2、啟動兩個節點，並且檢查redis服務 [[email protected] r7007]# chmod 775 redis-server [[

kubernetes學習：2.kubernetes叢集搭建（一）架構介紹

kubernetes叢集搭建：架構介紹作為一個容器的編排管理工具，k8s的效能出眾而且社群力量強大，連docker官方也已經預設k8s為容器編排的首選工具。所以我們更有必要去學習和了解它。 k8s的整體架構主要分為兩個部分： master（控制節點）和

ZooKeeper叢集搭建（一）：準備工作以及搭建叢集的具體操作

為什麼要做ZooKeeper叢集？ ZooKeeper在Dubbo框架中起著發現服務，服務登出/註冊(動態伸縮)的功能，假如僅有的一臺Zookeeper宕機了，將會造成整個應用的服務呼叫失敗，服務停擺期間所造成的損失不可想象同時Zookeeper也是很

Hadoop2.7.2之叢集搭建（單機）

下載安裝Hadoop 1、下載地址 http://hadoop.apache.org/releases.html 我下載的是2.7.2，官網在2.5之後預設提供的就是64位的，這裡直接下載下來用即可 2、安裝Hadoop tar -

SpringCloud服務註冊中心叢集搭建（二）

springcloud學習總結 2、服務註冊中心叢集搭建一、新建服務註冊中心eureka7002模組，拷貝eureka7001模組的pom以及yml 修改yml檔案 server: port: 7002 eureka: instance: hos

kafka入門：簡介、使用場景、設計原理、主要配置及叢集搭建（轉）

問題導讀： 1.zookeeper在kafka的作用是什麼？ 2.kafka中幾乎不允許對訊息進行“隨機讀寫”的原因是什麼？ 3.kafka叢集consumer和producer狀態資訊是如何儲存的？ 4.partitions設計的目的的根本原因是什麼？一、入門 1、簡介

zookeeper偽分散式叢集搭建（centOS7）

zookeeper版本：zookeeper-3.4.10.tar.gz 下載好zookeeper之後，放到/usr/local目錄下 1.建立zookeeper目錄，並在zookeeper目錄下，建立三個資料夾，分別為server1，server2，serv

hadoop 叢集搭建（詳細）

hadoop 叢集搭建

一 、 前提準備

二、hadoop本地模式搭建

三 、 hadoop 偽分散式搭建

ssh localhost

四、hadoop 全分散式叢集搭建

相關推薦

一、前提準備

三、 hadoop 偽分散式搭建