1. 程式人生 > >Hadoop虛擬機器叢集搭建及配置詳解

Hadoop虛擬機器叢集搭建及配置詳解

配置步驟

1.新建Linux虛擬機器
2.安裝jdk,獲得root許可權
3.安裝成功後複製兩個虛擬機器,分別分別命名master、slave1、slave2
4.將三個虛擬機器相互連通,配置SSH無金鑰登入
5.在master中配置Hadoop環境,配置好將配置好的hadoop檔案複製到slave1、slave2中
6.啟動叢集並輸入jps檢視叢集情況

Hadoop配置檔案詳解

hadoop-env.sh

新增jdk的路徑,設定java主目錄

yarn-env.sh

設定不同的日誌檔案位置

Mapred-env.sh

設定用於各種守護程序的jvm選項

core-site.xml

common屬性配置

hadoop-tmp-dir

設定其他所有臨時目錄的根目錄,如果hdfs-site.xml中不配置namenode和datanode的存放位置,預設就放在這個路徑中
<property>
        <name>hadoop.tmp.dir</name>
        <value>/home/wxx/hadoop/tmp</value>
</property>

fs.default.name

 這是一個描述叢集中NameNode結點的URI(包括協議、主機名稱、埠號),叢集裡面的每一臺機器都需要知道NameNode的地址。DataNode結點會先在NameNode上註冊,這樣它們的資料才可以被使用。獨立的客戶端程式通過這個URI跟DataNode互動,以取得檔案的塊列表。
<property>
        <name>fs.default.name</name>
        <value>hdfs://master:9000</value>
        <final>true</final>
    </property>

hdfs-site.xml

HDFS屬性配置

dfs.namenode.name.dir

NameNode持久儲存名字空間及事務日誌的本地檔案系統路徑
<property>
   <name>dfs.namenode.name.dir</name
>
<value>file:/home/wxx/hadoop/dfs/name</value> <final>true</final> </property>

dfs.datanode.data.dir

DataNode存放塊資料的本地檔案系統路徑
<property>
   <name>dfs.datanode.data.dir</name>
   <value>file:/home/wxx/hadoop/dfs/data</value>
   <final>true</final>
</property>

dfs.replication

資料需要備份的數量,預設是3,如果此數大於叢集的機器數會出錯。

<property>
   <name>dfs.replication</name>
   <value>2</value>
</property>

mapred-site.xml

MapReduce屬性配置

mapreduce.framework.name

決定MapReduce作業是交到YARN叢集還是使用本地作業執行器來執行,合法值為yarn或local

mapreduce.jobhistory.address

job歷史檔案儲存路徑

mapreduce.jobhistory.webapp.address

job歷史檔案webapp儲存路徑
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>master:10020</value>
</property>
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>master:19888</value>
</property>

masters

設定主從

master

slaves

master
slave1
slave2