Hadoop虛擬機器叢集搭建及配置詳解
阿新 • • 發佈:2018-12-31
配置步驟
1.新建Linux虛擬機器
2.安裝jdk,獲得root許可權
3.安裝成功後複製兩個虛擬機器,分別分別命名master、slave1、slave2
4.將三個虛擬機器相互連通,配置SSH無金鑰登入
5.在master中配置Hadoop環境,配置好將配置好的hadoop檔案複製到slave1、slave2中
6.啟動叢集並輸入jps檢視叢集情況
Hadoop配置檔案詳解
hadoop-env.sh
新增jdk的路徑,設定java主目錄
yarn-env.sh
設定不同的日誌檔案位置
Mapred-env.sh
設定用於各種守護程序的jvm選項
core-site.xml
common屬性配置
hadoop-tmp-dir
設定其他所有臨時目錄的根目錄,如果hdfs-site.xml中不配置namenode和datanode的存放位置,預設就放在這個路徑中
<property>
<name>hadoop.tmp.dir</name>
<value>/home/wxx/hadoop/tmp</value>
</property>
fs.default.name
這是一個描述叢集中NameNode結點的URI(包括協議、主機名稱、埠號),叢集裡面的每一臺機器都需要知道NameNode的地址。DataNode結點會先在NameNode上註冊,這樣它們的資料才可以被使用。獨立的客戶端程式通過這個URI跟DataNode互動,以取得檔案的塊列表。
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
<final>true</final>
</property>
hdfs-site.xml
HDFS屬性配置
dfs.namenode.name.dir
NameNode持久儲存名字空間及事務日誌的本地檔案系統路徑
<property>
<name>dfs.namenode.name.dir</name >
<value>file:/home/wxx/hadoop/dfs/name</value>
<final>true</final>
</property>
dfs.datanode.data.dir
DataNode存放塊資料的本地檔案系統路徑
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/wxx/hadoop/dfs/data</value>
<final>true</final>
</property>
dfs.replication
資料需要備份的數量,預設是3,如果此數大於叢集的機器數會出錯。
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
mapred-site.xml
MapReduce屬性配置
mapreduce.framework.name
決定MapReduce作業是交到YARN叢集還是使用本地作業執行器來執行,合法值為yarn或local
mapreduce.jobhistory.address
job歷史檔案儲存路徑
mapreduce.jobhistory.webapp.address
job歷史檔案webapp儲存路徑
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
masters
設定主從
master
slaves
master
slave1
slave2