相信大多數初學者和我一樣,對配置環境頭疼的一批;

我在這裡簡單介紹一下hadoop基於虛擬機器的完全分散式部署;

1 首先說一下我的電腦配置吧:

win10作業系統;8g記憶體;i5六代處理器;配置越高越好吧(要不然容易卡頓);

Ubuntu 16.04(這個映象大家可以去網上下啊;之後安裝什麼的都比較簡單就不說了)

我強調一點:可以先安裝一個映象進行配置然後進行復制,這樣可以減少很多重複的配置。

我安裝了三個映象(也是完全分佈最少的)

除了上面說到的再說一用到的配置檔案:

java1.8    scala2.12     hadoop-2.8.5   spark-2.3.0

2 然後開始說一下網路配置

我配置的時NAT模式,在虛擬機器中設定網路設配器中可以設定(三臺都一樣)這樣了使虛擬機器上網。

3 修改hostname和hosts

大家首先在cd etc;   vim hostname 中修改一下名字 我是用的是Master,Slave1,Slave2;

也可以不著急修改等其他配置好了;在修改。

hosts檔案也在etc下,這個檔案的修改是這樣的:

把檔案改成如下格式:

127.0.0.1  localhost

IP1    Master

IP2    Slave1

IP3    Slave2

4 接下來就是一系列的配置

首先配置jdk 大家把安裝包 拖到虛擬機器的 home/(使用者名稱)/  下  然後解壓;

我的所有的安裝都是在usr中的,所以在解藥完之後 就需要移動 mv  檔案   /usr/java (檔名字自定義)

然後就是配置profile這個檔案在 cd etc   中 vim profile 點選i修改:wq儲存;

主要需要修改內容為(Hadoop spark java scala)***_home以及path我的配置如下:

以上配置中檔案路徑大家根據實際情況進行修改。

再接著就是安裝Hadoop,spark,scala都和上面過程一樣,不再贅述。

下面說一下配置檔案

Hadoop需要配置三四個檔案其中

cd usr/haoop/hadoop-2.8.5/etc/hadoop/core-site.xml  ( 配置檔案大都在這個目錄)

 vim hdfs-site.xml

vim mapred-site.xml

vim yarn-site.xml

5 配置完成之後就是啟動Hadoop 首先Hadoop namenode -format (只執行一次)然後啟動

在sbin下  ./start-all.sh進行啟動,然後通過jps檢視(其中master和worker是spark啟動之後才有的)

也可以通過 master:8080  或者master:50070檢視

6 接著是spark的配置

在spark的conf下 把cp a b (a b 為檔名)將spark-env.sh.tmplate  複製成spark-env.sh然後修改成如下內容:

在將slaves檔案修改為 master  slave1  slave2

這樣配置就結束了,這個時候複製兩個映象(修改hostname和hosts)

如果有映象 也是使用scp 檔案  ****@Slave1:home/   /****@Slave2傳輸檔案。

最後啟動hadoop  啟動spark  啟動spark-shell 

最後進行測試。

一家之言,僅供參考,不吝指教