VMware上部署Hadoop完全分散式&spark
相信大多數初學者和我一樣,對配置環境頭疼的一批;
我在這裡簡單介紹一下hadoop基於虛擬機器的完全分散式部署;
1 首先說一下我的電腦配置吧:
win10作業系統;8g記憶體;i5六代處理器;配置越高越好吧(要不然容易卡頓);
Ubuntu 16.04(這個映象大家可以去網上下啊;之後安裝什麼的都比較簡單就不說了)
我強調一點:可以先安裝一個映象進行配置然後進行復制,這樣可以減少很多重複的配置。
我安裝了三個映象(也是完全分佈最少的)
除了上面說到的再說一用到的配置檔案:
java1.8 scala2.12 hadoop-2.8.5 spark-2.3.0
2 然後開始說一下網路配置
我配置的時NAT模式,在虛擬機器中設定網路設配器中可以設定(三臺都一樣)這樣了使虛擬機器上網。
3 修改hostname和hosts
大家首先在cd etc; vim hostname 中修改一下名字 我是用的是Master,Slave1,Slave2;
也可以不著急修改等其他配置好了;在修改。
hosts檔案也在etc下,這個檔案的修改是這樣的:
把檔案改成如下格式:
127.0.0.1 localhost
IP1 Master
IP2 Slave1
IP3 Slave2
4 接下來就是一系列的配置
首先配置jdk 大家把安裝包 拖到虛擬機器的 home/(使用者名稱)/ 下 然後解壓;
我的所有的安裝都是在usr中的,所以在解藥完之後 就需要移動 mv 檔案 /usr/java (檔名字自定義)
然後就是配置profile這個檔案在 cd etc 中 vim profile 點選i修改:wq儲存;
主要需要修改內容為(Hadoop spark java scala)***_home以及path我的配置如下:
以上配置中檔案路徑大家根據實際情況進行修改。
再接著就是安裝Hadoop,spark,scala都和上面過程一樣,不再贅述。
下面說一下配置檔案
Hadoop需要配置三四個檔案其中
cd usr/haoop/hadoop-2.8.5/etc/hadoop/core-site.xml ( 配置檔案大都在這個目錄)
vim hdfs-site.xml
vim mapred-site.xml
vim yarn-site.xml
5 配置完成之後就是啟動Hadoop 首先Hadoop namenode -format (只執行一次)然後啟動
在sbin下 ./start-all.sh進行啟動,然後通過jps檢視(其中master和worker是spark啟動之後才有的)
也可以通過 master:8080 或者master:50070檢視
6 接著是spark的配置
在spark的conf下 把cp a b (a b 為檔名)將spark-env.sh.tmplate 複製成spark-env.sh然後修改成如下內容:
在將slaves檔案修改為 master slave1 slave2
這樣配置就結束了,這個時候複製兩個映象(修改hostname和hosts)
如果有映象 也是使用scp 檔案 ****@Slave1:home/ /****@Slave2傳輸檔案。
最後啟動hadoop 啟動spark 啟動spark-shell
最後進行測試。
一家之言,僅供參考,不吝指教