大資料入門學習之環境搭建:VM、CentOS7安裝,jdk1.8安裝,Hadoop2.0安裝及網路配置

一:環境搭建:VM、CentOS7安裝及網路配置
大資料入門首先需要搭建環境,接下來的三篇文章均是環境搭建部分的內容。
首先我們要安裝虛擬機器及linux系統
一、安裝虛擬機器VM
官網下載VM虛擬機器:這裡下載的VMware-workstation-full-10.0.4,好像往後的高版本需要win系統為64位,根據自己的需求下載安裝。
二、安裝CentOS7
1、 官網下載:我下載的是CentOS-7-x86_64-DVD-1804.iso檔案。
2、 安裝過程(略):自行百度安裝,按照步驟安裝無問題,可根據需要選擇最小化安裝,安裝至最後一步驟時最好建立一個使用者。
3、 複製出另外兩臺虛擬機器,並對每臺虛擬機器命名為master、slave1、slave2。
三、網路配置
1、 配置網路為NAT模式,三臺均需要配置;
2、 修改網絡卡配置,三臺均需要修改
cd /etc/sysconfig/network-scripts
vim ifcfg-ens33
新增內容:IPADDR=192.168.198.21 //ip地址
新增內容:NETMASK=255.255.255.0
新增內容:GATEWAY=192.168.198.2 //閘道器
新增內容:DNS1=8.8.8.8

3、 配置完成後重啟網路服務
/etc/init.d/network restart 或
service network restart
4、測試訪問外網是否通
curl www.baidu.com
ping www.baidu.com
5、分別用securecrt連線centos
5.1.如何安裝及註冊 SecureCRT 教程
http://blog.csdn.net/stephenbruce/article/details/48649625
5.2.如何用 SecureCRT 連線 vm 的虛擬機器教程:
http://www.cnblogs.com/shuangxinye/p/6283171.html
6、修改hosts
vim /etc/hosts
7、修改hostname
hostnamectl set-hostname master
使用這種方式修改,可以永久性的修改主機名稱!
二:環境搭建:jdk1.8安裝及環境配置
接下來就要安裝在作業系統上運作的大資料核心hadoop分散式系統基礎架構!Hadoop實現了一個分散式檔案系統( Hadoop Distributed File System ),簡稱HDFS,Hadoop的框架最核心的設計就是:HDFS和MapReduce:HDFS為海量的資料提供了儲存,而MapReduce為海量的資料提供了計算,因此安裝完hadoop以後我們可以進行hdfs檔案儲存、訪問,也可以進行mapreduce實踐操作,真正體驗戶在不瞭解分散式底層細節的情況下,開發分散式程式,充分利用叢集的威力進行高速運算和儲存。
首先要明白:hadoop需要以下兩個軟體才能進行搭建
hadoop-2.6.1.tar.gz
jdk-8u172-linux-x64.tar.gz
本文我們先安裝java jdk1.8.0
一、設定共享資料夾
0. 安裝vmware tools,在虛擬機器中版本更新裡面選取安裝即可,若不成功,按如下安裝:
1. mount /dev/cdrom/media 載入檔案系統到指定的載入點,常用於掛在cdrom,使我們可以訪問cdrom中的資料;
2. tar xvzf VmwareTools-9.6.2-/688356.tar.gz 將安裝資料夾拷貝至自己的目錄中並解壓;
3. ./vmware-install.pl 進入解壓好的目錄後執行此安裝命令;
4. vmware-hgfsclient 檢視共享目錄此時應顯示共享目錄share-folder;
5. vmhgfs-fuse .host:/ /mnt/hgfs 掛載目錄;
6. cd /mnt/hgfs/share-folser 進入目錄。
二、安裝jdk1.8
0. 從共享目錄拷貝至安裝目錄並解壓:
cp jdk-8u172-linux-x64.tar.gz /usr/local/src
tar xvzf jdk-8u172-linux-x64.tar.gz
1. 設定環境變數
vim ~/.bashrc
新增java路徑如下:
#java
export JAVA_HOME=/usr/local/src/jdk1.8.0_172
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin
2. 檢查是否安裝成功
java 執行java;
which java 檢視java資訊;
java -version 檢視java版本。
3. 拷貝解壓包至slave1、slave2中並設定.bashrc檔案
scp -rp jdk1.8.0-172 192.168.198.22:/usr/local/src/
scp -rp jdk1.8.0-172 192.168.198.23:/usr/local/src/
.bashrc檔案配置和master中一樣!
4. 分別檢查三臺機器都能執行java
至此java安裝完成!
三、先安裝一些依賴包
yum -y update #更新yum包
yum install -y vim
yum install -y net-tools
yum install -y gcc
yum install -y prel
yum install -y kernel-headers
三:環境搭建:Hadoop2.0安裝及配置
首先要明白:hadoop需要以下兩個軟體才能進行搭建
hadoop-2.6.1.tar.gz
jdk-8u172-linux-x64.tar.gz(上篇已介紹)
一、安裝Hadoop2.6.1並配置
0. 下載安裝包至共享目錄:
1. cp hadoop-2.6.1.tar.gz /usr/local/src 拷貝安裝包;
2. tar xvzf hadoop-2.6.1.tar.gz 解壓;
3. 建立臨時目錄及檔案目錄:
mkdir /usr/local/src/hadoop-2.6.1/tmp
mkdir /usr/local/src/hadoop-2.6.1/dfs/name
mkdir /usr/local/src/hadoop-2.6.1/dfs/data
4. 修改hadoop配置檔案:
cd /usr/local/src/hadoop-2.6.1/etc/hadoop
1) vim hadoop-env.sh
export JAVA_HOME=/usr/local/src/jdk1.8.0_172
2) vim yarn-env.sh
export JAVA_HOME=/usr/local/src/jdk1.8.0_172
3) vim slaves
slave1
slave2
4) vim core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.198.21:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/src/hadoop-2.6.1/tmp</value>
</property>
</configuration>
5) vim hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/src/hadoop-2.6.1/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/src/hadoop-2.6.1/dfs/data</value>
</property>
<property>
<name>dfs.repliction</name>
<value>2 此處設定為2比較合適,因為從節點為2個
</property>
</configuration>
6) vim mapred-site.xml (注:此檔案需自己建立,不能用mapred-site.xml.template)
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
7) vim yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8035</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>
5. 配置環境變數 (注 :三臺機器都要配置)
vim ~/.bashrc
#hadoop
export HADOOP_HOME=/usr/local/src/hadoop-2.6.1
export PATH=$PATH:$HADOOP_HOME/bin
source ~/.bashrc
6. 拷貝安裝包
scp -rp hadoop-2.6.1 192.168.198.22:/usr/local/src/
scp -rp hadoop-2.6.1 192.168.198.23:/usr/local/src/
7. 啟動叢集
在啟動叢集之前需按順序做兩件事:
1)
關閉防火牆:
firewall-cmd --state 此時顯示running
systemctl disabled firewalld 或
systemctl stop firewalld
在檢視防火牆應該為not running即已關閉
關閉Selinux:
vim /etc/selinux/config
將SELINUX=””改為disabled重啟後永久關閉
2) 格式化
hadoop namenode -formate
注:只能格式化一次,如果多次格式化可能引起錯誤,此時需要將之前建的tmp、data、name資料夾刪除再重新建,在重新格式化!
3) 啟動叢集
cd /hadoop-2.6.1/sbin
./start-all.sh
4) 檢視叢集狀態
master:

slave1

slave2:

8. 設定互信
1) 生成公鑰
ssh-keygen 回車回車回車
2) 配置檔案
cd ~/.ssh 進入隱藏目錄
獲取master的公鑰放在authorized_keys檔案中:
cat id_rsa.pub > authorized_keys
將slave1、slave2的公鑰複製到master上的authorized_keys檔案中
再將authorized_keys檔案拷貝至slave1、slave2上
scp -rp authorized_keys 192.168.198.22:~/.ssh
scp -rp authorized_keys 192.168.198.23:~/.ssh
3) 檢測互信是否成功
在master上輸入 ssh salve1
將會切換為slave1主機名,說明成功
退出: exit
9. 叢集操作
hadoop fs -ls /
hadoop fs -put 1.data /
等命令執行無誤說明叢集已經配置成功
10. 關閉叢集
./sbin/hadoop stop-all.sh
至此,hadoop環境安裝搭建完成,接下來可以進行實踐了!
對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解
想學習的同學歡迎加入大資料學習qq群:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家
並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系 。