1. 程式人生 > >大資料基礎學習-1.CentOS-7.0環境安裝

大資料基礎學習-1.CentOS-7.0環境安裝

一、CentOS7系統安裝和基礎配置

1.安裝CentOS7

1)在電腦上安裝虛擬機器軟體VMworkstation12pro,並準備CentOS-7.0-1406-x86_64-DVD.iso映象檔案。

2)開啟VMware,新建虛擬機器,選擇自定義安裝。





這裡可以將虛擬機器命名,儲存的路徑可以自定義。


接下來都選擇預設,並點選下一步。

3)開啟虛擬機器


4)選擇語言後,進行手動分割槽。



點選安裝位置。


選擇“我要配置分割槽“,點左上角的“完成”,進入下面的介面。分割槽方案選擇“標準分割槽”,並開始掛載分割槽,點選左下方“+”。


將/boot分割槽設為200M,檔案系統方式為ext4,如圖。



同理:將/home目錄設定為2G,檔案系統方式為ext4,將swap分割槽設為2G,檔案系統方式為swap。最後,給根分割槽/分配剩餘的全部空間,檔案系統方式為ext4。


分配完後,單擊左上角的“完成”,出現如下介面,接受更改。


6)分割槽配置完成後,點選安裝,在這個過程中配置ROOT密碼。


注意:這裡安裝的是mini版本,即命令列模式,如果希望想安裝桌面外掛,按照如下操作。

[[email protected] ~]# mount /dev/sr0 /mnt/
mount: /dev/sr0 is write-protected, mounting read-only
mount: /dev/sr0 is already mounted or /mnt busy
       /dev/sr0 is already mounted on /mnt

確保centos7的映象包已經掛載進來,如果發現映象沒有掛載進來,點選虛擬機器右下角的光碟圖示,選擇設定,將ISO映象檔案掛載進來,再點選連線。


[[email protected]~]# yum -y groupinstall "Server with GUI"

安裝完成後,執行下面命令,啟動桌面。

[[email protected]~]# startx

【安裝好後,一般會直接進入桌面。如果出現了黑白的協議頁面,按下'1'為閱讀協議,‘q’為退出,‘c’繼續,‘r’重新整理。首先鍵入‘1’,閱讀協議,接著鍵入‘2’,accept接受協議,接著鍵入‘c’,繼續。之後再彈出的協議許可,直接按一系列的‘c’和回車即可。】

2.網路配置

1)點選虛擬機器,選擇設定,彈出如下視窗,點選網路介面卡,選擇NAT模式。

2)點選虛擬機器的‘編輯’,選擇‘虛擬網路編輯器’,彈出如下視窗,選擇VMnet8,並點選‘更改設定’。


彈出如下視窗,選擇VMnet8,點選NAT設定。


彈出如下視窗,記住子網IP和閘道器,設定虛擬機器的IP將會用到這兩個資訊(當然,你也可以設定其他值)。


3)進入系統,輸入命令ifconfig檢視網絡卡ip資訊【不同電腦ip或者網絡卡情況會有所不同】。

[[email protected] ~]# ifconfig
lo: flags=73<UP,LOOPBACK,RUNNING>  mtu 65536
        inet 127.0.0.1  netmask 255.0.0.0
        inet6 ::1  prefixlen 128  scopeid 0x10<host>
        loop  txqueuelen 1  (Local Loopback)
        RX packets 8132712  bytes 2582460617 (2.4 GiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 8132712  bytes 2582460617 (2.4 GiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

為了能夠通過遠端工具連線,這裡需要設定靜態ip地址,並設定開機啟動。

[[email protected] ~]# vi /etc/sysconfig/network-scripts/ifcfg-ens33 
TYPE=Ethernet
#BOOTPROTO=static
DEFROUTE=yes
PEERDNS=yes
PEERROUTES=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_PEERDNS=yes
IPV6_PEERROUTES=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
DEVICE=ens33
ONBOOT=yes #開機啟動
IPADDR0=192.168.101.101 #這裡的ip需要和虛擬網路編輯器中檢視的子網ip對應起來,保持前三位一致
PREFIX0=24 #子網掩碼 等同於255.255.255.0
GATEWAY0=192.168.101.2 #閘道器
DNS1=114.114.114.114 #DNS服務

儲存退出後,並重啟網絡卡。

[[email protected] ~]# service network restart
Restarting network (via systemctl):                        [  確定  ]
[[email protected] ~]# ping wwww.baidu.com
PING ps_other.a.shifen.com (220.181.57.217) 56(84) bytes of data.
64 bytes from 220.181.57.217 (220.181.57.217): icmp_seq=1 ttl=128 time=48.5 ms
64 bytes from 220.181.57.217 (220.181.57.217): icmp_seq=2 ttl=128 time=41.8 ms

說明網絡卡正常,能正常訪問網路,為了能夠方便訪問虛擬機器,可以選擇xshell軟體進行遠端連線。


4)配置主機名稱,關閉防火牆。

編輯~/.bashrc,並新增如下內容

[[email protected] ~]# vim ~/.bashrc
#iptables -F #清除預設表filter中所有規則鏈中的規則,centos7中防火牆預設不是這個。
#setenforce 0 #表示關閉selinux防火牆
hostname masteractive #配置主機名
# systemctl stop firewalld.service  # 關閉防火牆
# systemctl status firewalld  # 檢視防火牆狀態, inactive 表示關閉

5)配置host

[[email protected] ~]# vim /etc/hosts
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.101.101 masteractive 
192.168.101.102 masterstandby
192.168.101.103 slave1
192.168.101.104 slave2

3.安裝vim

因為centos7沒有安裝vim,所以需要額外安裝。

[[email protected] ~]# rpm -qa | grep vim
vim-minimal-7.4.160-1.el7.x86_64
vim-common-7.4.160-2.el7.x86_64
vim-enhanced-7.4.160-2.el7.x86_64
vim-filesystem-7.4.160-2.el7.x86_64

若vim已經正確安裝,則會顯示上面幾個包的名稱,如果缺少了其中某個,執行:yum -y install +缺少的包名,下載安裝該包即可。(注:執行  yum install vim -y 可一鍵自動安裝)

4.構建叢集

重複上述虛擬機器安裝和配置操作,再建立3臺虛擬機器作為從節點,主機名和ip地址如下。建立4臺虛擬機器的目的是為了在學習Hadoop2.0時,搭建高可用的叢集。在學習時,一般不會用到這麼多臺機器,1臺虛擬機器搭建偽分散式即可。

192.168.101.102 masterstandby
192.168.101.103 slave1 
192.168.101.104 slave2 

【當然,也可以採用複製虛擬機器或者克隆的方式產生多臺虛擬機器,但由於是複製操作,虛擬機器網絡卡將會一模一樣,MAC值將會重複,導致不能上網,需要再手動修改,解決辦法這裡就不展開了。如果修改不成功再查詢原因將耗費更多時間,得不償失,建議直接安裝,可以當做練手。】

5.ssh免密登入

建立每臺機器的互信關係,使得每臺機子之間登入不需要密碼。

[[email protected] src]# ssh-keygen    #然後回車然後回車(回兩次車)
[[email protected] src]# cd ~/.ssh/
[[email protected] .ssh]# ll
total 16
-rw-r--r--. 1 root root1179 Jan 30 08:05 authorized_keys
-rw-------. 1 root root1675 Jan 30 08:00 id_rsa
-rw-r--r--. 1 rootroot  393 Jan 30 08:00 id_rsa.pub
-rw-r--r--. 1 root root1971 Jan 30 08:07 known_hosts

Id_rsa.pub是共鑰檔案,id_rsa是金鑰檔案,將id_rsa.pub檔案內容拷貝給authorized_keys(注:如果沒有authorized_keys這個檔案,需先建立),在其他節點上同理操作,並將其他節點上Id_rsa.pub檔案裡面的內容全部拷貝到主節點的authorized_keys中,masteractive節點再將最終的authorized_keys分發給其他節點

[[email protected] .ssh]# scp -rp authorized_keys slave1:~/.ssh/  #同理拷貝給slave2和masterstandby
[[email protected] .ssh]# ssh slave1    #第一次可能會要求輸入密碼,輸入密碼回車後登入到從節點,第二次將會自動登入

二、安裝jdk1.8

1.安裝jdk-8u144-linux-x64

通過xshell的Xftp外掛(需要安裝xftp),將jdk-8u144-linux-x64.tar.gz拖到/usr/local/src/目錄下(當然也可根據習慣採用其他目錄)。


[[email protected] src]# tar xvzf jdk-8u144-linux-x64.tar.gz #安裝jdk

2.配置環境變數

在~/.bashrc檔案的底部新增java環境變數:

[[email protected] src]# vim ~/.bashrc
export JAVA_HOME=/usr/local/src/jdk1.8.0_144
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin
[[email protected] src]# source ~/.bashrc   #生效一下
[[email protected] src]# scp -rp jdk1.8.0_144 masterstandby:/usr/local/src/  #同理將jdk分發到slave1和slave2,路徑保持一致,再分別給masterstandby、slave1和slave2配置環境變數。

三、hadoop2.0 安裝

基礎環境準備完畢後,開始大資料的基礎學習,首先安裝的就是hadoop-2.6.0-cdh5.7.0(採用cdh的原因是版本比較穩定)。

[[email protected] src]# yum install -y wget #如果沒有wget命令就安裝一下
[[email protected] src]# wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz #下載Hadoop

1.安裝hadoop-2.6.0-cdh5.7.0.tar.gz

[[email protected] src]# tar xvzf hadoop-2.6.0-cdh5.7.0.tar.gz
[[email protected] src]# cd hadoop-2.6.0-cdh5.7.0/
[[email protected] hadoop-2.6.0-cdh5.7.0]# mkdir tmp 

2.修改配置檔案

[[email protected] hadoop-2.6.0-cdh5.7.0]# cd etc/hadoop

1)core-site.xml

<configuration>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/usr/local/src/hadoop-2.6.0-cdh5.7.0/tmp</value>
        </property>
        <property>
                <name>fs.default.name</name>
                <value>hdfs://masteractive:9000</value>
        </property>
</configuration>

預設的hadoop.tmp.dir是/tmp/hadoop-${user.name},此時有個問題就是NameNode會將HDFS的元資料儲存在這個/tmp目錄下,如果作業系統重啟了,系統會清空/tmp目錄下的東西,導致NameNode元資料丟失,應該修改這個路徑。

fs.default.name是namenode的RPC互動埠,預設是8020,這裡改成9000是為了今後在spark中不會有埠衝突的問題。

2)hadoop-env.sh

export JAVA_HOME=/usr/local/src/jdk1.8.0_144  #新增java路徑

3)mapred-site.xml

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
</configuration>

指定mapreduce執行在yarn框架上。

4) hdfs-site.xml

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>3</value>
        </property>
</configuration>

dfs.replication配置HDFS儲存時資料的備份數量。

5)yarn-env.sh

export JAVA_HOME=/usr/local/src/jdk1.8.0_144 #配置jdk路徑

6)yarn-site.xml

<configuration>
	<property> 
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>masteractive</value>
        </property>
</configuration>

NodeManager上執行的附屬服務,需配置成mapreduce_shuffle,才可執行MapReduce程式。yarn.resourcemanager.hostname指定了Resourcemanager執行在哪個節點上。

7)slaves

masteractive
masterstandby
slave1
slave2

如果要配置偽分散式,主節點masteractive也作為slave節點。

8)分發hadoop到從節點

[[email protected] src]# scp-rp hadoop-2.6.0-cdh5.7.0 slave1:/usr/local/src/ #同理傳送給slave2和masterstandby

9)配置hadoop環境變數

export HADOOP_HOME=/usr/local/src/hadoop-2.6.0-cdh5.7.0
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin

3.啟動hadoop

[[email protected] bin]# ./hadoop namenode -format
[[email protected] hadoop-2.6.0-cdh5.7.0]# ./sbin/start-all.sh
[[email protected] hadoop]# jps
118561 DataNode
118446 NameNode 

【注:有時候會發現DataNode未啟動的問題,這很可能是clusterid的問題,因為如果多次格式化namenode,會導致主從的clusterid不一致。解決方法:刪除tmp目錄,目的是刪除裡面dfs資料夾下的data和name目錄,之後再建立tmp目錄,重新格式化即可。】

如果遇到主機無法用域名ping通虛擬機器的問題,則修改C:\Windows\System32\drivers\etc的hosts,新增內容如下:

192.168.101.101masteractivemasteractive

到這裡,就把hadoop的虛擬機器環境搭建起來了,再繼續學習時,將會安裝其他元件,例如zookeeper、hive、HBASE、flume、kafka、storm、spark等等,在學習這些元件時,都有詳細安裝說明。

相關推薦

資料基礎學習-1.CentOS-7.0環境安裝

一、CentOS7系統安裝和基礎配置1.安裝CentOS71)在電腦上安裝虛擬機器軟體VMworkstation12pro,並準備CentOS-7.0-1406-x86_64-DVD.iso映象檔案。2)開啟VMware,新建虛擬機器,選擇自定義安裝。這裡可以將虛擬機器命名,

資料基礎(五)從零開始安裝配置Hadoop 2.7.2+Spark 2.0.0到Ubuntu 16.04

raw to spark 0 install ubuntu 14.04.01 desktop x64 1 system基礎配置 《以下都是root模式》 1.3 root password sudo passwd root 1.5 root登入選項 a.在terminal下

資料基礎1)zookeeper原始碼解析

五 原始碼解析   public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING;}zookeeper伺服器狀態:剛啟動LOOKING,follower是FOLLOWING,leader是LEADING,observer是

資料基礎學習路線(從零開始)

大資料已經火了很久了,一直想了解它學習它結果沒時間,瞭解了一些資料,結合我自己的情況,整理了一個學習路線,。 學習路線 Linux(shell,高併發架構,lucene,solr) Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,

【原創】資料基礎之Spark(7)spark讀取檔案split過程(即RDD分割槽數量)

spark 2.1.1 spark初始化rdd的時候,需要讀取檔案,通常是hdfs檔案,在讀檔案的時候可以指定最小partition數量,這裡只是建議的數量,實際可能比這個要大(比如檔案特別多或者特別大時),也可能比這個要小(比如檔案只有一個而且很小時),如果沒有指定最小partition數量,初始化完成的

資料基礎學習筆記(安裝CDH)

CM安裝1.安裝Cloudera manager server,agent       mkdir /opt/cloudera-manager       tar -zxvf cloudera-manage

資料基礎學習筆記(安裝CDH的環境配置)

1.下載軟體地址((以centos7.4)) CDH安裝包地址: http://archive.cloudera.com/cdh5/parcels/5.14.0/ CDH-5.14.0-1.cdh5.14.0.p0.24-el7.parcel CDH-5.14.0-1.cdh5.14.0.p0.

CentOS-7.0.中安裝與配置Tomcat-7的方法

代碼 accept iptables jdk1.7 ews 啟動 state cat 解決方案 轉自:http://www.linuxidc.com/Linux/2015-08/122241.htm 安裝說明 安裝環境:CentOS-7.0.1406安裝方式:源碼安裝

Centos 7.0 編譯安裝LAMP(Linxu+apache+mysql+php)之源碼安裝Apache (一)

mysql apache mysql編譯安裝 apache編譯安裝 lamp編譯安裝 Apache 簡介: Apache是世界使用排名第一的Web服務器軟件。它可以運行在幾乎所有廣泛使用的計算機平臺上,由於其跨平臺和安全性被廣泛使用,是最流行的Web服務器端軟件之一。它快速、可靠

Centos 7.0 編譯安裝LAMP(Linxu+apache+mysql+php)之源碼安裝Mysql (二)

php mysql apache mysql 簡介: MySQL是一個關系型數據庫管理系統,關系數據庫將數據保存在不同的表中,這樣就增加了速度並提高了靈活性。目前其屬於 Oracle 旗下產品。MySQL 是最流行的關系型數據庫管理系統之一,在 WEB 應用方面,MySQL是最好的 RD

Centos 7.0 編譯安裝LAMP(Linxu+apache+mysql+php)之源碼安裝php (三)

lamp apache 源碼編譯lamp php mysql centos 7 編譯安裝lamp PHP簡介: PHP(外文名:PHP: Hypertext Preprocessor,中文名:“超文本預處理器”)是一種通用開源腳本語言。語法吸收了C語言、Java和Perl的特

CentOS 7.0系統安裝配置圖解教程

none proto spa 同時 -a network 配置文件 最小 自動啟用 CentOS 7.0系統安裝配置圖解教程 說明: 截止目前CentOS 7.x最新版本為CentOS 7.0,下面介紹CentOS 7.0的具體安裝配置過程 服務器相關設置

資料入門(1)準備linux環境

1、安裝vmware  2、新建虛擬機器 file - new virtual machine install disc image file(iso)    選擇映象檔案 選擇虛擬機器安裝路徑,方便以後copy 3、設定虛擬機器ip

Linux CentOS 7.0線上安裝MySQL 5.7版本

1、配置YUM源 在MySQL官網中下載YUM源rpm安裝包:http://dev.mysql.com/downloads/repo/yum/ 下載mysql源安裝包 shell> wget http://dev.mysql.com/get/mysql57-commu

資料晉級之路(7)Storm安裝及使用

  一、Apache Storm簡介 Apache Storm簡介 Storm是一個分散式的,可靠的,容錯的資料流處理系統。Storm叢集的輸入流由一個被稱作spout的元件管理,spout把資料傳遞給bolt, bolt要麼把資料儲存到某種儲存器,要麼把資料傳遞

VM安裝CentOS 7.0系統安裝配置圖解教程

前言:安裝Linux是每一個初學者的門檻,只要邁過去就會覺得越學越有意思 準備工具: VMware (點我進入下載地址) CentOS 7(點我進入下載地址) 下載好了那就開始吧,請扶好,開車了!!!    討論Q群192193770 一.

CentOS 7.0安裝和配置 VNC 服務器

run 雙引號 我們 rhel 7 control linux fault 系統管理員 daemon 作為一個系統管理員,大多數時間是通過網絡管理服務器的。在管理服務器的過程中很少會用到圖形界面,多數情況下我們只是用 SSH 來完成我們的管理任務。在這篇文章裏,我們將配置

CentOS 7.0安裝Python3.6

ncurses pen devel str div tar font eve size CentOS 7.0自帶Python2.7 安裝Python3.6步驟 1.安裝依賴 yum install -y zlib-devel bzip2-devel

CentOS 7.5環境安裝Vagrant詳解

Vagrant是一個用於構建和管理虛擬機器環境的開源命令列工具。預設情況下,Vagrant可以在VirtualBox,Hyper-V和Docker之上配置計算機,但可以通過Vagrant外掛系統安裝許多其他提供程式,如Libvirt(KVM),VMware和AWS。 開發人員主要使用Vagrant輕鬆設定與

centos 7.2 環境安裝Zabbix 3.4.6

Zabbix 簡介 zabbix(音同 zæbix)是一個基於WEB介面的提供分散式系統監視以及網路監視功能的企業級的開源解決方案。 zabbix能監視各種網路引數,保證伺服器系統的安全運營;並提供靈活的通知機制以讓系統管理員快速定位/解決存在的各種問題。