1. 程式人生 > >Hadoop2.8.4安裝&MapReduce基礎

Hadoop2.8.4安裝&MapReduce基礎

eno 設置 apache property 軟件 容錯 大數 映射 配置環境變量

hdfs的副本的配置
修改hdfs-site.xml文件
<property>
<name>
dfs.namenode.secondary.http-address
</name>
<value>hd-02:50090</value>
</property>
需要同步到其它機器:
scp hdfs-site.xml hd-02:$PWD
hadoop啟動方式
1)啟動hdfs集群
$ start-dfs.sh
2)啟動yarn集群
$ start-yarn.sh
3)啟動hadoop集群
$ start-all.sh
大數據幹什麽的?
1)海量數據的存儲(mysql/orcale)

分布式文件系統hdfs
dfs->Hdfs
mapreduce->mapreduce
bigtable->hbase
分而治之!
2)海量數據的計算
分布式計算框架mapreduce
配置checkpoint時間
<property>
<name>dfs.namenode.checkpoint.period</name>
<value>7200</value>
</property>
hadoop­2.8.4安裝部署
1)準備工作
設置主機名:vi /etc/hostname
註意:需要重啟 reboot
設置映射:vi /etc/hosts
設置免密登錄:ssh-keygen
ssh-copy-id hd-01
...
2)安裝jdk
上傳安裝包
CRT:alt+p
解壓
tar -zxvf .tar.gz
配置環境變量
export JAVA_HOME=/root/hd/jdk1.8.0_141
export PATH=$PATH:$JAVA_HOME/bin
註意:需要source /etc/profile
分發jdk
scp jdk hd-02:/root/hd
scp /etc/profile hd-02:/etc/
source /etc/profile
3)安裝hadoop
上傳安裝包
alt + p
解壓
tar -zxvf .tar.gz
修改配置文件
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
配置環境變量
export HADOOP_HOME=/
export PATH=$PAYH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
修改slaves文件加入從節點
格式化namenode
hadoop namenode -format
啟動:start-all.sh
hadoop­MapReduce
官方:Apache™Hadoop®項目開發了用於可靠,可擴展的分布式計算的開源軟件。
Apache Hadoop軟件庫是一個框架,允許使用簡單的編程模型跨計算機集群分布式處理
大型數據集。它旨在從單個服務器擴展到數千臺計算機,每臺計算機都提供本地計算和
存儲。該庫本身不是依靠硬件來提供高可用性,而是設計用於檢測和處理應用層的故
障,從而在計算機集群之上提供高可用性服務,每個計算機都可能容易出現故障。
阿裏的Flink(9000萬歐元) Blink
MapReduce分布式計算程序的編程框架。基於hadoop的數據分析的應用。
MR優點:
1)框架易於編程
2)可靠容錯(集群)
3)可以處理海量數據(1T+ PB+) 1PB = 1024TB
4)拓展性,可以通過動態的增減節點來拓展計算能力
MapReduce的思想
數據:海量單詞
hello reba
hello mimi
hello liya
mimi big
需求:對每個單詞出現的次數統計出來
思想:分而治之!
解決方式:
1)每個單詞記錄一次(map階段)
<hello,1> <reba,1> <hello,1> <mimi,1>
2)相同單詞的key不變,value累加求和即可(reduce階段)
<hello,1+1+1>
對數據進行計算

Hadoop2.8.4安裝&MapReduce基礎