hadoop梳理
Hadoop簡單介紹
Hadoop是apache基金會組織的一個頂級專案,其核心為HDFS和MapReduce,HDFS為海量的資料提供儲存,而MapReduce為海量的資料提供計算,官網:http://hadoop.apache.org 。
在Apache Hadoop的基礎上,Cloudera公司將其進行商業化改進和更新,它的發行版本就是CDH(Cloudera Distribution Hadoop),CDH官網:http://www.cloudera.com 。
下載地址:
CDH4.x:http://archive.cloudera.com/c...
CDH5.x:http://archive.cloudera.com/c...
CDH5.3.6文件:http://archive.cloudera.com/c...
Apache Hadoop :http://archive.apache.org/dis...
Apache Hadoop文件:http://hadoop.apache.org/docs
hadoop啟動後會至少有五個程序。
ResourceManager
NodeManager
NameNode
NameNode節點的主要功能是管理系統的元資料,負責管理檔案系統的命令空間,記錄檔案資料塊在DataNode節點上的位置和副本資訊,協調客戶端對檔案系統的訪問,以及記錄名稱空間的改動和本身屬性的變動。
DataNode
DataNode節點的主要功能就是負責節點所在物理節點上的儲存管理。
SecondaryNameNode
啟動命令
啟動當前節點的服務,如namenode、secondarynamenode、datanode、journalnode、dfs、dfsadmin、fsck、balancer、zkfc等:
$HADOOP_HOME/sbin/hadoop-daemon.sh start namenode $HADOOP_HOME/sbin/hadoop-daemon.sh start datanode
注意:hadoop-daemons.sh其實就是在hadoop-daemon.sh的基礎上還呼叫了salves.sh,通知其他機器執行命令,也就是說hadoop-daemon.sh只對一臺機器起作用,但是hadoop-daemons.sh會對多臺機器起作用。
yarn-daemon.sh
同理。
或者分兩個模組啟動hdfs、yarn。
hdfs裡面按順序分別呼叫hadoop-daemons.sh指令碼啟動namenode,datanode,secondarynamenode,journalnode,zkfc。
stop-dfs.sh和start-dfs.sh一樣,按照啟動的順序呼叫hadoop-daemons.sh來關閉服務程序;
yarn裡面按順序分別呼叫yarn-daemons.sh指令碼啟動resourcemanager,nodemanager服務。
stop-yarn.sh和start-yarn.sh一樣,按照啟動的順序呼叫yarn-daemons.sh來關閉服務程序。
$HADOOP_HOME/sbin/start-dfs.sh $HADOOP_HOME/sbin/start-yarn.sh
一個命令同時啟動兩個模組:
$HADOOP_HOME/sbin/start-all.sh