1. 程式人生 > >Apache Hadoop 入門教程第二章

Apache Hadoop 入門教程第二章

大數據 hadoop

Apache Hadoop 單節點上的安裝配置

下面將演示快速完成在單節點上的 Hadoop 安裝與配置,以便你對 Hadoop HDFS 和 MapReduce 框架有所體會。

  1. 先決條件

支持平臺:

GNU/Linux:已經證實了 Hadoop 在 GNU/Linux 平臺上可以支持 2000 個節點的集群;
Windows。本文所演示的例子都是在 GNU/Linux 平臺上運行,若在 Windows 運行,可以參閱 http://wiki.apache.org/hadoop/Hadoop2OnWindows。
所需軟件:

Java 必須安裝。Hadoop 2.7 及以後版本,需要安裝 Java 7,可以是 OpenJDK 或者是 Oracle(HotSpot)的 JDK/JRE。其他版本的 JDK 要求,可以參閱 http://wiki.apache.org/hadoop/HadoopJavaVersions;

ssh 必須安裝並且保證 sshd 一直運行,以便用 Hadoop 腳本管理遠端Hadoop 守護進程。下面是在 Ubuntu 上的安裝的示例:
$ sudo apt-get install ssh
$ sudo apt-get install rsync
1
2

  1. 下載

下載地址在 http://www.apache.org/dyn/closer.cgi/hadoop/common/。

  1. 運行 Hadoop 集群的準備工作

解壓所下載的 Hadoop 發行版。編輯 etc/hadoop/hadoop-env.sh 文件,定義如下參數:

設置 Java 的安裝目錄

export JAVA_HOME=/usr/java/latest

1
2
嘗試如下命令:

$ bin/hadoop
1
將會顯示 hadoop 腳本的使用文檔。

現在你可以用以下三種支持的模式中的一種啟動 Hadoop 集群:

本地(單機)模式
偽分布式模式
完全分布式模式

  1. 單機模式的操作方法

默認情況下,Hadoop 被配置成以非分布式模式運行的一個獨立 Java 進程。這對調試非常有幫助。

下面的實例將已解壓的 conf 目錄拷貝作為輸入,查找並顯示匹配給定正則表達式的條目。輸出寫入到指定的 output 目錄。

$ mkdir input
$ cp etc/hadoop/.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output ‘dfs[a-z.]+‘

$ cat output/
1
2
3
4

  1. 偽分布式模式的操作方法

Hadoop 可以在單節點上以所謂的偽分布式模式運行,此時每一個 Hadoop 守護進程都作為一個獨立的 Java 進程運行。

配置

使用如下的:

etc/hadoop/core-site.xml:

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
1
2
3
4
5
6
etc/hadoop/hdfs-site.xml:

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
有興趣的可以繼續看下一章

很多人都知道我有大數據培訓資料,都天真的以為我有全套的大數據開發、hadoop、spark等視頻學習資料。我想說你們是對的,我的確有大數據開發、hadoop、spark的全套視頻資料。
如果你對大數據開發感興趣可以加口群領取免費學習資料: 763835121

Apache Hadoop 入門教程第二章