1. 程式人生 > >Apache Hadoop 入門教程第三章

Apache Hadoop 入門教程第三章

hadoop 大數據

免密碼 ssh 設置

現在確認能否不輸入口令就用 ssh 登錄 localhost:

$ ssh localhost
1
如果不輸入口令就無法用 ssh 登陸 localhost,執行下面的命令:

$ ssh-keygen -t rsa -P ‘‘ -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
1
2
3
執行

下面演示本地運行一個 MapReduce 的 job,以下是運行步驟。

(1)格式化一個新的分布式文件系統:

$ bin/hdfs namenode -format

1
(2)啟動 NameNode 守護進程和 DataNode 守護進程:

$ sbin/start-dfs.sh
1
Hadoop 守護進程的日誌寫入到 $HADOOP_LOG_DIR目錄(默認是 $HADOOP_HOME/logs)

(3)瀏覽 NameNode 的網絡接口,它們的地址默認為:

NameNode - http://localhost:50070/
1
(4)創建 HDFS 目錄來執行 MapReduce 的 job:

$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/<username>
1
2
(5)將輸入文件拷貝到分布式文件系統:

$ bin/hdfs dfs -put etc/hadoop input

1
(6)運行發行版提供的示例程序:

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output ‘dfs[a-z.]+‘
1
(7)查看輸出文件

將輸出文件從分布式文件系統拷貝到本地文件系統查看:

$ bin/hdfs dfs -get output output
$ cat output/*****
1
2
或者,在分布式文件系統上查看輸出文件:

$ bin/hdfs dfs -cat output/*
1
(8)完成全部操作後,停止守護進程:

$ sbin/stop-dfs.sh
**需要學習的可以繼續看下一

章。**

很多人都知道我有大數據培訓資料,都天真的以為我有全套的大數據開發、hadoop、spark等視頻學習資料。我想說你們是對的,我的確有大數據開發、hadoop、spark的全套視頻資料。
如果你對大數據開發感興趣可以加口群領取免費學習資料: 763835121

Apache Hadoop 入門教程第三章