1. 程式人生 > >實訓任務02:Hadoop基礎操作.md

實訓任務02:Hadoop基礎操作.md

實訓任務02:Hadoop基礎操作

實訓1:建立測試檔案上傳HDFS,並顯示內容

需求說明:

在本地計算機上建立測試檔案helloHadoop.txt,輸入任意3行記錄。將helloHadoop.txt上傳到HDFS目錄/user/root/filetest/下,並以HDFS命令顯示 它的內容(提示:HDFS目錄/user/root/filetest並不存在,因此需要先建立它。

實現思路及步驟:

  1. 用vi編輯器編寫helloHadoop.txt檔案。

  2. 啟動hdfs

  3. 用hdfs dfs –put 命令上傳檔案到HDFS。

操作步驟如下(請截圖)

實訓2 統計檔案中所有單詞的平均長度

需求說明:

在叢集伺服器master的本地目錄上有日誌檔案root/install.log,要求對檔案中的單詞進行統計,求單詞的平均長度。

實現思路及步驟:

  1. 上傳/root/install.log到HDFS目錄/user/root/

  2. 使用Hadoop官方的示例程式包hadoop-mapreduce-eamples-2.6.4.jar,以hadoop.jar命令提交MapReduce任務。參考程式碼如下:

Hadoop jar \

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6…jar \

Wordmean \

/user/root/install.log \

/user/root/wordmean

  1. 檢視輸出結果。

執行結果如下:(請截圖)

實訓3 查詢與中斷MapReduce任務

需求說明:

使用Web瀏覽器檢視在實訓2中執行過的MapReduce任務。依次提交3個統計單詞和度的MapReduce任務,檢視當前叢集的計算資源使用情況,以及任務列表資訊。中斷第2個任務,觀察後續任務的執行情況。

實現思路及步驟:

  1. 單擊列表中實訓2中提交的任務連結,查詢執行時間與完成狀態。

  2. 在叢集伺服器終端,分別提交3個統計單詞長度的MapReduce任務,具體執任命令參考實訓2程式碼。注意,輸出目錄必須重新指定,並且3個任務參應的輸出目錄是不同的。

  3. 在任務列表介面上,單擊任務2並中斷它。

各步驟執行結果如下:(請截圖)

實驗結果分析與總結

(注:必須寫,這裡填寫你的實驗達到的預期效果,是否按時完成,遇到哪些問題?如何解決的?還需要學習和提高的地方?下一步的計劃和打算?)