1. 程式人生 > >理解MapReduce計算構架

理解MapReduce計算構架

p s img 結果 info win 創建文件 AR wordcount image

用Python編寫WordCount程序任務

程序

WordCount

輸入

一個包含大量單詞的文本文件

輸出

文件中每個單詞及其出現次數(頻數),並按照單詞字母順序排序,每個單詞和其頻數占一行,單詞和頻數之間有間隔

1.編寫map函數,reduce函數

  首先先創建文件

技術分享圖片

  然後編寫兩個函數

技術分享圖片

技術分享圖片

2.將其權限作出相應修改

技術分享圖片

3.本機上測試運行代碼

技術分享圖片

4.放到HDFS上運行

5.下載並上傳文件到hdfs上

  先用WINSCP把兩個txt文件傳到虛擬機

技術分享圖片

技術分享圖片

  然後上傳文件到hdfs

技術分享圖片

6.用Hadoop Streaming命令提交任務

  先找到Streaming的Jar包

技術分享圖片

  配置默認環境變量

技術分享圖片

  讓配置生效並測試

技術分享圖片

  編寫run.sh腳本程序

技術分享圖片

  運行run.sh

技術分享圖片

  查看運行結果

技術分享圖片

理解MapReduce計算構架