1. 程式人生 > >Hadoop單機版

Hadoop單機版

1.Hadoop是Java開發需要在伺服器上安裝相對應的JDK1.7 ps:Linux預設自帶JDK–openJDK–>Hadoop叢集千萬不要使用這個 2.將hadoop安裝包上傳到伺服器hadoop版本2.x版本–>2.7.1 ps:實際開發中如需要其他安裝包,請去官網下載 3.進行解壓到 /opt/software/下面 在這裡插入圖片描述 4.hadoop對應目錄 bin:hadoop最近的管理指令碼和使用指令碼的目錄 etc:Hadoop配置檔案所在的目錄 包core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml ps:hadoop1.x版本是沒有 yarn hadoop2.x之後提供的yarn include:對外提供的程式設計庫檔案(具體存在著靜態和動態連結,這些檔案都是C++定義,通常適用於MapReduce) lib:包含hadoop對外提供的程式設計靜態和動態庫,與include目錄中的檔案一起使用 libexec:各種服務對應上的shell配置檔案所在的目錄 sbin:hadoop管理指令碼的目錄,包括HDFS和YARN的各種啟動服務。 share:hadoop各個模組編譯後jar包所在目錄

5.註冊環境變數 vi /etc/profile 在這裡插入圖片描述

讓環境變數生效:source /etc/profile 6.若在命令列中寫had,使用tab鍵補齊,就證明 檔案配置成功了 在這裡插入圖片描述 7.配置/opt/software/hadoop-2.7.1/etc/hadoop/hadoop-env.sh 在這裡插入圖片描述

案例演示:

上傳檔案之後 運行了一個程式,這個程式時wordCount.txt hadoop jar /opt/software/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7wordcount /root/input/wordCount.txt /root/output

hadoop 是命令 執行jar包 路徑:是當前jar包做存在的路徑 wordcount是當前jar的類(這個類實現了單詞統計的方法) 後面的第一個路徑是資料檔案所存在的路徑 第二個路徑是得到結果輸出的路徑(不需要建立,成功之後自動建立) 在這裡插入圖片描述 輸出路徑中存在和這個兩個檔案 -SUCCESS 代表成功了 資料在part-r-00000檔案中 ps: 不要有輸出路徑 因為是直接列印的 hadoop jar /opt/software/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar sudoku /root/input2/sodoku.txt ps:電腦效能不是特別好的就不要做了,算pi hadoop jar /opt/software/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar pi 100 10000 第一個值 100指的是執行100次map任務 第二個值 每個次map 任務要提交10000個點 修改最後的點值即可–>用於測試電腦效能