MapReduce在Map和Reduce過程新增依賴包辦法

阿新 • • 發佈：2018-12-20

MapReduce在map和reduce階段新增依賴包辦法

通常在MapReduce程式設計過程，大部分都是使用Hadoop jar的方式執行MapReduce程式，但是在開發map或reduce階段中會需要引入外部的包，Hadoop叢集環境並沒有這些依賴包。

前言

比如Reduce資料寫入Oracle需要新增Oracle的Driver依賴，還有寫入Orc檔案等需要orc-mapreduce、orc-core等包的依賴，可以在叢集中把這些包拷貝到叢集環境下，但是這樣Yarn的NodeManager全部節點都是新增，這樣是比較費勁的，此文章介紹更好的辦法解決此類問題。

實現原理

在Job提交前，把相關的包新增到JOB的快取中，並把依賴包上傳到HDFS目錄下，這樣就可以有效長久的解決此類問題.

實現步驟

例:MapReduce讀寫ORC檔案，Hadoop叢集環境並沒有MapReduceORC相關的包。

1. 把依賴包拷貝到Linux本節點/opt/bigdata/lib目錄下，如下圖

2. 把相關依賴包上傳到叢集的HDFS目錄下，如/apps/hive/libs目錄下，命令如下

hadoop fs -copyFromLocal /opt/bigdata/lib/* /apps/hive/libs/

3. 在MapReduce的Driver中新增這些依賴到Job快取中

Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
...
...
...
String depJarPath = "/app/hive/libs/";
String depJarNames = "orc-mapreduce-1.2.1.jar:orc-core-1.2.1.jar:hive-storage-api-2.1.1-pre-orc.jar:aircompressor-0.3.jar";
for(String depJarName : depJarNames.split(":")){
   job.addFileToClassPath(new Path(depJarPath + depJarName))
}
...

這樣在MapReduce執行Map和Reduce階段都會載入這幾個依賴包。

MapReduce在Map和Reduce過程新增依賴包辦法

MapReduce在map和reduce階段新增依賴包辦法

前言

實現原理

實現步驟

MapReduce在Map和Reduce過程新增依賴包辦法

Maven依賴包新增原始碼 Maven 下載 Sources 和 Javadoc

React框架搭建但頁面應用package.json基本包和依賴包

nginx 基礎的安裝部署和依賴包

android studio中新增RecyclerView的依賴包

Layer 建立和 lamdba function 建立和 API GateWay 配置和新增依賴

caffe依賴包安裝過程

spring 使用aop 缺少依賴包aspectjweaver.jar 和spring-aop.jar報錯

【vue】webpack 和 webpack-simple依賴包遷移注意事項

maven新增jar包依賴

NPM依賴包版本號和的區別及最佳實踐

AndroidStudio中新增依賴的三種方式以及如何引入so檔案和arr檔案

通過apt-get安裝軟體時碰到某個依賴包的版本和已有版本衝突的解決方法

Python虛擬環境在離線斷網環境下建立專案虛擬環境和安裝依賴包

Android Studio compile project新增一個本地專案依賴包時，提示程式包不存在

boot.img解包和打包過程

gradle複習(2)-eclipse中新增依賴jar包

Hadoop1.x: 詳解Shuffle過程---map和reduce資料互動的關鍵

spark程式打jar包，把程式包和依賴包分開

Android Studio新增依賴導包報紅

MapReduce在Map和Reduce過程新增依賴包辦法

MapReduce在map和reduce階段新增依賴包辦法

前言

實現原理

實現步驟

相關推薦