hadoop 一個Job多個MAP與REDUCE的執行

阿新 • • 發佈：2019-02-15

在hadoop 中一個Job中可以按順序執行多個mapper對資料進行前期的處理，再進行reduce，經reduce後的結果可經個經多個按順序執行的mapper進行後期的處理，這樣的Job是不會儲存中間結果的，並大大減少了I/O操作。

例如：在一個Job中，按順序執行 MAP1->MAP2->REDUCE->MAP3->MAP4 在這種鏈式結構中，要將MAP2與REDUCE看成這個MAPREDUCE的核心部分(就像是單箇中的MAP與REDUCE)，並且partitioning與shuffling在此處才會被應用到。所以MAP1作為前期處理，而MAP3與MAP4作為後期處理。

Configuration conf = getConf(); JobConf job = new JobConf(conf); job.setJobName(“ChainJob”); job.setInputFormat(TextInputFormat.class); job.setOutputFormat(TextOutputFormat.class); FileInputFormat.setInputPaths(job, in); FileOutputFormat.setOutputPath(job, out); JobConf map1Conf = new JobConf(false); ChainMapper.addMapp(job, Map1.class, LongWritable.class, Text.class, Text.class, Text.class, true, map1Conf); //將map1加入到Job中 JobConf map2Conf = new JobConf(false); ChainMapper.addMapper(job, BMap.class, Text.class, Text.class, LongWritable.class, Text.class, true, map2Conf); /將map2加入到Job中 JobConf reduceConf = new JobConf(false); ChainReducer.setReducer(job, Reduce.class, LongWritable.class, Text.class, Text.class, Text.class, true, reduceConf); /將reduce加入到Job中 JobConf map3Conf = new JobConf(false); ChainReducer.addMapper(job, Map3.class, Text.class, Text.class, LongWritable.class, Text.class, true, map3Conf); /將map3加入到Job中 JobConf map4Conf = new JobConf(false); ChainReducer.addMapper(job, Map4.class, LongWritable.class, Text.class, LongWritable.class, Text.class, true, map4Conf); //將map4加入到Job中 JobClient.runJob(job); 注：上一個的輸出是一下的輸入，所以上一個的輸出資料型別必須與下一個輸入的資料型別一樣

***************************************************

addMapper中的引數

public static <K1,V1,K2,V2> void
addMapper(JobConf job,
                    Class<? extends Mapper<K1,V1,K2,V2>> klass,
                    Class<? extends K1> inputKeyClass,
                    Class<? extends V1> inputValueClass,
                    Class<? extends K2> outputKeyClass,
                    Class<? extends V2> outputValueClass,
                    boolean byValue,
                    JobConf mapperConf)

hadoop 一個Job多個MAP與REDUCE的執行

hadoop 一個Job多個MAP與REDUCE的執行

Hadoop Job 中 Map 與 Reduce 數量控制

Map之一個Key存多個Value的MultiValueMap(一個鍵多個值)

關於Hadoop分散式計算：多個Map分佈在不同節點上執行

【QT】:QT實現一個訊號與多個槽的關聯和實現多個訊號與一個槽的關聯

關於多個ListView與ScrollView滑動衝突的一個簡單處理方法

arcgis-“一個或多個已經新增圖層的範圍與關聯空間參考不一致”“Arcmap不能繪製一個或者多個圖層”

fatal error LNK1169：找到一個或多個重定義的符號

對一個或多個實體的驗證失敗。有關詳細信息，請參閱“EntityValidationErrors”屬性。

jquery 實現一個頁面多個tab頁

導出Excel工具類（一個主表多個明細表）

一個頁面多個tab選項卡效果

js 獲取url的參數值一個或多個參數

fatal error LNK1169: 找到一個或多個多重定義的符號

Object.assign() 從一個或多個源對象復制到目標對象

js將數組中一個或多個字段相同的子元素中合並

js 一個或多個一維數組，算出元素之間相互組合的所有情況

Windows無法安裝到這個磁盤下，分區包含一個或多個不支持安裝的動態卷

一個頁面多個ng-app指令

一例對一個或多個實體的驗證失敗。有關詳細信息，請參閱“EntityValidationErrors”屬性的解決

hadoop 一個Job多個MAP與REDUCE的執行

相關推薦