2018-08-04 期 MapReduce倒排索引編程案例2（jobControll方式）

阿新 • • 發佈：2018-08-04

基本正常 org gets [] pro stat context 控制器

1、第一階段MapReduce任務程序

package cn.itcast.bigdata.index;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

/**

* 利用MapReduce實現輸入多個文件中單詞在每個文件中出現的次數，輸出格式如下：

* hello (a.txt 2,b.txt 1,c.txt 4)

* tom (a.txt 5,b.txt 3)

* 實現方法：采用倒排索引算法並結合jobControll實現

* 本案例中所有的Mapper、Reducer、Job均采用匿名內部類實現

* @author songjq

public class IndexStepOne {

/**

* 第一階段Mapper處理後輸出數據格式為

* <k2> <v2>

* <hello:a.txt> <1>

* <hello:b.txt> <1>

* @author songjq

static class IndexStepOneMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

/**

* 格式：<hello-->a.txt,1><helle-->b.txt,1>

private Text tkey = new Text();

private IntWritable tvalue = new IntWritable(1);

@Override

protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

FileSplit inputSplit = (FileSplit) context.getInputSplit();

String fileName = inputSplit.getPath().getName();

String line = value.toString();

String[] split = line.split(" ");

for (String val : split) {

tkey.set(val + "-->" + fileName);

context.write(tkey, tvalue);

}

/**

* 第一階段Mapper輸出數據格式為

* <k2> <v2>

* <hello:a.txt> <1>

* <hello:b.txt> <1>

* 第一階段Reducer處理後輸出到HDFS數據格式為

* <k3> <v3>

* <hello> <a.txt-->2>

* <hello> <b.txt-->1>

* @author songjq

static class IndexStepOneReducer extends Reducer<Text, IntWritable, Text, LongWritable> {

private LongWritable tvalue = new LongWritable(0);

@Override

protected void reduce(Text key, Iterable<IntWritable> values, Context ctx)

throws IOException, InterruptedException {

long count = 0;

for(IntWritable value:values) {

count++;

}

tvalue.set(count);

ctx.write(key, tvalue);

}

2、第二階段MapReduce任務程序

package cn.itcast.bigdata.index;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

/**

* 利用MapReduce實現輸入多個文件中單詞在每個文件中出現的次數，輸出格式如下：

* hello (a.txt 2,b.txt 1,c.txt 4)

* tom (a.txt 5,b.txt 3)

* 實現方法：采用倒排索引算法並結合jobControll實現

* 本案例中所有的Mapper、Reducer、Job均采用匿名內部類實現

* @author songjq

public class IndexStepTwo {

/**

* 第二階段Mapper

* 第二階段Mapper輸入數據為第一階段Reducer輸出到HDFS的數據，格式為

* hello a.txt-->2

* hello b.txt-->1

* 通過第二階段Mapper處理，輸出數據格式為

* <k2> <v2>

* <hello> <a.txt-->2,b.txt-->1>

* @author songjq

static class IndexStepTwoMapper extends Mapper<LongWritable, Text, Text, Text>{

private Text tkey = new Text();

private Text tvalue = new Text();

@Override

protected void map(LongWritable key, Text value, Context context)

throws IOException, InterruptedException {

String line = value.toString();

String[] split = line.split("\t");

if(split.length>1) {

String[] split2 = split[0].split("-->");

tkey.set(split2[0]);

if(split2.length>1) {

tvalue.set(split2[1]+"-->"+split[1]);

context.write(tkey, tvalue);

}

/**

* 第二階段Reducer

* 通過第二階段Reducer處理後，為最終輸出結果，輸出格式為

* <k4> <v4>

* <hello> <(a.txt 2,b.txt 1)>

* @author songjq

static class IndexStepTwoReducer extends Reducer<Text, Text, Text, Text>{

private Text tval = new Text();

@Override

protected void reduce(Text key, Iterable<Text> values, Context ctx)

throws IOException, InterruptedException {

StringBuffer sb = new StringBuffer();

for(Text value:values) {

sb.append(value+" ");

}

tval.set(sb.toString());

ctx.write(key, tval);

}

3、利用jobControll來實現依賴任務的提交

package cn.itcast.bigdata.index;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.jobcontrol.JobControl;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import cn.itcast.bigdata.index.IndexStepOne.IndexStepOneMapper;

import cn.itcast.bigdata.index.IndexStepOne.IndexStepOneReducer;

import cn.itcast.bigdata.index.IndexStepTwo.IndexStepTwoMapper;

import cn.itcast.bigdata.index.IndexStepTwo.IndexStepTwoReducer;

/**

* 簡單的job串聯可以使用jobControll來實現更復雜的job的調度可以考慮用shell腳本來寫，或者幹脆用現成的任務調度工具oozie來做

* 這裏使用簡單的jobControll來實現兩個階段MapReduce任務依賴提交處理

* 由於第二階段的Mapper輸入需要依賴第一階段Reducer的輸出，因此可以利用jobControll來實現第二階段Mapper的等待，直到

* 第一階段Reducer輸出後，第二階段的job才開始提交處理

* 核心方法:

* controlledJob2.addDependingJob(controlledJob1);

* @author songjq

public class OnceSubmitClient {

public static void main(String[] args) throws Exception {

// 構造第一階段的基本job對象job1

Configuration conf1 = new Configuration();

Job job1 = Job.getInstance(conf1, "inexStepOne");

job1.setJarByClass(OnceSubmitClient.class);

job1.setMapperClass(IndexStepOneMapper.class);

job1.setReducerClass(IndexStepOneReducer.class);

job1.setMapOutputKeyClass(Text.class);

job1.setMapOutputValueClass(IntWritable.class);

job1.setOutputKeyClass(Text.class);

job1.setOutputValueClass(LongWritable.class);

FileInputFormat.setInputPaths(job1, new Path(args[0]));

FileOutputFormat.setOutputPath(job1, new Path(args[1]));

// 構造第二階段的基本job對象job2

Configuration conf2 = new Configuration();

Job job2 = Job.getInstance(conf2, "inexStepTwo");

job2.setJarByClass(OnceSubmitClient.class);

job2.setMapperClass(IndexStepTwoMapper.class);

job2.setReducerClass(IndexStepTwoReducer.class);

job2.setMapOutputKeyClass(Text.class);

job2.setMapOutputValueClass(Text.class);

job2.setOutputKeyClass(Text.class);

job2.setOutputValueClass(Text.class);

// 第二個job的輸出是第一個job的輸入

FileInputFormat.setInputPaths(job2, new Path(args[1]));

FileOutputFormat.setOutputPath(job2, new Path(args[2]));

// ControlledJob是基本的job的封裝

ControlledJob controlledJob1 = new ControlledJob(conf1);

// 將job1封裝到controlledJob1中去

controlledJob1.setJob(job1);

ControlledJob controlledJob2 = new ControlledJob(conf2);

// 將job2封裝到controlledJob2中去

controlledJob2.setJob(job2);

// 先構造一個job控制器

JobControl jobControl = new JobControl("index");

// 指定兩個job之間的依賴關系

controlledJob2.addDependingJob(controlledJob1);

// 向job控制器中添加job

jobControl.addJob(controlledJob1);

jobControl.addJob(controlledJob2);

// 創建一個線程去啟動jobControl

Thread thread = new Thread(jobControl);

thread.start();

// 如果job沒有運行完，主線程就等等

while (!jobControl.allFinished()) {

thread.sleep(500);

}

int succeedSize = jobControl.getSuccessfulJobList().size();

//0正常退出 1異常退出

System.exit(succeedSize == 2 ? 0 : 1);

}

2018-08-04 期 MapReduce倒排索引編程案例2（jobControll方式）

基本正常 org gets [] pro stat context 控制器 1、第一階段MapReduce任務程序package cn.itcast.bigdata.index;import java.io.IOException;import org.apache.ha

2018-08-03 期 MapReduce倒排索引編程案例1（Combiner方式）

pre true 輸出 hello pub 類型 rom 偏移 apr package cn.sjq.bigdata.inverted.index;import java.io.IOException;import org.apache.hadoop.conf.Config

2018-08-05 期 MapReduce實現每個單詞在每個文件中坐標信息統計

line 字符 count throws ase protect clas 行處理 tostring package cn.sjq.bigdata.inverted.index;import java.io.IOException;import java.util.Iter

2018-08-06 期 MapReduce MRUnit安裝及單元測試

程序數據 moc rgb 輸出 bte -- 輸入信息一、MRUnit測試jar包mrunit-1.1.0-hadoop2.jar第三方依賴MRUnit\apache-mrunit-1.1.0-hadoop1-bin\lib二、在現有工程裏面配置MRUnit單元測試1

2018-08-07 期 MapReduce模擬實現熱銷商品排行

utf java 數據傳遞進行 sta tex except 調用 class package cn.sjq.mr.sort;import java.io.IOException;import java.util.Comparator;import java.util.T

2018-08-10期 MapReduce實現雙色球近10年每個號碼中獎次數統計

[] set package orm sha ngs lds pub tca package cn.itcast.bigdata.shsq;import java.io.IOException;import org.apache.commons.lang.StringUti

MapReduce 倒排索引的實現

package cheryl.dhcc.mapreduce; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configu

MapReduce倒排索引概要

使用場景：主要用於索引，以提高搜尋資料速度例如百度搜索執行環境：windows下VM虛擬機器，centos系統，hadoop2.2.0，三節點，java 1.7 需要處理的資料為

Hadoop學習之網路爬蟲+分詞+倒排索引實現搜尋引擎案例

本專案實現的是：自己寫一個網路爬蟲，對搜狐(或者csdn)爬取新聞(部落格)標題,然後把這些新聞標題和它的連結地址上傳到hdfs多個檔案上，一個檔案對應一個標題和連結地址，然後通過分詞技術對每個檔案中的標題進行分詞，分詞後建立倒排索引以此來實現搜尋引擎的功能，建

mapreduce 高級案例倒排索引

大數據 hadoop mapreduce 倒排索引理解【倒排索引】的功能熟悉mapreduce 中的combine 功能根據需求編碼實現【倒排索引】的功能，旨在理解mapreduce 的功能。一：理解【倒排索引】的功能 1.1 倒排索引：由於不是根據文檔來確定文檔

大數據MapReduce入門之倒排索引

tsp 功能 nbsp bstr 生成 path 需要 turn 們的　　在上一篇博客中我們講解了MapReduce的原理以及map和reduce的作用，相信你理解了他們的原理，今天講解的是mapreduce 的另一個就是倒排索引。什麽是倒排索引呢？倒排索

MapReduce框架學習（4）——倒排索引程式實戰

參考： JeffreyZhou的部落格園《Hadoop權威指南》第四版 0 倒排索引（Inverted Index）前面我們執行過WordCount例子，得到的單詞計數結果，如果輸入3篇文件，得到

Lucene全文檢索之倒排索引實現原理、API解析【2018.11】

》官網 http://lucene.apache.org/ 下載地址：https://mirrors.tuna.tsinghua.edu.cn/apache/lucene/java/7.5.0/ 》 Lucene的全文檢索是指什麼：程式掃描文件

MapReduce--帶有詞頻統計的倒排索引演算法

倒排索引：根據單詞來查詢文件實現：單詞1 文件1：次數，文件2：次數，文件5：次數單詞1 平均次數單詞2 文件3：次數，文件6：次數單詞2 平均次數 Mapper: 輸出： key: term- ->docid value: 1 public static cla

MapReduce入門（三）倒排索引

什麼是倒排索引？倒排索引源於實際應用中需要根據屬性的值來查詢記錄。這種索引表中的每一項都包括一個屬性值和具有該屬性值的各記錄的地址。由於不是由記錄來確定屬性值，而是由屬性值來確定記錄的位置，因而稱為倒排索引(inverted index)。帶有倒排索

MapReduce實現倒排索引

倒排索引這個名字讓人很容易誤解成A-Z，倒排成Z-A；但實際上缺不是這樣的。一般我們是根據問檔案來確定檔案內容，而倒排索引是指通過檔案內容來得到文件的資訊，也就是根據一些單詞判斷他在哪個檔案中。知道了這一點下面就好做了：準備一些元資料下面我們要進行兩次MapR

倒排索引的分散式實現（MapReduce程式）

package aturbo.index.inverted; import java.io.IOException; import java.util.HashSet; import org.apache.commons.lang3.StringUtils; imp

Hadoop 之 MapReduce 的工作原理及其倒排索引的建立

一、Hadoop 簡介下面先從一張圖理解MapReduce得整個工作原理下面對上面出現的一些名詞進行介紹ResourceManager：是YARN資源控制框架的中心模組，負責叢集中所有的資源的統一管理和分配。它接收來自NM(NodeManager)的彙報，建立AM，

一些演算法的MapReduce實現——倒排索引實現

/** * input format * docid<tab>doc content * * output format * (term:docid)<tab>(tf in this doc) * */ public s

mapreduce系列（6）---倒排索引的建立

一、概述如我們有三個檔案： a.txt,b.txt,c.txt tian jun li lei han meimei li lei han meimei li lei han meimei tian jun gege jiejie tian jun

2018-08-04 期 MapReduce倒排索引編程案例2（jobControll方式）

相關推薦