MapReduce框架學習（4）——倒排索引程式實戰

阿新 • • 發佈：2018-11-20

參考： JeffreyZhou的部落格園

《Hadoop權威指南》第四版

0 倒排索引（Inverted Index）

前面我們執行過WordCount例子，得到的單詞計數結果，如果輸入3篇文件，得到的結果是這3個文件所有的單詞總數計數，得到如下這樣

WordCount

但是，如果我想知道“hello”這個單詞在各個文件中的計數情況呢？也就是最後得到的結果是：

理解一下，上面的結果，是根據文件來查單詞的頻率，下面是根據單詞來查在文件中出現的頻率，所以稱為倒排索引（Inverted Index）。
　　那麼，這個結果又是咋形成的呢？

4.1 輸入輸出過程

首先是map過程，輸入的是文字，一條條的行記錄，輸出呢？應該包含：單詞，所在文件編號，單詞數。那麼第一個問題來了，map的輸入是Key-value，這有三個引數，誰是key是，誰是value呢？不夠分啊。分析一下，數量是需要累計的，所以單詞數肯定在value裡，單詞在key裡，文件編號呢？這個引數不能進行累加等操作，不同檔案內的相同單詞也不能累加，所以它應該放在key中。所以這就是一個複合鍵，value則是預設的數量1。map後的輸出應該是這樣：

key	value
Hello;T1	1
world;T1	1
Hello;T1	1
Bye;T3	1
…	…

combine過程，此時的combine的輸入就應該是剛才map定義的複合鍵型別了，在此時將上述的key-value格式進行一輪合併，這個輸出應該不改變資料型別，照樣傳到下一環節，這一輪的輸出應該是：

key	value
Hello;T1	2
world;T1	1
Bye;T3	3
…	…

注：
此處與參考教程中有點不同，上面的按照combine的原理進行推理的，但按照原始碼，其輸出應該是：

key	value
Hello;T1	T1:2
world;T1	T1:1
Bye;T3	T3:3
…	…

reduce過程，此時只需要按照相同的key（此處為複合鍵中的單詞），將不同map的value結果進行合併處理，就可以得到最終結果：

key	value
Hello	T1:2；T2:1
world	T1:1；T2:2
Bye	T2:1；T3:3
…	…

那麼各個環節的資料格式變換也看到了，接下來就用程式碼來實現各個環節吧。

有一點需要說明：以下程式中有些程式碼已經`deprecated`，現在java語法已經有更好的實現方法，但本例中還是照抄過來，學習其思路和框架後，再進行修改。
在學習中，不用糾結於具體的語法，而且其邏輯思路。

4.2 map類

前面說到了，這個key是複合的，所以常用的幾種基本型別已經滿足不了我了，先來設定一個複合鍵MyType.class。

public static class Mytype implements WritableComparable<MyType> {
	public MyType() {}
     
 // 單詞
     private String word;
     public void setWord(String word) {this.word = word;}
     public String getWord() {return word;}
 // 文件編號
	 private String filePath;
     public void setFile(String filePath) {this.filePath = filePath;}
     public String getFile() {return filePath;}

 // 序列化
      @Override
      public void write(DataOutput out)  throws IOException {
      	out.writeUTF(word);
      	out.writeUTF(filePath);
      }
 
     
 // 
      @Override
	  public void readFile(DataInput in) throws IOException {
	  	word = in.readUTF();
	  	filePath = in.readUTF();
	  }
     
 // 比較器
      @Override
      public int compareTo(MYtype arg0) {
      	if (word != aeg0.word) {
      		return word.compareTo(arg0.word);
      	return filePath.compareTo(arg0.filePath);
      	}
	  }

然後，再來寫map函式：

public static class InvertedIndexMapper extends Mapper<Object, Text, MyType, Text> {
	public void map(Object key, Text value, Context context) 
	throws IOException, InterruptedException {
		FileSplit split = (FileSplit)context.getInputSplit();
		StringTokenizer itr = new StringTonizer(value.toString());
		while(itr.hasMoreTokens()) {
			MyType key = new MyType();
			key.setWord(itr.nextToken());
			key.setFile(split.getPath().toUri().getPath().replace("/user/hadoop/input/",""));
			context.write(key,new Text("1"));
		}
	}
}

4.3 Combine類

public static class InvertedIndexCombiner extends Reducer<MyType,Text,MyType,Text> {
	public void reduce(MyType key, Text values, Context context) 
	throws IOException,InterruptException {
		int sum = 0;
		for (Text value : values) {
			sum += Integer.parseInt(value.toString());
		}
		context.write(key,new Text(key.getFile()+":"+sum));
	}
}

4.4 Reduce類

public static class InvertedIndexReducer extends Reducer<MyType, Text, Text, Text> {
	public void reduce(MyType key, Iterable<Text> values, Context context) 
	throws IOException,InterruptionException {
		Text result = new Text();
		String fileList = new String();
		for (Text value : values) {
			fileList += value.toString() + ";";
		}
		result.set(fileList);
		context.write(new Text(key.getWord()),result);
	}
}

4.5 Job配置

public static void main(String[] args) throws IOException {
	Configuration conf = new Configuration();
	// System.out.println("url:"+conf.get("fs.defaultFS"))
	job = Job.getInstance(conf,"MyInvertedIndex");
	
	job.setJarByClass(MyInvertedIndex.class);
	job.setMapperClass(InvertedIndexMapper.class);
	job.setMapOutputKeyClass(MyType.class);
	job.setMapOutputValueClass(Text.class);
		
	job.setCombinerClass(InvertedIndexCombiner.class);
	job.setReducerClass(InvertedIndexReducer.class);

	job.setOutputKeyClass(Text.class);
	job.setOutputValueClass(Text.class);

// 檢測輸出目錄output是否已存在，若存在，則刪除
	// Path path = new Path("output");
	// FileSystem hdfs = new FileSystem.get(conf);
	// if (hdfs.exists(path))
		// hdfs.delete(path,true);

	FileInputFormat.addInputPath(job,new Path("input"));
	FileOutputFormat.addOutputPath(job,new Path("output"));

	job.waitForCompletion(true);
}

4.x 後記

為什麼自定義的Combine類中，reduce方法傳入的引數是（Iterable values），上一環節map的輸出明明是 new Text("1")。。。再接著看Reduce環節的reduce方法，發現裡面也是 Iterable<Text> values，想明白了，可能這中間還有一個操作，將上一環節傳來的序列化Text（value）變為可迭代資料。

MapReduce框架學習（4）——倒排索引程式實戰

參考： JeffreyZhou的部落格園《Hadoop權威指南》第四版 0 倒排索引（Inverted Index）前面我們執行過WordCount例子，得到的單詞計數結果，如果輸入3篇文件，得到

Spring框架學習（4）spring整合hibernate

location host mage too 自動 exception 4.0 數據庫連接 find 內容源自：spring整合hibernate spring整合註解形式的hibernate 這裏和上一部分學習一樣用了模板模式，將hibernate開發流程封裝在O

MapReduce框架學習（3）——Job的建立及配置

參考： JeffreyZhou的部落格園《Hadoop權威指南》第四版 0 一個MR作業，包括三點：輸入資料 MR程式 Job配置資訊前面兩篇學習了資料格式和M

MapReduce框架學習（2）——Map/Reduce及 Shuffle前後

參考： JeffreyZhou的部落格園《Hadoop權威指南》第四版 0 Map/Reduce大致流程輸入（input）：將輸入資料分成一個個split，並將spilt進一步拆成<

MapReduce框架學習（1）——輸入、輸出格式

參考： JeffreyZhou的部落格園《Hadoop權威指南》第四版在前面的學習中，完成了幾件事：搭建並測試Hadoop完全分散式環境；在master節點上配置Hadoop的E

MapReduce入門（三）倒排索引

什麼是倒排索引？倒排索引源於實際應用中需要根據屬性的值來查詢記錄。這種索引表中的每一項都包括一個屬性值和具有該屬性值的各記錄的地址。由於不是由記錄來確定屬性值，而是由屬性值來確定記錄的位置，因而稱為倒排索引(inverted index)。帶有倒排索

mapreduce系列（6）---倒排索引的建立

一、概述如我們有三個檔案： a.txt,b.txt,c.txt tian jun li lei han meimei li lei han meimei li lei han meimei tian jun gege jiejie tian jun

小實踐（5）倒排索引

背景搜尋引擎通常都會建立關鍵字的倒排索引，由關鍵字為index，後面跟著包含該關鍵字的網頁，本次使用模擬資料，簡要嘗試一下，建立倒排索引的過程。資料：第一個元素為書名字，後面以空格分割，為書的關鍵字。spark版本：<dependency>

海量資料處理專題（八）——倒排索引(搜尋引擎之基石)(轉)

引言：在資訊大爆炸的今天，有了搜尋引擎的幫助，使得我們能夠快速，便捷的找到所求。提到搜尋引擎，就不得不說VSM模型，說到VSM，就不得不聊倒排索引。可以毫不誇張的講，倒排索引是搜尋引擎的基石。VSM檢索模型VSM全稱是Vector Space Model(向量空間模型)，是IR(Information Ret

【Elasticsearch 7 探索之路】（三）倒排索引

上一篇，我們介紹了 ES 文件的基本 CURE 和批量操作。我們都知道倒排索引是搜尋引擎非常重要的一種資料結構，什麼是倒排索引，倒排索引的原理是什麼。 1 索引過程在講解倒排索引前，我們先了解索引建立，下圖是 Elasticsearch 中資料索引過程的流程。從上圖可以看到，文件未在 ES 中進行索引

構建之法學習（4）

控制重要 protect 運算包裝二義性 lin c++ 基類本周學習的內容是兩人合作計算機只關心編譯生成的機器碼，你的程序采用哪種縮進風格，變量名有無統一的規範等，與機器碼的執行無關。但是，做一個有商業價值的項目，或者在團隊裏工作，代碼規範相當重要。“代碼規

基於Qt的OpenGL可編程管線學習（4）- 使用Subroutine繪制不同光照的模型

qt opengl shader subroutine 使用Subroutine在shader中封裝不同的函數，在CPU端選擇調用那個函數效果如下圖所示左側：環境光中間：環境光 + 漫反射右側：環境光 + 漫反射 + 高光1、Subroutine 在shader中的內容subroutine v

Java學習（4）：統計一個文件中的英文，中文，數字，其他字符以及字符總數

port let args str reader 文件路徑要求 cnblogs pub 要求：統計一個文件中的英文，中文，數字，其他字符以及字符總數（此隨筆以txt文件為例） import java.io.BufferedReader; import java.io.F

selenium + python自動化測試unittest框架學習（三）webdriver對頁面其他控件操作（三）

文件的文件路徑內容 option selenium script web 對話對話框 1.對話框，下拉框（1）對話框的有兩種，一種是iframe格式的，需要switch_to_iframe()進行定位，現在大部分的對話框是div格式的，這種格式的可以通過層級定位來定

selenium + python自動化測試unittest框架學習（三）webdriver元素定位（一）

倒數節點大於文本框 webdriver 而且單標簽 unit 遍歷 1.Webdriver原理 webdirver是一款web自動化操作工具，為瀏覽器提供統一的webdriver接口，由client也就是我們的測試腳本提交請求，remote server瀏覽器進行響

selenium + python自動化測試unittest框架學習（一）selenium原理及應用

自動化網上下載安裝 src .cn 基礎 client cnblogs pytho unittest框架的學習得益於蟲師的《selenium+python自動化實踐》這一書，該書講得很詳細，大家可以去看下，我也只學到一點點用於工作中，閑暇時記錄下自己所學才能更加印象深刻

selenium + python自動化測試unittest框架學習（四）python導入模塊及包知識點

腳本 selenium imp pat 程序文件 sel sys module 在寫腳本的時候，發現導入某些模塊，經常報錯提示導入模塊失敗，這裏來惡補下python導入模塊的知識點。 1.模塊導入時文件查找順序在腳本中，import xxx模塊時的具體步驟：（1）新建

Java集合框架學習（一）List

collect 有序集合 original package images 遍歷容量 exp 子類先附一張Java集合框架圖。從上面的集合框架圖可以看到，Java集合框架主要包括兩種類型的容器，一種是集合（Collection），存儲一個元素集合，另一種是圖（M

Vue深度學習（4）-方法與事件處理器

() 一個 span 修飾語句特殊變量方法 left stop 方法處理器可以用 v-on 指令監聽 DOM 事件： <div id="app"> <button v-on:click = "greet">Greet<

maven--學習（4）--創建java項目

system key maven 要求導入項目一段 ring following start 1. 從 Maven 模板創建一個項目在終端（* UNIX或Mac）或命令提示符（Windows）中，瀏覽到要創建 Java 項目的文件夾。鍵入以下命令： mvn arche

MapReduce框架學習（4）——倒排索引程式實戰

0 倒排索引（Inverted Index）

4.1 輸入輸出過程

4.2 map類

4.3 Combine類

4.4 Reduce類

4.5 Job配置

4.x 後記

相關推薦