MapReduce倒排索引概要

阿新 • • 發佈：2019-02-16

使用場景：主要用於索引，以提高搜尋資料速度
例如百度搜索

執行環境：windows下VM虛擬機器，centos系統，hadoop2.2.0，三節點，java 1.7
需要處理的資料為

求出每個索引所對應的包含索引的網址

package boke;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

public 
 class descSort extends Configured implements Tool{
//map任務主要是把每行資料切分，把索引作為key，網址作為vaule
    public static class Map extends
    Mapper<LongWritable,Text,Text,Text>
    {
        public void map(LongWritable key,Text value,Context context)throws InterruptedException,IOException
        {
            String[] lineSplit=value.toString().split(" " 
);
            context.write(new Text(lineSplit[0]), new Text(lineSplit[1]));
        }
    }
    //reudce階段是把相同key（索引）的網址統一放到集合中，再統一輸出
    public static class Reduce extends Reducer<Text,Text,Text,Text>
    {
        public void reduce(Text key,Iterable<Text> values,Context context)throws InterruptedException,IOException
        {
            StringBuffer sb =new 
 StringBuffer();
            boolean sign=false;
            for(Text id : values)
            {
                if(sign)
                {
                    sign=true;
                }
                else
                {
                    sb.append(" ");
                }
                sb.append(id.toString());
                }
            context.write(key, new Text(sb.toString()));
        }
    }
    public int run(String[] args)throws Exception
    {
        Configuration conf=getConf();
        Job job=new Job(conf,"descSort");
        job.setJarByClass(descSort.class);
        job.setMapperClass(Map.class);
        job.setReducerClass(Reduce.class);
        //這裡用了combiner可聚合每個map結果，減少reduce傳輸資料容量，從而優化效能
        job.setCombinerClass(Reduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        job.waitForCompletion(true);
        return job.isSuccessful()?1:0;
    }
    public static void main(String[] args)throws Exception
    {
        int rsa=ToolRunner.run(new Configuration(), new descSort(), args);
        System.exit(rsa);
    }
}

執行結果
這裡寫圖片描述
注：combiner和reduce階段對資料處理的方法相同，如
（1 ，wwww.adf.com）（1 ，www.ert.com）
在combiner階段會合併成（1，wwww.adf.com www.ert.com）
map階段結束後會把資料存在本地，reduce階段把需要的資料通過網路傳輸到reduce節點本地，combiner可聚合map的結果，從而降低傳輸資料的大小，優化效能

MapReduce倒排索引概要

使用場景：主要用於索引，以提高搜尋資料速度例如百度搜索執行環境：windows下VM虛擬機器，centos系統，hadoop2.2.0，三節點，java 1.7 需要處理的資料為

2018-08-03 期 MapReduce倒排索引編程案例1（Combiner方式）

pre true 輸出 hello pub 類型 rom 偏移 apr package cn.sjq.bigdata.inverted.index;import java.io.IOException;import org.apache.hadoop.conf.Config

2018-08-04 期 MapReduce倒排索引編程案例2（jobControll方式）

基本正常 org gets [] pro stat context 控制器 1、第一階段MapReduce任務程序package cn.itcast.bigdata.index;import java.io.IOException;import org.apache.ha

MapReduce 倒排索引的實現

package cheryl.dhcc.mapreduce; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configu

mapreduce 高級案例倒排索引

大數據 hadoop mapreduce 倒排索引理解【倒排索引】的功能熟悉mapreduce 中的combine 功能根據需求編碼實現【倒排索引】的功能，旨在理解mapreduce 的功能。一：理解【倒排索引】的功能 1.1 倒排索引：由於不是根據文檔來確定文檔

大數據MapReduce入門之倒排索引

tsp 功能 nbsp bstr 生成 path 需要 turn 們的　　在上一篇博客中我們講解了MapReduce的原理以及map和reduce的作用，相信你理解了他們的原理，今天講解的是mapreduce 的另一個就是倒排索引。什麽是倒排索引呢？倒排索

MapReduce框架學習（4）——倒排索引程式實戰

參考： JeffreyZhou的部落格園《Hadoop權威指南》第四版 0 倒排索引（Inverted Index）前面我們執行過WordCount例子，得到的單詞計數結果，如果輸入3篇文件，得到

MapReduce--帶有詞頻統計的倒排索引演算法

倒排索引：根據單詞來查詢文件實現：單詞1 文件1：次數，文件2：次數，文件5：次數單詞1 平均次數單詞2 文件3：次數，文件6：次數單詞2 平均次數 Mapper: 輸出： key: term- ->docid value: 1 public static cla

MapReduce入門（三）倒排索引

什麼是倒排索引？倒排索引源於實際應用中需要根據屬性的值來查詢記錄。這種索引表中的每一項都包括一個屬性值和具有該屬性值的各記錄的地址。由於不是由記錄來確定屬性值，而是由屬性值來確定記錄的位置，因而稱為倒排索引(inverted index)。帶有倒排索

MapReduce實現倒排索引

倒排索引這個名字讓人很容易誤解成A-Z，倒排成Z-A；但實際上缺不是這樣的。一般我們是根據問檔案來確定檔案內容，而倒排索引是指通過檔案內容來得到文件的資訊，也就是根據一些單詞判斷他在哪個檔案中。知道了這一點下面就好做了：準備一些元資料下面我們要進行兩次MapR

倒排索引的分散式實現（MapReduce程式）

package aturbo.index.inverted; import java.io.IOException; import java.util.HashSet; import org.apache.commons.lang3.StringUtils; imp

Hadoop 之 MapReduce 的工作原理及其倒排索引的建立

一、Hadoop 簡介下面先從一張圖理解MapReduce得整個工作原理下面對上面出現的一些名詞進行介紹ResourceManager：是YARN資源控制框架的中心模組，負責叢集中所有的資源的統一管理和分配。它接收來自NM(NodeManager)的彙報，建立AM，

一些演算法的MapReduce實現——倒排索引實現

/** * input format * docid<tab>doc content * * output format * (term:docid)<tab>(tf in this doc) * */ public s

mapreduce系列（6）---倒排索引的建立

一、概述如我們有三個檔案： a.txt,b.txt,c.txt tian jun li lei han meimei li lei han meimei li lei han meimei tian jun gege jiejie tian jun

mapreduce演算法之倒排索引

package mapreduce; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.

mapreduce典型應用案例之倒排索引

一、倒排索引的介紹通俗的講，就是根據單詞找到包含這個單詞的所有文件。二、mapreduce實現框架 1、首先要確定map、reduce、combiner中的key和value是什麼型別 2、然後確定key和value具體是什麼？ Map ： key為單詞+檔名 value為

MapReduce 案例之倒排索引

MapReduce 案例之倒排索引 1. 倒排索引倒排索引是文件檢索系統中最常用的資料結構，被廣泛地應用於全文搜尋引擎。它主要是用來儲存某個單詞（或片語）在一個文件或一組文件中的儲存位置的對映，即提供了一種根據內容來查詢文件的方式。由於不是根據文件來確定文件所包含的內容，而是進行相反的操作，因

Hadoop鏈式MapReduce、多維排序、倒排索引、自連線演算法、二次排序、Join效能優化、處理員工資訊Join實戰、URL流量分析、TopN及其排序、求平均值和最大最小值、資料清洗ETL、分析氣

Hadoop Mapreduce 演算法彙總第52課：Hadoop鏈式MapReduce程式設計實戰...1 第51課：Hadoop MapReduce多維排序解析與實戰...2 第50課：HadoopMapReduce倒排索引解析與實戰...3 第49課：Hado

MapReduce程式設計之倒排索引

任務要求： //輸入檔案格式 18661629496 110 13107702446 110 1234567 120 2345678 120 987654 110 2897839274 18661629496 //輸出檔

大資料_Shuffle、MapReduce程式設計案例(資料去重、多表查詢、倒排索引、使用單元測試)

一、什麼是Shuffle（洗牌） ----> MapReduce核心 1、序列化 2、排序 3、分割槽 4、合併二、MapReduce程式設計案例 ------> 掌握方法：如何開發一個程式 1、資料

MapReduce倒排索引概要

相關推薦