mapreduce的join演算法程式設計案例

阿新 • • 發佈：2018-12-19

mapreduce程式設計案例

map端的join演算法

1、原理闡述

適用於關聯表中有小表的情形，可以將小表傳送到所有的map節點，這樣map節點就可以在本地對自己讀到的大表資料進行join並輸出最終結果，可以大大提高join操作的併發度，加快處理速度

2、例項：

兩表資料：

商品表資料
p0001,小米5,1000,2000
p0002,錘子T1,1000,3000
訂單表資料
1001,20150710,p0001,2
1002,20150710,p0002,3
1002,20150710,p0003,3

編寫map類

import org.apache.hadoop.filecache.DistributedCache;
import 
 org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.BufferedReader; 

import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.util.HashMap;

public class joinMap extends Mapper<LongWritable, Text, Text, Text> {
    HashMap<String, String> map = new HashMap<String, String>();
    String line = null;

    /**
     * 在map端的初始化方法中獲取快取檔案，一次性載入到map中
     *
     * @param context
     * @throws IOException
     * @throws InterruptedException
     */ 

    @Override
    protected void setup(Context context) throws IOException, InterruptedException {
        Path[] localCacheFiles = DistributedCache.getLocalCacheFiles(context.getConfiguration());
        //獲得所有的快取檔案
        URI[] cacheFiles = DistributedCache.getCacheFiles(context.getConfiguration());
        //獲得檔案系統
        FileSystem fileSystem = FileSystem.get(cacheFiles[0], context.getConfiguration());
        FSDataInputStream open = fileSystem.open(new Path(cacheFiles[0]));
        BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(open));
        while ((line = bufferedReader.readLine()) != null) {
            String[] split = line.split(",");
            map.put(split[0], split[1] + "\t" + split[2] + "\t" + split[3]);
        }
        fileSystem.close();
        IOUtils.closeStream(bufferedReader);
    }

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //這裡讀的是這個map task所負責的那一個切片資料（在hdfs上）
        String[] fields = value.toString().split(",");
        String orderId = fields[0];
        String date = fields[1];
        String pdId = fields[2];
        String amount = fields[3];
        //獲取map當中的商品詳細資訊
        String productInfo = map.get(pdId);
        context.write(new Text(orderId), new Text(date + "\t" + productInfo + "\t" + amount));

    }
}

編寫main

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.filecache.DistributedCache;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.net.URI;

public class joinJobMain extends Configured implements Tool {
    @Override
    public int run(String[] strings) throws Exception {
        Configuration conf = super.getConf();
        //注意，這裡的快取檔案的新增，只能將快取檔案放到hdfs檔案系統當中，放到本地載入不到
        DistributedCache.addCacheFile(new URI("hdfs://node01:8020/cachefile/pdts.txt"), conf);
        Job job = Job.getInstance(conf, joinJobMain.class.getSimpleName());
        job.setJarByClass(joinJobMain.class);
        job.setInputFormatClass(TextInputFormat.class);
        TextInputFormat.addInputPath(job, new Path("file:///d:\\map端join\\map_join_input"));
        job.setMapperClass(joinMap.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        TextOutputFormat.setOutputPath(job, new Path("file:///d:\\map端join\\map_join_output"));
        boolean b = job.waitForCompletion(true);
        return b ? 0 : 1;

    }

    public static void main(String[] args) throws Exception {
        Configuration configuration = new Configuration();
        ToolRunner.run(configuration, new joinJobMain(), args);
    }
}

reduce端join演算法的缺陷：

缺點：這種方式中，join的操作是在reduce階段完成，reduce端的處理壓力太大，map節點的運算負載則很低，資源利用率不高，且在reduce階段極易產生資料傾斜

mapreduce的join演算法程式設計案例

mapreduce程式設計案例 map端的join演算法 1、原理闡述適用於關聯表中有小表的情形，可以將小表傳送到所有的map節點，這樣map節點就可以在本地對自己讀到的大表資料進行join並輸出最終結果，可以大大提高join操作的併發度，加快處理速度 2、例項：兩表

Algorithm之PrA：PrA之IP整數規劃(包括0-1整數規劃)演算法經典案例剖析+Matlab程式設計實現

Algorithm之PrA：PrA之IP整數規劃演算法經典案例剖析+Matlab程式設計實現分枝定界法對有約束條件的最優化問題（其可行解為有限數）的所有可行解空間恰當地進行系統搜尋，這就是分枝與定界內容。通常，把全部可行解空間反覆地分割為越來越小的子集，稱

Linux網路程式設計案例分析

本程式碼來自於博主：輝夜星辰本篇主要對執行程式碼中出現的問題進行分析，程式碼本身的內容後續展開討論。伺服器端程式碼 1 /* 2 Linux網路程式設計之TCP程式設計,伺服器端讀資料 3 socket函式之後，返回值serfd，作為後面所有網路程式設計函式

java資料結構和演算法程式設計作業系列篇-陣列

/** * 程式設計作業 2.1 向highArray.java程式（清單2.3）的HighArray類新增一個名為getMax()的方法，它返回陣列中最大關鍵字的值，當陣列為空時返回-1。向main()中新增一些程式碼來使用這個方法。可以假設所有關鍵字都是正數。 2.2 修改程式設計作業

面向演算法程式設計的java常用集合

一、集合基本Collection介面及其常用API **在 Java 類庫中，集合類的基本介面是 Collection 介面。**下面列出 Collection 介面常用的API： java . util . Collection < E > 1.2 • Iter

面向演算法程式設計的java語法精粹

一、基本資料型別（1）強制型別轉換通過截斷小數部分將浮點值轉換為整型。 double x * 9.997 ; int nx = ( int ) x ; 這樣，變數 nx 的值為 9。如果想對浮點數進行舍人運算，以便得到最接近的整數（在很多情況下，這種操作

機器學習——KNN演算法以及案例預測入住位置

ķ最近鄰 KNN分類演算法其核心思想是假定所有的資料物件都對應於Ñ維空間中的點，如果一個數據物件在特徵空間中的ķ個最相鄰物件中的大多數屬於某一個類別，則該物件也屬於這個類別，並具有這個類別上樣本的特性.KNN方法在進行類別決策時，只與極少量的相鄰樣本有關。定義：如果一個樣本在特徵空間中的ķ

Go語言與RSA演算法 —— RSA案例實現

package main import ( "crypto/rsa" "crypto/rand" "crypto/x509" "encoding/pem" "os" "fmt" "encoding/hex" ) //生成私鑰和公鑰 //bits：私鑰的長度 func RsaGe

《遊戲人工智慧程式設計案例精粹(修訂版)》pdf格式下載電子書免費下載

《遊戲人工智慧程式設計案例精粹(修訂版)》pdf格式下載電子書免費下載: https://u253469.ctfile.com/fs/253469-302448508 內容簡介《遊戲人工智慧程式設計案例精粹(修訂版)》由Mat Buckland著，羅岱等人譯，是遊戲人工智慧方面的經典之作，

C程式設計--案例（2018年江蘇大學程式設計考研試題 -- 程式設計題）

題目（總）：解答(答案為博主自已所寫，並非最優程式碼，僅供參考) 第一題題目定義一個函式,計算並返回如下算式的值:函式式見上，在主函式中輸入10組實數a、b、c的值。。。。。。參考程式碼（答案並非最優程式碼，僅供參考

C程式設計--案例（2017年江蘇大學程式設計考研試題 -- 程式設計題）

題目（總）：解答(答案為博主自已所寫，並非最優程式碼，僅供參考) 第一題題目切比雪夫多項式（運用遞迴函式計算）參考程式碼（答案並非最優程式碼，僅供參考） #include<stdio.h>

C程式設計--案例（2016年江蘇大學程式設計考研試題 -- 程式設計題）

題目（總）：解答(答案為博主自已所寫，並非最優程式碼，僅供參考) 第一題題目已知檔案Coefficient.txt存有多個方程中係數（具體見題目總）。。。。（檔案讀寫 + 一元二次方程的處理）參考程式碼（答案並非最優

C程式設計--案例

宣告案例：來自2007年江蘇大學程式設計考研試題最後一題答案為博主自己所寫，可能不是最優的程式碼，僅供參考；題目參考程式碼(並非最優程式碼，僅供參考) #include<stdio.h> #include<math.h>

C程式設計案例（二分法求方程的根）

原理設函式f(x)在[a,b]上連續，且f(a)*f(b)<0,則表明f(x)在[a,b]上至少有一個零點。微積分中的介值定理。然後通過二分割槽間，縮小區間範圍，當小到一定的精確度的時候，這個x就是我們所求的近似根了。問題描述: 用二分法求下面方程在區間

C程式設計案例（牛頓迭代法求高次方程的根）

牛頓迭代法求方程的根 1. 牛頓迭代法的幾何解釋註解：設 r r

C程式設計案例（矩形法求定積分問題）

矩形法求定積分問題程式碼實現： #include<stdio.h> #include<math.h> float fsin(float x); float func(float (*p)(float),float a,float b

C程式設計案例（求 ax^2+bx+c=0 的解）

問題：求方程： a x 2

C程式設計--案例（2008年江蘇大學程式設計考研試題 -- 程式設計題）

題目（總）：解答(答案為博主自已所寫，並非最優程式碼，僅供參考) 第一題題目給一個不多於5位的正整數，要求： 1、求出它是幾位數 2、分別輸出每一位數字 3、按逆序輸出各位數字，例如原數為321，應輸出123。參考程式

06 SVM - 線性可分模型演算法和案例

三、線性可分SVM演算法流程輸入線性可分的m個樣本資料{(x1,y1),(x2,y2),...,(xm,ym)}，其中x為n維的特徵向量，y為二元輸出，取值為+1或者-1；SVM模型輸出為引數w、b以及分類決策函式。 1、構造約束優化問題； 2、使用SMO演算法求出上式優化中對應

演算法程式設計題-歸併排序

def mergesort(li): if len(li)==1: return li mid = len(li)//2 left = li[:mid]

mapreduce的join演算法程式設計案例

mapreduce程式設計案例

相關推薦