map端join的實現，用來解決小表中資料的讀取

阿新 • • 發佈：2019-01-24

通過閱讀父類Mapper的原始碼，發現 setup方法是在maptask處理資料之前呼叫一次可以用來做一些初始化工作

1、需求：

訂單資料表t_order：

id	date	pid	amount
1001	20150710	P0001	2
1002	20150710	P0001	3
1002	20150710	P0002	3

商品資訊表t_product

id	pname	category_id	price
P0001	小米5	1000	2
P0002	錘子T1	1000	3

在訂單後面拼接出商品價格

思路：把商品資訊資料放到map裡，然後通過id 進行查詢讀取然後拼接

mapper類中的setup 在map方法接受資料之前，對資料先進行出力

package cn.itcast.bigdata.mr.mapsidejoin;

import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.util.HashMap;
import java.util.Map;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MapSideJoin {

	public static class MapSideJoinMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
		// 用一個hashmap來載入儲存產品資訊表
		Map<String, String> pdInfoMap = new HashMap<String, String>();

		Text k = new Text();

		/**
		 * 通過閱讀父類Mapper的原始碼，發現 setup方法是在maptask處理資料之前呼叫一次 可以用來做一些初始化工作
		 */
		@Override
		protected void setup(Context context) throws IOException, InterruptedException {
			BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream("pdts.txt")));
			String line;
			while (StringUtils.isNotEmpty(line = br.readLine())) {
				String[] fields = line.split(",");
				pdInfoMap.put(fields[0], fields[1]);
			}
			br.close();
		}

		// 由於已經持有完整的產品資訊表，所以在map方法中就能實現join邏輯了
		@Override
		protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
			String orderLine = value.toString();
			String[] fields = orderLine.split("\t");
			String pdName = pdInfoMap.get(fields[1]);
			k.set(orderLine + "\t" + pdName);
			context.write(k, NullWritable.get());
		}

	}

	public static void main(String[] args) throws Exception {

		Configuration conf = new Configuration();

		Job job = Job.getInstance(conf);

		job.setJarByClass(MapSideJoin.class);

		job.setMapperClass(MapSideJoinMapper.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(NullWritable.class);

		FileInputFormat.setInputPaths(job, new Path("D:/srcdata/mapjoininput"));
		FileOutputFormat.setOutputPath(job, new Path("D:/temp/output"));

		// 指定需要快取一個檔案到所有的maptask執行節點工作目錄
		/* job.addArchiveToClassPath(archive); */// 快取jar包到task執行節點的classpath中
		/* job.addFileToClassPath(file); */// 快取普通檔案到task執行節點的classpath中
		/* job.addCacheArchive(uri); */// 快取壓縮包檔案到task執行節點的工作目錄
		/* job.addCacheFile(uri) */// 快取普通檔案到task執行節點的工作目錄

		// 將產品表文件快取到task工作節點的工作目錄中去
		job.addCacheFile(new URI("file:/D:/srcdata/mapjoincache/pdts.txt"));

		//map端join的邏輯不需要reduce階段，設定reducetask數量為0
		job.setNumReduceTasks(0);
		
		boolean res = job.waitForCompletion(true);
		System.exit(res ? 0 : 1);

	}

}

map端join的實現，用來解決小表中資料的讀取

通過閱讀父類Mapper的原始碼，發現 setup方法是在maptask處理資料之前呼叫一次可以用來做一些初始化工作 1、需求：訂單資料表t_order： id date pid amount 1001 20150710 P0001 2

大資料教程（9.6）map端join實現

上一篇文章講了mapreduce配合實現join，本節博主將講述在map端的join實現；一、需求 &n

獲取requestheader中的資料，用來解決多裝置登入驗證問題

引言：接上一篇文章，對@RequestMapping進行地址對映講解之後，該篇主要講解request 資料到handler method 引數資料的繫結所用到的註解和什麼情形下使用；簡介： handler method 引數繫結常用的註解,我們根據他們處理的R

製作一個安卓介面，可以進行密碼和賬號的判斷，有用來儲存輸入賬號和密碼的類，用來在其他類中呼叫

首先附上安卓介面圖和完整版下載地址：下載地址：https://download.csdn.net/download/qq_39343904/10881646 &nb

用SQLAlchemy例項物件來進行資料庫表中資料的增刪改查操作（db.session.xx）

#encoding:utf-8 from flask import Flask from flask_sqlalchemy import SQLAlchemy import config app = Flask(__name__) app.config.from_obje

用shell實現一個小指令碼，用來同來統計自己某個檔案下的程式碼，總的程式碼行數，總的註釋量，總的空行量？支援遍歷查詢，支援軟連結查詢

[[email protected] yunwei]# cat sum_code_row_version1.4.sh #!/bin/bash # File Name: sum_code_row.sh # Author: Liwqiang # mail: [email

什麼叫一致性雜湊，通常用來解決什麼問題？

這裡是修真院後端小課堂，每篇分享文從【背景介紹】【知識剖析】【常見問題】【解決方案】【編碼實戰】【擴充套件思考】【更多討論】【參考文獻】八個方面深度解析後端知識/技能，本篇分享的是：【什麼叫一致性雜湊，通常用來解決什麼問題？】【修真院Java小課堂】什麼叫一致性雜湊，通

邏輯斯蒂迴歸能否解決非線性分類問題？邏輯斯蒂迴歸提出時用來解決線型分類問題，其分離面是一個線型超平面wx+b，如果將這個超平面改成非線性的，如x1^2+x2=0之類的非線性超平面來進行分類，是否也可

邏輯迴歸的模型引入了sigmoid函式對映，是非線性模型，但本質上又是一個線性迴歸模型，因為除去sigmoid對映函式關係，其他的步驟，演算法都是線性迴歸的。可以說，邏輯迴歸，都是以線性迴歸為理論支援的。這裡講到的線性，是說模型關於係數一定是線性形式的加入sigmoid對

File Input多次新增檔案，動態刪除檔案，用來實現上傳等操作

1.需求圖示 2.按圖索驥新增實際上，新增附件就是<input type="file" id="myFile">的控制元件，var fileList = getElemen

《資料結構》嚴蔚敏用棧實現遞迴來解決hanoi問題

感覺書上對遞迴操作的棧理解的挺好的，有需要的可以去找一下書看一下 //hanoi problem #include<stdio.h> #include<stdlib.h> #include<string.h> int times = 1;

（Python）# 請實現一個函式，用來判斷一顆二叉樹是不是對稱的。注意，如果一個二叉樹同此二叉樹的映象是同樣的，定義其為對稱的.

# 請實現一個函式，用來判斷一顆二叉樹是不是對稱的。注意，如果一個二叉樹同此二叉樹的映象是同樣的，定義其為對稱的. class TreeNode: def __init__(self, x): self.val = x self.lef

Android ListView和Fragment結合使用，類似於某電商的實現，拿來就能用,詳細標註適合新手

一個類似於某電商的實現，讓菜鳥們理解Activity與Fragment之間的引數是如何互動的。包結構：執行後的效果分析：左側ListView可上下拖動，點選不同的item會影響右側Fragment的內容。廢話不多說，上程式碼（

淺析在QtWidget中自定義Model（beginInsertRows()和endInsertRows()是空架子，類似於一種信號，用來通知底層）

cti ron 初學者開發 http 沒有 insert ati 學習 Qt 4推出了一組新的item view類，它們使用model/view結構來管理數據與表示層的關系。這種結構帶來的功能上的分離給了開發人員更大的彈性來定制數據項的表示，它也提供一個標準的model接

map端join

path auth not config 單表 mapreduce == 書包 task package my.hadoop.hdfs.mapreduceJoin; import java.io.BufferedReader; import java.io.FileIn

4）在url中加上a分發參數，用來選哪一個函數

doc mpat str rds utf8 class control cnblogs tab 文件關系目錄展示：　　　　然後代碼改動部分展示：　　　　zixun.controller.class.php 　　　　　　 1 <?php 2

邏輯是生物在進行思考的時候，用來在所思考的事物與事物之間進行聯系的方法

邏輯與事件多少不同的之間獲得方法為我當我我認為邏輯並無對錯或有無之分，只有使用者的多少之分。如果一定要定義，我會說：邏輯是生物在進行思考的時候，用來在所思考的事物與事物之間進行聯系的方法。你可以用多種方法聯系事物，沒有哪一種是錯的。只不過當別人和你所用的

win7查看某個端口被占用的解決方法

標示 AS 查看方法繼續所有解決方法 findstr exe 1.開始---->運行---->cmd，或者是window+R組合鍵，調出命令窗口。 2.輸入命令：netstat -ano，列出所有端口的情況。在列表中我們觀察被占用的端口，比如是49157

Throw是一個語句，用來做拋出例外的功能

data 出錯 ati 一個 toc 代碼 eof public assert 當我們自己定義一個例外類的時候必須使其繼承excepiton或者RuntimeException。 Throw是一個語句，用來做拋出例外的功能。而throws是表示如果下級方法中如果有例外拋出

JS正則對象 RegExp（有變量的時候使用），用來匹配搜索關鍵字（標紅）

() replace pla 匹配標簽 span sea var style his 1，平常我們寫js正則規則的時候，一般是這樣寫： var reg = /abc/; 然而，這樣寫的話，如果abc是一個變量這樣就不行，我們需要下面這種寫法： var abc =

編寫一個ArrayList類，用來儲存1到10之間的數，打亂順序後輸出，按從小到大輸出，按從大到小輸出。

/** * Created by whp on 2018/7/30. */ public class Test { public static void main(String[] args) { List list = new ArrayList();

map端join的實現 ，用來解決小表中資料的讀取

相關推薦

map端join的實現，用來解決小表中資料的讀取