2018-07-30期 MapReduce分區（Partitioner）編程案例

阿新 • • 發佈：2018-07-31

employ stat ros 所有 app iter csv partition contex

1、EmpSalaryBean 對象

package cn.sjq.mr.part;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import org.apache.hadoop.io.Writable;

/**

* 定義一個員工薪水的JavaBean，並實現MapReduce的Writable序列化接口

* @author songjq

public class EmpSalaryBean implements Writable {

定義成員屬性

c_oid

c_employee_name

c_second_company_name

c_third_company_name

c_fourth_company_name

c_company_name

c_dept_name

c_sub_total

c_com_fund_payamt

private int seq;

private String c_oid;

private String c_employee_name;

private String c_second_company_name;

private String c_third_company_name;

private String c_fourth_company_name;

private String c_company_name;

private String c_dept_name;

private float c_sub_total;

private float c_com_fund_payamt;

public int getSeq() {

return seq;

}

public void setSeq(int seq) {

this.seq = seq;

}

public String getC_oid() {

return c_oid;

}

public void setC_oid(String c_oid) {

this.c_oid = c_oid;

}

public String getC_employee_name() {

return c_employee_name;

}

public void setC_employee_name(String c_employee_name) {

this.c_employee_name = c_employee_name;

}

public String getC_second_company_name() {

return c_second_company_name;

}

public void setC_second_company_name(String c_second_company_name) {

this.c_second_company_name = c_second_company_name;

}

public String getC_third_company_name() {

return c_third_company_name;

}

public void setC_third_company_name(String c_third_company_name) {

this.c_third_company_name = c_third_company_name;

}

public String getC_fourth_company_name() {

return c_fourth_company_name;

}

public void setC_fourth_company_name(String c_fourth_company_name) {

this.c_fourth_company_name = c_fourth_company_name;

}

public String getC_company_name() {

return c_company_name;

}

public void setC_company_name(String c_company_name) {

this.c_company_name = c_company_name;

}

public String getC_dept_name() {

return c_dept_name;

}

public void setC_dept_name(String c_dept_name) {

this.c_dept_name = c_dept_name;

}

public float getC_sub_total() {

return c_sub_total;

}

public void setC_sub_total(float c_sub_total) {

this.c_sub_total = c_sub_total;

}

public float getC_com_fund_payamt() {

return c_com_fund_payamt;

}

public void setC_com_fund_payamt(float c_com_fund_payamt) {

this.c_com_fund_payamt = c_com_fund_payamt;

}

//反序列化方法

@Override

public void readFields(DataInput in) throws IOException {

this.seq = in.readInt();

this.c_oid = in.readUTF();

this.c_employee_name = in.readUTF();

this.c_second_company_name = in.readUTF();

this.c_third_company_name = in.readUTF();

this.c_fourth_company_name = in.readUTF();

this.c_company_name = in.readUTF();

this.c_dept_name = in.readUTF();

this.c_sub_total = in.readFloat();

this.c_com_fund_payamt = in.readFloat();

}

//序列化方法

@Override

public void write(DataOutput out) throws IOException {

out.writeInt(this.seq);

out.writeUTF(this.c_oid);

out.writeUTF(this.c_employee_name);

out.writeUTF(this.c_second_company_name);

out.writeUTF(this.c_third_company_name);

out.writeUTF(this.c_fourth_company_name);

out.writeUTF(this.c_company_name);

out.writeUTF(this.c_dept_name);

out.writeFloat(this.c_sub_total);

out.writeFloat(this.c_com_fund_payamt);

}

@Override

public String toString() {

return this.seq+"\t"+this.c_oid+"\t"+

this.c_employee_name+"\t"+this.c_second_company_name+"\t"+

this.c_third_company_name+"\t"+this.c_fourth_company_name+"\t"+

this.c_company_name+"\t"+this.c_dept_name+"\t"+

this.c_sub_total+"\t"+this.c_com_fund_payamt+"\t";

}

2、Mapper、Reducer、Job、Partitioner實現

package cn.sjq.mr.part;

import java.io.IOException;

import java.util.Iterator;

import org.apache.commons.lang.StringUtils;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.FloatWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Partitioner;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.junit.Test;

/**

* 自定義分區

* 按照員工薪水範圍進行分區

* 按照[0-2000] [2000-4000] [4000-6000] [6000-8000] >8000這幾個範圍進行分區

* 所有的Mapper、Reducer、Partitioner、Job均采用匿名內部類實現

* @author songjq

public class EmployeePart {

/**

* 分區主要在<k2,v2>上進行，因此這裏k2:員工薪水 v2:員工對象

* @author songjq

static class EmployeePartMapper extends Mapper<LongWritable, Text, FloatWritable, EmpSalaryBean> {

private FloatWritable tkey = new FloatWritable();

private EmpSalaryBean tvalue = new EmpSalaryBean();

@Override

protected void map(LongWritable k1, Text v1, Context context) throws IOException, InterruptedException {

//獲取一行

String line = v1.toString();

//分詞

String[] fds = StringUtils.split(line, ",");

//將分詞數據封裝到EmpSalaryBean對象

tvalue.setSeq(new Integer(fds[0]).intValue());

tvalue.setC_oid(fds[1]);

tvalue.setC_employee_name(fds[2]);

tvalue.setC_second_company_name(fds[3]);

tvalue.setC_third_company_name(fds[4]);

tvalue.setC_fourth_company_name(fds[5]);

tvalue.setC_company_name(fds[6]);

tvalue.setC_dept_name(fds[7]);

tvalue.setC_sub_total(new Float(fds[8]).floatValue());

tvalue.setC_com_fund_payamt(new Float(fds[9]).floatValue());

tkey.set(tvalue.getC_sub_total());

//序列化輸出到Reducer

context.write(tkey,tvalue);

}

/**

* 將分區後的數據寫入HDFS

* @author songjq

static class EmployeePartReducer extends Reducer<FloatWritable, EmpSalaryBean, NullWritable, EmpSalaryBean> {

@Override

protected void reduce(FloatWritable k3, Iterable<EmpSalaryBean> v3, Context ctx)

throws IOException, InterruptedException {

Iterator<EmpSalaryBean> iterator = v3.iterator();

while(iterator.hasNext()) {

EmpSalaryBean v4 = iterator.next();

ctx.write(NullWritable.get(), v4);

}

/**

* 自定義EmployeePartJob分區

* Partitioner<FloatWritable, EmpSalaryBean>對應Mapper<k2,v2>

* @author songjq

static class EmployeeMyPartioner extends Partitioner<FloatWritable, EmpSalaryBean>{

* 這裏分5個區

* (non-Javadoc)

* @see org.apache.hadoop.mapreduce.Partitioner#getPartition(java.lang.Object, java.lang.Object, int)

@Override

public int getPartition(FloatWritable k2, EmpSalaryBean v2, int reduceNum) {

if(k2.get()<2000) {

//[0-2000)

return 0;

}else if(k2.get()<4000) {

//[2000-4000)

return 1;

}else if(k2.get()<6000) {

//[4000-6000)

return 2;

}else if(k2.get()<8000) {

//[6000-8000)

return 3;

}else {

//>8000

return 4;

}

/**

* 提交MapReduce任務

* @throws Exception

@Test

public void EmployeePartJobSubmiter() throws Exception{

Job job = Job.getInstance(new Configuration());

job.setJarByClass(EmployeePart.class);

job.setMapperClass(EmployeePartMapper.class);

job.setReducerClass(EmployeePartReducer.class);

job.setMapOutputKeyClass(FloatWritable.class);

job.setMapOutputValueClass(EmpSalaryBean.class);

job.setOutputKeyClass(NullWritable.class);

job.setOutputValueClass(EmpSalaryBean.class);

//指定自定義分區

job.setPartitionerClass(EmployeeMyPartioner.class);

//設置運行的ReduceTask數量，建議等於分區數量，必須>=partNums

job.setNumReduceTasks(5);

FileInputFormat.setInputPaths(job, new Path("D:\\test\\tmp\\part\\empsalary.csv"));

FileOutputFormat.setOutputPath(job, new Path("D:\\test\\tmp\\part\\output1"));

job.waitForCompletion(true);

}

2018-07-30期 MapReduce分區（Partitioner）編程案例

employ stat ros 所有 app iter csv partition contex 1、EmpSalaryBean 對象package cn.sjq.mr.part;import java.io.DataInput;import java.io.DataOut

2018-07-30期 MapReduce對象排序（單列排序）

map 數據 .data .lib hadoop cep ide .class read 1、EmpSalaryBean1 對象類package cn.sjq.mr.sort;import java.io.DataInput;import java.io.DataOutpu

2018-07-28期 MapReduce實現對數字排序

ide 執行微軟 author 處理升序 .config microsoft 如果 package cn.sjq.mr.sort.number;import java.io.IOException;import org.apache.hadoop.io.LongWrit

MySQL數據庫分表分區（一）（轉）

procedure 它的找到程序鎖定 into 根據服務器 har 面對當今大數據存儲，設想當mysql中一個表的總記錄超過1000W，會出現性能的大幅度下降嗎？答案是肯定的，一個表的總記錄超過1000W，在操作系統層面檢索也是效率非常低的解決方案：目

oracle --(二) 分區（extent）

mod 復合 email read tar Owner space 平衡故障基本關系：數據庫---表空間---數據段---分區---數據塊一、分區（extent）分區extent是比數據塊大一級的存儲結構，是幾個邏輯上相鄰的data block的組合。我們知道，物理存儲

linux 磁盤分區（一）

硬盤分區硬盤是當今IT世界中不可或缺的存儲設備，不管是家用PC，工作站還是服務器，都需要用到硬盤。隨著科技的發展，硬盤技術也在不斷提高，接口的多樣化（SATA，SAS，SCSI，FC，NVMe），存儲介質的多樣化（HDD，SSD），硬盤在iops，bw和容量上都有了大幅的提升。硬盤在使用前都是需要分區的，一塊

Scala學習筆記（一）編程基礎

大數據上一個 extends 移除 condition api arr 調用方法 tab 強烈推薦參考該課程：http://www.runoob.com/scala/scala-tutorial.html 1. Scala概述 1.1. 什麽是Scala Scala

牛客網刷題筆記（三）編程基礎

index -- 判斷 asc 疊加加法 -i 元素 else 題目一：二維數組中的查找題目描述：在一個二維數組中（每個一維數組的長度相同），每一行都按照從左到右遞增的順序排序，每一列都按照從上到下遞增的順序排序。請完成一個函數，輸入這樣的一個二維數組和一個整數，

2018-07-14期 ZK編程案例-分布式協調【本人親自反復驗證通過分享】

ont clas connected spa keep oid smo ins 子節點利用ZK監聽器實現分布式協調服務，即實現服務端服務健康狀態的實時監測。1、編寫一個服務端程序，實現原理：（1）服務端程序啟動後，開啟Socket監聽（2）開啟Socket監聽後，將自己監

2018-07-15期 ZK編程案例-分布式鎖【本人親自反復驗證通過分享】

bst path 動向 author throw app strong () vat 一、實現原理： 1、編寫服務端Socket監聽程序，運行與某臺服務器上作為所有客戶端競爭資源 2、客戶端啟動後，都會自動向ZK註冊自己的身份信息，並將自己的身份ID根據統一的生成規則臨時

2018-08-03 期 MapReduce倒排索引編程案例1（Combiner方式）

pre true 輸出 hello pub 類型 rom 偏移 apr package cn.sjq.bigdata.inverted.index;import java.io.IOException;import org.apache.hadoop.conf.Config

2018-08-04 期 MapReduce倒排索引編程案例2（jobControll方式）

基本正常 org gets [] pro stat context 控制器 1、第一階段MapReduce任務程序package cn.itcast.bigdata.index;import java.io.IOException;import org.apache.ha

2018-08-08 期 MapReduce實現單個商品支付金額最大的前N個用戶排行（TopN）

utf see bbc lang oop 通過 .lib pro 格式 package cn.sjq.mr.sort;import java.io.FileOutputStream;import java.io.IOException;import java.util.Co

2018.09.30 bzoj2821: 作詩(Poetize)（分塊）

傳送門分塊經典題目。先將數列分塊。然後預處理出每兩個塊之間有多少個數出現了正偶數次。這樣查詢的時候對於中間的完整塊直接用預處理出的陣列搞定。剩下的暴力列舉求解。程式碼： #include&

2018.11.07 NOIP模擬分糖果（貪心）

傳送門考慮 n = 2 時的情況：假定兩個人分別為(a, b)，(c, d)，則當且僅當min(a,d) ≤ min(b,c)時，把(a, b)放在前面更優，否則把(c, d)放在前面更優然後把n

2018.09.30【POJ3348】Cows（凸包）（三角剖分）

傳送門解析：讀優沒有寫負數又被卡了半個小時。。。這裡採用JarrisJarrisJarris步進法求凸包。。主要講一講怎麼求多邊形面積。思路：滿足題意的顯然是這些點的凸包，而我們要做的就是求出凸包面積。那麼怎麼求多邊形面積？考慮三角剖分，我們將多

mysql分區及分表（二）

存儲、數據管理 mysql分區分表（二）測試未分區表和分區表性能重新創建新的測試數據庫及未分區表back1 創建分區表back2，按照年月區分 maxvalue把對於2005的值全放在p11區裏創建大點的數據（方便測試的時候區分明顯分區和未分區的區別） r

Linux(Centos)下調整分區大小（以home和根分區為例）

vertical speech col 信息卸載記錄 jsb 大小 control 在安裝新系統的時候，有時候沒法預估或者說錯誤的劃分了分區大小，常常會導致我們後面的操作出現極大地不方便，比如某個分區分的太小了，導致軟件安裝的時候會報安裝空間不夠，這就很麻煩。在

磁盤管理第一篇（分區與格式化）

磁盤管理分區磁盤管理第一章對於非系統所在硬盤,內核自動更新分區表,而對於系統所在硬盤,不能直接列新,要使用以下命令通知內核讀取分區表cenots5\centos7: partprobe (cent

2018 大灣區（深圳） .NET技術分享交流會第一期

撰寫智能情況下團隊 mage 校園文章 order 解決方案 .NET Core 2.1 已於2018年5月30日正式發布，邀請粵港澳大灣區.NET技術專家和從業人員，一起分享與交流.NET技術的發展方向，提高粵港澳大灣區.NET技術交流氛圍，挖掘.NET高級人才，

2018-07-30期 MapReduce分區（Partitioner）編程案例

相關推薦