7.大資料學習之旅——hadoop-MapReduce

阿新 • • 發佈：2019-01-12

序列化/反序列化機制

當自定義一個類之後，如果想要產生的物件在hadoop中進行傳輸，那麼需要
這個類實現Writable的介面進行序列化/反序列化
案例：統計每一個人產生的總流量

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.Writable;

public class Flow implements Writable{

	private String phone;
	private String city; 

	private String name;
	private int flow;

	public String getPhone() {
		return phone;
	}

	public void setPhone(String phone) {
		this.phone = phone;
	}

	public String getCity() {
		return city;
	}

	public void setCity(String city) {
		this.city = city;
	}

	public String getName() {
		return name; 

	}

	public void setName(String name) {
		this.name = name;
	}

	public int getFlow() {
		return flow;
	}

	public void setFlow(int flow) {
		this.flow = flow;
	}

	// 反序列化
	@Override
	public void readFields(DataInput in) throws IOException {
		// 按照序列化的順序一個一個將資料讀取出來
		this.phone = in.readUTF();
		this 
.city = in.readUTF();
		this.name = in.readUTF();
		this.flow = in.readInt();
	}

	// 序列化
	@Override
	public void write(DataOutput out) throws IOException {
		// 按照順序將屬性一個一個的寫出即可
		out.writeUTF(phone);
		out.writeUTF(city);
		out.writeUTF(name);
		out.writeInt(flow);
	}

}

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class FlowMapper extends Mapper<LongWritable, Text, Text, Flow> {

	public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
		
		String line = value.toString();
		
		String[] arr = line.split(" ");
		
		Flow f = new Flow();
		f.setPhone(arr[0]);
		f.setCity(arr[1]);
		f.setName(arr[2]);
		f.setFlow(Integer.parseInt(arr[3]));
		
		context.write(new Text(f.getPhone()), f);
		
	}

}

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class FlowReducer extends Reducer<Text, Flow, Text, IntWritable> {

	public void reduce(Text key, Iterable<Flow> values, Context context) throws IOException, InterruptedException {
		
		int sum = 0;
		String name = null;
		for (Flow val : values) {
			name = val.getName();
			sum += val.getFlow();
		}
		
		context.write(new Text(key.toString() + " " + name), new IntWritable(sum));
	}

}

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class FlowDriver {

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf, "JobName");
		job.setJarByClass(cn.tedu.flow.FlowDriver.class);
		job.setMapperClass(FlowMapper.class);
		job.setReducerClass(FlowReducer.class);

		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(Flow.class);
		
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);

		FileInputFormat.setInputPaths(job, new Path("hdfs://192.168.60.132:9000/mr/flow.txt"));
		FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.60.132:9000/flowresult"));

		if (!job.waitForCompletion(true))
			return;
	}

}

練習：統計每一個學生的總成績 — score.txt

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.Writable;

public class Student implements Writable {

	private int month;
	private String name;
	private int score;

	public int getMonth() {
		return month;
	}

	public void setMonth(int month) {
		this.month = month;
	}

	public String getName() {
		return name;
	}

	public void setName(String name) {
		this.name = name;
	}

	public int getScore() {
		return score;
	}

	public void setScore(int score) {
		this.score = score;
	}

	@Override
	public void readFields(DataInput in) throws IOException {

		this.month = in.readInt();
		this.name = in.readUTF();
		this.score = in.readInt();

	}

	@Override
	public void write(DataOutput out) throws IOException {

		out.writeInt(month);
		out.writeUTF(name);
		out.writeInt(score);

	}

}

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class ScoreMapper extends Mapper<LongWritable, Text, Text, Student> {

	public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

		String line = value.toString();

		String[] arr = line.split(" ");

		Student s = new Student();
		s.setMonth(Integer.parseInt(arr[0]));
		s.setName(arr[1]);
		s.setScore(Integer.parseInt(arr[2]));

		context.write(new Text(s.getName()), s);

	}

}

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class ScoreReducer extends Reducer<Text, Student, Text, IntWritable> {

	public void reduce(Text key, Iterable<Student> values, Context context) throws IOException, InterruptedException {
		int sum = 0;
		
		for (Student val : values) {
			sum += val.getScore();
		}
		
		context.write(key, new IntWritable(sum));
	}

}

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class ScorePatitioner extends Partitioner<Text, Student> {

	@Override
	public int getPartition(Text key, Student value, int numPartitions) {

		int month = value.getMonth();

		return month - 1;
	}

}

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class ScoreDriver {

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf, "JobName");
		job.setJarByClass(cn.tedu.score.ScoreDriver.class);
		job.setMapperClass(ScoreMapper.class);
		job.setReducerClass(ScoreReducer.class);
		
		job.setPartitionerClass(ScorePatitioner.class);
		job.setNumReduceTasks(4);

		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(Student.class);
		
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);

		FileInputFormat.setInputPaths(job, new Path("hdfs://192.168.60.132:9000/mr/score1"));
		FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.60.132:9000/scoreresult"));

		if (!job.waitForCompletion(true))
			return;
	}

}

分割槽 - Partitioner

在這裡插入圖片描述

分割槽操作是shuffle操作中的一個重要過程，作用就是將map的結果按照規則
分發到不同reduce中進行處理，從而按照分割槽得到多個輸出結果。
Partitioner是partitioner的基類，如果需要定製partitioner也需要繼承該類
HashPartitioner是mapreduce的預設partitioner。計算方法是：which
reducer=(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks
注：預設情況下，reduceTask數量為1
很多時候MR自帶的分割槽規則並不能滿足我們需求，為了實現特定的效果，
可以需要自己來定義分割槽規則。

案例：根據城市區分，來統計每一個城市中每一個人產生的流量

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.Writable;

public class Flow implements Writable{

	private String phone;
	private String city;
	private String name;
	private int flow;

	public String getPhone() {
		return phone;
	}

	public void setPhone(String phone) {
		this.phone = phone;
	}

	public String getCity() {
		return city;
	}

	public void setCity(String city) {
		this.city = city;
	}

	public String getName() {
		return name;
	}

	public void setName(String name) {
		this.name = name;
	}

	public int getFlow() {
		return flow;
	}

	public void setFlow(int flow) {
		this.flow = flow;
	}

	// 反序列化
	@Override
	public void readFields(DataInput in) throws IOException {
		// 按照序列化的順序一個一個將資料讀取出來
		this.phone = in.readUTF();
		this.city = in.readUTF();
		this.name = in.readUTF();
		this.flow = in.readInt();
	}

	// 序列化
	@Override
	public void write(DataOutput out) throws IOException {
		// 按照順序將屬性一個一個的寫出即可
		out.writeUTF(phone);
		out.writeUTF(city);
		out.writeUTF(name);
		out.writeInt(flow);
	}

}

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class FlowMapper extends Mapper<LongWritable, Text, Text, Flow> {

	public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

		String line = value.toString();

		String[] arr = line.split(" ");

		Flow f = new Flow();
		f.setPhone(arr[0]);
		f.setCity(arr[1]);
		f.setName(arr[2]);
		f.setFlow(Integer.parseInt(arr[3]));

		context.write(new Text(f.getPhone()), f);

	}

}
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class FlowPartitioner extends Partitioner<Text, Flow> {

	@Override
	public int getPartition(Text k

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    7.大資料學習之旅——hadoop-MapReduce
       
 
  
  
 序列化/反序列化機制 
 當自定義一個類之後，如果想要產生的物件在hadoop中進行傳輸，那麼需要 這個類實現Writable的介面進行序列化/反序列化 案例：統計每一個人產生的總流量 
 import java.io.DataInput;
import java.io.DataOutp 

  
 

    

    
    8.大資料學習之旅——hadoop-Hadoop完全分散式配置
       
 
  
  
 Hadoop完全分散式配置 
  
  
  
  關閉防火牆 
  修改主機名 
  配置hosts檔案。將需要搭建叢集的主機全部配置到hosts檔案中 
  
 192.168.32.138 hadoop01
192.168.32.139 hadoop02
192.168.32.14 

  
 

    

    
    5.大資料學習之旅——hadoop-HDFS
       
 
  
  
 NameNode 
 檢視edits檔案： hdfs oev -i edits_0000000000000000022-0000000000000000023 -o edits.xml 檢視fsimage檔案： hdfs oiv -i fsimage_000000000000000002 

  
 

    

    
    5.大資料學習之旅——hadoop-簡介及偽分散式安裝
       
 
  
  
 Hadoop簡介 
 是Apache的頂級專案，是一個可靠的、可擴充套件的、支援分散式計算的開源 專案。 
 起源 
 創始人：Doug Cutting 和Mike 2004 Doug和Mike建立了Nutch - 利用通用爬蟲爬取了網際網路上的所有數 據，獲取了10億個網頁資料 - 1 

  
 

    

    
    大資料學習之旅2——從零開始搭hadoop完全分散式叢集
      前言
       本文從零開始搭hadoop完全分散式叢集，大概花費了一天的時間邊搭邊寫部落格，一步一步完成完成叢集配置，相信大家按照本文一步一步來完全可以搭建成功。需要注意的是本文限於篇幅和時間的限制，也是為了突出重點，一些很基礎的操作就不再詳細 

  
 

    

    
    記錄我的大資料學習之旅 ---01.使用VMware安裝CentOs7
      
								
								            
							
							
							前言
從2017年初開始接觸大資料，從一無所知，到慢慢探索，到最後能夠獨立開發大資料專案。為此，趁著專案空閒的時間，分享與記錄一下我的大資料學習之旅。
一.準備資料，下載CentOs

二.新建虛擬機器 

  
 

    

    
    13.大資料學習之旅——HBase第三天
       
 
  
  
 LSM-TREE 
  
 概述 
 眾所周知傳統磁碟I/O是比較耗效能的，優化系統性能往往需要和磁碟I/O打交道,而磁碟I/O產 生的時延主要由下面3個因素決定: 1）尋道時間（將磁碟臂移動到適當的柱面上所需要的時間，尋道時移動到相鄰柱面移動所需 時間1ms，而隨機移動所需時間位5~1 

  
 

    

    
    12.大資料學習之旅——HBase第二天
       
 
  
  
 HBASE完全分散式安裝 
  
 實現步驟 
  
  準備三臺虛擬機器，01作為主節點，02、03作為從節點。（把每臺虛擬機器防火牆都關掉，配 置免密碼登入，配置每臺的主機名和hosts檔案。） 
  01節點上安裝和配置：Hadoop+Hbase+JDK+Zookeeper 
   

  
 

    

    
    11.大資料學習之旅——HBase
       
 
  
  
 一、HBASE概述 
  
  官方網址：http://hbase.apache.org/ HBase是一個分散式的、面向列的開源資料庫，該技術來源於Fay Chang 所撰寫的Google論文《Bigtable》一個結構 化資料的分散式儲存系統"。就像Bigtable利用了Google 

  
 

    

    
    10.大資料學習之旅——hive2
       
 
  
  
 Hive解決資料傾斜問題 
  
 概述 
 什麼是資料傾斜以及資料傾斜是怎麼產生的？ 簡單來說資料傾斜就是資料的key 的分化嚴重不均，造成一部分資料很多，一部分資料很少的局面。 舉個 word count 的入門例子，它的map 階段就是形成 （“aaa”,1）的形式，然後在redu 

  
 

    

    
    9.大資料學習之旅——hive
       
 
  
  
 Hive介紹 
  
  
 Hadoop開發存在的問題 
 只能用java語言開發，如果是c語言或其他語言的程式設計師用Hadoop，存 在語言門檻。 需要對Hadoop底層原理，api比較瞭解才能做開發。 
 Hive概述 
 Hive是基於Hadoop的一個數據倉庫工具。可以將結構 

  
 

    

    
    4.大資料學習之旅——Avro
       
 
  
  
 一、概述 
  
 Avro是一種遠端過程呼叫和資料序列化框架，是在Apache的Hadoop專案之內開發的。它使用JSON來定義資料類 型和通訊協議，使用壓縮二進位制格式來序列化資料。它主要用於Hadoop，它可以為持久化資料提供一種序列化格 式，併為Hadoop節點間及從客戶端程式到 

  
 

    

    
    3.大資料學習之旅——Zookeeper
       
 
  
  
 Zookeeper 
 Zookeeper是開源的分散式的協調服務框架，是Apache Hadoop的子件，適用 於絕大部分分散式叢集的管理 
 分散式引發問題： 
  
  死鎖：至少有一個執行緒佔用了資源，但是不佔用CPU 
  活鎖：所有執行緒都沒有把持資源，但是執行緒卻是在不斷地 

  
 

    

    
    2.大資料學習之旅——紅黑樹
       
 
  
  
 紅黑樹 
 自平衡二叉查詢樹 — 時間複雜度O(logn) 
 特徵： 
  
  每一個節點非紅即黑 
  根節點一定是黑色 
  所有的葉子節點一定是黑色的nil節點 
  紅節點的子節點一定是黑節點 
  任意一條路徑中的黑色節點個數一致 
  插入的節點一定是紅色 
  
 修復 

  
 

    

    
    1.大資料學習之旅——NIO
       
 
  
  
 Concurrent包 
 jdk1.5所提供的一個針對高併發進行程式設計的包。 
 阻塞式佇列 - BlockingQueue 
 遵循先進先出(FIFO)的原則。阻塞式佇列本身使用的時候是需要指定界限。 ArrayBlockingQueue - 阻塞式順序佇列 - 底層是基於陣列來進 

  
 

    

    
    14.大資料學習之旅——HBASE表設計&HBase優化
       
 
  
  
 HBASE表設計 
  
 Rowkey設計 
 Rowkey是不可分割的位元組數，按字典排序由低到高儲存在表中。 在設計HBase表時，Rowkey設計是最重要的事情，應該基於預期的訪問模式來為Rowkey建 模。Rowkey決定了訪問HBase表時可以得到的效能，原因有兩個： 1）R 

  
 

    

    
    16.大資料學習之旅——Storm叢集配置&Strom叢集中各角色說明&Storm併發機制*
       
 
  
  
 實現步驟： 
  
  安裝和配置jdk 
  安裝和配置zookeeper 
  上傳和解壓storm 
  配置storm安裝目錄conf目錄下的storm.yaml檔案 
  
 storm.yaml配置示例：  注意配置項開頭需要有空格，：後面需要跟空格，否則啟動會報錯 
 5. 

  
 

    

    
    19.大資料學習之旅——flume介紹
       
 
  
  
 flume介紹 
 概述 Flume最早是Cloudera提供的日誌收集系統，後貢獻給Apache。所以目前是Apache下的專案，Flume支援在日誌 系統中定製各類資料傳送方，用於收集資料。 Flume是一個高可用的，高可靠的魯棒性（robust 健壯性），分散式的海量日誌採集、聚合 

  
 

    

    
    大資料學習之路91-Hadoop的高可用
       
 
 
 我們之前一直沒有配置過hadoop的高可用，今天我們就來配置一下 
 之前我們的namenode只要一掛，則整個hdfs叢集就完蛋。雖然我們可以通過重啟的方式來恢復，可是我們重啟好之前，我們的hdfs叢集就不能提供服務了。所以它存在單點故障問題。 
 我們可以設定兩臺namenode ,一臺為a 

  
 

    

    
    大資料學習之Hadoop快速入門
      
                1、Hadoop生態概況

Hadoop是一個由Apache基金會所開發的分散式系統整合架構，使用者可以在不瞭解分散式底層細節情況下，開發分散式程式，充分利用叢集的威力來進行高速運算與儲存，具有可靠、高效、可伸縮的特點。
大資料學習資料分享群119599574

Hadoop