MapReduce進一步瞭解（二）——序列化

阿新 • • 發佈：2019-02-14

1、序列化概念

序列化（Serialization）是指把結構化物件轉化為位元組流。
反序列化（Deserialization）是序列化的逆過程，把位元組流轉回結構化物件。
java序列化（java.io.Serialization）

2、hadoop序列化的特點

緊湊：高效實用儲存空間
快速：讀寫資料的額外開銷小
可擴充套件：可透明地讀取老格式的資料
互操作：支援多語言的互動

========================================================================================

3、氣象資料分析案例

資料來源型別：【氣象站，溫度，，，，氣象時間，當前時間】

最終得到的資料：【氣象站，最高氣溫出現的次數，最高氣溫，溼度，最高氣溫出現的最後一次時間】

首先定義一個SelBean類

package Test;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import java.util.Set;

import org.apache.hadoop.io.WritableComparable;

public class SelBean implements WritableComparable<SelBean> {

	//定義氣象站，溫度，溼度，時間，同時右鍵對這些屬性新增set和get方法
	private String station;
	private double temp;
	private double humi;
	private String time;
	
	//新增有參的構造方法，對應的就應該新增一個無參的構造方法
	public void set(String station, double temp, double humi, String time)
	{
		this.station = station;
		this.temp = temp;
		this.humi = humi;		
		this.time = time; 
	}
	//無參的構造方法
	public void set (){}
	
	//反序列化，將位元組流中的內容讀取出來賦給物件
	@Override
	public void readFields(DataInput in) throws IOException {
		// TODO Auto-generated method stub
		this.station = in.readUTF();
		this.temp = in.readDouble();
		this.humi = in.readDouble();
		this.time = in.readUTF();
	}

	//序列化，將字記憶體中的資訊存放在位元組流當中
	//注意：序列化和反序列化中屬性的順序和型別
	@Override
	public void write(DataOutput out) throws IOException {
		// TODO Auto-generated method stub
		out.writeUTF(station);//支援多種型別
		out.writeDouble(temp);
		out.writeDouble(humi);
		out.writeUTF(time);
	}   

	//重寫tostring方法，將整體結果作為一個value返回
	@Override
	public String toString() {
		// TODO Auto-generated method stub
		return this.station + "\t" + this.temp + "\t" + this.humi + "\t" + this.time + ";";
		//return this.temp + "\t" + this.humi + "\t" + this.time;
	}


	//重寫比較方法
	@Override
	public int compareTo(SelBean o) {
		// TODO Auto-generated method stub
		if(this.temp == o.getTemp())
		{
			return this.humi > o.getHumi() ? 1 : -1;
		}
		else
		{
			return this.temp > o.getTemp() ? -1 :1;
		} 
	}

	public String getStation() {
		return station;
	}

	public void setStation(String station) {
		this.station = station;
	}

	public double getTemp() {
		return temp;
	}

	public void setTemp(double temp) {
		this.temp = temp;
	}

	public double getHumi() {
		return humi;
	}

	public void setHumi(double humi) {
		this.humi = humi;
	}

	public String getTime() {
		return time;
	}

	public void setTime(String time) {
		this.time = time;
	}

}

主類

<pre class="java" name="code">package Test;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class DataSelection {
	
	public static class DSelMapper extends Mapper<LongWritable, Text, Text, SelBean>
	{

		private Text k = new Text();; 
		private SelBean v = new SelBean();
		String ti= "";
		
		//重寫map方法
		@Override
		protected void map(LongWritable key, Text value, Context context)
				throws IOException, InterruptedException {
			// TODO Auto-generated method stub
			//獲取到一行內容
			String line=value.toString();
			//通過切分資料將資料儲存在陣列中
			String[] fields=line.split(",");
			//獲取到三個欄位【氣象站，溫度，溼度,時間】
			String s=fields[0].substring(1, fields[0].length()-1);
			String te=fields[1].substring(1, fields[1].length()-1);
			String h=fields[2].substring(1, fields[2].length()-1);
			//由於每一行的內容不一定相同，所以獲取時間的時候要區分一下
			if(fields.length == 7)
			{
				 ti=fields[5].substring(1, fields[5].length()-1); 
			}
			else
				 ti= "";
			//將獲取得到的溫度和溼度轉換為double型
			double te0=Double.parseDouble(te);
			double h0=Double.parseDouble(h); 
			//設定key、value；key為氣象站，value為【氣象站，溫度，溼度，時間】
			k.set(s);
			v.set(s,te0,h0,ti);
			//寫入context
			context.write(k,v);
		} 
		 
	}
	private static class DSelReducer extends Reducer<Text, SelBean, Text, SelBean>
	{
		private SelBean v = new SelBean(); 
	 
		//重寫reduce方法
		//這裡要注意接收到的資料型別
		//<key, value><station1，{SelBean(station1,temp1,h1,t1),SelBean(station1,temp2,h2,t2),SelBean(station1,temp3,h3,t3)......}>
		@Override
		protected void reduce(Text key, Iterable<SelBean> values,Context context)
				throws IOException, InterruptedException {
			// TODO Auto-generated method stub 
			//定義最好氣溫、溼度、時間、最高氣溫出現次數、最高氣溫出現次數，
			double maxValue = Double.MIN_VALUE;
			double h = 0;
			String t = "";
			String s = "";
			int count = 0;
			List<Double> data = new ArrayList<Double>();
			//迴圈取得每一個氣象站的最高氣溫
			for (SelBean bean : values)
			{
				//maxValue = bean.getTemp();
				maxValue = Math.max(maxValue, bean.getTemp()); 
				data.add(bean.getTemp());
				if(bean.getTemp() >= maxValue)
				{ 
					h = bean.getHumi(); 
					t = bean.getTime();
				}
				//s = bean.getStation(); 
			} 
			//計算最高氣溫出現的次數
			for (double bean : data)
			{ 
				 if (bean == maxValue)
					 count ++; 
			} 		

			s= Integer.toString(count); 
			v.set(s, maxValue, h , t);
			
			context.write(key, v);
		}
		
	} 
	
	public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException { 
	 
		Job job = Job.getInstance(new Configuration());
		
		job.setJarByClass(DataSelection.class); 
		job.setMapperClass(DSelMapper.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(SelBean.class);
		
		 
		job.setReducerClass(DSelReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(SelBean.class);
		 
		FileInputFormat.addInputPath(job,new Path("hdfs://10.2.173.15:9000/user/guest/input01"));
		FileOutputFormat.setOutputPath(job, new Path("hdfs://10.2.173.15:9000/user/guest/0data3")); 
		
		job.waitForCompletion(true); 
	
	} 
}

MapReduce進一步瞭解（二）——序列化

1、序列化概念序列化（Serialization）是指把結構化物件轉化為位元組流。反序列化（Deserialization）是序列化的逆過程，把位元組流轉回結構化物件。java序列化（java.io.Serialization）2、hadoop序列化的特點緊湊：高效實用

IO的應用（二）--序列化與反序列化

package com.bjpowernode.demo02; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import ja

Zookeeper 原始碼（二）序列化元件 Jute

Zookeeper 原始碼（二）序列化元件 Jute 一、序列化元件 Jute 對於一個網路通訊，首先需要解決的就是對資料的序列化和反序列化處理，在 ZooKeeper 中，使用了Jute 這一序列化元件來進行資料的序列化和反序列化操作。同時，為了實現一個高效的網路通訊程式，良好的通訊協議設計也是至關重要

（二十二）序列化-pickle，json

一、什麼是序列化在我們儲存資料或者⽹絡傳輸資料的時候，需要對我們的物件進⾏處理。把物件處理成⽅便儲存和傳輸的資料格式，這個過程叫序列化。不同的序列化，結果也不同，但是⽬的是⼀樣的，都是為了儲存和傳輸。二、 pickle pickle⽤起來很簡單，說⽩了，就是把我

C# webApi----H5_app後臺制作（3）--序列化的類無法接收Json格式的數據

過程轉換成無法 png bsp 測試數據請求請求 word 今天使用fiddler軟件對webapi發送json格式數據請求時，後臺無法接收到數據首先介紹一下什麽是序列化序列化：將數據結構或對象轉換成二進制串的過程反序列化：將在序列化過程中所生成的二進制串

redis 實驗（二）持續化

系統運維 Linux 安裝運行了之後，需要開始配置下持久化文件關於持久化有兩種方式RDB和AOF每隔900秒1個鍵更新，那麽久生成一個快照每隔300秒內10個鍵值更新，就生成快照60秒內10000個鍵值更新就生成快照可以看到最新的快照AOF 當目前的文件大小超過64，則進行重寫，配置如下相比AO

大資料入門（10）序列化機制，mr流量求和

public class FlowBean implements WritableComparable<FlowBean>{ private String phoneNB; private long u

php魔術常量；資料（變數）序列化／反序列化；魔術方法；static後期靜態繫結特性

與類有關的魔術常量： __CLASS__,：獲取其所在的類的類名。 __METHOD__：獲取其所在的方法的方法名。 class A{ 　　function f1(){ 　　　　echo __CLASS__； //輸出“A” 　　　　echo __METHOD__； //輸出“f1”

Django：（08）序列化器

1、序列化和反序列化變數從記憶體中變成可儲存或傳輸的過程稱之為序列化，序列化之後，就可以把序列化後的內容寫入磁碟，或者通過網路傳輸到別的機器上。反過來，把變數內容從序列化的物件重新讀到記憶體裡稱之為反序列化。序列化是將物件狀態轉換為可保持或可傳輸的形式的過程。序列化的補集是反序列化，後者將流轉換為物件。這

DAY97 - Rest Framework(二）- 序列化元件之Serializer和ModelSerializer

一、序列化元件之Serializer from django.http import JsonResponse from rest_framework.views import APIView from rest_framework.request import Request from rest_fram

【 MATLAB 】DFT的性質討論（二）序列的迴圈移位及其 MATLAB 實現（時域方法）

如果一個N點序列在任一方向上移位，那麼其結果都不在是位於 0 < = n <= N-1之間。因此，需要進行下面的操作：為了形象化，可以設想將序列x(n)放在一個圓上，現在將這個圓旋轉

【 MATLAB 】【 MATLAB 】DFT的性質討論（二）序列的迴圈移位及其 MATLAB 實現（頻域方法）

提到了對序列x(n)做迴圈移位後的DFT形式為：上篇博文已經討論過了第一種實現迴圈移位的方法，通過在時域中對序列移位，之後取模運算，得到迴圈移位。並給出了精闢地驗證。可以很放心的使用。這篇博文呢？我們就通過序列迴圈移位後的DFT形式來反推序列的迴圈移位，並獨立

Scrapy中使用ItemLoder（二）:簡易化的提高與理解

查看了許多關於ItemLoder的使用教學貼，整理出一些簡單，易懂的使用方法，方便小白如我的童鞋們，能夠更好更快的使用到ItemLoder。第一步ItemLoder的使用步驟。 # ItemLoder在spider.py中使用 # 匯入ItemLoder模組

Spring boot專案helloworld進一步瞭解（一）

本文內容梳理： 1、tomcat埠號修改（方式兩種） 2、banner改變 3、關於spring boot的返回資料解析（json資料和編碼格式） 4、整合jsp或者ftl頁面（同時整合jsp和freemarker）前期準備：在上文基礎上完善檔案新增目錄resources（

偏前端-vue.js學習之路初級（二）元件化構建

vue.js 元件化構建元件系統是 Vue 的另一個重要概念，因為它是一種抽象，允許我們使用小型、自包含和通常可複用的元件構建大型應用。仔細想想，幾乎任意型別的應用介面都可以抽象為一個元件樹：一、使用元件 1.元件的全域性註冊--可以使用 Vue.compon

Django筆記（二）模組化url路由

Django框架之路由模組化為什麼要使用路由模組化 1.大家應該都知道Django可以做什麼大型的企業級網站，大家也可以百度看下，國內的知乎就是使用python做的，像這樣龐大的一個專案，url的路由管理起來會相當的麻煩，還好django有一個模組化路由的功能幫助我們解決了這個

Django rest framework（6）----序列化

目錄序列化 1.繼承Serializer 基本使用（1）models.py from django.db import models class UserInfo(models.Model): USER_TYPE = ( (1,'普通使用者'),

MapReduce程式設計基礎（二）——數值概要（計算最大值、最小值、平均值）

數值概要數值概要模式是計算資料集聚合統計的一般性模式適用場景：要處理的資料數值或者計數資料可以按某些特定的欄位分組數值概要的應用：單詞計數記錄計數最大/最小值計數平均值/中位數/標準差

Mybaits深入瞭解（二）—-入門例項

Mybatis CRUD例項例項的開發環境 java環境開發工具資料庫 jdk1.7 myeclipse mysql 專案的目錄結構 log4j.prop

GSON使用筆記（1） -- 序列化時排除欄位的幾種方式

GSON是Google釋出的JSON序列化/反序列化工具，非常容易使用。本文簡要討論在使用GSON將Java物件轉成JSON時，如何排除某些欄位。最簡單的用法假設有下面這個類： class MyObj { public in

MapReduce進一步瞭解（二）——序列化

1、序列化概念

2、hadoop序列化的特點

3、氣象資料分析案例

相關推薦