HDPCD-Java-複習筆記（22）- lab

阿新 • • 發佈：2018-12-26

Java lab booklet

package bloom;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.NullOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import org.apache.hadoop.util.bloom.BloomFilter;
import org.apache.hadoop.util.bloom.Key;
import org.apache.hadoop.util.hash.Hash;

public class StockDividendFilter extends Configured implements Tool {
	private static final String FILTER_FILE = "bloom/dividendfilter";

	public static class BloomMapper extends Mapper<LongWritable, Text, IntWritable, BloomFilter> {
		private final IntWritable ONE = new IntWritable(1);
		Stock stock = new Stock();
		private final String COMMA = ",";
		private BloomFilter outputValue;
		private String stockSymbol;
		
		@Override
		protected void setup(Context context) throws IOException, InterruptedException {
			stockSymbol = context.getConfiguration().get("stockSymbol");	
			outputValue = new BloomFilter(10000, 2, Hash.MURMUR_HASH);
		}

		@Override
		protected void map(LongWritable key, Text value, Context context)
				throws IOException, InterruptedException {
			String [] words = value.toString().split(COMMA);
			String currentSymbol = words[1];
			if(stockSymbol.equals(currentSymbol)) {
				stock.setSymbol(currentSymbol);
				stock.setDate(words[2]);
				outputValue.add(new Key(stock.toString().getBytes()));
			}
		}

		@Override
		protected void cleanup(Context context) throws IOException, InterruptedException {
			context.write(ONE, outputValue);
		}	
	}
	
	public static class BloomReducer extends Reducer<IntWritable, BloomFilter, NullWritable, NullWritable> {
		private BloomFilter allValues;
		
		@Override
		protected void setup(Context context) throws IOException,
				InterruptedException {
			allValues = new BloomFilter(10000, 2, Hash.MURMUR_HASH);
		}

		@Override
		protected void reduce(IntWritable key, Iterable<BloomFilter> values, Context context)
				throws IOException, InterruptedException {			
			while(values.iterator().hasNext()) {
				BloomFilter current = values.iterator().next();
				allValues.or(current);
			}
		}

		@Override
		protected void cleanup(Context context) throws IOException,
				InterruptedException {
			Configuration conf = context.getConfiguration();
		    Path path = new Path(FILTER_FILE);
		    FSDataOutputStream out = path.getFileSystem(conf).create(path);
		    allValues.write(out);
		    out.close();
		}
	}
	
	
	public static class StockFilterMapper extends Mapper<LongWritable, Text, Stock, DoubleWritable> {
		private BloomFilter dividends;
		private Stock outputKey = new Stock();
		private DoubleWritable outputValue = new DoubleWritable();
		private String stockSymbol;
		private final String COMMA = ",";

		@Override
		protected void setup(Context context) throws IOException, InterruptedException {
			stockSymbol = context.getConfiguration().get("stockSymbol");

			Configuration conf = context.getConfiguration();
		    Path path = new Path(FILTER_FILE);
		    FSDataInputStream in = path.getFileSystem(conf).open(path);
			dividends = new BloomFilter(10000,2,Hash.MURMUR_HASH);
			dividends.readFields(in);
		}
		
		@Override
		protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
			String [] words = value.toString().split(COMMA);
			String currentSymbol = words[1];
			if(currentSymbol.equals(stockSymbol)) {
				outputKey.setSymbol(currentSymbol);
				outputKey.setDate(words[2]);
				Key stockKey = new Key(outputKey.toString().getBytes());
				if(dividends.membershipTest(stockKey)) {
					outputValue.set(Double.parseDouble(words[6]));
					context.write(outputKey, outputValue);
				}
			}
		}
	}

	public static class StockFilterReducer extends Reducer<Stock, DoubleWritable, Text, DoubleWritable> {
		private String stockSymbol = "";
		private Text outputKey = new Text();

		@Override
		protected void setup(Context context) throws IOException, InterruptedException {
			stockSymbol = context.getConfiguration().get("stockSymbol");
		}

		@Override
		protected void reduce(Stock key, Iterable<DoubleWritable> values, Context context) throws IOException, InterruptedException {
			//Check for a false positive
			if(!stockSymbol.equals(key.getSymbol())) {
				System.out.println("False positive: " + key.getSymbol());
			} else {
				while(values.iterator().hasNext()) {
					DoubleWritable closingPrice = values.iterator().next();
					outputKey.set(key.toString());
					context.write(outputKey, closingPrice);
				}
			}
		}

	}


	@Override
	public int run(String[] args) throws Exception {
		Job job1 = Job.getInstance(getConf(), "CreateBloomFilter");
		job1.setJarByClass(getClass());
		Configuration conf = job1.getConfiguration();
		conf.set("stockSymbol", args[0]);

		FileInputFormat.setInputPaths(job1, new Path("dividends"));
		
		job1.setMapperClass(BloomMapper.class);
		job1.setReducerClass(BloomReducer.class);
		job1.setInputFormatClass(TextInputFormat.class);
		job1.setOutputFormatClass(NullOutputFormat.class);
		job1.setMapOutputKeyClass(IntWritable.class);
		job1.setMapOutputValueClass(BloomFilter.class);
		job1.setOutputKeyClass(NullWritable.class);
		job1.setOutputValueClass(NullWritable.class);
		job1.setNumReduceTasks(1);
		
		boolean job1success = job1.waitForCompletion(true);
		if(!job1success) {
			System.out.println("The CreateBloomFilter job failed!");
			return -1;
		}

		Job job2 = Job.getInstance(conf, "FilterStocksJob");
		job2.setJarByClass(getClass());
		conf = job2.getConfiguration();

		Path out = new Path("bloomoutput");
		out.getFileSystem(conf).delete(out,true);
		FileInputFormat.setInputPaths(job2, new Path("stocks"));
		FileOutputFormat.setOutputPath(job2, out);
		
		job2.setMapperClass(StockFilterMapper.class);
		job2.setReducerClass(StockFilterReducer.class);
		job2.setInputFormatClass(TextInputFormat.class);
		job2.setOutputFormatClass(TextOutputFormat.class);
		job2.setMapOutputKeyClass(Stock.class);
		job2.setMapOutputValueClass(DoubleWritable.class);	
		job2.setOutputKeyClass(Text.class);
		job2.setOutputValueClass(DoubleWritable.class);
				
		boolean job2success = job2.waitForCompletion(true);
		if(!job2success) {
			System.out.println("The FilterStocksJob failed!");
			return -1;
		}		
		return 1;
	}


	public static void main(String[] args) {
		int result = 0;
		try {
			result = ToolRunner.run(new Configuration(),  new StockDividendFilter(), args);
		} catch (Exception e) {
			e.printStackTrace();
		}
		System.exit(result);

	}

}

package bloom;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

public class Stock implements WritableComparable<Stock> {

	private String symbol;
	private String date;
	private static final String COMMA = ",";
	
	@Override
	public boolean equals(Object obj) {
		if(obj instanceof Stock) {
			Stock other = (Stock) obj;
			if(symbol.equals(other.symbol) && date.equals(other.date)) {
				return true;
			}
		} 
		return false;
	}

	@Override
	public int hashCode() {
		return (symbol + date).hashCode();
	}

	@Override
	public void readFields(DataInput in) throws IOException {
		symbol = in.readUTF();
		date = in.readUTF();
	}

	@Override
	public void write(DataOutput out) throws IOException {
		out.writeUTF(symbol);
		out.writeUTF(date);
	}

	@Override
	public int compareTo(Stock arg0) {
		int response = this.symbol.compareTo(arg0.symbol);
		if(response == 0) {
			response = this.date.compareTo(arg0.date);
		}
		return response;
	}

	public String getSymbol() {
		return symbol;
	}

	public void setSymbol(String symbol) {
		this.symbol = symbol;
	}

	public String getDate() {
		return date;
	}

	public void setDate(String date) {
		this.date = date;
	}

	@Override
	public String toString() {
		StringBuilder sb = new StringBuilder();
		sb.append(symbol).append(COMMA).append(date);
		return sb.toString();
	}
}

workflow.xml

<workflow-app xmlns="uri:oozie:workflow:0.2" name="dividendstockfilter-workflow">
	<start to="build-bloomfilter" />
	<action name="build-bloomfilter">
		<map-reduce>
			<job-tracker>${resourceManager}</job-tracker>
			<name-node>${nameNode}</name-node>
			<prepare>
				<delete path="${nameNode}/user/${wf:user()}/bloom/temp" />
			</prepare>
			<configuration>
				<property>
					<name>mapreduce.job.queuename</name>
					<value>${queueName}</value>
				</property>
				<property>
					<name>mapred.mapper.new-api</name>
					<value>true</value>
				</property>
				<property>
					<name>mapred.reducer.new-api</name>
					<value>true</value>
				</property>
				<property>
					<name>mapreduce.job.map.class</name>
					<value>bloom.StockDividendFilter$BloomMapper</value>
				</property>
				<property>
					<name>mapreduce.job.reduce.class</name>
					<value>bloom.StockDividendFilter$BloomReducer</value>
				</property>
				<property>
					<name>mapreduce.job.inputformat.class</name>
					<value>org.apache.hadoop.mapreduce.lib.input.TextInputFormat
					</value>
				</property>
				<property>
					<name>mapreduce.job.outputformat.class</name>
					<value>org.apache.hadoop.mapreduce.lib.output.NullOutputFormat
					</value>
				</property>
				<property>
					<name>mapreduce.map.output.key.class</name>
					<value>org.apache.hadoop.io.IntWritable</value>
				</property>
				<property>
					<name>mapreduce.map.output.value.class</name>
					<value>org.apache.hadoop.util.bloom.BloomFilter</value>
				</property>
				<property>
					<name>mapreduce.job.output.key.class</name>
					<value>org.apache.hadoop.io.NullWritable</value>
				</property>
				<property>
					<name>mapreduce.job.output.value.class</name>
					<value>org.apache.hadoop.io.NullWritable</value>
				</property>
				<property>
					<name>mapreduce.job.reduces</name>
					<value>1</value>
				</property>
				<property>
					<name>mapreduce.input.fileinputformat.inputdir</name>
					<value>${nameNode}/user/${wf:user()}/bloom/dividends</value>
				</property>
				<property>
					<name>mapreduce.output.fileoutputformat.outputdir</name>
					<value>${nameNode}/user/${wf:user()}/bloom/temp</value>
				</property>
				<property>
					<name>stockSymbol</name>
					<value>${stockSymbol}</value>
				</property>
			</configuration>
		</map-reduce>
		<ok to="filter-stocks" />
		<error to="fail" />
	</action>
	<action name="filter-stocks">
		<map-reduce>
			<job-tracker>${resourceManager}</job-tracker>
			<name-node>${nameNode}</name-node>
			<prepare>
				<delete path="${nameNode}/user/${wf:user()}/bloom/bloomoutput" />
			</prepare>
			<configuration>
				<property>
					<name>mapreduce.job.queuename</name>
					<value>${queueName}</value>
				</property>
				<property>
					<name>mapred.mapper.new-api</name>
					<value>true</value>
				</property>
				<property>
					<name>mapred.reducer.new-api</name>
					<value>true</value>
				</property>
				<property>
					<name>mapreduce.job.map.class</name>
					<value>bloom.StockDividendFilter$StockFilterMapper</value>
				</property>
				<property>
					<name>mapreduce.job.reduce.class</name>
					<value>bloom.StockDividendFilter$StockFilterReducer</value>
				</property>
				<property>
					<name>mapreduce.job.inputformat.class</name>
					<value>org.apache.hadoop.mapreduce.lib.input.TextInputFormat
					</value>
				</property>
				<property>
					<name>mapreduce.job.outputformat.class</name>
					<value>org.apache.hadoop.mapreduce.lib.output.TextOutputFormat
					</value>
				</property>
				<property>
					<name>mapreduce.job.output.key.class</name>
					<value>bloom.Stock</value>
				</property>
				<property>
					<name>mapreduce.job.output.value.class</name>
					<value>org.apache.hadoop.io.DoubleWritable</value>
				</property>
				<property>
					<name>mapreduce.job.reduces</name>
					<value>1</value>
				</property>
				<property>
					<name>mapreduce.output.fileoutputformat.outputdir</name>
					<value>${nameNode}/user/${wf:user()}/bloom/bloomoutput</value>
				</property>
				<property>
					<name>mapreduce.input.fileinputformat.inputdir</name>
					<value>${nameNode}/user/${wf:user()}/bloom/stocks</value>
				</property>
				<property>
					<name>stockSymbol</name>
					<value>${stockSymbol}</value>
				</property>
			</configuration>
		</map-reduce>
		<ok to="end" />
		<error to="fail" />
	</action>
	<kill name="fail">
		<message>Job failed, error
			message[${wf:errorMessage(wf:lastErrorNode())}]</message>
	</kill>
	<end name="end" />
</workflow-app>

job.properties

# hadoop fs -mkdir bloom

# hadoop fs -mkdirbloom/lib

# hadoop fs -mkdir bloom/dividends

# hadoop fs -put ~/java/labs/data/stock_dividends/NYSE_dividends_A.csvbloom/dividends

# hadoop fs -mkdir bloom/stocks

# hadoop fs -put~/java/labs/data/stock_prices/NYSE_daily_prices_A.csv bloom/stocks

# oozie job -config job.properties -run

HDPCD-Java-複習筆記（22）- lab

Java lab booklet package bloom; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.c

HDPCD-Java-複習筆記（23）- lab

Java lab booklet package hbase; public class StockConstants { public static final byte [] PRICE_COLUMN_FAMILY = "p".getBytes(); pu

HDPCD-Java-複習筆記（21）- lab

Java lab booklet importstocks.hive CREATE TABLE stocks (xchange STRING, symbol STRING, price

HDPCD-Java-複習筆記（14）- lab

Java lab booklet package mapjoin; import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import

HDPCD-Java-複習筆記（13）- lab

Java lab booklet package compress; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.had

HDPCD-Java-複習筆記（16）

PIG Pig uses a high-level, SQL-like programming language namedPig Latin. Pig was created at Yahoo to make it easier to analyze the data

HDPCD-Java-複習筆記（20）

Orchestration of MapReduce jobs can be accomplished in several ways, including: Linear Chain of MapReduce Jobs Use the return val

HDPCD-Java-複習筆記（17）

Java lab booklet MRUnit Test package average; import java.io.IOException; import java.util.ArrayList; import java.util.List; import or

HDPCD-Java-複習筆記（19）

Hive Apache Hive maintains metadata information in a metastore to generate tables. A Hive table consists of： · A schema stor

HDPCD-Java-複習筆記（18）

Java lab booklet Understanding Pig [email protected]:~/java/labs/demos# pig grunt> copyFromLocal/root/java/labs/demos/pigdemo.tx

Java複習筆記（二）

算術運算子加減乘除求餘運算 + - * / % += 相當於+完之後賦值例如：int a= 0;

Java複習筆記（三）

程式控制語句 if條件語句只要滿足條件就處理，不完全是順序結構，可以跳著執行。　　　　（1）if&nbs

JAVA複習筆記（五）

二維陣列矩陣。 m[i][j] 第i行 j列表示一個由行列組成的資料，例如：表格 1

JAVA複習筆記（六）

1、Eclipse的使用 IDE：idea（目前流行的）、myeclipse、eclipse、netbeans 、(visual studio) Git：版本管理工具從Git上下載工程 &n

JAVA學習筆記（1）——a++與++a的區別

col int 演示 opera 解析代碼數據 ++i div 需求：此博客用於解釋i++與++i的區別。過程： 1、名稱解釋 ++：自增，即在原有數據基礎上+1，再賦給原有數據。 2、程序演示（1）代碼： 1 class OperateDemo 2 { 3

JAVA學習筆記（三）

byte repl efi ber 時間 clas 區分大小寫增強for size @SuppressWarnings("resource")是用來壓制資源泄露警告的。比如使用io類，最後沒有關閉。Set集合特點：1）無序，不隨機2）元素唯一3）沒下標註意：Collect

java學習筆記（二）圖形用戶接口

star strong per getwidth cep runnable graphics s2d gb2 這個學期主要放在ACM比賽上去了，比賽結束了。不知不覺就15周了，這周就要java考試了，復習一下java吧。java的學習的目的還是讓我們學以致用，讓我們可以

Java學習筆記（二）-------String，StringBuffer，StringBuilder區別以及映射到的同步，異步相關知識

ringbuf 等待 java學習筆記 java學習單線程回復改變 hashtable ble 1. String是不可變類，改變String變量中的值，相當於開辟了新的空間存放新的string變量 2. StringBuffer 可變的類，可以通過append方法改

java學習筆記（四）：import語法

employee sign cnblogs java 調用變量賦值 temp 職位求職 Import 語法是給編譯器尋找特定類的適當位置的一種方法。創建一個Employee 類，包括四個實體變量姓名（name），年齡（age），職位（designation）和薪水（s

java學習筆記（六）：變量類型

animal 單獨使用 div 位置 fin strong pub 局部變量變量聲明 java一共三種變量：局部變量（本地變量）：方法調用時創建，方法結束時銷毀實例變量（全局變量）：類創建時創建，類銷毀時銷毀類變量（靜態變量）：程序啟動是創建，程序銷毀時銷毀

HDPCD-Java-複習筆記（22）- lab

相關推薦