使用Hadoop的MapReduce來實現資料去重

阿新 • • 發佈：2018-12-13

最近在系統學習大資料知識，學了沒有記錄過幾天又忘光了，所以把學習內容記錄下來，方便以後檢視

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

import java.io.IOException;

/**
 * FileName: DdfferentData
 * Author:   hadoop
 * Email:     
[email protected]
 * Date:     18-10-6 上午9:34
 * Description:
 * hadoop過濾出不同的資料
 */
public class DdfferentData {
    /**
     * 使用Mapper將資料檔案中的資料本身作為Mapper輸出的key直接輸出
     */
    public static class forDifferenceMapper extends Mapper<Object, Text, Text, Text> {
        private final IntWritable one = new IntWritable(1);
        private Text mapperValue = new Text(); //存放key的值
        public void map(Object key, Text value, Context context)
                throws IOException, InterruptedException {
            context.write(value,mapperValue);

        }
    }

    /**
     * 使用Reducer將輸入的key本身作為key直接輸出
     */
    public static class forDifferenceReducer extends Reducer<Text, Text, Text, Text> {
        private Text reduceValue = new Text();
        @Override
        protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
           context.write(key,reduceValue);
        }
    }


    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration(); //設定MapReduce的配置
        String[] otherArgs = new GenericOptionsParser(conf,args).getRemainingArgs();
        if(otherArgs.length < 2){
            System.out.println("Usage: DeferentData <in> [<in>...] <out>");
            System.exit(2);
        }

        //Job job = new Job(conf);
        Job job = Job.getInstance(conf);
        job.setJarByClass(DdfferentData.class);
        job.setJobName("DeferentData");
        job.setMapperClass(forDifferenceMapper.class);
        job.setCombinerClass(forDifferenceReducer.class);//加速MapReduce並行效率
        job.setReducerClass(forDifferenceReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        for (int i = 0; i < otherArgs.length-1;++i){
            FileInputFormat.addInputPath(job,new Path(otherArgs[i]));
        }
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length-1]));

        System.exit(job.waitForCompletion(true)?0:1);
    }
}

使用Hadoop的MapReduce來實現資料去重

最近在系統學習大資料知識，學了沒有記錄過幾天又忘光了，所以把學習內容記錄下來，方便以後檢視 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.

[Python3.4]通過Redis利用BloomFilter實現資料去重

寫爬蟲的時候需要解決的一個很重要的問題就是需要判斷得來的新連結是否之前已經爬過。如果已經爬過，則沒有必要再爬。我之前採用的是非常笨拙的方法，就是把所有已經爬過的地址放在mysql的一張表中，但是問題在於，這樣每一個新連結到來，都會查詢一次是否該連結在表格中。這樣

java實現大批量json檔案資料去重

上週從資料採集部門拿到一批400份的json檔案,每個檔案裡30w+的json物件,物件裡有uid,對重複的uid,需要去重下. 本人電腦4核8G已經不能滿足了,總是記憶體不夠用.所以在伺服器上寫了一下(配置8核128G) ,結果讀取檔案以及去重都沒問題, 在最後的寫入是又是

java程式碼實現MySQL資料庫表千萬條資料去重

準備工作: 1.資料庫表:datatest5 2.欄位: id 主鍵自增,val 重複值欄位併為val建立索引 3.設定innodb緩衝池大小 show variables like "%_buffer%"; SET GLOBAL innod

Java 簡單實現物件資料去重處理

對於資料庫去重相當簡單，只需要在查詢語句上新增DISTINCT關鍵字就可以搞定，但是針對Nosql資料庫而言DISTINCT未必支援，這時候我們需要自己手動實現。這裡有一個數據不重複的最簡單的原理：字串

一組資料去重和排序的實現

題目描述明明想在學校中請一些同學一起做一項問卷調查，為了實驗的客觀性，他先用計算機生成了N個1到1000之間的隨機整數（N≤1000），對於其中重複的數字，只保留一個，把其餘相同的數去掉，不同的數對應著不同的學生的學號。然後再把這些數從小到大排序，按照排

資料去重的幾種實現形式

資料重複問題對資料庫進行操作，得到的結果有重複值，這是個不可避免的問題。從源頭上分析，分兩種情況：一是使用者執行了sql語句，此時得到的結果就已經包含重複值；另一種就是返回的物件是執行多條sql語句後得到了，每條sql語句返回的物件沒有重複值，但彼此之間

hashSet的實現原理去重

nbsp pan ati 速度底層 str sta 直接 list /* 集合的體系： ------------| Collection 單例集合的根接口 ----------------| List 如果是實現了List接口的集合類，具備的特點：有序，可重復。

Collection Set&HashSet&TreeSet(HashMap實現，去重特性)

ima alt for spec trees boolean cti image 分享圖片一、HashSet 1. 慮重功能特性(HashMap實現) 2. put(key) 如果重復返回false /**

怎麼理解用程式碼來實現資料結構

怎麼能更好的用程式碼實現資料結構內容？個人理解為：1.首先要掌握資料結構的邏輯，也就是說要知道資料結構是怎麼實現的。這一點達不到的話，後面根本就無從談起。 &nbs

大量資料去重：Bitmap點陣圖演算法和布隆過濾器(Bloom Filter)

Bitmap演算法與其說是演算法，不如說是一種緊湊的資料儲存結構。是用記憶體中連續的二進位制位(bit)，用於對大量整型資料做去重和查詢。其實如果並非如此大量的資料，有很多排重方案可以使用，典型的就是雜湊表。實際上，雜湊表為每一個可能出現的數字提供了一個一一對映的關係，每個元素都相當於有

JavaScript 實現陣列去重

JavaScript 實現陣列去重演示Demo 陣列去重 // 方法一 function unique1(a) { var res = []; for (var i = 0, len = a.length; i < len; i++) { for (var j =

JS實現陣列去重方法總結(三種常用方法)

方法一：雙層迴圈，外層迴圈元素，內層迴圈時比較值如果有相同的值則跳過，不相同則push進陣列 Array.prototype.distinct = function(){ var arr = this,result = [], i,j,len = arr.length; f

PHP 強大的字元處理能力之CSV資料去重

/* 對以下資料進行去重【detail_new_urls.csv 檔案中內容】 http://www.cnvd.org.cn/flaw/show/CNVD-2018-01155 http://www.cnvd.org.cn/flaw/show/CNVD-2017-01206 http:

再戰mysql 資料去重

年初時，寫過一篇去重的，在小表中還能用用，在大表中真的是效率低下，現在給了一次優化 https://www.cnblogs.com/jarjune/p/8328013.html 繼上一篇文章方法三： DELIMITER // DROP PROCEDURE IF EXISTS delete_

js利用indexof方法實現陣列去重

var arr = [1, 2, 1, 4, 3, 4, 2, 6, 8]; var newArr=[]; for(var i = 0; i < arr.length; i++) { if(newArr.indexOf(arr[i

Java實現陣列去重和兩陣列交併集

前言 Java平臺陣列去重基本的陣列去重法 HashMap實現陣列去重兩陣列交集基本的兩陣列求交法 HashMap版的兩陣列求交法兩陣列並集基本的兩陣列求並法 HashMap版的兩陣列求並法 Matlab平臺 Matlab處理陣列去重

Python List資料去重和巢狀List資料去重

單個list中資料去重例如：去除a中重複的資料 ‘b’ a = ['a','b','c','b'] b = list(set(a)) print(b) 輸出結果為： ['a', 'c', 'b'] 巢狀list中去除相同list資料

爬蟲資料去重

使用資料庫建立關鍵欄位（一個或者多個）建立索引進行去重根據url地址進行去重使用場景：url地址對應的資料不會變的情況，url地址能夠唯一判別一條資料的情況思路：　　url存在Redis中　　拿到url地址，判斷url在Redis的集合中是否存在　　　　存在：說明url地址已經被請求過

JS實現陣列去重總結

在真實的專案中碰到的陣列去重，一般都是後臺去處理，很少讓前端處理陣列去重。雖然日常專案用到的概率比較低，但還是需要了解一下一、[...new Set(arr)] [...new Set(arr)] //利用Set資料結構不存在重複值的特性，轉化為Set類陣列去重

使用Hadoop的MapReduce來實現資料去重

相關推薦