大資料排重演算法-布隆演算法（BloomFilter）

阿新 • • 發佈：2019-01-27

前續：網頁上已經有很多布隆過濾器很全的資料了，由於博主最近在做網頁爬蟲，遇到url防重問題，所以認真分析了布隆濾波器原理，也參考了相關博文。旨在給出不同人對其不同的理解，好給大家更全面的參考。

BloomFilter演算法，是一種大資料排重演算法。在一個數據量很大的集合裡，能準確斷定一個物件不在集合裡；判斷一個物件有可能在集合裡，而且佔用的空間不大。它不適合那種要求準確率很高的情況，零錯誤的場景。通過犧牲部分準確率達到高效利用空間的目的。

場景一：假如有一個很大的表，通過欄位key查詢資料，操作很重；業務方請求時，傳過來的key有很大一部分是不存在的；這種不存在的key請求就會浪費我們的查詢資源。針對這種情況，我們可以引人BloomFilter演算法，在請求key查詢之前，使用BloomFilter匹配。如果不存在，就不用去查詢了（正確率百分之百）；如果存在，走原來的查詢流程（有可能不存在的key混進去了）。

場景二：假如有一個很大的表，通過欄位key判斷是否存在，操作很重，如果存在就做一些操作，不存在就加入表中；可容許一定的誤判。對應這種情況，我們也可以引入BloomFilter演算法，通過key查詢表判斷存在否的方式可換成BloomFilter演算法。如果存在，我們執行以前的邏輯（有一定的誤判，業務也允許一定的錯誤）；如果不存在，也執行以前的邏輯。

 BloomFilter是由一個長度為n的bit陣列S和k個hash演算法組成。先使bit陣列的初始值為0.
 新增值M：M經過k個hash演算法計算後，得到：M1, M2 … Mk; 然後，使S[M1]=1,S[M2]=2... S[Mk]=1
 判斷值Y：Y經過k個hash演算法計算後，得到：Y1,Y2... Yk。 然後，判斷S[Y1],S[Y2] … S[Yk] 是否都為1。如果有一個不為1，那這個Y就一定是不存在的，以前沒新增過；如果都為1，那這個Y可能存在，也可能其他值新增後，影響了這次判斷的結果。

 我們要做的是儘量降低正確判斷的誤判率，資料顯示， 當 k = ln(2)* m/n 時（k是hash函式個數，m是bit陣列的長度，n是加入值的個數），出錯概率是最小的。

當然，如果我們要移除值，怎麼辦呢？當前的結構是沒法實現的，我們可以通過在加一個等長的資料，存放每個bit位設定為1的次數，設定一次加1，取消一次減一。

 package com.ljt.algorithm;

import java.util.BitSet;

/**
 * BloomFilter演算法，是一種大資料排重演算法。在一個數據量很大的集合裡，能準確斷定一個物件不在集合裡；判斷一個物件有可能在集合裡，而且佔用的空間不大。它不適合那種要求準確率很高的情況，零錯誤的場景。通過犧牲部分準確率達到高效利用空間的目的。
 * 
 * 場景一：假如有一個很大的表，通過欄位key查詢資料，操作很重；業務方請求時，傳過來的key有很大一部分是不存在的；這種不存在的key請求就會浪費我們的查詢資源。針對這種情況，我們可以引人BloomFilter演算法，在請求key查詢之前，使用BloomFilter匹配。如果不存在，就不用去查詢了（正確率百分之百）；如果存在，走原來的查詢流程（有可能不存在的key混進去了）。
 * 
 * 場景二：假如有一個很大的表，通過欄位key判斷是否存在，操作很重，如果存在就做一些操作，不存在就加入表中；可容許一定的誤判。對應這種情況，我們也可以引入BloomFilter演算法，通過key查詢表判斷存在否的方式可換成BloomFilter演算法。如果存在，我們執行以前的邏輯（有一定的誤判，業務也允許一定的錯誤）；如果不存在，也執行以前的邏輯。
 * 
 * BloomFilter是由一個長度為n的bit陣列S和k個hash演算法組成。先使bit陣列的初始值為0.
 * 新增值M：M經過k個hash演算法計算後，得到：M1, M2 … Mk; 然後，使S[M1]=1,S[M2]=2... S[Mk]=1
 * 判斷值Y：Y經過k個hash演算法計算後，得到：Y1,Y2... Yk。 然後，判斷S[Y1],S[Y2] … S[Yk]
 * 是否都為1。如果有一個不為1，那這個Y就一定是不存在的，以前沒新增過；如果都為1，那這個Y可能存在，也可能其他值新增後，影響了這次判斷的結果。
 * 
 * 我們要做的是儘量降低正確判斷的誤判率，資料顯示， 當 k = ln(2)* m/n
 * 時（k是hash函式個數，m是bit陣列的長度，n是加入值的個數），出錯概率是最小的。
 * 
 * 當然，如果我們要移除值，怎麼辦呢？當前的結構是沒法實現的，我們可以通過在加一個等長的資料，存放每個bit位設定為1的次數，設定一次加1，取消一次減一。
 */ 

public class SimpleBloomFilter {
    public static final int BLOOMSIZE = 2 << 24; // 規定bloom的長度24bits
    public static final int[] seeds = { 3, 5, 7, 11, 13, 31, 37, 61, 131 }; // 8個hashset函式
    private BitSet bits = new BitSet(BLOOMSIZE); // 定義一個24位長的bit 所有位初始值都是false

    // 把字串加到布隆濾波器中，簡而言之就是把該字串的相應hashcode對映到bits上 

    public boolean add(String s) {
        if (s.equals("") || (s == null)) {
            return false;
        }
        for (int i = 0; i < seeds.length; i++) {
            HashCodeGen hcg = new HashCodeGen(seeds[i]);
            int codeGen = hcg.hashCodeGen(s);
            bits.set(codeGen, true);
        }
        return true;
    }

    // 判斷該字串是否存在
    public boolean contain(String s) throws Exception {
        if (s.equals("") || (s == null)) { // 輸入的字串需要控制
            throw new Exception("非法輸入字串");
        }
        boolean ret = true;
        for (int i = 0; i < seeds.length; i++) {
            HashCodeGen hcg = new HashCodeGen(seeds[i]);// 生成seeds長度的物件
            ret = ret && bits.get(hcg.hashCodeGen(s));
            if (ret == false)
                break;
        }
        return ret;
    }

    public static void main(String[] args) {
        SimpleBloomFilter bfn = new SimpleBloomFilter();

        bfn.add("www.baidu.com");
        try {
            System.out.println(bfn.contain("www.baidu.com.cn"));
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

}

class HashCodeGen {
    private int seed = 0;

    public HashCodeGen(int seed) {
        this.seed = seed;
    }

    // 生成hash碼
    public int hashCodeGen(String s) {
        int hash = 0;
        for (int i = 0; i < s.length(); i++) {
            hash = hash * seed + s.charAt(i);
        }
        return (hash & 0x7ffffff);
    }
}

布隆過濾器（BloomFilter）

一、布隆過濾器［1］布隆過濾器（Bloom Filter）是由布隆（Burton Howard Bloom）在1970年提出的。它實際上是由一個很長的二進位制向量和一系列隨機對映函式組成，布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都遠

大資料排重演算法-布隆演算法（BloomFilter）

前續：網頁上已經有很多布隆過濾器很全的資料了，由於博主最近在做網頁爬蟲，遇到url防重問題，所以認真分析了布隆濾波器原理，也參考了相關博文。旨在給出不同人對其不同的理解，好給大家更全面的參考。 BloomFilter演算法，是一種大資料排重演算法。在一個數據量

大資料之電話日誌分析callLog案例（四）

一、修改kafka資料在主題中的貯存時間，預設是7天 ------------------------------------------------- [kafka/conf/server.properties] log.retention.hours=1 二、使用hive進行聚

大資料之電話日誌分析callLog案例（三）

一、查詢使用者最近的通話資訊 -------------------------------------------- 1.實現分析使用ssm可視介面提供查詢串 -- controller連線 hiveserver2 -- 將命令轉化成hsql語句 -- hive繫結hba

大資料之電話日誌分析callLog案例（二）

一、前端實現 -- 按照時間段查詢通話記錄 ----------------------------------------- 1.完善calllog的dao類calllog.class ----------------------------------------------

大資料學習第一天——linux常用命令（三）

三檔案操作 1建立檔案 touch somefile.txt 建立一個空檔案somefile.txt > 重定向操作符 echo "woshiwoa"> some.txt 將woshiwoa寫入到some.txt 檔案中，如果檔案不存在則會創建出來 echo "www.ba

終於有人把雲端計算、大資料和人工智慧講明白了！（1）

此文已由作者劉超授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。今天跟大家講講雲端計算、大資料和人工智慧。為什麼講這三個東西呢？因為這三個東西現在非常火，並且它們之間好像互相有關係：一般談雲端計算的時候會提到大資料、談人工智慧的時候會提大資料、談人工智慧的時候會提雲端計算……感覺三

終於有人把雲端計算、大資料和人工智慧講明白了！（2）

此文已由作者劉超授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。 3大資料時代，眾人拾柴火焰高當資料量很小時，很少的幾臺機器就能解決。慢慢的，當資料量越來越大，最牛的伺服器都解決不了問題時，怎麼辦呢？這時就要聚合多臺機器的力量，大家齊心協力一起把這個事搞定，眾人拾柴火焰高。對

Java大資料培訓學校全套教程-JavaScript基礎（20）-馬克-專題視訊課程

Java大資料培訓學校全套教程-JavaScript基礎（20）—9人已學習課程介紹 Java大資料培訓學校全套視訊課程："java大資料培訓學校全套教材"系列課程由750集視訊構成，

Java大資料培訓學校全套教程-常用物件（21）-馬克-專題視訊課程

Java大資料培訓學校全套教程-常用物件（21）—6人已學習課程介紹 Java大資料培訓學校視訊課程："java大資料培訓學校全套教材"系列課程由750集視訊構成，基本就是1）時下流

Java大資料培訓學校全套教程-JavaScript事件（23）-馬克-專題視訊課程

Java大資料培訓學校全套教程-JavaScript事件（23）—5人已學習課程介紹 Java大資料培訓學校全套教程："java大資料培訓學校全套教材"系列課程由750集視訊構成，基本

Java大資料培訓視訊全套教程-Maven教程（32）-馬克-專題視訊課程

Java大資料培訓視訊全套教程-Maven教程（32）—5人已學習課程介紹 Java大資料培訓視訊全套培訓課程："java大資料培訓學校全套教材"系列課程由750集視訊構成，基本就是

Java大資料培訓視訊全套教程-SVN教程（33）-馬克-專題視訊課程

Java大資料培訓視訊全套教程-SVN教程（33）—2人已學習課程介紹 Java大資料培訓視訊全套培訓教程："java大資料培訓學校全套教材"系列課程由750集視訊構成，基本就是1）

Java大資料培訓視訊全套教程-Git教程（34）-馬克-專題視訊課程

Java大資料培訓視訊全套教程-Git教程（34）—6人已學習課程介紹 Java大資料系列視訊課程："java大資料培訓學校全套教材"系列課程由750集視訊構成，基本就是1）時下流行

1.大資料指CDH叢集搭建詳細步驟（一）

1.使用CDH,其中CDH表示的意思是Cloudera’s Distribution Including Apache Hadoop，簡稱“CDH”）基於web的使用者介面，支援大多數的hadoop元件，包括了HDFS，MapReduce以及HIve和Pig Hbase以及Zookeepe

大資料離線---網站日誌流量分析系統（1）---簡介及框架

本次介紹網站日誌流量分析系統，首先是簡介和架構。後面會對架構中需要的每個模組的進行逐個介紹。本篇主要分為兩個部分網站日誌流量分析系統簡介整體技術流程和架構 1. 網站日誌流量分析系統簡介 1.1點選流資料模型點選流的概念點選流（ Cl

大資料離線---網站日誌流量分析系統（2）---資料獲取和預處理

本次接上一篇，進行實際資料的獲取和預處理，會有較多的程式碼內容資料的獲取資料的預處理資料的獲取需求資料採集的需求廣義上來說分為兩大部分。是在頁面採集使用者的訪問行為，具體開發工作： 1、開發頁面埋點 js，採集使用者訪問行為 2、後臺接受

大資料分析常用的工具有哪些（二）

在上篇文章中，筆者為大家介紹了幾種常用的大資料使用工具，而除了那些之外，還有一些在大資料中經常會用到的工具。接下來，就讓筆者繼續為大家介紹一下吧。第三類，資料探勘類。 1.RapidMiner 這款工具主要就是用來對資料進行預測和分析的，其視覺化的介面，讓使用者不必再自行

大資料分析常用的工具有哪些（一）

眾所周知，現在大資料行業發展得十分火熱，而大資料也確實為我們的生活帶來了許多的便利。隨著大資料的不斷髮展，需求的不斷增多和提升，大資料的使用工具也變得更為重要，它們能讓大家節省更多的時間和金錢。在大資料這一概念提出到現在的這十年間，市面上出現了各類的大資料使用工具，讓我們從中遴選

大資料在生活中有什麼應用（二）

在上一篇文章中我們給大家介紹了大資料在生活中的應用，具體的內容就是金融交易、大資料對城市的改變、大資料不斷改變人們的生活以及大資料提高醫療和研發。我們在這篇文章中繼續為大家介紹更多的內容。首先，大資料可以改善安全和執法。大資料現在已經廣泛應用到安全執法的過程當中。現在美國安全域性

大資料排重演算法-布隆演算法（BloomFilter）

相關推薦