海量資料處理之BloomFilter

阿新 • • 發佈：2019-01-15

一提到元素查詢，我們會很自然的想到HashMap。通過將雜湊函式作用於key上，我們得到了雜湊值，基於雜湊值我們可以去表裡的相應位置獲取對應的資料。除了存在雜湊衝突問題之外，HashMap一個很大的問題就是空間效率低。引入Bloom Filter則可以很好的解決空間效率的問題。

掌握本文內容前，建議先熟練掌握前面一篇文章

原理

Bloom Filter是一種空間效率很高的隨機資料結構，Bloom filter 可以看做是對bit-map 的擴充套件，布隆過濾器被設計為一個具有N的元素的位陣列A（bit array），初始時所有的位都置為0。

當一個元素被加入集合時，通過K個Hash函式將這個元素對映成一個位陣列（Bit array）中的K個點，把它們置為1。檢索時，我們只要看看這些點是不是都是1就（大約）知道集合中有沒有它了。

如果這些點有任何一個 0，則被檢索元素一定不在；

如果都是 1，則被檢索元素很可能在。

新增元素

要新增一個元素，我們需要提供k個雜湊函式。每個函式都能返回一個值，這個值必須能夠作為位陣列的索引（可以通過對陣列長度進行取模得到）。然後，我們把位陣列在這個索引處的值設為1。例如，第一個雜湊函式作用於元素I上，返回x。類似的，第二個第三個雜湊函式返回y與z，那麼：

A[x]=A[y]=A[z] = 1

查詢元素

查詢的過程與上面的過程類似，元素將會被不同的雜湊函式處理三次，每個雜湊函式都返回一個作為位陣列索引值的整數，然後我們檢測位陣列在x、y與z處的值是否為1。如果有一處不為1，那麼就說明這個元素沒有被新增到這個布隆過濾器中。如果都為1，就說明這個元素在布隆過濾器裡面。當然，會有一定誤判的概率。

演算法優化

通過上面的解釋我們可以知道，如果想設計出一個好的布隆過濾器，我們必須遵循以下準則：

好的雜湊函式能夠儘可能的返回寬範圍的雜湊值。
位陣列的大小（用m表示）非常重要：如果太小，那麼所有的位很快就都會被賦值為1，這樣就增加了誤判的機率。
雜湊函式的個數（用k表示）對索引值的均勻分配也很重要。

計算m的公式如下：

m = - nlog p / (log2)^2

這裡p為可接受的誤判率。

計算k的公式如下：

k = m/n log(2)

這裡k=雜湊函式個數，m=位陣列個數，n=待檢測元素的個數（後面會用到這幾個字母）。

雜湊演算法

雜湊演算法是影響布隆過濾器效能的地方。我們需要選擇一個效率高但不耗時的雜湊函式，在論文《更少的雜湊函式，相同的效能指標：構造一個更好的布隆過濾器》中，討論瞭如何選用2個雜湊函式來模擬k個雜湊函式。首先，我們需要計算兩個雜湊函式h1(x)與h2(x)。然後，我們可以用這兩個雜湊函式來模仿產生k個雜湊函式的效果：

gi(x) = h1(x) + ih2(x)

這裡i的取值範圍是1到k的整數。

Google Guava類庫使用這個技巧實現了一個布隆過濾器，雜湊演算法的主要邏輯如下：

long hash64 = ...;
int hash1 = (int) hash64;
int hash2 = (int) (hash64 >>> 32);

for (int i = 1; i <= numHashFunctions; i++) {
int combinedHash = hash1 + (i * hash2);
// Flip all the bits if it's negative (guaranteed positive number)
if (combinedHash < 0) {
combinedHash = ~combinedHash;
}
}

Guava中的Bloom Filter使用示例：

int expectedInsertions = ...; //待檢測元素的個數
double fpp = 0.03; //誤判率(desired false positive probability)
BloomFilter<CharSequence> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charset.forName("UTF-8")), expectedInsertions,fpp);

優點

它的優點是空間效率和查詢時間都遠遠超過一般的演算法，布隆過濾器儲存空間和插入/查詢時間都是常數O(k)。另外, 雜湊函式相互之間沒有關係，方便由硬體並行實現。布隆過濾器不需要儲存元素本身，在某些對保密要求非常嚴格的場合有優勢。

缺點

布隆過濾器的缺點和優點一樣明顯，誤算率是其中之一。

另外，一般情況下不能從布隆過濾器中刪除元素。我們很容易想到把位陣列變成整數陣列，每插入一個元素相應的計數器加 1，這樣刪除元素時將計數器減掉就可以了。然而要保證安全地刪除元素並非如此簡單。首先我們必須保證刪除的元素的確在布隆過濾器裡面，而這一點單憑這個過濾器是無法保證的。

其實，用java實現bloomfilter也是很簡單的,主要思想是在java的BitSet的基礎上擴充套件一下hash函式即可。程式碼如下：

package bigdata.spark.distinct;

import java.util.BitSet;

public class BloomFilter {
/* BitSet初始分配2^25個bit */
private static final int DEFAULT_SIZE = 1 << 25;
/* 不同雜湊函式的種子，一般應取質數 */
private static final int[] seeds = new int[]{5, 7, 11, 13, 31, 37, 61};
/* 儲存海量資料使用bitset */
private BitSet bits = new BitSet(DEFAULT_SIZE);
/* 雜湊函式物件用於判斷元素是否存在於表中 */
private SimpleHash[] func = new SimpleHash[seeds.length];

//建構函式
public BloomFilter() {
for (int i = 0; i < seeds.length; i++) {
func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
}
}

// 將字串標記到bits中
public void add(String value) {
for (SimpleHash f : func) {
bits.set(f.hash(value), true);
}
}

//判斷字串是否已經被bits標記
public boolean contains(String value) {
if (value == null) {
return false;
}
boolean ret = true;
for (SimpleHash f : func) {
ret = ret && bits.get(f.hash(value));
}
return ret;
}

/* 雜湊函式類 */
public static class SimpleHash

{
//cap為hash函式的容量
private int cap;
//不同hash函式的種子
private int seed;

public SimpleHash(int cap, int seed) {
this.cap = cap;
this.seed = seed;
}

//hash函式，採用簡單的加權和hash
public int hash(String value) {
int result = 0;
/* 對Value的每個字元進行hash 獲取每個Hash值 */
int len = value.length();

for (int i = 0; i < len; i++) {
result = seed * result + value.charAt(i);
}
return (cap - 1) & result;
}
}
}

整理自網路：

https://blog.csdn.net/foreverling/article/details/79242968

https://blog.csdn.net/it_dx/article/details/71640504

海量資料處理之BloomFilter

海量資料處理之BloomFilter

[算法系列之十八]海量資料處理之BitMap

海量資料處理之Bloom Filter詳解

Python海量資料處理之_Hadoop（二）概念和原理

海量資料處理系列——BloomFilter

Python海量資料處理之_Hadoop&Spark

海量資料處理之Tire樹（字典樹）

海量資料處理專題（八）——倒排索引(搜尋引擎之基石)(轉)

海量資料處理-BloomFilter

由散列表到BitMap的概念與應用（三）：面試中的海量資料處理

十道海量資料處理面試題與十個方法大總結：

海量資料處理方法及應用

海量資料處理例項

海量資料處理演算法—Bit-Map

Python資料處理之（三）Numpy建立array

Python資料處理之（二）Numpy屬性

Python資料處理之（一）為什麼要學習 Numpy & Pandas？

Python資料處理之（四）numpy基礎運算1

Python資料處理之（七）Numpy array 合併

Python資料處理之（十一）Pandas 選擇資料

海量資料處理之BloomFilter

相關推薦