五種常用基數估計演算法效果實驗及實踐建議

阿新 • • 發佈：2019-01-17

之前我曾寫過一系列關於基數估計（cardinality estimation）演算法的文章，文中介紹了一些常用基數估計演算法的原理。最近對常用的基數估計演算法做了一些實驗，這篇文章描述了實驗結果，包括這些演算法的估計效果及誤差狀況，主要通過圖表展示。通過觀察實驗資料和視覺化圖表可以加強對各種基數估計演算法理論分析的直觀理解。

文章首先會對實驗做一些說明，然後通過圖表詳細展示實驗資料，最後會根據實驗結果總結一些實踐中有用的結論。

實驗說明

演算法選擇

這次實驗共選擇了五種基數估計演算法，分別是：

Linear Counting¹
LogLog Counting²
Adaptive Counting

³
HyperLogLog Counting⁴
HyperLogLog++ Counting⁵

演算法實現使用我所在部門（阿里巴巴商家資料部）的開源基數估計演算法庫ccard-lib。

資料準備

雜湊函式採用murmurhash32（HyperLogLog++採用murmurhash64）。

因實驗結果的可靠性僅與雜湊值的分佈均勻性有關，而根據之前相關研究murmurhash對於順序型資料具有良好的均勻性。因此為了簡化實驗，原始資料使用1-1,000,000無符號64bit整型的小端序表示。

下面將通過實驗驗證原始資料雜湊後的均勻性。

實驗過程

將原始資料經過murmurhash處理後，驗證分桶數在\(2^{10}\)，\(2^{12}\)和\(2^{16}\)下資料的均勻性，即看各個桶的元素數量是否大致相等；同時驗證各個桶中元素二進位制表示的最長0字首是否服從冪率分佈。

對五種基數估計演算法，分佈記錄\(2^{10}\)，\(2^{12}\)和\(2^{16}\)三種分桶數量下從1到1,000,000的估計值和相對誤差值。取樣點為100的整倍數，因此共10,000個取樣點。
比較在\(2^{10}\)，\(2^{12}\)和\(2^{16}\)三種分桶數量下五種基數估計演算法的誤差走勢。

實驗

資料均勻性

下面首先驗證原始資料經過雜湊後基本服從均勻分佈，從而滿足各種基數估計演算法的基本前提條件。下面的結果通過murmurhash32雜湊值給出，實際中採用murmurhash64得到了基本一致的結論。

對於32bit雜湊值，分桶數為\(2^p\)時，用前\(p\)bit作為桶編號，剩下的\(32-p\)作為用於統計0字尾（因為均勻分佈的假設，統計0字尾和0字首是等效的，ccard-lib中除HyperLogLog++外採用統計0字尾的方式）的位元串。例如對於雜湊值“01001010111010100101000000100100”，分桶數為\(2^{10}\)時，其桶編號為“0100101011”，即十進位制的“555”，剩餘部分為“1010100101000000100100”，零字尾長度為2。

驗證分桶均勻性

下面通過柱狀圖分別給出\(2^{10}\)，\(2^{12}\)和\(2^{16}\)三種分桶下各桶元素數量的分佈，在柱狀圖中bins的數量均為100，因此圖中每個bin並不對應一個桶。

murmurhash32雜湊值分佈（p=10）

murmurhash32雜湊值分佈（p=12）

murmurhash32雜湊值分佈（p=16）

可以看到，三種分桶下資料均基本服從均勻分佈。

0字尾長度的冪率分佈性

按照理論預言，如果雜湊均勻性足夠好，雜湊剩餘部分的關鍵統計量（最長0字尾長度）應該大約服從底數為2的冪率分佈。

下圖中橫座標表示0字尾長度，縱座標表示0字尾為此長度的雜湊值個數。

0字尾長度分佈（p=10）

0字尾長度分佈（p=12）

0字尾長度分佈（p=16）

可以看到在三種分桶下統計量分佈符合預期。

通過以上分析可知實驗資料滿足基數估計演算法關於均勻性的假設。

基數估計演算法效果

下面給出五種基數估計演算法的估計效果和誤差走勢。如未特殊說明，實驗分桶數均為\(2^{10}\)，\(2^{12}\)和\(2^{16}\)。

Linear Counting

ccard-lib中當單獨使用Linear Counting時，採用bit為單位記錄雜湊結果。因此實際的精度為分桶數的8倍，例如\(2^{10}\)時，實際的精度為1024*8=8192。

估計效果

Linear Counting（p=10）

Linear Counting（p=12）

Linear Counting（p=16）

相對誤差

Linear Counting誤差（p=10）

Linear Counting誤差（p=12）

Linear Counting誤差（p=16）

結論

如理論預期，由於Linear Counting的有效性取決於bitmap中存在空位置，當有位置留空時，估計效果還不錯，但是當bitmap全滿後，Linear Counting完全失效。Linear Counting的有效估計範圍線性依賴於bitmap長度。

LogLog Counting

估計效果

LogLog Counting（p=10）

LogLog Counting（p=12）

LogLog Counting（p=16）

相對誤差

LogLog Counting誤差（p=10）

LogLog Counting誤差（p=12）

LogLog Counting誤差（p=16）

結論

LogLog Counting的表現基本與理論相符，可以看到當基數不太大的時候，LogLog Counting誤差非常大，這是因為LogLog Counting在基數較小的段存在一個很大的偏差。為了明確看到這個偏差，我們擷取前十分之一放大，也就是1-100,000這一段的效果圖：

LogLog Counting小基數區間（p=10）

LogLog Counting小基數區間（p=12）

LogLog Counting小基數區間（p=16）

可以很明顯的看到估計值嚴重偏離基準，而且分桶數越多這個偏差反而越明顯。

Adaptive Counting

估計效果

Adaptive Counting（p=10）

Adaptive Counting（p=12）

Adaptive Counting（p=16）

相對誤差

Adaptive Counting誤差（p=10）

Adaptive Counting誤差（p=12）

Adaptive Counting誤差（p=16）

結論

由於分別在基數較小和較大時使用Linear Counting和LogLog Counting，Adaptive Counting克服了兩者的缺陷，屬於比較穩定的基數估計方法。而且隨著分桶數的增加，估計的偏差和方差均明顯減小。

HyperLogLog Counting

估計效果

HyperLogLog Counting（p=10）

HyperLogLog Counting（p=12）

HyperLogLog Counting（p=16）

相對誤差

HyperLogLog Counting誤差（p=10）

HyperLogLog Counting誤差（p=12）

HyperLogLog Counting誤差（p=16）

結論

HyperLogLog Counting採用調和平均數取代LogLog Counting中的幾何平均數，旨在減小離群點的影響，並且對Linear Counting轉折閾值做了調整。從實驗效果看，在分桶數較小時，改進效果並不明顯，不過在\(2^{16}\)分桶下，整體偏差和穩定程度優於Adaptive Counting。

但是從誤差圖中可以看到，在200,000附近出現了一個明顯的脈衝。其原因在Google關於HyperLogLog++ Counting的論文中⁵有分析，其主要是因為在Linear Counting剛轉折後的一小段區域記憶體在一個偏差，HyperLogLog++ Counting的一個改進就是對這個區域的偏差進行了修正。

HyperLogLog++ Counting

估計效果

HyperLogLog++ Counting（p=10）

HyperLogLog++ Counting（p=12）

HyperLogLog++ Counting（p=16）

相對誤差

HyperLogLog++ Counting誤差（p=10）

HyperLogLog++ Counting誤差（p=12）

HyperLogLog++ Counting誤差（p=16）

結論

可以看到HyperLogLog++ Counting的效果非常令人失望，按論文中說法，HyperLogLog++ Counting應該比HyperLogLog Counting更準確，但實際效果不但整體偏差和方差變大，而且偏差修正的閾值明顯有問題，導致一個非常明顯的誤差脈衝。

究其原因，個人認為HyperLogLog++ Counting中的偏差修正和轉折閾值均是通過統計方法給出，並不是數學上的解析結果，因此對於不同的資料、不同的雜湊可能並不通用。

誤差比較

為了更清楚對比五種演算法的誤差情況，下面給出五種演算法的誤差曲線疊加圖，仍然是採用三個分桶數。

誤差對比（p=10）

誤差對比（p=12）

誤差對比（p=16）

實踐建議

下面根據實驗結果從個人角度給出一些基數估計演算法的實踐性建議，當然只代表個人意見，不同人對實驗結果可能有不同解讀。

Linear Counting和LogLog Counting由於分別在基數較大和基數較小（閾值可解析分析，具體方法和公式請參考後文列出的相關論文）時存在嚴重的失效，因此不適合在實際中單獨使用。一種例外是，如果對節省儲存空間要求不強烈，不要求空間複雜度為常數（Linear Counting的空間複雜度為\(O(n)\)，其它演算法均為\(O(1)\)），則在保證bitmap全滿概率很小的條件下，Linear Counting的效果要優於其它演算法。
總體來看，不論哪種演算法，提高分桶數都可以降低偏差和方差，因此總體來看基數估計演算法中分桶數的選擇是最重要的一個權衡——在精度和儲存空間間的權衡。
實際中，Adaptive Counting或HyperLogLog Counting都是不錯的選擇，前者偏差較小，後者對離群點容忍性更好，方差較小。
Google的HyperLogLog Counting++演算法屬於實驗性改進，缺乏嚴格的數學分析基礎，通用性存疑，不宜在實際中貿然使用。

參考文獻

[1] K.-Y. Whang, B. T. Vander-Zanden, and H. M. Taylor. A Linear-Time Probabilistic Counting Algorithm for Database Applications. ACM Transactions on Database Systems, 15(2):208-229, 1990.

[2] Marianne Durand and Philippe Flajolet. LogLog counting of large cardinalities. In ESA03, volume 2832 of LNCS, pages 605b 617, 2003.

[3] Min Cai, Jianping Pan, Yu K. Kwok, and Kai Hwang. Fast and accurate traffic matrix measurement using adaptive cardinality counting. In MineNet b 05: Proceedings of the 2005 ACM SIGCOMM workshop on Mining network data, pages 205b 206, New York, NY, USA, 2005. ACM.

[4] P. Flajolet, E. Fusy, O. Gandouet, and F. Meunier. Hyperloglog: The analysis of a near-optimal cardinality estimation algorithm. Disc. Math. and Theor. Comp. Sci., AH:127-146, 2007.

[5] HyperLogLog in Practice: Algorithmic Engineering of a State of The Art Cardinality Estimation Algorithm.

[6] Appendix to HyperLogLog in Practice: Algorithmic Engineering of a State of the Art Cardinality Estimation Algorithm.

五種常用基數估計演算法效果實驗及實踐建議

實驗說明

演算法選擇

資料準備

實驗過程

實驗

資料均勻性

驗證分桶均勻性

0字尾長度的冪率分佈性

基數估計演算法效果

Linear Counting

估計效果

相對誤差

結論

LogLog Counting

估計效果

相對誤差

結論

Adaptive Counting

估計效果

相對誤差

結論

HyperLogLog Counting

估計效果

相對誤差

結論

HyperLogLog++ Counting

估計效果

相對誤差

結論

誤差比較

實踐建議

參考文獻

相關推薦