1. 程式人生 > >簡單粗暴的“大資料“解決方案

簡單粗暴的“大資料“解決方案

這裡說“大資料”確實有點譁眾取寵,但確確實實是解決一些大資料量的情況。比如常用的布隆過濾器(BloomFilter)、常用的文字相似比較演算法SimHash等,這裡介紹的都是看上去是簡單粗暴的方法,但當你深入瞭解後你就會發現什麼叫簡約而不簡單,掌握這些常用的手段,解決問題時就會顯得得心應手。這裡只介紹兩個常用的解決方法——布隆過濾器和SimHash,關於筆試面試中常見的大資料相關問題和解決方法可以看另一篇部落格筆試面試中常見的海量資料的問題及解決方案

這裡不會對bloomfilter和simhash的原理進行深入講解(要寫很多),已經有很多部落格寫的比較清晰了,這裡老司機會寫一下自己在使用中以及看別人程式碼中常見的誤區。

鑑於筆者使用的mou話CSDN的markdown不能直接複製過來,需要調節格式問題,所以可以到個人部落格上去看。

詳細請移步BAT直通車點選檢視