1. 程式人生 > >這個產品能支援多大資料量?

這個產品能支援多大資料量?

經常有使用者會問這個問題,你家的產品能處理多大資料量?似乎是這個值越大產品就越牛。

這個問題,其實沒多大意義。

能處理多大的資料量,還有個很關鍵的因素是期望的響應時間,在脫離這個因素單純談大資料產品的資料處理量,就不知道怎麼回答了。

考慮只有單臺機器的簡單情況。如果是希望秒級響應的 OLAP 式彙總,那麼 GB 級都是挺大的資料了,幾乎不可能有什麼產品能處理 TB 級資料(除非有巨大記憶體)。而如果是數小時內完成的 ETL 運算,那麼單臺機器處理 TB 級也不是多大的問題。於是就會發生這樣的現象:同一個產品能夠處理某些場合下的 TB 級資料,卻處理不了另一些場合下的 GB 級資料。

不過,討論一個大資料技術能支援的叢集規模是意義的。

大叢集和小叢集的實現技術很不一樣,大叢集需要有強容錯能力和統一的管理機制,而小叢集則不需要;而把大叢集技術用於小叢集,又會造成很多資源的浪費。某種技術面向多大規模的叢集,一般是在設計之初就確定了的,並不容易隨意改變。

確定了期望的響應時間,以及可能支援的叢集規模,這時候再來問某項大資料技術能夠處理的資料量,才是個有意義的問題。