1. 程式人生 > >Storm簡介——實時流式計算介紹

Storm簡介——實時流式計算介紹

大數據 bsp 要求 角度 size 計算 spa 流量 使用場景

概念

實時流式計算:

大數據環境下,流式數據將作為一種新型的數據類型,這種數據具有連續性、無限性和瞬時性。是實時數據處理所面向的數據類型,對這種流式數據的實時計算就是實時流式計算。

特征

實時流式計算與傳統的數據處理技術不同,其具有一下特點:

低延遲:從處理的數據角度來看,每一條數據都可以在有限的時間內由系統成功處理完成,就是響應的時間很短。

高吞吐:從處理的過程角度來看,系統節點在單位時間內能夠成功處理的數據量比較多,也就是高吞吐量。對於數據處理的目標本質來說高吞吐量和低延遲是一樣的。

高容錯:由於網絡或其他原因,會出現錯誤或不完全的數據,系統對與這些數據都具有一定的容錯性,不會因為這些

有缺失的數據導致系統崩潰。

算法復雜點比較低:高吞吐量的必然要求,就要求使用更加高效簡單的算法。

使用場景

網站後臺日誌實時計算處理

運營商流量實時監控

交通數據實時處理

其他流式計算框架

Queue+Worker

Apache S4

Spark Streaming

(storm的計算是基於事件的,來一條數據流處理一條;spark streaming 是基於時間段來處理數據的,時間段可以越來越小,但不能基於事件來處理。這樣就決定了storm的延遲性比spark streaming要小)

Storm簡介——實時流式計算介紹