1. 程式人生 > >淺聊Spark的應用場景有哪些?

淺聊Spark的應用場景有哪些?

Spark 大數據開發 大數據

  Spark 是一種與 Hadoop 相似的開源集群計算環境,是專為大規模數據處理而設計的快速通用的計算引擎,現已形成一個高速發展應用廣泛的生態系統,主要應用場景如下:

  1. Spark是基於內存的叠代計算框架,適用於需要多次操作特定數據集的應用場合。需要反復操作的次數越多,所需讀取的數據量越大,受益越大,數據量小但是計算密集度較大的場合,受益就相對較小;

  2. 由於RDD的特性,Spark不適用那種異步細粒度更新狀態的應用,例如web服務的存儲或者是增量的web爬蟲和索引。就是對於那種增量修改的應用模型不適合:

  3. 數據量不是特別大,但是要求實時統計分析需求。

  滿足以上條件的均可采用Spark技術進行處理,在實際應用中,目前大數據在互聯網公司主要應用在廣告、報表、推薦系統等業務上,在廣告業務方面需要大數據做應用分析、效果分析、定向優化等,在推薦系統方面則需要大數據優化相關排名、個性化推薦以及熱點點擊分析等。

  這些應用場景的普遍特點是計算量大、效率要求高,Spark恰恰可以滿足這些要求,該項目一經推出便受到開源社區的廣泛關註和好評,並在近兩年內發展成為大數據處理領域炙手可熱的開源項目。

  Spark使用Scala語言進行實現,它是一種面向對象、函數式編程語言,能夠像操作本地集合對象一樣輕松地操作分布式數據集,具有運行速度快、易用性好、通用性強以及隨處運行等特點,適合大多數批處理工作,並已成為大數據時代企業大數據處理優選技術,其中有代表性企業有騰訊、Yahoo、淘寶以及優酷土豆等。

淺聊Spark的應用場景有哪些?