1. 程式人生 > >與 Hadoop 對比,如何看待 Spark 技術?

與 Hadoop 對比,如何看待 Spark 技術?

hadoop和Spark是兩種不同的大資料處理框架,他們的元件都非常多,往往也不容易學,我把他們兩者整理在一幅圖中,給大家一個全貌的感覺。


以上這些大資料元件是日常大資料工作中經常會碰到的,每個元件大概的功能,我已經在圖中做了標識。下面,針對這幅圖我給大家兩點重要提示:

a.藍色部分,是Hadoop生態系統元件,黃色部分是Spark生態元件,雖然他們是兩種不同的大資料處理框架,但它們不是互斥的,Spark與hadoop 中的MapReduce是一種相互共生的關係。Hadoop提供了Spark許多沒有的功能,比如分散式檔案系統,而Spark 提供了實時記憶體計算,速度非常快。有一點大家要注意,Spark並不是一定要依附於Hadoop才能生存,除了Hadoop的HDFS,還可以基於其他的雲平臺,當然啦,大家一致認為Spark與Hadoop配合默契最好罷了。

b.技術趨勢:Spark在崛起,hadoop和Storm中的一些元件在消退。大家在學習使用相關技術的時候,記得與時俱進掌握好新的趨勢、新的替代技術,以保持自己的職業競爭力。

HSQL未來可能會被Spark SQL替代,現在很多企業都是HIVE SQL和Spark SQL兩種工具共存,當Spark SQL逐步成熟的時候,就有可能替換HSQL;

MapReduce也有可能被Spark 替換,趨勢是這樣,但目前Spark還不夠成熟穩定,還有比較長的路要走;

Hadoop中的演算法庫Mahout正被Spark中的演算法庫MLib所替代,為了不落後,大家注意去學習Mlib演算法庫

Storm會被Spark Streaming

替換嗎?在這裡,Storm雖然不是hadoop生態中的一員,但我仍然想把它放在一起做過比較。由於Spark和hadoop天衣無縫的結合,Spark在逐步的走向成熟和穩定,其生態元件也在逐步的完善,是冉冉升起的新星,我相信Storm會逐步被擠壓而走向衰退。