1. 程式人生 > >關於Spark和Spark的學習資料

關於Spark和Spark的學習資料




Hadoop社群依然發展迅速,2014年推出了2.3,2.4, 2.5 的社群版本,比如增強 Resource Manager HA, YARN Rest API, ACL on HDFS, 改進 HDFS 的 Web UI…

Hadoop Roadmap 根據我的觀察,主要更新在Yarn,HDFS,而Mapreduce幾乎停滯了,還有一些feature 屬於安全,穩定可靠性一方面是比較穩定了,但也可以說是瓶頸了。

這個是Hadoop project member and committee, 裡面好多來自Hortonworks,也有不少國人上榜。

SparkSpark 介紹

Spark今年大放溢彩,Spark簡單說就是記憶體計算(包含迭代式計算,DAG計算,流式計算 )框架,之前MapReduce因效率低下大家經常嘲笑,而Spark的出現讓大家很清新。

Spark 起源

2010年Berkeley AMPLab,發表在hotcloud 是一個從學術界到工業界的成功典範,也吸引了頂級VC:Andreessen Horowitz的 注資

在2013年,這些大牛從Berkeley AMPLab出去成立了Databricks,半年就做了2次summit參會1000人,引無數Hadoop大佬盡折腰,大家看一下Summit的sponsor ,所有hadoop廠商全來了,並且各個技術公司也在巴結,cloudrea, hortonworks, mapr, datastax, yahoo, ooyala, 根據CTO說 Spark新增程式碼量活躍度今年遠遠超過了Hadoop本身,要推出商業化產品Cloud。

Spark人物 Spark基本概念
  1. RDD——Resillient Distributed Dataset A Fault-Tolerant Abstraction for In-Memory Cluster Computing彈性分散式資料集。
  2. Operation——作用於RDD的各種操作分為transformation和action。
  3. Job——作業,一個JOB包含多個RDD及作用於相應RDD上的各種operation。
  4. Stage——一個作業分為多個階段。
  5. Partition——資料分割槽, 一個RDD中的資料可以分成多個不同的區。
  6. DAG——Directed Acycle graph,有向無環圖,反應RDD之間的依賴關係。
  7. Narrow dependency——窄依賴,子RDD依賴於父RDD中固定的data partition。
  8. Wide Dependency——寬依賴,子RDD對父RDD中的所有data partition都有依賴。
  9. Caching Managenment——快取管理,對RDD的中間計算結果進行快取管理以加快整 體的處理速度。

目前還有一些子專案,比如 Spark SQL, Spark Streaming, MLLib, Graphx 工業界也引起廣泛興趣,國內Taobao, baidu也開始使用:Powered by Spark

Apache Spark支援4種分散式部署方式,分別是Amazon EC2, standalone、spark on mesos和 spark on YARN 比如AWS

Spark Summit 培訓資料和視訊

10月份還有個培訓在灣區的培訓,只不過3天就要1500刀,看來做個講師也不錯:)

第三方專案
  • Shark - Hive and SQL on top of Spark
  • MLbase - Machine Learning research project on top of Spark
  • BlinkDB - a massively parallel, approximate query engine built on top of Shark and Spark
  • GraphX - a graph processing & analytics framework on top of Spark (GraphX has been merged into Spark 0.9)
  • Apache Mesos - Cluster management system that supports running Spark
  • Tachyon - In memory storage system that supports running Spark
  • Apache MRQL - A query processing and optimization system for large-scale, distributed data analysis, built on top of Apache Hadoop, Hama, and Spark
  • OpenDL - A deep learning algorithm library based on Spark framework. Just kick off.
  • SparkR - R frontend for Spark
  • Spark Job Server - REST interface for managing and submitting Spark jobs on the same cluster.
相關參考資料