關於Spark和Spark的學習資料
Hadoop社群依然發展迅速,2014年推出了2.3,2.4, 2.5 的社群版本,比如增強 Resource Manager HA, YARN Rest API, ACL on HDFS, 改進 HDFS 的 Web UI…
Hadoop Roadmap 根據我的觀察,主要更新在Yarn,HDFS,而Mapreduce幾乎停滯了,還有一些feature 屬於安全,穩定可靠性一方面是比較穩定了,但也可以說是瓶頸了。
這個是Hadoop project member and committee, 裡面好多來自Hortonworks,也有不少國人上榜。
SparkSpark 介紹Spark今年大放溢彩,Spark簡單說就是記憶體計算(包含迭代式計算,DAG計算,流式計算 )框架,之前MapReduce因效率低下大家經常嘲笑,而Spark的出現讓大家很清新。
2010年Berkeley AMPLab,發表在hotcloud 是一個從學術界到工業界的成功典範,也吸引了頂級VC:Andreessen Horowitz的 注資
在2013年,這些大牛從Berkeley AMPLab出去成立了Databricks,半年就做了2次summit參會1000人,引無數Hadoop大佬盡折腰,大家看一下Summit的sponsor ,所有hadoop廠商全來了,並且各個技術公司也在巴結,cloudrea, hortonworks, mapr, datastax, yahoo, ooyala, 根據CTO說 Spark新增程式碼量活躍度今年遠遠超過了Hadoop本身,要推出商業化產品Cloud。
- RDD——Resillient Distributed Dataset A Fault-Tolerant Abstraction for In-Memory Cluster Computing彈性分散式資料集。
- Operation——作用於RDD的各種操作分為transformation和action。
- Job——作業,一個JOB包含多個RDD及作用於相應RDD上的各種operation。
- Stage——一個作業分為多個階段。
- Partition——資料分割槽, 一個RDD中的資料可以分成多個不同的區。
- DAG——Directed Acycle graph,有向無環圖,反應RDD之間的依賴關係。
- Narrow dependency——窄依賴,子RDD依賴於父RDD中固定的data partition。
- Wide Dependency——寬依賴,子RDD對父RDD中的所有data partition都有依賴。
- Caching Managenment——快取管理,對RDD的中間計算結果進行快取管理以加快整 體的處理速度。
目前還有一些子專案,比如 Spark SQL, Spark Streaming, MLLib, Graphx 工業界也引起廣泛興趣,國內Taobao, baidu也開始使用:Powered by Spark
Apache Spark支援4種分散式部署方式,分別是Amazon EC2, standalone、spark on mesos和 spark on YARN 比如AWS
Spark Summit 培訓資料和視訊10月份還有個培訓在灣區的培訓,只不過3天就要1500刀,看來做個講師也不錯:)
第三方專案- Shark - Hive and SQL on top of Spark
- MLbase - Machine Learning research project on top of Spark
- BlinkDB - a massively parallel, approximate query engine built on top of Shark and Spark
- GraphX - a graph processing & analytics framework on top of Spark (GraphX has been merged into Spark 0.9)
- Apache Mesos - Cluster management system that supports running Spark
- Tachyon - In memory storage system that supports running Spark
- Apache MRQL - A query processing and optimization system for large-scale, distributed data analysis, built on top of Apache Hadoop, Hama, and Spark
- OpenDL - A deep learning algorithm library based on Spark framework. Just kick off.
- SparkR - R frontend for Spark
- Spark Job Server - REST interface for managing and submitting Spark jobs on the same cluster.