關於Spark和Spark的學習資料

阿新 • • 發佈：2019-01-10

Hadoop社群依然發展迅速，2014年推出了2.3，2.4, 2.5 的社群版本，比如增強 Resource Manager HA, YARN Rest API, ACL on HDFS, 改進 HDFS 的 Web UI…

Hadoop Roadmap 根據我的觀察，主要更新在Yarn，HDFS，而Mapreduce幾乎停滯了，還有一些feature 屬於安全，穩定可靠性一方面是比較穩定了，但也可以說是瓶頸了。

這個是Hadoop project member and committee, 裡面好多來自Hortonworks，也有不少國人上榜。

SparkSpark 介紹

Spark今年大放溢彩，Spark簡單說就是記憶體計算（包含迭代式計算，DAG計算,流式計算）框架，之前MapReduce因效率低下大家經常嘲笑，而Spark的出現讓大家很清新。

Spark 起源

2010年Berkeley AMPLab，發表在hotcloud 是一個從學術界到工業界的成功典範，也吸引了頂級VC：Andreessen Horowitz的注資

在2013年，這些大牛從Berkeley AMPLab出去成立了Databricks，半年就做了2次summit參會1000人，引無數Hadoop大佬盡折腰，大家看一下Summit的sponsor ，所有hadoop廠商全來了，並且各個技術公司也在巴結，cloudrea, hortonworks, mapr, datastax, yahoo, ooyala, 根據CTO說 Spark新增程式碼量活躍度今年遠遠超過了Hadoop本身，要推出商業化產品Cloud。

Spark人物 Spark基本概念

RDD——Resillient Distributed Dataset A Fault-Tolerant Abstraction for In-Memory Cluster Computing彈性分散式資料集。
Operation——作用於RDD的各種操作分為transformation和action。
Job——作業，一個JOB包含多個RDD及作用於相應RDD上的各種operation。
Stage——一個作業分為多個階段。
Partition——資料分割槽，一個RDD中的資料可以分成多個不同的區。
DAG——Directed Acycle graph，有向無環圖，反應RDD之間的依賴關係。

Narrow dependency——窄依賴，子RDD依賴於父RDD中固定的data partition。
Wide Dependency——寬依賴，子RDD對父RDD中的所有data partition都有依賴。
Caching Managenment——快取管理，對RDD的中間計算結果進行快取管理以加快整體的處理速度。

目前還有一些子專案，比如 Spark SQL, Spark Streaming, MLLib, Graphx 工業界也引起廣泛興趣，國內Taobao, baidu也開始使用：Powered by Spark

Apache Spark支援4種分散式部署方式，分別是Amazon EC2, standalone、spark on mesos和 spark on YARN 比如AWS

Spark Summit 培訓資料和視訊

10月份還有個培訓在灣區的培訓，只不過3天就要1500刀，看來做個講師也不錯:)

第三方專案

Shark - Hive and SQL on top of Spark
MLbase - Machine Learning research project on top of Spark
BlinkDB - a massively parallel, approximate query engine built on top of Shark and Spark
GraphX - a graph processing & analytics framework on top of Spark (GraphX has been merged into Spark 0.9)
Apache Mesos - Cluster management system that supports running Spark
Tachyon - In memory storage system that supports running Spark
Apache MRQL - A query processing and optimization system for large-scale, distributed data analysis, built on top of Apache Hadoop, Hama, and Spark
OpenDL - A deep learning algorithm library based on Spark framework. Just kick off.
SparkR - R frontend for Spark
Spark Job Server - REST interface for managing and submitting Spark jobs on the same cluster.

相關參考資料

關於Spark和Spark的學習資料

關於Spark和Spark的學習資料

使Apache Spark和Mysql作資料分析

Spark與機器學習----資料的獲取、處理與準備

機器學習和深度學習資料整理

SQL 基礎學習：和深度學習資料

springboot系列二 springcloud和springboot學習資料整理

一些STL和Boost學習資料

Caffe學習(一) —— caffe介紹和推薦學習資料

機器學習和深度學習資料彙總【02】

在大資料學習中Hadoop和Spark哪個更好就業？

Spark的Streaming和Spark的SQL簡單入門學習

Structure Streaming和spark streaming原生API訪問HDFS檔案資料對比

Spark Stream整合flum和kafka，資料儲存在HBASE上，分析後存入資料庫

【福利】送Spark大資料平臺視訊學習資料

0016-Avro序列化&反序列化和Spark讀取Avro資料

白話大資料 | Spark和Hadoop到底誰更厲害？

大資料計算框架Hadoop, Spark和MPI

從原始碼看Spark讀取Hive表資料小檔案和分塊的問題

大資料培訓之核心知識點Hbase、Hive、Spark和MapReduce的概念理解、特點及機制等

大資料發展趨勢和Spark介紹

關於Spark和Spark的學習資料

相關推薦