1. 程式人生 > >《圖解Spark:核心技術與案例實戰》介紹及書附資源

《圖解Spark:核心技術與案例實戰》介紹及書附資源

本書中所使用到的測試資料、程式碼和安裝包放在百度盤提供 下載 ,連結: https://pan.baidu.com/s/1sXuOC3J-aHEc0E_kVWLqFg#list/path=%2F

 另外在百度盤提供本書附錄  下載 ,連結: https://pan.baidu.com/s/1sO8NXqry6oFgKZRfHFTeOQ 密碼: z8hk

為什麼要寫這本書

在過去的十幾年裡,由於計算機普遍應用和網際網路的普及資料呈現了爆發式增長,在這個背景下Doug Cutting受到谷歌兩篇論文(GFS和MapReduce)的啟發下開發Nutch專案, 2006年Hadoop脫離了Nutch,成為Apache的頂級專案,帶動了大資料發展新十年。在這段時間中,大資料開源產品如雨後春筍層出不窮,特別是2009年由加州大學伯克利分校AMP實驗室開發的Spark,它以記憶體迭代計算的高效和各元件所形成一棧式解決平臺成為這些產品的翹楚。

Spark在2013年6月成為Apache孵化專案,8個月後成為其頂級專案,在2014年5月份釋出了1.0版本,在2016年7月份正式釋出了2.0版本,在這個過程中Spark社群不斷壯大,成為了最為活躍的大資料社群之一。作為大資料處理的“利器”,Spark在發展過程中不斷地演進,在各個版本存在較大的差異,市面上關於介紹的Spark已經不少,但是這些書基於Spark版本稍顯陳舊,另外在介紹Spark的時候未能把原理、程式碼和例項相結合,基於這個情況筆者便有了寫一本在剖析Spark原理的同時結合實際例項,從而讓讀者能夠更加深入理解和掌握Spark。

在本書中先對Spark的生態圈進行了介紹,講述了Spark的發展歷程,同時也介紹Spark實戰環境的搭建,接下來從Spark的程式設計模型、作業執行、儲存原理和執行架構等方面講解了Spark內部核心原理,最後對Spark的各元件進行詳細介紹,這些元件包括了Spark SQL的即席查詢、Spark Streaming的實時流處理應用、MLbase/MLlib的機器學習、GraphX的圖處理、SparkR的數學計算和Alluxio的分散式記憶體檔案系統等。

讀者物件

(1) 大資料愛好者

隨著大資料時代的來臨,無論傳統行業、IT行業以及網際網路等行業都將涉及到大資料技術,本書能夠幫助這些行業的大資料愛好者瞭解Spark生態圈和發展演進趨勢。通過本書可以瞭解到Spark特點和使用的場景,如果希望繼續深入學習Spark知識,該書也是很好的入門選擇。

(2) Spark開發人員

如果要進行Spark應用的開發,僅僅掌握Spark基本使用方法是不夠的,還需深入瞭解Spark的設計原理、架構和執行機制。在本書中將深入淺出地講解Spark的程式設計模型、作業執行機制、儲存原理和執行架構等內容,通過這些內容的學習,可以編寫出更加高效的應用程式。

(3) Spark運維人員

作為一名Spark運維人員,適當瞭解Spark的設計原理、架構和執行機制對於運維工作十分有幫助。通過該書的學習,不僅能夠更快地定位並排除故障,而且還能夠對Spark執行進行調優,讓Spark執行更加穩定和快速。

(4) 資料科學家和演算法研究

隨著大資料技術的發展,實時流計算、機器學習、圖計算等領域成為較熱的研究方向,由於Spark有著較為成熟的生態圈,能夠一棧式解決類似場景的問題。這些研究人員可以通過本書加深對Spark的原理和應用場景的理解,能夠更好地利用Spark各個元件進行資料計算和演算法實現。

內容速覽

本書分為三個部分,共計12章。

第一部分為基礎篇(第1~2章),介紹了Spark誕生的背景、演進歷程,介紹了Spark生態圈的組成,並詳細地介紹如何搭建Spark實戰環境,通過該環境不僅可以閱讀Spark原始碼,而且可以開發Spark應用程式。

第二部分為核心篇(第3~6章),講解了Spark的程式設計模型、核心原理、儲存原理和執行架構,在核心原理中對Spark通訊機制、作業執行原理、排程演算法、容錯和監控管理等進行了深入的分析,在分析原理和程式碼的同時結合例項進行演示。

第三部分為元件篇(第7~12章),介紹了Spark的各個元件,包括了Spark SQL的即席查詢、Spark Streaming的實時流處理應用、MLbase/MLlib的機器學習、GraphX的圖處理、SparkR的數學計算和Alluxio的分散式記憶體檔案系統等。

另外本書後面還包括5個附錄:附錄A為編譯安裝Hadoop,附錄B為安裝MySql資料庫,附錄C為編譯安裝Hive,附錄D為安裝ZooKeeper,附錄E為安裝Kafka。由於該書篇幅的限制,這些內容在作者的部落格可以下載。

勘誤和支援

由於筆者的水平有限,加之編寫時間跨度較長,同時Spark演進較快,在編寫此書的過程中難免會出現錯誤或者不準確的地方,懇請讀者批評指正。如果本書存有錯誤,或者您有Spark的內容需要探討,可以傳送郵件到[email protected]進行聯絡,期待能夠得到大家的反饋。

致謝

感謝中油瑞飛公司,讓我接觸到大資料的世界,並工作的過程中深入瞭解Spark,感謝吳建平、於鵬、李新宅、祝軍、張文逵、馬君博士、盧文君等領導同事,在本書編寫中提供無私的幫助和寶貴的建議。

感謝京東商城的付彩寶、沈曉凱對我工作和該書的支援,感謝付彩寶在繁忙的工作為本書寫推薦,感謝京東資料探勘架構師何雲龍為我作序,感謝大資料平臺部的周龍波對該書提出了寶貴意見。

感謝EMC常雷博士為本書審稿並寫推薦。

感謝Alluxio CEO的李浩源博士對本書的支援,感謝範斌在非常忙的工作中,抽出時間給Alluxio章節進行了審稿並提供了很好的建議。

感謝電子出版社的安娜編輯,正式由於她耐心和支援才讓本書的得以出版。

感謝我的家人對自己的支援和理解,特別是在寫書過程中老婆又添猴寶寶,讓自己擁有一對健康可愛的兒女,這些給自己莫大的動力,讓自己的努力更加有意義。

謹以此書先給我親愛的家人,你們是我努力的源泉。

相關推薦

圖解Spark核心技術案例實戰介紹資源

本書中所使用到的測試資料、程式碼和安裝包放在百度盤提供 下載 ,連結: https://pan.baidu.com/s/1sXuOC3J-aHEc0E_kVWLqFg#list/path=%2F  另外在百度盤提供本書附錄  下載 ,連結: https://pan.baidu.com/s/1sO8NXqry

【備忘】《圖解Spark 核心技術案例實戰》PDF

第1章  Spark及其生態圈概述  1.1  Spark簡介  1.1.1  什麼是Spark  1.1.2  Spark與MapReduce比較  1.1.3  Spark的演進路線圖  1.2  Spark生態系統  1.2.1  Spark Core  1.2.2  

圖解CSS3核心技術案例實戰(1)

字體 ont 層次選擇器 彈性盒模型 gre rip 風格 而是 root 前言: 我買了一本《圖解CSS3核心技術與案例實戰》大漠寫的,為了提高自己的自覺性呢,抓緊看書,把讀書筆記放在這上面,跟大家一起分享,也為督促自己完成讀書計劃。 文末有微信公眾號,感謝你的掃一掃

《深入理解SPARK核心思想原始碼分析》一正式出版上市

自己犧牲了7個月的週末和下班空閒時間,通過研究Spark原始碼和原理,總結整理的《深入理解Spark:核心思想與原始碼分析》一書現在已經正式出版上市,目前京東、噹噹、天貓等網站均有銷售,歡迎感興趣的同學購買。我開始研究原始碼時的Spark版本是1.2.0,經過7個多月的研

《大型網站技術架構核心原理案例分析》-- 讀書筆記 (5) 網購秒殺系統

案例 並發 刷新 隨機 url 對策 -- 技術 動態生成 1. 秒殺活動的技術挑戰及應對策略 1.1 對現有網站業務造成沖擊 秒殺活動具有時間短,並發訪問量大的特點,必然會對現有業務造成沖擊。對策:秒殺系統獨立部署 1.2 高並發下的應用、

《大型網站技術架構核心原理案例分析》【PDF】下載

優化 均衡 1.7 3.3 架設 框架 應用服務器 博客 分布式服務框架 《大型網站技術架構:核心原理與案例分析》【PDF】下載鏈接: https://u253469.pipipan.com/fs/253469-230062557 內容簡介 本書通過梳理大型網站技

閱讀《大型網站技術架構核心原理案例分析》第五、六、七章,結合《河北省重大技術需求征集系統》,列舉實例分析采用的可用性和可修改性戰術

定時 並不會 表現 做出 span class 硬件 進行 情況   網站的可用性描述網站可有效訪問的特性,網站的頁面能完整呈現在用戶面前,需要經過很多個環節,任何一個環節出了問題,都可能導致網站頁面不可訪問。可用性指標是網站架構設計的重要指標,對外是服務承諾,對內是考核指

《大型網站技術架構核心原理案例分析》結合需求征集系統分析

運行 模塊 正常 一致性hash 產品 進行 OS 很多 層次 閱讀《大型網站技術架構:核心原理與案例分析》第五、六、七章,結合《河北省重大技術需求征集系統》,列舉實例分析采用的可用性和可修改性戰術,將上述內容撰寫成一篇1500字左右的博客闡述你的觀點。 閱

《大型網站技術架構核心原理案例分析》讀後感

TP bubuko 一個 nbsp 分享 架構 優化 技術分享 src 李智慧的著作《大型網站技術架構:核心原理與案例分析》,寫得非常好, 本著學習的態度,對於書中的關於性能優化的講解做了一個思維導圖,供大家梳理思路和學習之用。拋磚引玉。 《大型網站技術架構

《大型網站技術架構核心原理案例分析》筆記

· 大型網站軟體系統的特點 · 大型網站架構演化發展歷程     · 初始階段的網站架構         · 需求/解決問題         · 架構     · 應用服務和資料

《大型網站技術架構核心原理案例分析李智慧》pdf網盤下載連結送給還在迷茫的你

Detect languageAfrikaansAlbanianAmharicArabicArmenianAzerbaijaniBasqueBelarusianBengaliBosnianBulgarianCatalanCebuanoChichewaChinese (Simplified)Chines

《大型網站技術架構核心原理案例分析》讀書筆記 - 第2篇 架構

第2篇 架構 4 瞬時響應:網站的高效能架構 34 4.1 網站效能測試 35 效能測試是效能優化的前提和基礎,也是效能優化結果的檢查和度量標準。 4.1.1 不同視角下的網站效能 35 使用者:直觀感受到的快慢 開發:應用程式本身 運維:基礎設施效能和資源利用率 4.1.2 效

《Python自然語言處理實戰核心技術算法》PDF新書推介,附帶鏈接地址

核心技術 正則表達 eba 詞性標註 6.2 排序 系統 ext 書籍 本書從各個方面著手,幫助讀者理解NLP的過程,提供了各種實戰場景,結合現實項目背景,幫助讀者理解NLP中的數據結構和算法以及目前主流的NLP技術與方法論,結合信息檢索技術與大數據應用等流行技術,終完成對

《大型網站技術架構核心原理案例分析》讀書筆記

第六章伸縮性,網站的演化分離過程可以分為三類, 第一類大的系統級別的分離,例如資料庫系統,快取系統,檔案管理系統(靜態資源),演化過程為:為單一伺服器->資料庫分離->快取分離->靜態資源分離。 第二類業務流程的抽象分離,從下到上的模組為:資料庫->基礎技術服務->可複用業務

讀-李智慧-大型網站技術架構核心原理案例分析

先寫了大型網站的架構演化路線,給出相關的架構模式,提出從幾個方面關注架構的要素,後面給出了一些案例。這本書的名字,我覺得改成架構最佳實踐可能更為合適一點。 之前讀過這本書,當時沒帶著自己的想法,走馬觀花,沒有體會到這本書的妙處。這次帶著問題,結合所經歷的

讀《大型網站技術架構核心原理案例分析》

引言 這本書講述的是大型網站技術中的常見架構以及從小型網站到大型網站到演變歷程。在這本書裡面能讀到的,除了如何設計一個大型網站,更重要的是在網站架構設計的成長之路上,有哪些需要了解學習的地方。 這本書主要講了兩方面的事情,首先,如何從一個小型網站演

Spark學習(拾)- Spark Streaming進階案例實戰

實戰之updateStateByKey運算元的使用 updateStateByKey操作允許您在使用新資訊不斷更新狀態的同時維護任意狀態。要使用它,您需要執行兩個步驟。 1、定義狀態——狀態可以是任意資料型別。 2、定義狀態更新函式——用函式指定如何使用以前的狀態和輸入流中的新值更新

解讀ASP.NET 5 & MVC6系列(4)核心技術環境配置

asp.net 5是下一代的asp.net,該版本進行了全部重寫以適用於跨平臺,新新版本中,微軟引入瞭如下工具與命令:DNVM、DNX、DNU。 DNVM(.NET Version Manager):由於要實現跨平臺的目錄,微軟提供了DNVM功能,DNVM是ASP.NET最底層的內容,他是一組Powershe

《深入理解Spark核心思想原始碼分析》(第2章)

《深入理解Spark:核心思想與原始碼分析》一書第一章的內容請看連結《第1章 環境準備》 本文主要展示本書的第2章內容: Spark設計理念與基本架構 “若夫乘天地之正,而御六氣之辯,以遊無窮者,彼且惡乎待哉?” ——《莊子·逍遙遊》 n本章導讀: 上一章,介紹了Spark環境的搭建,為方便讀

《遊戲架構核心技術面試精粹》勘誤

《遊戲架構:核心技術與面試精粹》的勘誤頁,發現書中的錯誤可以在本頁面下留言,我會定期將內容整理到正文中。 P8: 監視器(monito)-> monitor P120: GPU就是