1. 程式人生 > >《大資料架構詳解》讀後感

《大資料架構詳解》讀後感

《大資料架構詳解》 —— 讀後感

作者:朱潔 羅華霖
出版商:中國工信出版社 電子工業出版社
版次:2016年10月第1版
印數:7001 ~ 12000冊
定價:69.00元


本書花了大量筆墨講了通訊運營商的大資料應用案例及其使用的架構,這也不奇怪,因為作者是為通訊運營商做大資料解決方案的。作者服務的運營商大資料平臺架構,從上到下依次為———
應用層
    SQM、CSE、MSS、DMP,這些都是運營商特有的應用
元件層
    資料獲取(日誌資料獲取、訊息分發中介軟體)
    資料處理(實時處理、批處理)
    分析資料(互動式查詢,機器學習,資料探勘)
    資料分析結果的展現
資源管理和分配
    涉及叢集、資料中心的級別的資源統一管理和分配

    提了幾款Hadoop生態圈的資源排程框架及其排程演算法
儲存層
    RAID
    儲存加速技術
大資料部署
    雲化部署
    物理機部署

這本書講到的大資料框架,是偏原理的多,有些框架也給出了java程式碼示例。有些大資料框架沒講到,例如在講大資料儲存方案的時候也沒有涉及HBase. 章節內容是東拼西湊的多,所以對大資料架構有興趣的同學,建議直接去大資料生態圈內各元件的官方網站檢視(例如hadoop官網、spark官網、hbase官網等等),或者看一些國外作者寫的書,或者看一些翻譯成中文的國外作者的書也可以。這本書大概講了幾大塊———
  1,大資料是什麼
  2,大資料當前面臨的挑戰
  3,運營商大資料架構和業務
  4,資料獲取
  5,資料流處理
  6,互動式分析
  7,批處理技術
  8,機器學習和資料探勘
  9,資源管理
  10,儲存
  11,大資料雲化

書中的架構適合運營商的業務需求,但是放到我們小組的業務(推薦系統)來就不是很適合了。
但是也有一些有價值的看法,例如對未來大資料技術的技術方向的思考。他的一些觀點和想法還是很有啟發性的,整理如下:

1,大資料的本質———

    大資料是問題的解決方案、一系列技術的集合

2,大資料面臨的實時性挑戰———
    2.1 時間越久的資料,價值越低
    2.2 趨勢是使用流系統的比例越來越高,流處理(流分析)應用將會成為預設應用
3,批處理是追求吞吐量的,流處理是追求實時性的。趨勢是將批處理和流處理技術做融合(統一),流行的批處理框架有3個———
    3.1 Google開源的Dataflow
    3.2 德國的Flink
    3.3 Spark 2.X版的spark streaming
4,資源管理和排程———
    4.1 目前流行的資源排程框架是yarn,他的RM直接將資源分配給某個Task,這是任務級別的排程(也就是小顆粒排程)
    4.2 未來會聚焦於應用本身的特點來做資源的智慧管理和分配,以實現資源利用的高效率
5,大資料作為雲服務的兩種模式———
    5.1 叢集模式:直接使用叢集、簡化運維(購買的叢集已預裝客戶所需的元件,例如hadoop,hive,spark,hbase,zookeeper等等)。目前我們的AI部門購買的是這一類大資料雲服務(金山雲KMR)

    5.2 服務模式:使用者無需關心叢集建立和運維,使用者只需提交應用到叢集上,按照任務消耗的計算時間付費,例如AWS開源的Lambada就是一種服務模式的大資料雲服務