1. 程式人生 > >《HAWQ資料倉庫與資料探勘實戰》內容簡介、前言

《HAWQ資料倉庫與資料探勘實戰》內容簡介、前言

Apache HAWQ是一個SQL-on-Hadoop產品,它非常適合用於Hadoop平臺上快速構建資料倉庫系統。HAWQ具有大規模並行處理、完善的SQL相容性、支援儲存過程和事務、出色的效能表現等特性,還可與開源資料探勘庫MADlib輕鬆整合,從而使用SQL就能進行資料探勘與機器學習。

本書內容分技術解析、實戰演練與資料探勘三個部分共27章。技術解析部分說明HAWQ的基礎架構與功能特性,包括安裝、連線、物件與資源管理、查詢優化、備份恢復、高可用性等。實戰演練部分用一個完整的示例,說明如何使用HAWQ取代傳統資料倉庫,包括ETL處理、自動排程系統、維度表與事實表技術、OLAP與資料的圖形化表示等。資料探勘部分用例項說明

HAWQMADlib整合,實現降維、協同過濾、關聯規則、迴歸、聚類、分類等常見資料探勘與機器學習方法。

本書適合資料庫管理員、大資料技術人員、Hadoop技術人員、資料倉庫技術人員,也適合高等院校和培訓機構相關專業的師生教學參考。

 

從Bill Inmon在1991年提出資料倉庫的概念,至今已有27的時間。在這期間人們所面對的資料,以及處理資料的方法都發生了翻天覆地的變化。隨著網際網路和移動終端等應用的普及,執行在單機或小型叢集上的傳統資料倉庫不再能滿足資料處理要求,以Hadoop及其生態圈元件為代表的新一代分散式大資料處理平臺逐漸流行。

儘管大多數人都在討論某種技術或者架構可能會勝過另一種,而我更傾向於從

“Hadoop與資料倉庫密切結合”這個角度來探討問題。一方面企業級資料倉庫中已經積累了大量的資料和應用程式,它們仍然在決策支援領域發揮著至關重要的作用;另一方面,傳統資料倉庫從業人員的技術水平和經驗也在逐步提升。如何才能使積累的大量歷史資料平滑過渡到Hadoop上,並讓熟悉傳統資料倉庫的技術人員能夠有效地利用已有的知識,可以在大資料處理平臺上一展身手,才是一個亟待解決的問題。

雖然伴隨著大資料的概念也出現了以MongoDB、Cassandra為代表的NoSQL產品,但不可否認,SQL仍然是資料庫、資料倉庫中常使用的開發語言,也是傳統資料庫工程師或DBA的必會語言,從它出現至今一直被廣泛使用。首先,SQL有堅實的關係代數作為理論基礎,經過幾十年的積累,查詢優化器也已經相當成熟。再者,對於開發者,SQL作為典型的非過程語言,其語法相對簡單,但語義卻相當豐富。據統計95%的資料分析問題都能用SQL解決,這是一個相當驚人的結論。那麼SQL怎樣才能與Hadoop等大資料技術結合起來,既能複用已有的技能,又能有效處理大規模資料呢?在這樣的需求背景下,近年來湧現出越來越多的SQL-on-Hadoop軟體,比如從早期的Hive到Spark SQL、Impala、Kylin等,本書所論述的就是眾多SQL-on-Hadoop產品中的一員——HAWQ。

我最初瞭解到HAWQ是在BDTC 2016大會上,Apache HAWQ的創始人常雷博士介紹了該專案。他的演講題目是“以HAWQ輕鬆取代傳統資料倉庫”,這正是我的興趣所在。HAWQ支援事務、效能表現優良,關鍵是與SQL的相容性非常好,甚至支援儲存過程。對於傳統資料倉庫的開發人員,使用HAWQ轉向大資料平臺,學習成本應該是比較低的。我個人認為HAWQ更適合完成Hadoop上的資料倉庫及其資料分析與挖掘工作。

本書內容

一年來,我一直在撰寫HAWQ相關的文章和部落格,並在利用HAWQ開發Hadoop資料倉庫方面做了一些基礎的技術實踐,本書就是對這些工作的系統歸納與總結。全書分為技術解析、實戰演練、資料探勘三個部分,共27章。

技術解析部分說明HAWQ的基礎架構與功能特性,包括安裝部署、客戶端與伺服器連線、資料庫物件與資源管理、查詢優化、備份恢復、高可用性等。

實戰演練部分通過一個簡單而完整的示例,說明使用HAWQ設計和實現資料倉庫的方法,包括初始和定期ETL處理、自動排程系統、維度表與事實表技術、聯機分析處理與資料的圖形化表示等。這部分旨在將傳統資料倉庫建模、SQL開發的簡單性與大資料技術相結合,快速、高效地建立可擴充套件的資料倉庫及其應用系統。

資料探勘部分結合應用例項,討論將HAWQ與MADlib整合,MADlib是一個開源機器學習庫,提供了精確的資料並行實現、統計和機器學習方法,可以對結構化和非結構化資料進行分析。它的主要目的是可以非常方便地載入到資料庫中,擴充套件資料庫的分析功能。MADlib僅用SQL查詢就能做簡單的資料探勘與機器學習,實現矩陣分解、降維、關聯規則、迴歸、聚類、分類、圖演算法等常見資料探勘方法。這也是HAWQ的一大亮點。

本書讀者

本書適合資料庫管理員、資料倉庫技術人員、Hadoop或其他大資料技術人員,也適合高等院校和培訓學校相關專業的師生教學參考。

致謝

在本書編寫過程中,得到了很多人的幫助與支援。感謝清華大學出版社圖格事業部的老師和編輯們,他們的辛勤工作使得本書得以儘早與讀者見面。感謝CSDN提供的技術分享平臺,給我有一個將部落格文章整理成書的機會。感謝我在優貝線上的所有同事,特別是技術部的同事們,他們在工作中的鼎力相助,使我有更多的時間投入到本書的寫作中。感謝Apache HAWQ創始人常雷先生在百忙之中為本書寫推薦序。最後,感謝家人對我一如既往地支援。

因為水平有限,錯漏之處在所難免,希望讀者批評指正。

編者

201712月