推薦資料相關的書單
半年前推薦過一波資料倉庫相關的書單,現在應讀者朋友們的要求,更新一波推薦的書單!
和以前一樣,居士只會推薦自己認真讀過的書,沒仔細看過的書是不會放出來的。推薦圖書的範圍主要是和資料建設相關的,具體內容看下文即可知。每本書有一個推薦的星級,5星為最佳。
補充一下,推薦的這幾本書,均可在各大網上商城買到,暫不推薦已經不再版的圖書,所以不要再找居士要電子版了。
0x01 書單
一、《大資料之路:阿里巴巴大資料實踐》 5星
阿里的大資料最佳實踐,基本上講了阿里在大資料實踐上的方方面面,特別是資料模型的設計和實踐,理論和實踐結合的比較好,是我目前看到最好的一本書。
該書可作為整個資料體系建設的參考書,從資料平臺到資料倉庫到資料應用,都有比較不錯的講解。另外,本書的很多論述可以用作方案設計、老闆彙報、晉升答辯等,值得反覆看。
二、《資料倉庫工具箱(第3版):維度建模權威指南》 5星
英文名:《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling》
維度建模是大師 Ralph Kimball 所倡導的,這本《資料倉庫工具箱》是資料倉庫經典書籍,特別是維度建模相關的內容非常權威,目前市面上能買到的書,很少有比這個更權威的了。
優點:
- 實踐性較強,基本所有的概念都有例子說明
- 易懂,語言通俗易懂
缺點
- 示例都是傳統行業
- 還是有一些抽象的概念,零基礎來讀,可能要花點時間,畢竟經典的資料都需要一些上層次抽象的概念。
三、《資料驅動:從方法到實踐》 4.5星
百度大神桑文鋒出的書,現在是神策資料創始人兼CEO。
這本書內容很棒,個人感覺主要是從資料分析的視野來講解整個資料體系,基本把資料相關的方法論講了一遍,適合所有從事資料工作的童鞋看一下。
書中列出來很多實際工作中會遇到的坑,也都給出了一定的解決思路,但是個人感覺文中涉及到的技術比較少,更多的是各種思路和方法論。
總之,該書一直在公司放著,沒事就會翻一下。
四、《大資料日知錄》 4.5星
這本書主要偏向於各種大資料系統的原理,是居士翻的最多的一本技術書了,基本上把現在流行的大資料元件都介紹了一遍,深度和廣度都有,每章內容後面也都有相應的論文推薦。
推薦這本書的原因就在於現在大部分網際網路公司的資料倉庫都是基於這一套大資料框架來的,更準確的來講,大家其實都是先工程,後理論,因此這本書可以作為對大資料生態的一覽。
五、《資料探勘:概念與技術(原書第3版)》 4星
這是一本資料探勘的書,但是沒關係,資料倉庫本身就是和資料探勘息息相關的,或者是說資料倉庫是資料探勘的支撐。這本書的前5章十分值得一讀,它講了其它書沒有深入講的OLAP和資料立方體技術 ,比如說Kylin構建Cube,其實看看這本書的第五章基本就知道是怎麼回事了。
所以強烈推薦看了這本書,至少是前5五章。
六、《美團機器學習實踐》4星
美團的技術公眾號近段時間經常會更新一些乾貨文章,本書風格也是如此,相當乾貨,因此本書剛一面世就讓美團的朋友送了一本。
這本書主要是關於機器學習實踐的書,可讀性很強,都是一些實際案例的講解,個人認為本書和阿里的大資料之路很類似,都是實戰性很強幹貨十足的書。
本書前面幾部分包含了特徵工程和使用者畫像的內容,特別是使用者畫像體系設計可以參考本書。
0x02 補充
前面推薦的都是居士認為很優秀並且自己看的頻率比較高的書,下面幾本也各有優點。
七、《資料倉庫(原書第4版)》
正規化是資料庫邏輯模型設計的基本理論,一個關係模型可以從第一正規化到第五正規化進行無損分解。在資料倉庫的模型設計中目前一般採用第三正規化。正規化模型由資料倉庫之父 Inmon 提倡,而這本書就是 Inmon 所寫。
這本書是我看的第二本資料倉庫的書,個人感受是理論比較強,剛開始看基本就是一頭霧水,然後當你做了一段時間後,再回頭來看這本書會有很多理論指導,比如說元資料該怎麼做,模型該怎麼設計,參考性很強。
即使工作了一段時間後,來看這本書依舊感覺比較費勁兒,所以本書翻的比較少,只是偶爾想起來會看一下。
八、《資料架構 大資料 資料倉庫以及Data Vault》
本書提出了Data Vault這種資料建模方式,但是Data Vault到底是什麼,居士理解的也不深,畢竟在工作中沒有具體設計過這種模型。但是值得一讀,個人意見,前面的書讀完之後可以來翻一下本書。
九、《資料天才:資料科學家修煉之道》
本書探討來資料科學家是什麼,會有很多示例以及分析。書的視角和前面幾本都有所不同,個人感覺主要是從人的角度來規劃資料科學家的發展道路。
精力有限,本書讀了一半左右,還沒讀完,因此不多介紹,感興趣可以搜一下本書的目錄還是有吸引力的。
0xFF 總結
選書和對書的評論都是居士的個人觀點,比較主觀,大家選擇性參考即可。
另外書的內容主要是大資料體系和資料倉庫,比較少涉及資料探勘和機器學習。