1. 程式人生 > >7本書帶你掌握資料科學中的數學基礎(附下載)

7本書帶你掌握資料科學中的數學基礎(附下載)

640?wx_fmt=png&wxfrom=5&wx_lazy=1

作者:Ajit Jaokar

翻譯:李海明

本文約1500,建議閱讀6分鐘

想要精通資料科學,學好數學功不可沒。

微信後臺回覆“7本書”獲取文章內的書籍資源

關鍵詞:書,資料科學,Ian Goodfellow,機器學習,數學, Robert TibshiraniVladimir Vapnik

想要精通資料科學,學好數學功不可沒。基於這一常識,現推薦7本好書。

很多人在學習資料科學的時候都非常重視程式設計的學習。然而,如若有意精通資料科學(亦或是機器學習)這一門類,我們絕不能忽視資料科學的數學背景。所以,接下來我會推薦我在學習資料科學的過程中非常享受的7本數學基礎方面的書。說“享受“可能不是特別準確,因為要非常非常努力才行!

那麼問題來了,為什麼你需要去學好資料科學中的數學基礎呢?

以下幾條原因一直激勵著我這樣去做:

人工智慧技術一直處於高速更迭中。良好的數學基礎有助於你理解人工智慧技術的進化,同時也能讓你更深入地去理解並使用人工智慧技術,而不是停留在AI技術的表面。另外,這樣做也可以幫助你更好地去看待AI智慧財產權的問題。最後,職業規劃方面,一旦你掌握了資料科學背後的數學基礎,便可去從事更高階的AI和資料科學方面的工作。

與這7本書打交道時,我還有另外兩個動因:

  • 首先,其內容可以作為我在牛津大學教授網際網路資料科學課程的一部分,另外我本人還教授AI應用課程,在這些課程中我都要涉獵一些基礎的數學方法。

  • 其次,我還在寫一本從數學角度簡化AI的書,目的是讓14到18歲年齡段的讀者也能看懂。理解資料科學和AI中的數學基礎,你需要知道4類知識:線性代數,概率論,多變數微積分以及優化。這些知識大多數(至少是一部分)都來自於高中課本,因此我正在嘗試通過強調數學建模的意義,將高中數學和AI、資料科學聯絡起來。也歡迎評論我的方法。

640?wx_fmt=png

以下是書單以及我對這7本書的評價:

1. 《統計學習理論的本質》Vladimir Vapnik. 【有中、英文版】

沒有涵蓋這位偉大的俄羅斯數學家Vladimir Vapnik著作的數學推薦書單都是無稽之談。所以,我把Vladimir Vapnik的《統計學習理論的本質》放在首位。在我的書單中,他的書是最難找到的。我有一本較早前的印度版本。他是支援向量機的發明者,維基百科中涵蓋了很多關於他的成就的介紹。

2. 《Richard O Duda教你模式分類》(2007-12-24) Richard O Duda 【有英文版】

與Vapnik博士的書類似,Duda的書是另一個時代的經典力作。這本書最早發行於1973年,後改版了25次(至2000年),是一部有份量的數學學習資源。該書採用了模式識別方法,並提供了廣泛的演算法覆蓋。

3. 《機器學習:從演算法出發》第二版 (Chapman & Hall/Crc 機器學習與模式識別)  Stephen Marsland 【有英文版】

Stephen Marsland的書已經有了第二版。Stephen Marsland的這本是同類書中我讀的最早的一批中的一本(我只有第一版)。兩個版本都非常好。我認為該書的第二版會有更多的python程式碼。就像前兩本一樣,這本書非常強調演算法。

4. 《統計學習基礎:資料探勘,推斷與預測》 第二版  Trevor Hastie, Robert Tibshirani, Jerome Friedman 【有英文版】

又是一本經典之作。我有的這本書是彩色列印的,非常精美,可以作為學習的一本參考書。

5. 《模式識別與機器學習》(資訊科學與統計學) Christopher M. Bishop 【有英文版】

Christopher M. Bishop的力作《模式識別與機器學習》(資訊科學與統計學)是一本深入淺出的學習參考書。

6. 《機器學習:資料門類中演算法的科學與藝術》Peter Flach 【有英文版】

雖然這本書在amazon上有評論說多文字而少程式碼,但我喜歡Peter Flach的書,特別是演算法的分組(邏輯模型,線性模型,概率模型)以及其對主題的整體處理風格。

最後,是我最最推薦的一本:

7. 《深度學習》Goodfellow, Bengio and Corville 【有中文 draft版、英文版】

這是一本值得你從一字不落頭讀到尾的好書。該書既詳細又現代,涵蓋了你能想到的所有問題。

還有兩本也值得閱讀:

1. 《機器學習第一課》第二版 (機器學習與模式識別) Simon Rogers,Mark Girolami

這是我看的第一本AI和資料科學的書。他不太適合初學者,但是仍然是一本不錯的書(特別是第二版)

2.《機器學習:從概率出發》 Kevin Murphy

這本書評價頗高,但是我自己還沒有讀過(所以沒有列在7本書的範圍之內)

如果我錯過了一些好書,正好你又有其他推薦,也請讓我瞭解。

總結評論

1. 除了《深度學習》,我不建議大家通讀其他書籍。我更傾向於需要學習哪類知識就去讀哪本書。我還喜歡不同作者在書中舉的不同例子,比如Duda的魚分類;Hastie的廣告資料銷售電視與廣播;Flach假設空間概念與海洋動物的例子等等。

2. 我發現這些書還賦予了我一點點的謙卑,讓我們知道這個世界浩瀚無垠,錯綜複雜,而我們實在是知之甚少。

3. 這些書也不會過時。Vladimir已經81歲高齡了,Duda的這本書釋出於1973年,我希望50年後,整個行業仍然會去讀它們。就像老朋友能經得起時間的考驗一樣,令人欣慰。同時,這也顯示出數學方法的長壽與價值。

原文標題:

7 Books to Grasp Mathematical Foundations of Data Science and Machine Learning

原文連結:

https://www.kdnuggets.com/2018/04/7-books-mathematical-foundations-data-science.html

微信後臺回覆“7本書”獲取文章內的書籍資源

譯者簡介

640?wx_fmt=jpeg

李海明  中國科學院大學在讀研究生,鐵人三項業餘運動員,熱愛音樂、藝術、生活。喜歡結交各路神仙~一起坐馳神遊,一起南轅北轍

翻譯組招募資訊

工作內容:需要一顆細緻的心,將選取好的外文文章翻譯成流暢的中文。如果你是資料科學/統計學/計算機類的留學生,或在海外從事相關工作,或對自己外語水平有信心的朋友歡迎加入翻譯小組。

你能得到:定期的翻譯培訓提高志願者的翻譯水平,提高對於資料科學前沿的認知,海外的朋友可以和國內技術應用發展保持聯絡,THU資料派產學研的背景為志願者帶來好的發展機遇。

其他福利:來自於名企的資料科學工作者,北大清華以及海外等名校學生他們都將成為你在翻譯小組的夥伴。

點選文末“閱讀原文”加入資料派團隊~


轉載須知

如需轉載,請在開篇顯著位置註明作者和出處(轉自:資料派ID:datapi),並在文章結尾放置資料派醒目二維碼。有原創標識文章,請傳送【文章名稱-待授權公眾號名稱及ID】至聯絡郵箱,申請白名單授權並按要求編輯。

釋出後請將連結反饋至聯絡郵箱(見下方)。未經許可的轉載以及改編者,我們將依法追究其法律責任。


640?wx_fmt=jpeg

點選“閱讀原文”擁抱組織


相關推薦

業界 | 5個步驟開啟資料科學職業生涯!連結

大資料文摘授權轉載自資料派THU 作者:Thomas 翻譯:王雨桐 校對:丁楠雅 資料科學已經成為21世紀最熱門的工作領域,但如何才能成為資料科學家呢?作為一名有抱負的資料科學家,或是準備從事資料科學工作的學生,你應該做好哪些準備?需要什麼技能?不要擔心!本

中國旅遊研究院:2018日韓旅遊大資料報告下載

報告下載:新增199IT官方微信【i199it】,回覆關鍵詞【2018中日韓旅遊大資料報告】即可! 報告下載:新增199IT官方微信【i199it】,回覆關鍵詞【20

手把手打造一個 Android 熱修復框架上篇

本文來自網易雲社群作者:王晨彥前言熱修復和外掛化是目前 Android 領域很火熱的兩門技術,也是 Android 開發工程師必備的技能。目前比較流行的熱修復方案有微信的 Tinker,手淘的 Sophix,美團的 Robust,以及 QQ 空間熱修復方案。QQ 空間熱修復方

《設計模式》之一文理解策略模式、原型模式深淺拷貝、觀察者模式、裝飾模式

原型模式 什麼是原型模式 原型模式是一個建立型的模式。原型二字表明瞭該模式應該有一個樣板例項,使用者從這個樣板物件中複製一個內部屬性一致的物件,這個過程也就是我們稱的“克隆”。被複制的例項就是我們所稱的“原型”,這個原型是可定製的。原型模式多用於建立複雜

沒有基礎小編,用python畫機器貓有程式碼

小編帶你玩python 沒有基礎小編帶你,用python畫機器貓。只需要python3和小編的程式碼即可。python3小編送,程式碼文章有,現在就差個你了。 執行不了的找小編,小編包教會你。 重要的事情說三遍: python3小編送,程式碼文章有。 python3小編送,程式碼文章有。 python

使用C++獲取資料所有檔名windows環境

由於經常有讀取一個資料夾中的很多隨機編號的檔案,很多時候需要讀取某些特定格式的所有檔案。 下面的程式碼可以讀取指定檔案家中的所有檔案和資料夾中格式為jpg的檔案 windows平臺程式碼:#if 1 #include <io.h> #include

一步一步實現自定義圓形進度條詳解

        每次看到別人做出炫酷的都會想,這個應該很難吧?這是心理上先入為主的就這麼認為了,其實實現很簡單,下面一步一步的詳細剖析自定義圓形進度條的步驟。 首先看效果圖: 篇幅有點長,耐心看完肯定get新技能。 看每一個檢視都包含了些什麼。 最

一文瞭解微服務架構和設計多圖

![南嶽衡陽(封面)](https://pcloud-1258173945.cos.ap-guangzhou.myqcloud.com/uPic/b670310e76c4381777a7eb437048e9d8的副本.jpg) 最近幾年微服務很火,大家都在建設微服務,如果不懂點微服務相關的技術,都不好意

收藏!超全機器學習資料合集!下載

最近在群裡發現一些小夥伴在尋找資料的時候總是無處可找,網上出現很多收集免費資料再去打包收錢的人,我看不慣這樣的人,所以把自己收集的檔案分享給大家。 百度雲經常抽風,如果大家遇到了失效的連結,請在評論區給我評論,我會很快的更新。 1:資料探勘:概念與技術(中文第三版) 連結: https

CBNData:2018年輕人租房大資料報告下載

報告下載:新增199IT官方微信【i199it】,回覆關鍵詞【2018年輕人租房大資料報告】即可! 房子一直是安全感與歸屬感的象徵,但這屆年輕人對於“租房”與“穩定”的觀念,已於往屆產生了巨大的差異,他們提倡“房子是租來的,但生活不是”。 第一財經商業資料中心(CBNData

天巡:2018十一黃金週出境自由行大資料報告下載

報告下載:新增199IT官方微信【i199it】,回覆關鍵詞【2018十一黃金週出境自由行大資料】即可! Skyscanner天巡聯合攜程、飛常準釋出了《2018十一黃金週出境自由行大資料報告》。該資料報告基於Skyscanner天巡的國際機票預訂資料、攜程對於國內使用者行為的洞察

11月26日雲棲精選夜讀 | 機器學習高質量資料集大合輯連結

在機器學習中,尋找資料集也是非常重要的一步。質量高或者相關性高的資料集對模型的訓練是非常有幫助的。 那麼用於機器學習的開放資料集有哪些呢?我們給大家推薦一份高質量的資料集,這些資料集或者涵蓋範圍廣泛(比如 Kaggle),或者非常細化(比如自動駕駛汽車的資料)。 熱點熱議 資源 | 機器學習高質量資料

獨家 | 手把手教用Python進行Web抓取程式碼

作為一名資料科學家,我在工作中所做的第一件事就是網路資料採集。使用程式碼從網站收集資料,當時對我來說是一個完全陌生的概念,但它是最合理、最容易獲取的資料來源之一。經過幾次嘗試,網路抓取已經成為我的第二天性,也是我幾乎每天使用的技能之一。 在本教程中,我將介紹一個簡單的例子,說明如何抓取一個網站,

機器學習高質量資料集大合輯連結

在機器學習中,尋找資料集也是非常重要的一步。質量高或者相關性高的資料集對模型的訓練是非常有幫助的。 那麼用於機器學習的開放資料集有哪些呢? 我們給大家推薦一份高質量的資料集,這些資料集或者涵蓋範圍廣泛(比如 Kaggle),或者非常細化(比如自動駕駛汽車的資料)。 首先,在搜尋資料集時,

Spring Boot使用JdbcTemplate原始碼

最後附原始碼。 Spring Boot中使用JdbcTemplate 個人覺得JdbcTemplate相較於MyBaits,Hibernate等資料庫框架更容易上手,對SQL的操作也更為直觀方便,所以在專案中也是一個不錯的選擇。在Spring Boot開啟JdbcTemplate

Spring Boot使用MyBatis原始碼

Spring Boot中使用MyBatis 整合MyBatis之前,先搭建一個基本的Spring Boot專案開啟Spring Boot。然後引入mybatis-spring-boot-starter和資料庫連線驅動(這裡使用關係型資料庫Oracle 11g) 關係型mysql:

spring應用多次讀取http post方法的流原始碼

一、問題簡述 先說下為啥有這個需求,在基於spring的web應用中,一般會在controller層獲取http方法body中的資料。 方式1: 比如http請求的content-type為application/json的情況下,直接用@RequestBody接收。 方式2: 也有像目前我們在做的

基於java社會化海量資料採集爬蟲框架搭建程式碼

小數點2014-10-31 9:49:08大資料技術評論(2) 隨著BIG DATA大資料概念逐漸升溫,如何搭建一個能夠採集海量資料的架構體系擺在大家眼前。如何能夠做到所見即所得的無阻攔式採集、如何快速把不規則頁面結構化並存儲、如何滿足越來越多的資料採集還要在有限時間內採

中國信通院:2018年中國大資料發展調查報告下載

報告下載:新增199IT官方微信【i199it】,回覆關鍵詞【2018年中國大資料發展調查報告】即可! 2015年,大資料席捲全球,時至今日,大資料已經迎來了第4個年頭。國家政策不斷髮布,推動了政府和企業大資料發展;建設模式不斷成熟,奠定了企業大資料基礎;行業應用不斷深入,提升了大資料價值顯現。中國資訊通訊