1. 程式人生 > >挑選合適的機器學習資料

挑選合適的機器學習資料

停止 大量 ren 人工 res 項目 unit bus 人工智能

挑選合適的機器學習資料

  • 商業人群
    • 對機器學習感興趣的商務人士
    • 在項目中應用機器學習的經理人
  • 學術人群
    • 機器學習專業的本科生或研究生
    • 機器學習領域的研究人員
    • 利用機器學習建模的其他領域的研究人員
  • 工程人群
    • 實現算法的編程人員
    • 交付一次性預測信息的開發人員
    • 改進軟件和服務的工程師
  • 數據人群
    • 希望獲得商業問題優化方案的數據科學家
    • 希望能更好地解釋數據的數據分析師

商業人群

通常來講,這類人群希望在商業上有效地使用機器學習,但並不需要掌握其算法或工具的實現細節。在商業領域,機器學習技術已經廣泛地用於預測分析。

對機器學習感興趣的商務人士

這類人群包括總經理及咨詢顧問,對他們而言,機器學習會對以後的項目和策劃起到戰略指導的作用。

以下資源對此類人群做戰略思考會有幫助:

  1. Gartner‘s Magic Quadrant for Advanced Analytics Platforms, 2015
  2. Gartner‘s Machine Learning Drives Digital Business, 2014
  3. McKinsey’s An executive’s guide to machine learning, 2015

項目經理人

機器學習對於這類人群負責的項目非常適用。對他們來說,有用的資料是關於各種問題和算法的全面概括,而不需要關註太多細節。

可以參考以下書籍:

  1. Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die
  2. Data Science for Business: What you need to know about data mining and data-analytic thinking
  3. Data Smart: Using Data Science to Transform Information into Insight

學術人群

通常來講,這類人群主要指學生,包括本科生、研究、博士後、研究助理等。

學術人群可能會花大量時間研究他們論文中的某個機器學習算法。 在此,我推薦他們看一篇文章 How to Research a Machine Learning Algorithm,了解關於算法方面的研究。

機器學習專業的本科生或研究生

機器學習專業的學生通常會上一些關於技術和算法的課程,因此他們對相關的具體問題會更感興趣。學生一般比較專註,也有時間深入去鉆研。這類人群最好閱讀教科書。

以下是機器學習領域裏最好的教科書:

  1. Learning from Data
  2. Machine Learning: A Probabilistic Perspective
  3. Pattern Recognition and Machine Learning
  4. The Elements of Statistical Learning: Data Mining. Inference. and Prediction

機器學習領域的研究人員

機器學習領域的研究人員會深入了解機器學習的某個方面,並努力去擴展該領域。研究人員對本專業的研究論文、期刊、組織、網絡等很感興趣。教科書對他們來說,可就不適用了。他們需要參考一些知名度高的期刊和論文集:

  1. Journal of Machine Learning Research (JMLR)
  2. Neural Information Processing Systems (NIPS)
  3. Knowledge Discovery and Data Mining (SIGKDD)
  4. International Conference on Machine Learning (ICML)

看一下 Quora 上關於 What are the best conferences and journals about machine learning?

這兒有一個排名前 50 位的人工智能期刊列表。

利用機器學習建模的其他領域的研究人員

其他領域的研究人員可能也會對機器學習感興趣,但是是把它當作工具。他們更關註用自己的數據建造描述性或預測性的模型。例如,客戶研究、地質學、或者生物學領域的科學家有他們自己的數據集。他們會用建模的方法來預測未來可能會發生的問題。

相比於模型的準確度,他們更關註模型的可解釋性。因此,從統計學借鑒過來的簡單易懂的方法更易被接受,例如線性回歸和邏輯回歸。

當然,好的系統化過程仍然是必要的。

我會推薦“工程人群”裏提到的資源,尤其是針對交付一次性預測信息的開發人員的部分。另外可以看一下“數據人群”裏數據科學家那部分。

工程人群

工程人群基本上是開發人員,他們希望將機器學習用於自己項目的解決方案中。對於開發人員,推薦一篇很好的文章 Machine Learning for Programmers

工程人群可以從答疑網站的機器學習社區中獲得很多幫助和支持。更多的信息,可以參考文章 Machine Learning Communities

實現算法的編程人員

對於編程人員來說,一個很好的掌握機器學習技能的方法是:從零基礎開始,利用現有的編程能力實現機器學習的算法。

這個方法我講過很多次,也在我的博文 Understand Machine Learning Algorithms By Implementing Them From Scratch 中提供了很棒的小竅門和資源。

在這篇博文中,我還針對這個方法推薦了三本書

  1. Data Science from Scratch: First Principles with Python
  2. Machine Learning in Action
  3. Machine Learning: An Algorithmic Perspective

交付一次性預測信息的開發人員

一個開發人員不一定得是很棒的程序員,而編程也不需要交付一個準確可靠的預測模型。

一個一次性的預測模型可以在商業環境中提供一套預測信息。在自學、處理實際數據集甚至在機器學習競賽中,這種模型都算是非常理想的。

如果你經歷過系統地解決問題的全部過程,並提供出一個獨立的模型,你將獲益良多。

  1. Data Mining: Practical Machine Learning Tools and Techniques
  2. Applied Predictive Modeling

你可以從我的博文 Process for working through Machine Learning Problems 中了解到端對端的解決機器學習問題的系統流程。

改進軟件和服務的工程師

一個工程師要想在他們的軟件項目中加入機器學習,需要掌握的知識包括算法、端對端解決問題、以及在軟件實際運轉的情況下如何讓算法可靠執行。這類人群是從前面的兩類人群成長而來的,稱他們為機器學習工程師可能更恰當。他們致力於使用高速的算法來提供準確可靠的結果,並在二者中尋求平衡。這類人群也大量使用了機器學習書庫和基礎架構。

在啟動中的機器學習書庫中,包括如下有用的資源:

  1. Building Machine Learning Systems with Python
  2. Learning scikit-learn: Machine Learning in Python
  3. Practical Data Science with R
  4. Machine Learning with R

另外,還可以參閱文章 Building a Production Machine Learning Infrastructure

數據人群

通常來說,這類人群主要跟數據打交道,但可能也需要用到機器學習的知識。

希望獲得商業問題優化方案的數據科學家

一名優秀的數據科學家,絕不能停止學習。你必須了解最新的數據流、技巧和算法。這包括你需要用來描述數據和創建預測模型的機器學習技能。無論是“工程人群”項下列出的更為實用的資源中,還是“學術人群”項下列出的更為理論化的資源,數據科學家都可以獲取自己需要的資源。

但是一些以數據科學為主的機器學習資源既有實用性又有理論性,這些資源包括:

  1. Applied Predictive Modeling
  2. An Introduction to Statistical Learning: with Applications in R
  3. Machine Learning for Hackers

希望能更好地解釋數據的數據分析師

數據分析員主要對商業利益背景下的數據解釋感興趣。有時,機器學習算法有助於得出性能更好的模型。這些模型大多為描述模型,但是有時也包括預測模型。和“其他領域的研究人員”這個群體一樣,這個群體可能在統計學和統計推論上有著良好的基礎。另外,由於他們對描述模型最感興趣,因此掌握線性回歸和邏輯回歸之類的經典算法可能就足夠了。相對於準確性,所得模型的解釋能力更好。

從統計推論的角度而言,上文提到的資源很很有用。

挑選合適的機器學習資料