關於機器學習，你必須知道的10件事情

阿新 • • 發佈：2019-01-09

很多時候需要為非專業人士解釋機器學習，本文提供以下參考。

1.機器學習意味著：從資料中學習

機器學習目前風頭正勁，AI也是熱搜詞彙。只要將合適的資料放入合適的模型，許多問題可以迎刃而解。如果能夠幫助你宣傳，就叫它AI吧。但請記住，AI，除了在學術界以外，常常是大家可以隨意使用的熱門詞彙，用於描述他們想描述的一切東西。

2.機器學習主要關乎演算法與資料，尤其是資料

很高興能夠在機器學習演算法，特別是深度學習領域有一些進展，但是資料才是機器學習演算法實現的關鍵因素。機器學習可以沒有複雜的演算法，但不能沒有好的資料。

3.除非你有許多資料，否則你應該堅持使用簡單的模型

機器學習將基於資料識別模式，構建由引數定義的模型。如果你的引數定義過多，你很容易過度擬合。詳細的解釋需要更多數學知識，但是機器學習的原則是：儘可能使模型簡單。

4.機器學習的效能受到輸入資料質量限制

“無用輸入，無用輸出”巧妙地點明瞭機器學習的關鍵，機器學習只能發現輸入資料中的模式。對於有監督的機器學習任務，例如分類，輸入資料必須標記正確，特徵明顯。

5.機器學習需要具有代表性的資料

正如基金介紹書中所說：過去的表現不對未來結果作保證。機器學習則只能對與訓練資料分佈相同的樣本外有良好效果。因此，應對訓練資料和樣本外資料的偏離表示警覺，經常性地重新訓練你的模型以免失效。

6.機器學習中大部分的困難工作為資料轉換

從天花亂墜的宣傳中，你可能認為機器學習的主要工作為編寫和除錯程式碼。但現實更加乏味：大多數你的時間和精力將用於資料清洗和特徵工程（將原始特徵轉化為更有代表性的特徵）上。

7.深度學習是革命性的進度，但並不是靈丹妙藥

深度學習在很多機器學習應用領域都做出重大貢獻，進一步地，深度學習將一些傳統需要特徵工程的工作自動化進行，特別是在影象和視訊領域。但是深度學習並不是一種新技術，仍然需要在資料清理和轉化方面付出巨大的努力。

8.機器學習系統極易受操作者誤差影響

借用NRA一句話：機器學習演算法不會殺死人，只有人會殺死人。當機器學習算法系統奔潰時，一般很少是由於機器學習演算法錯誤。而是因為大多數時候，你在訓練資料中引進了人為誤差，或者一些系統誤差。所以，永遠保持質疑。

9.機器學習可以漫不盡心地創造自我實現的預言

在機器學習的許多應用中，你今天做的決定將影響明天收集的訓練資料。一旦機器學習系統中嵌入偏差，它就會生成更多新的資料強化這些偏差，有一些偏差會毀掉人的生活。負責任一點：不要創造可自我實現的預言。

10.AI不會擁有自我意識，不用擔心崛起並毀滅人類

許多人從科幻電影中瞭解AI，我們應當從科幻小說中得到靈感，但不應該受其矇騙，將它當成事實。有許多真實且急迫的危害需要操心，從有意識的恐怖分子到無意識的有偏差的機器學習模型。

BigQuant 人工智慧量化投資平臺涵蓋眾多機器學習深度續學習優質資源帖，集成了眾多深度學習/機器學習開源框架，是一站式的python+機器學習+量化投資平臺，更多內容可以前往BigQuant進一步檢視