1. 程式人生 > >關於機器學習,你必須知道的10件事情

關於機器學習,你必須知道的10件事情

很多時候需要為非專業人士解釋機器學習,本文提供以下參考。

1.機器學習意味著:從資料中學習

機器學習目前風頭正勁,AI也是熱搜詞彙。只要將合適的資料放入合適的模型,許多問題可以迎刃而解。如果能夠幫助你宣傳,就叫它AI吧。但請記住,AI,除了在學術界以外,常常是大家可以隨意使用的熱門詞彙,用於描述他們想描述的一切東西。

2.機器學習主要關乎演算法與資料,尤其是資料

很高興能夠在機器學習演算法,特別是深度學習領域有一些進展,但是資料才是機器學習演算法實現的關鍵因素。機器學習可以沒有複雜的演算法,但不能沒有好的資料。

3.除非你有許多資料,否則你應該堅持使用簡單的模型

機器學習將基於資料識別模式,構建由引數定義的模型。如果你的引數定義過多,你很容易過度擬合。詳細的解釋需要更多數學知識,但是機器學習的原則是:儘可能使模型簡單。

4.機器學習的效能受到輸入資料質量限制

“無用輸入,無用輸出”巧妙地點明瞭機器學習的關鍵,機器學習只能發現輸入資料中的模式。對於有監督的機器學習任務,例如分類,輸入資料必須標記正確,特徵明顯。

5.機器學習需要具有代表性的資料

正如基金介紹書中所說:過去的表現不對未來結果作保證。機器學習則只能對與訓練資料分佈相同的樣本外有良好效果。因此,應對訓練資料和樣本外資料的偏離表示警覺,經常性地重新訓練你的模型以免失效。

6.機器學習中大部分的困難工作為資料轉換

從天花亂墜的宣傳中,你可能認為機器學習的主要工作為編寫和除錯程式碼。但現實更加乏味:大多數你的時間和精力將用於資料清洗和特徵工程(將原始特徵轉化為更有代表性的特徵)上。

7.深度學習是革命性的進度,但並不是靈丹妙藥

深度學習在很多機器學習應用領域都做出重大貢獻,進一步地,深度學習將一些傳統需要特徵工程的工作自動化進行,特別是在影象和視訊領域。但是深度學習並不是一種新技術,仍然需要在資料清理和轉化方面付出巨大的努力。

8.機器學習系統極易受操作者誤差影響

借用NRA一句話:機器學習演算法不會殺死人,只有人會殺死人。當機器學習算法系統奔潰時,一般很少是由於機器學習演算法錯誤。而是因為大多數時候,你在訓練資料中引進了人為誤差,或者一些系統誤差。所以,永遠保持質疑。

9.機器學習可以漫不盡心地創造自我實現的預言

在機器學習的許多應用中,你今天做的決定將影響明天收集的訓練資料。一旦機器學習系統中嵌入偏差,它就會生成更多新的資料強化這些偏差,有一些偏差會毀掉人的生活。負責任一點:不要創造可自我實現的預言。

10.AI不會擁有自我意識,不用擔心崛起並毀滅人類

許多人從科幻電影中瞭解AI,我們應當從科幻小說中得到靈感,但不應該受其矇騙,將它當成事實。有許多真實且急迫的危害需要操心,從有意識的恐怖分子到無意識的有偏差的機器學習模型。


原文: 《關於機器學習,你必須知道的10件事情

BigQuant 人工智慧量化投資平臺 涵蓋眾多機器學習深度續學習優質資源帖,集成了眾多深度學習/機器學習開源框架,是一站式的python+機器學習+量化投資平臺,更多內容可以前往BigQuant進一步檢視