【機器學習系列文章】第1部分：為什麼機器學習很重要？

阿新 • • 發佈：2018-12-13

路線圖

關於作者

簡單，簡單的解釋，附有數學，程式碼和現實世界的例子。

這個系列是一本完整的電子書！在這裡下載。免費下載，貢獻讚賞（paypal.me/ml4h）

路線圖

第1部分：為什麼機器學習很重要。人工智慧和機器學習的大局 - 過去，現在和未來。

第2.1部分：監督學習。學習答案鍵。引入線性迴歸，損失函式，過度擬合和梯度下降。

第2.3部分：監督學習III。非引數學習者：k-最近鄰居，決策樹，隨機森林。介紹交叉驗證，超引數調整和集合模型。

第3部分：無監督學習。聚類：k-means，層次結構。降維：主成分分析（PCA），奇異值分解（SVD）。

第4部分：神經網路和深度學習。學習的原因，地點和深度。博士從大腦中獲取靈感。卷積神經網路（CNN），遞迴神經網路（RNN）。真實世界的應用程式。

第5部分：強化學習。探索和開發。馬爾可夫決策過程。Q-learning，政策學習和深度強化學習。價值學習問題。

附錄：最佳機器學習資源。用於建立機器學習課程的精選資源列表。

誰應該讀這個？

希望快速掌握機器學習速度的技術人員
非技術人員希望獲得機器學習的入門知識，並願意參與技術概念
任何對機器如何思考感到好奇的人

本指南旨在供任何人訪問。將討論概率，統計，程式設計，線性代數和微積分的基本概念，但沒有必要事先了解它們以從該系列中獲得價值。

本系列文章是在2-3小時內獲得高階機器學習概念的指南。如果您對確定要學習哪些課程，閱讀課本，嘗試專案等更感興趣，請檢視附錄中的建議：最佳機器學習資源。

為什麼機器學習很重要

人工智慧將比本世紀任何其他創新更有力地塑造我們的未來。任何不理解它的人很快就會發現自己感到被遺忘，在一個充滿技術感覺越來越像魔術的世界裡醒來。

加速率已經令人震驚。經過幾個人工智慧冬季和過去四十年的虛假希望之後，近年來資料儲存和計算機處理能力的快速發展極大地改變了遊戲。

2015年，谷歌培訓了一個會話代理（AI），它不僅可以令人信服地與人類作為技術支援服務檯進行互動，還可以討論道德，表達意見和回答基於事實的一般問題。

同年，DeepMind 在49個Atari遊戲中開發了一個超過人類級別表現的代理，只接收畫素和遊戲分數作為輸入。不久之後，在2016年，DeepMind通過釋出一種名為A3C 的最先進的遊戲方法淘汰了自己的成就。

與此同時，AlphaGo擊敗了Go中最優秀的人類玩家之一 - 在機器首次征服國際象棋之後的二十年裡，人類主導的遊戲取得了非凡的成就。很多大師都無法理解機器如何能夠掌握這個古老的中國戰爭戰略遊戲的全部細微差別和複雜性，其中有10個可能的棋盤位置（宇宙中只有10個原子）。

職業圍棋選手Lee Sedol在失敗後回顧了他與AlphaGo的比賽。照片來自大西洋。

2017年3月，OpenAI建立了代理商，他們發明了自己的語言進行合作，更有效地實現了目標。據報道，Facebook不久後成功培訓代理商進行談判甚至撒謊。

就在幾天前（撰寫本文時），2017年8月11日，OpenAI通過線上多人遊戲Dota 2的1v1比賽擊敗世界頂級專業人士，達到了另一個令人難以置信的里程碑。

在YouTube上觀看 The International 2017的完整比賽，Dendi（人類）與OpenAI（bot）。

我們的大部分日常技術都是由人工智慧驅動的。在您下次前往臺灣旅行期間將相機對準選單，餐廳的選擇將通過Google Translate應用程式神奇地以英文顯示。

谷歌翻譯使用卷積神經網路實時覆蓋飲料選單上的英文翻譯。

今天，AI被用於為癌症患者設計基於證據的治療計劃，立即分析醫學檢查的結果，立即升級到相應的專家，並進行藥物發現的科學研究。

倫敦BenevolentAI的大膽宣言（2017年8月關於我們頁面的截圖）。

在日常生活中，發現傳統上由人類佔據的角色的機器越來越普遍。真的，如果你下次打電話到酒店服務檯傳送一些牙膏時，如果一個小的家政服務機器人出現而不是人類，請不要感到驚訝。

在本系列中，我們將探索這些技術背後的核心機器學習概念。最後，您應該能夠描述它們在概念層面的工作方式，並配備自己開始構建類似應用程式的工具。

語義樹：人工智慧和機器學習

一點建議：將知識視為一種語義樹是很重要的 - 確保在進入樹葉/細節之前瞭解基本原則，即樹幹和大樹枝，或者沒有什麼可以讓它們掛起來至。- Elon Musk，Reddit AMA

機器學習是人工智慧的許多子領域之一，涉及計算機從經驗中學習的方式，以提高他們思考，計劃，決定和行動的能力。

人工智慧是研究能夠感知周圍世界，形成計劃並做出決策以實現其目標的代理人。其基礎包括數學，邏輯，哲學，概率，語言學，神經科學和決策理論。許多領域屬於人工智慧的範疇，如計算機視覺，機器人，機器學習和自然語言處理。

機器學習是人工智慧的一個子領域。它的目標是使計算機能夠自己學習。機器的學習演算法使其能夠識別觀察資料中的模式，構建解釋世界的模型，並在沒有明確的預程式設計規則和模型的情況下預測事物。

AI效應：實際上什麼是“人工智慧”？

符合“AI”的技術的確切標準有點模糊，並且解釋隨時間而變化。AI標籤傾向於描述傳統上在人類領域執行任務的機器。有趣的是，一旦計算機弄清楚如何完成其中一項任務，人類就會傾向於說這不是真正的情報。這被稱為AI效應。

例如，當IBM的深藍在1997年擊敗世界象棋冠軍加里卡斯帕羅夫時，人們抱怨它使用的是“蠻力”方法，而且根本不是“真正的”情報。正如Pamela McCorduck所寫的那樣，“人工智慧領域的歷史的一部分，每當有人想出如何讓電腦做某事 - 玩好的跳棋，解決簡單但相對非正式的問題 - 有批評的合唱者說， “那不是在思考”（McCorduck，2004）。或許有一定的JE NE最高審計機關quoi固有的什麼人會接受可靠的“人工智慧”：

“人工智慧是尚未完成的任何事情。” - Douglas Hofstadter

那麼計算器算作AI嗎？也許通過一些解釋。那輛自動駕駛汽車怎麼樣？今天，是的。在未來，也許不是。你的酷新聊天機器人啟動自動化流程圖？當然......為什麼不呢。

強大的AI將永遠改變我們的世界; 要了解如何，學習機器學習是一個很好的起點

上面討論的技術是人工窄智慧（ANI）的示例，其可以有效地執行狹義定義的任務。

與此同時，我們將繼續在人類級人工智慧（AGI）方面取得基礎性進展，AGI也稱為強AI。AGI的定義是一種人工智慧，可以成功地執行人類可以執行的任何智力任務，包括在不確定條件下學習，計劃和決策，以自然語言交流，製作笑話，操縱人，交易股票，或......重新程式設計本身。

最後一個是一個大問題。一旦我們建立了一個可以改善自身的人工智慧，它將解鎖一個遞迴自我改善的迴圈，這可能導致在幾十年到一天的某個未知時間段內發生情報爆炸。

讓超智慧機器被定義為一種機器，它可以遠遠超過任何人的所有智力活動，無論多麼聰明。由於機器設計是這些智慧活動之一，超智慧機器可以設計更好的機器; 毫無疑問，這將是一場“情報爆炸”，人類的智慧將遠遠落後。因此，第一臺超智慧機器是人類需要製造的最後一項發明，只要機器足夠溫順，告訴我們如何控制它。 - IJ Good，1965

你可能聽說過這一點被稱為奇點。該術語借用於黑洞中心的引力奇點，這是一個無限密集的一維點，我們理解它們的物理定律開始分解。

我們對黑洞事件視界之外發生的事情零視野，因為沒有光可以逃脫。同樣地，在我們解開AI遞迴改進的能力之後，就不可能預測會發生什麼，就像 故意設計人類的老鼠可能難以預測人類會對他們的世界做些什麼一樣。它會繼續幫助他們獲得更多的乳酪嗎？（圖片來自 WIRED）

人類未來研究所最近的一份報告調查了一組人工智慧研究人員關於AGI的時間表，並發現“研究人員認為，在45年內，所有任務中人工智慧的表現都超過人類的50％”（Grace等，2017）。我們親自與一些理智和合理的AI從業者談過，他們預測更長的時間表（上限是“從不”），而其他人的時間表非常短 - 只需幾年。

圖片來自Kurzweil的The Singularity Is Near，於2005年出版。現在，2017年，只有其中幾張海報可以合理地留在牆上。

高於人類的人工超級智慧（ASI）的出現可能是我們物種發生的最好或最壞的事情之一。它帶來了巨大的挑戰，以一種對人類友好的方式指定AI 想要的東西。

雖然不可能說出未來會發生什麼，但有一件事是肯定的：2017年是開始瞭解機器思維方式的好時機。為了超越哲學家在扶手椅上的抽象，並巧妙地塑造我們關於人工智慧的路線圖和政策，我們必須參與機器如何看待世界的細節 - 他們“想要什麼”，他們潛在的偏見和失敗模式，他們的氣質怪癖 - 就像我們研究心理學和神經科學一樣，瞭解人類如何學習，決定，行動和感受。

有關人工智慧的複雜，高風險的問題需要我們在未來幾年內的細心關注。

我們如何打擊AI 在現有資料集中明顯進一步加劇系統性偏見的傾向？我們應該對世界上最強大的技術專家關於人工智慧的潛在風險和利益的根本分歧做些什麼？在沒有工作的世界裡，人類的目的感會發生什麼？

機器學習是我們人工智慧通訊之旅的核心，與此同時，它將改變每個行業並對我們的日常生活產生巨大影響。這就是為什麼我們認為值得理解機器學習，至少在概念層面 - 我們設計這個系列是最好的起點。

如何閱讀這個系列

您不一定需要閱讀系列封面到封面才能獲得價值。以下是關於如何處理它的三個建議，具體取決於您的興趣和您有多少時間：

T形方法。從頭到尾閱讀。用你自己的話來總結每個部分（參見：費曼技術）; 這鼓勵積極閱讀和更強的保留。深入瞭解與您的興趣或工作最相關的領域。我們將在每個部分的末尾包含用於進一步探索的資源。
專注的方法。直接跳到你最感興趣的部分，並將精力集中在那裡。
80/20方法。一次性瀏覽所有內容，在有趣的高階概念上做幾點註釋，然後稱之為夜晚。?

關於作者

“好吧，當我們完成這種啤酒時，我們必須完成梯度下降。”@ 愛丁堡的Boozy Cow

Vishal最近在Upstart領導增長，Upstart是一個利用機器學習來定價信貸，自動化借貸流程和收購使用者的借貸平臺。他花時間思考初創公司，應用認知科學，道德哲學和人工智慧倫理。

Samer是加州大學聖地亞哥分校電腦科學與工程碩士生，也是Conigo Labs的聯合創始人。在讀研究生之前，他建立了中小企業商業智慧工具TableScribe，並花了兩年時間為麥肯錫的財富100強公司提供諮詢服務。Samer曾在耶魯大學學習電腦科學與倫理，政治和經濟學。

這個系列的大部分內容是在為期10天的英國之旅中寫成的，模糊的火車，飛機，咖啡館，酒吧和其他任何地方我們都可以找到一個乾燥的地方。我們的目標是鞏固我們對人工智慧，機器學習以及其中的方法如何組合在一起的理解 - 並希望在此過程中創造值得分享的東西。

現在，不用多說了，讓我們通過第2.1部分：監督學習深入學習機器學習！

【機器學習系列文章】第1部分：為什麼機器學習很重要？