1. 程式人生 > >六天搞懂“深度學習”之一:機器學習

六天搞懂“深度學習”之一:機器學習

一般來說,人工智慧、機器學習和深度學習是相互關聯的:“深度學習是一種機器學習,而機器學習是一種人工智慧。”

機器學習指的是人工智慧的特定領域,即,機器學習表示人工智慧的特定技術組成。機器學習是一種從“資料”中找出“模型”的技術。

深度學習是機器學習的一種技術。

深度學習近年來備受關注,因為它很好地解決了一些挑戰人工智慧的問題。

在這裡插入圖片描述

用於模型訓練的資料並不完美,可能包含不同數量(程度)的噪聲,問題是機器學習無法區分有用的資料與噪聲。如果相信訓練資料的每個元素都是正確的,並且精確地擬合模型,那麼將得到一個具有較低泛化能力的模型。即擬合得到的模型適用於訓練資料,但不適用於其它的現場採集資料。這就被稱為過度擬合。

機器學習面臨一個進退兩難的問題:減少訓練資料的擬合誤差會導致過度擬合,從而降低泛化性。因此,必須要解決擬合誤差與泛化性之間的折中問題。

避免過度擬合的兩種典型方法:正則化和驗證。(regularizationand validation)

正則化是一種試圖儘可能簡單地構造模型結構的數值方法。複雜模型(或曲線)往往是過度擬合的。

驗證是保留訓練資料的一部分,並使用它來監視模型效能的過程。驗證資料不用於訓練過程。因為訓練資料的建模誤差不能用於表明資料的過度擬合,所以我們使用訓練資料中的一部分來檢查模型是否過度擬合。當訓練模型對保留的資料輸入產生低效能時,模型被過度擬合。在這種情況下,我們將修改模型,以防止過度擬合。

採用驗證方法的機器學習步驟:

  1. 將訓練資料分成兩組:一組用於訓練,另一組用於驗證。作為實際應用上的經驗法則,訓練集與驗證集的比率一般是8:2。
    
  2. 用訓練集訓練模型。
    
  3. 使用驗證集來評估模型的效能。如果模型得到滿意的效能,則完成訓練;如果效能沒有得到滿意的結果,則修改模型,從步驟2重複以上過程。
    

交叉驗證是在驗證方法上的進一步改進,交叉驗證不保留最初劃分的集合,而是重複資料的劃分。這樣做的原因是,即使在驗證資料集被固定時,模型也可以能被過度擬合。交叉驗證可以保持驗證資料集的隨機性,可以更好地檢測模型的過度擬合。

在這裡插入圖片描述

交叉驗證示意圖,圖中的黑色陰影部分表示驗證資料集,在整個訓練過程中進行隨機選擇。

根據訓練方法的不同,機器學習技術可分為三種類型:有監督的學習、無監督的學習、強化學習。

有監督學習與人類學習事物的過程非常相似。

  1. 選擇一道練習題,運用現有知識解決該問題,將自己的答案與解決方案相比較。
    
  2. 如果自己的答案是錯誤的,修正自己當前的知識。
    
  3. 對所有練習題重複第1步和第2步。
    

將此示例與機器學習過程進行類比,練習題和解決方案對應於訓練資料,而知識對應於模型。重要的是我們需要標準解決方案作為訓練的目標。

無監督學習通常用於研究資料的特徵和資料的預處理,無監督學習的代表性應用之一是聚類。無監督學習類似於一個學生,他僅僅通過構造和屬性來分類問題,而沒有學習如何解決這些問題,因為沒有已知的正確輸出。

強化學習採用輸入、輸出、評分等集合作為訓練資料,即{輸入,一些輸出,輸出評分}。強化學習通常在需要最佳互動時使用,例如控制和遊戲。

在這裡插入圖片描述

更多精彩文章請關注微訊號:在這裡插入圖片描述