1. 程式人生 > >AI - 深度學習入門十四章摘要 - 1

AI - 深度學習入門十四章摘要 - 1

使用 成了 方式 分享 logic 如何 vol 人類 簡單

原文鏈接:https://yq.aliyun.com/topic/111

01 - 一入侯門“深”似海,深度學習深幾許

什麽是“學習”?

“如果一個系統,能夠通過執行某個過程,就此改進了它的性能,那麽這個過程就是學習”。
學習的核心目的,就是改善性能。

什麽是機器學習?

定義1:
對於計算機系統而言,通過運用數據及某種特定的方法(比如統計的方法或推理的方法),來提升機器系統的性能,就是機器學習。
定義2:
對於某類任務(Task,簡稱T)和某項性能評價準則(Performance,簡稱P),如果一個計算機程序在T上,以P作為性能的度量,隨著很多經驗(Experience,簡稱E)不斷自我完善,那麽我們稱這個計算機程序在從經驗E中學習了。

學習問題的三個特征:

  • 任務的類型
  • 衡量任務性能提升的標準
  • 獲取經驗的來源

統計機器學習

統計機器學習的對象,其實就是數據。
對於計算機系統而言,所有的“經驗”都是以數據的形式存在的。
作為學習的對象,數據的類型是多樣的,可以是各種數字、文字、圖像、音頻、視頻,也可以是它們的各種組合。
統計機器學習,就是從數據出發,提取數據的特征,抽象出數據的模型,發現數據中的知識,最後又回到數據的分析與預測當中去。

傳統的機器學習方式

傳統的機器學習方式,通常是用人類的先驗知識,把原始數據預處理成各種特征(feature),然後對特征進行分類。
然而,這種分類的效果,高度取決於特征選取的好壞。
傳統的機器學習專家們,把大部分時間都花在如何尋找更加合適的特征上。

因此,傳統的機器學習,其實可以有個更合適的稱呼:特征工程(feature engineering)。
特征是由人找出來的,自然也就為人所能理解,性能好壞,機器學習專家們可以“冷暖自知”,靈活調整。

深度學習

深度學習在本質上屬於可統計不可推理的統計機器學習範疇。
很多時候呈現出來的就是一個黑箱(Black Box)系統,其性能很好,卻不知道為何而好,缺乏解釋性。
深度學習中的“end-to-end(端到端):輸入的是原始數據(始端),然後輸出的直接就是最終目標(末端),中間過程不可知。
深度學習的學習對象同樣是數據,但與傳統機器學習所不同的是,它需要大量的數據,也就是“大數據(Big Data)”。

深度學習的產生

階段1:特征表示學習(feature representation learning)

  • 神經網絡自己學習如何抓取數據的特征
  • 效果好,對數據的擬合也更加靈活好用
  • 代價:機器自己學習出來的特征存在於機器空間,完全超越了人類理解的範疇,成為了“黑盒”,人們只能依據經驗調試神經網絡的學習性能,不斷地嘗試性地進行大量重復的網絡參數調整

階段2:深度學習

  • 網絡進一步加深,出現了多層次的“表示學習”,學習的性能提升到另一個高度。
  • 這種多層次的“表示學習”,人們稱之為“Deep Learning(深度學習)”。

機器學習與深度學習的簡明對比

“機器學習”的核心要素,那就是通過對數據運用,依據統計或推理的方法,讓計算機系統的性能得到提升。
而深度學習,則是把由人工選取對象特征,變更為通過神經網絡自己選取特征,為了提升學習的性能,神經網絡的表示學習的層次較多(較深)。

02 - 人工“碳”索意猶盡,智能“矽”來未可知

深度學習的算法

深度學習是高度數據依賴型的算法,它的性能通常隨著數據量的增加而不斷增強,也就是說它的可擴展性(Scalability)顯著優於傳統的機器學習算法。
如果訓練數據比較少,深度學習的性能並不見得就比傳統機器學習好。
其潛在的原因在於,作為復雜系統代表的深度學習算法,只有數據量足夠多,才能通過訓練,在深度神經網絡中,“恰如其分”地將把蘊含於數據之中的復雜模式表征出來。
技術分享圖片

機器學習的兩層作用

  • (1)面向過去(對收集到的歷史數據,用作訓練),發現潛藏在數據之下的模式,
    描述性分析(Descriptive Analysis),主要使用了“歸納”。
    對歷史對象的歸納,可以讓人們獲得新洞察、新知識,
  • (2)面向未來,基於已經構建的模型,對於新輸入數據對象實施預測,
    預測性分析(Predictive Analysis),更側重於“演繹”。
    對新對象實施演繹和預測,可以使機器更加智能,或者說讓機器的某些性能得以提高。

二者相輔相成,均不可或缺。
技術分享圖片

機器學習的三步法

機器學習在本質就是尋找一個好用的函數,具體說來,機器學習要想做得好,需要走好三大步:

  • (1)如何找一系列函數來實現預期的功能,這是建模問題。
  • (2)如何找出一組合理的評價標準,來評估函數的好壞,這是評價問題。
  • (3) 如何快速找到性能最佳的函數,這是優化問題。

什麽是神經網絡?

“神經網絡,是一種由具有自適應性的簡單單元構成的廣泛並行互聯的網絡,它的組織結構能夠模擬生物神經系統對真實世界所作出的交互反應。”

人工智能領域的兩大主流門派

符號主義

  • 理念:知識是信息的一種表達形式,人工智能的核心任務,就是處理好知識表示、知識推理和知識運用。
  • 核心方法論:自頂向下設計規則,然後通過各種推理,逐步解決問題。

連接主義

  • 理念:人的思維就是某些神經元的組合,因此可以在網絡層次上模擬人的認知功能,用人腦的並行處理模式,來表征認知過程。
  • 核心方法論:試圖編寫一個通用模型,然後通過數據訓練,不斷改善模型中的參數,直到輸出的結果符合預期。
  • 這種受神經科學的啟發的網絡,被稱之人工神經網絡(Artificial Neural Network,簡稱ANN),演化升級後,就是深度學習。

通用近似定理(Universal Approximation Theorem)

只需一個包含足夠多神經元的隱藏層,多層前饋網絡能以任意精度逼近任意復雜度的連續函數。
換句話說,神經網絡可在理論上解決任何問題。

03 - 神經網絡不勝語, M-P模型似可尋

什麽是M-P神經元模型?

技術分享圖片
在這個模型中,神經元接收來自n個其它神經元傳遞過來的輸入信號。
這些信號的表達,通常通過神經元之間連接的權重(weight)大小來表示。
神經元將接收到的輸入值按照某種權重疊加起來,並將當前神經元的閾值進行比較。
然後通過“激活函數(activation function)”向外表達輸出(這在概念上就叫感知機)。

激活函數(activation functions)

在實際使用中,階躍函數具有不光滑、不連續等眾多不“友好”的特性。
為什麽說它“不友好”呢,這是因為在訓練網絡權重時,通常依賴對某個權重求偏導、尋極值,而不光滑、不連續等通常意味著該函數無法“連續可導”。
通常用Sigmoid函數來代替階躍函數。這個函數可以把較大變化範圍內輸入值(x)擠壓輸出在(0,1)範圍之內,故此這個函數又稱為“擠壓函數(Squashing function)”。
技術分享圖片

激活函數 (activation function)的定義:一種函數(例如 ReLU 或 S 型函數),用於對上一層的所有輸入求加權和,然後生成一個輸出值(通常為非線性值),並將其傳遞給下一層。

卷積函數(convolutional function)

通俗來講,所謂卷積,就是一個功能和另一個功能在時間的維度上的“疊加”作用。
假設:

  • 時間維度上的函數f
  • 操作函數g
  • 函數h
    如果,“h = f * g”,那麽卷積得到的函數h一般要比f和g都光滑。
    利用這一性質,對於任意的可積函數f,都可簡單地構造出一列逼近於f的光滑函數列,這種方法被稱之為函數的光滑化或正則化。
    在時間的維度上的“疊加作用”,如果函數是離散的,就用求累積和來刻畫。如果函數是連續的,就求積分來表達。

“M-P”感知機模型

簡單來說,感知機模型,就是一個由兩層神經元構成的網絡結構,輸入層接收外界的輸入,通過激活函數(閾值)變換,把信號傳送至輸出層。
因此也稱之為“閾值邏輯單元(threshold logic unit)”,正是這種簡單的邏輯單元,慢慢演進,越來越復雜,就構成了深度學習網絡。

04 - “機器學習”三重門,“中庸之道”趨若人

機器學習的三種主要形式:監督學習、非監督學習和半監督學習。它們之間核心區別在於是否(部分)使用了標簽數據。

監督學習(Supervised Learning)

監督學習基本上就是“分類(classification)”的代名詞。
從有標簽的訓練數據中學習,然後給定某個新數據,預測它的標簽(given data, predict labels)。這裏的標簽(label),其實就是某個事物的分類。
簡單來說,監督學習的工作,就是通過有標簽的數據訓練,獲得一個模型,然後通過構建的模型,給新數據添加上特定的標簽。
事實上,整個機器學習的目標,都是使學習得到的模型,能很好地適用於“新樣本”,而不是僅僅在訓練樣本上工作得很好。
通過訓練得到的模型,適用於新樣本的能力,稱之為“泛化(generalization)能力”。

非監督學習(Unsupervised Learning)

非監督學習,本質上,就是“聚類(cluster)”的近義詞
與監督學習相反的是,非監督學習所處的學習環境,都是非標簽的數據。
簡單來說,給定數據,從數據中學,能學到什麽,就看數據本身具備什麽特性了(given data, learn about that data)。
一旦歸納出“類”或“群”的特征,如果再要來一個新數據,就根據它距離哪個“類”或“群”較近,就“預測”它屬於哪個“類”或“群”,從而完成新數據的“分類”或“分群”功能。
這裏的“類”也好,“群”也罷,事先是不知道的。

半監督學習(Semi-supervised Learning):

這類學習方式,既用到了標簽數據,又用到了非標簽數據。
事實上,半監督學習就是以“已知之認知(標簽化的分類信息)”,擴大“未知之領域(通過聚類思想將未知事物歸類為已知事物)”。
但這裏隱含了一個基本假設——“聚類假設(cluster assumption)”,其核心要義就是:“相似的樣本,擁有相似的輸出”。

AI - 深度學習入門十四章摘要 - 1