1. 程式人生 > >ML筆記 - 機器學習方法三要素

ML筆記 - 機器學習方法三要素

機器學習方法通常都是由模型、策略和演算法三部分構成:方法 = 模型 + 策略 + 演算法
模型確定學習範圍,策略確定學習規則,演算法按規則在範圍內學習。

模型

輸入空間到輸出空間的對映關係,學習過程即為從假設空間搜尋適合當前資料的假設。
分析當前需要解決的問題,確定模型:

  • 分類(Classification):預測分類
  • 迴歸(Regression):預測取值
  • 聚類(Clustering):發現結構
  • 異常檢測(Anomaly Detection):發現異常資料

策略

從假設空間眾多的假設中選擇到最優的模型的學習標準或規則。
要從假設空間中選擇一個最合適的模型出來,需要解決以下問題:

  • 評估某個模型對單個訓練樣本的效果
  • 評估某個模型對訓練集的整體效果
  • 評估某個模型對包括訓練集、預測集在內的所有資料的整體效果
    定義幾個指標用來衡量上述問題:
  • 損失函式:0-1損失函式、平方損失函式、絕對損失函式、對數損失函式等
  • 風險函式:經驗風險、期望風險、結構風險
    基本策略:
  • 經驗風險最小(EMR: Empirical Risk Minimization)
  • 結構風險最小(SRM: Structural Risk Minimization)

損失函式(Loss Function)

用來衡量預測結果和真實結果之間的差距,其值越小,代表預測結果和真實結果越一致。
通常用一個非負實值函式。
通過各種方式縮小損失函式的過程被稱作優化。
損失函式記做L(Y, f(x)) 。
不同的損失函式有不同的特定,適用於不同的場景。

0-1損失函式(0-1 LF)
預測值和實際值精確相等則“沒有損失”為0,否則意味著“完全損失”為1。
預測值和實際值精確相等有些過於嚴格,可以採用兩者的差小於某個閾值的方式。
適用於理想狀況模型。

絕對值損失函式(Absolute LF)
預測結果與真實結果差的絕對值。
簡單易懂,但是計算不方便。

平方損失函式(Squared LF)
預測結果與真實結果差的平方。
每個樣本的誤差都是正的,累加不會被抵消。
平方對於大誤差的懲罰大於小誤差。
數學計算簡單友好,導數為一次函式。
適用於線性迴歸。

對數損失函式(Logarithmic LF)
對數函式具有單調性,在求最優化問題時,結果與原始目標一致。
可將乘法轉化為加法,簡化計算。
適用於邏輯迴歸、交叉熵。

指數損失函式(Exponential LF)
單調性、非負性的優良性質,使得越接近正確結果誤差越小。

折葉損失函式(Hinge LF)
也稱鉸鏈損失,對於判定邊界附近的點的懲罰力度較高,常見於SVM(支援向量機)。

風險函式(Risk Function)

又稱期望風險,所有資料集(包括訓練集和預測集,遵循聯合分佈)的損失函式的期望值。

經驗風險(Empirical Risk)
損失函式度量了單個樣本的預測結果,要想衡量整個訓練集的預測值和真實值的差異,將整個訓練集所有記錄均進行一次預測,求取損失函式,將所有值累加,即為經驗風險。
經驗風險越小說明模型對訓練集的擬合程度越好。
在資料樣本較小時,僅關注經驗風險,很容易導致過擬合。

經驗風險 vs 期望風險

  • 期望風險是模型對全域性(所有資料集)的效果,經驗風險是模型對區域性(訓練集)的 效果。
  • 期望風險往往無法計算,即聯合分佈P(X, Y)通常是未知的,經驗風險可以計算。
  • 當訓練集足夠大時,經驗風險可代替期望風險,即區域性最優代替全域性最優。

結構風險(Structural Risk)
在經驗風險的基礎上,增加一個正則化項(Regularizer)或者叫做懲罰項(Penalty Term)。
正則化項,即懲罰函式,該項對模型向量進行懲罰,從而避免過擬合問題。正則化方法會自動削弱不重要的特徵向量,自動從許多的特徵變數中“抽取”重要的特徵變數,減小特徵變數的數量級。
正則化函式有多種選擇,它一般是模型複雜度的單調遞增函式,模型越複雜,該函式的值就越大,懲罰力度相應的越大。
常用模型引數向量的範數,常用的有零範數、一範數、二範數、跡範數、Frobenius範數和核範數等。

結構風險 vs 經驗風險

  • 經驗風險越小,模型決策函式越複雜,其包含的引數越多。
  • 當經驗風險函式小到一定程度,就會出現過擬合現象。
  • 防止過擬合現象的方式,就要降低決策函式的複雜度,讓懲罰項最小化。
  • 需要同時保證經驗風險函式和模型決策函式的複雜度都達到最小化。
  • 把兩個式子融合成一個式子得到結構風險函式,然後把該結構風險函式進行最小化。

演算法

學習模型的具體的計算方法,通常是求解最優化問題。