ML筆記 - 機器學習方法三要素

阿新 • • 發佈：2018-11-14

機器學習方法通常都是由模型、策略和演算法三部分構成：方法 = 模型 + 策略 + 演算法。
模型確定學習範圍，策略確定學習規則，演算法按規則在範圍內學習。

模型

輸入空間到輸出空間的對映關係，學習過程即為從假設空間搜尋適合當前資料的假設。
分析當前需要解決的問題，確定模型：

分類（Classification）：預測分類
迴歸（Regression）：預測取值
聚類（Clustering）：發現結構
異常檢測（Anomaly Detection）：發現異常資料

策略

從假設空間眾多的假設中選擇到最優的模型的學習標準或規則。
要從假設空間中選擇一個最合適的模型出來，需要解決以下問題：

評估某個模型對單個訓練樣本的效果
評估某個模型對訓練集的整體效果
評估某個模型對包括訓練集、預測集在內的所有資料的整體效果
定義幾個指標用來衡量上述問題：
損失函式：0-1損失函式、平方損失函式、絕對損失函式、對數損失函式等
風險函式：經驗風險、期望風險、結構風險
基本策略：
經驗風險最小（EMR: Empirical Risk Minimization）
結構風險最小（SRM: Structural Risk Minimization）

損失函式（Loss Function）

用來衡量預測結果和真實結果之間的差距，其值越小，代表預測結果和真實結果越一致。
通常用一個非負實值函式。
通過各種方式縮小損失函式的過程被稱作優化。
損失函式記做L(Y, f(x)) 。
不同的損失函式有不同的特定，適用於不同的場景。

0-1損失函式（0-1 LF）
預測值和實際值精確相等則“沒有損失”為0，否則意味著“完全損失”為1。
預測值和實際值精確相等有些過於嚴格，可以採用兩者的差小於某個閾值的方式。
適用於理想狀況模型。

絕對值損失函式（Absolute LF）
預測結果與真實結果差的絕對值。
簡單易懂，但是計算不方便。

平方損失函式（Squared LF）
預測結果與真實結果差的平方。
每個樣本的誤差都是正的，累加不會被抵消。
平方對於大誤差的懲罰大於小誤差。
數學計算簡單友好，導數為一次函式。
適用於線性迴歸。

對數損失函式（Logarithmic LF）
對數函式具有單調性，在求最優化問題時，結果與原始目標一致。
可將乘法轉化為加法，簡化計算。
適用於邏輯迴歸、交叉熵。

指數損失函式（Exponential LF）
單調性、非負性的優良性質，使得越接近正確結果誤差越小。

折葉損失函式（Hinge LF）
也稱鉸鏈損失，對於判定邊界附近的點的懲罰力度較高，常見於SVM（支援向量機）。

風險函式（Risk Function）

又稱期望風險，所有資料集（包括訓練集和預測集，遵循聯合分佈）的損失函式的期望值。

經驗風險（Empirical Risk）
損失函式度量了單個樣本的預測結果，要想衡量整個訓練集的預測值和真實值的差異，將整個訓練集所有記錄均進行一次預測，求取損失函式，將所有值累加，即為經驗風險。
經驗風險越小說明模型對訓練集的擬合程度越好。
在資料樣本較小時，僅關注經驗風險，很容易導致過擬合。

經驗風險 vs 期望風險

期望風險是模型對全域性（所有資料集）的效果，經驗風險是模型對區域性（訓練集）的效果。
期望風險往往無法計算，即聯合分佈P(X, Y)通常是未知的，經驗風險可以計算。
當訓練集足夠大時，經驗風險可代替期望風險，即區域性最優代替全域性最優。

結構風險（Structural Risk）
在經驗風險的基礎上，增加一個正則化項（Regularizer）或者叫做懲罰項（Penalty Term）。
正則化項，即懲罰函式，該項對模型向量進行懲罰，從而避免過擬合問題。正則化方法會自動削弱不重要的特徵向量，自動從許多的特徵變數中“抽取”重要的特徵變數，減小特徵變數的數量級。
正則化函式有多種選擇，它一般是模型複雜度的單調遞增函式，模型越複雜，該函式的值就越大，懲罰力度相應的越大。
常用模型引數向量的範數，常用的有零範數、一範數、二範數、跡範數、Frobenius範數和核範數等。

結構風險 vs 經驗風險

經驗風險越小，模型決策函式越複雜，其包含的引數越多。
當經驗風險函式小到一定程度，就會出現過擬合現象。
防止過擬合現象的方式，就要降低決策函式的複雜度，讓懲罰項最小化。
需要同時保證經驗風險函式和模型決策函式的複雜度都達到最小化。
把兩個式子融合成一個式子得到結構風險函式，然後把該結構風險函式進行最小化。

演算法

學習模型的具體的計算方法，通常是求解最優化問題。

ML筆記 - 機器學習方法三要素

模型

策略

損失函式（Loss Function）

風險函式（Risk Function）

演算法

ML筆記 - 機器學習方法三要素

ML筆記 - 機器學習基本概念

統計學習方法三要素

從基礎出發：統計學習方法三要素

【ML】統計學習方法筆記

機器學習 | 吳恩達機器學習第三週學習筆記

機器學習第三練：為慈善機構尋找捐助者

文本情感分析的基礎在於自然語言處理、情感詞典、機器學習方法等內容。以下是我總結的一些資源。

R語言進行機器學習方法及實例

機器學習實戰三（Naive Bayes）

[筆記]機器學習基石 01 The Learning Problem

[筆記]機器學習基石 02 Learning to Answer Yes-No

各種機器學習方法 / 學習範式匯總

機器學習（三）—線性回歸、邏輯回歸、Softmax回歸的區別

機器學習方法的本質是什麽？

不平衡數據下的機器學習方法簡介 imbalanced time series classification

機器學習（三）深度學習的經典論文、程式碼、部落格文章

OpenCV3 SVM ANN Adaboost KNN 隨機森林等機器學習方法對OCR分類

機器學習篇三

機器學習（三）混淆矩陣

ML筆記 - 機器學習方法三要素

模型

策略

損失函式（Loss Function）

風險函式（Risk Function）

演算法

相關推薦