1. 程式人生 > >003 機器學習中的基礎知識

003 機器學習中的基礎知識

com 風險 整體 說明 bubuko 大綱 平臺 pac 映射

  有些知識還是記錄下來比較容易復習。

  懂原理, 會使用平臺,使用語言實現常見算法。

1.大綱

  機器學習的基本概念

  機器學習的實質

  機器學習方法的三要素

  經驗風險與結構風險

  常見損失函數

一:基本概念

1.機器學習的方法流程

  用監督學習為例

  技術分享圖片

  首先,有一個輸入數據,然後根據這個輸入數據做一些特征的加工和整理,基於特征進行模型的訓練,去建模,然後做模型評估,得到一個可以接受的模型,然後對模型就行部署,使用模型對業務進行應用。

  定期更新模型,對模型生命周期進行維護。

2.輸入空間與輸出空間

  輸入空間(input space):將輸入的所有可能取值的集合稱作輸入空間

  輸出空間(output space):將輸出的所有可能取值的集合作為輸出空間

  輸入空間與輸出空間可以是有限元素的集合,也可以是歐式空間

  輸出空間與輸出空間可以是連續值的集合,也可以是離散集合

  輸入空間與輸出空間可以是同一個空間

  通常,輸出空間比輸入空間小

3.特征空間

  特征:每個輸入實例的各個部分稱為原始特征,基於特征還可以擴展出衍生特征

  特征向量:多個特征組合的集合

  特征空間:將特征向量存在的空間稱為特征空間

  特征空間每一維都對應一個特性

  特征空間可以與輸入空間相同,也可以不同

  需要將實例從輸入空間映射到特征空間

  模型實際上是定義特征空間之上的

4.輸入空間與特征空間

  需要將實例從輸入空間映射到特征空間

  模型實際上是定義特征空間之上的

5.假設空間

  由輸入空間到輸出空間的映射的集合。

  監督學習的目的在於學習一個由輸入到輸出的映射,這一映射由模型來表示。學習的目的就是找到最好的這樣的模型。

  模型屬於輸入空間到輸出空間的映射集合,這個結合就是假設空間

  舉例:

  技術分享圖片

  技術分享圖片

二:機器學習方法的三要素

1.三要素

  方法=模型+策略+算法

  模型:輸入空間到輸出空間的映射關系,學習過程就是從假設空間中搜索適合當前數據的假設

  策略:從假設空間眾多 的假設中選擇最優模型的學習標準或者規則

  算法:學習模型的具體計算方法,通常所以求解最優化問題

  模型:確定學習範圍

  策略:確定學習規則

  算法:按照規則在範圍內學習

2.模型

  分析當前需要解決的問題,確定模型。

  技術分享圖片

3.策略

  從假設空間眾多假設中選擇到最優的模型的學習標準或者規則

  選擇時,需要解決以下的問題:

  評估對單個樣本的效果

  評估對訓練集的整體效果

  評估對包括訓練集預測集在內的所有數據的整體效果

  定義幾個指標來衡量:

  損失函數:0-1損失函數

  風險函數:經驗風險,期望風險,結構風險

  策略:

  經驗風險最小EMR

  結構風險最小SRM

4.損失函數

  用來衡量預測結果與真實結果之間的差距,值越小,越一致

  通常是一個非負實值函數

  通過各種方式縮小損失函數的過程被稱為優化,損失函數記做L(Y,f(x))

  

  常見:

  0-1損失函數:預測值與實際值相同是沒有損失為0,否是是完全損失,為1。過於嚴格,一般采用兩者的差小於某個閾值的方式。

  絕對值損失函數:預測結果與真實結果差的絕對值,簡單易懂,但是計算不方便

  平方損失函數:預測結果與真實結果差的平方。

    優勢:

      每個差值都是正的,累加不會被抵消

      平方對於大誤差的懲罰大於小誤差

      數據計算簡單,友好,導數為一次函數

  對數損失函數:對數函數具有單調性,在求最優化問題時,結果與原始目標一致,可以將乘法轉化為加法,簡化計算

  指數損失函數:單調性,非負性優良性質,使得越接近正確結果,誤差越小

  折葉損失函數:也叫鉸鏈損失,對於判定邊界附近的點的懲罰力度較高,常見於SVM。

  使用場景:

  0-1:理想狀況模型

  log:邏輯回歸,交叉熵

  squared:線性回歸

  exponential:AdaBoosting

  Hinge:SVM,soft margin

5.經驗風險與風險函數

  經驗風險:損失函數度量了單個樣本的預測結果,想要很亮整個訓練集的預測值與真實值的差異,將整個訓練集所有記錄均進行一次預測,求損失函數,將所有的值累加,即為經驗風險。

    經驗風險越小,說明模型對訓練集的擬合度越好。

    技術分享圖片

  風險函數:又要期望損失,期望風險。所有的數據集的損失函數的期望。

    技術分享圖片

  經驗風險與期望風險:

    期望風險是對全局的效果,經驗風險對局部的效果

    期望風險往往無法計算,經驗風險可以計算

    當訓練集足夠大時,經驗風險可以替代期望風險

6.經驗風險的的問題

  在樣本比較小時,僅關註經驗風險,容易導致過擬合

  

7.結構風險

  在經驗風險的基礎上,我們繼續解決。

  在經驗風險的基礎上,增加一個正則化項(Regularizer)或者為懲罰項(Penalty Term)。

  技術分享圖片

  

  結構風險與經驗風險:

  經驗風險越小,模型決策函數越復雜,包含的參數越多

  當經驗風險函數小到一定程度就出現過擬合

  防止過擬合的方式,就是降低決策函數的復雜度,讓懲罰項最小化

  需要同時保證經驗風險函數與模型決策函數的復雜度都達到最小化

  把兩個式子融合得到結構風險函數,然後對這個結構風險函數進行最小化

8.範數

  

    

  

  

  

3.

  

003 機器學習中的基礎知識