1. 程式人生 > >機器學習1-基礎知識

機器學習1-基礎知識

機器學習1-基礎知識

小書匠  演算法工程師  機器學習 

《機器學習》第2章-模型評估與選擇
《統計學習方法》第1章-統計學習方法概論


1. 機器學習三要素

方法=模型+策略+演算法

  • 模型:要學習的條件概率分佈或者決策函式
  • 策略:按照什麼樣的準則學習或者選擇最佳模型
    • 經驗風險最小化:
    • 結構風險最小化:即正則化(regularization),在經驗風險的基礎上增加表示模型複雜度的正則化項
  • 演算法:模型的具體計算方法,一般指最優化方法

2. 模型評估

  • 簡單交叉驗證:隨機地將資料集分為兩個部分,一部分作為訓練集,另一部分作為測試集
    • 訓練/測試集的劃分要儘可能地保持資料分佈的一致性
  • 交叉驗證法cross validation:(1)將資料集劃分為k個大小相等的互斥子集,

    (2)每次使用k -1個子集的資料訓練模型,剩下的一個子集用於測試模型。從而可以進行k 次訓練和測試;(3)選出k 次測試中平均測試誤差最小的模型
    • 留一法:
  • bootstrapping法:給定包含m個樣本的資料集D,每次隨機從D中有放回地抽樣出一個樣本,重複執行m次,生成新的資料集S。

    即通過bootstrap sampling方法,原資料集D中仍然越有1/3的樣本沒有出現在資料集S中。沒有出現的資料樣本D-S可以作為測試集用於測試,這樣的測試結果成為包外估計out-of-bag estimation

3. 效能度量

  • 錯誤率與精度:
    • 錯誤率:分類錯誤的樣本數佔樣本總數的比例
    • 精度:分類正確的樣本數佔樣本總數的比例
  • 查準率、查全率:
    * 二分類問題的TP/FP/TN/FN
    enter description here
    • 查準率P:所有被判斷有病的樣本中真正有病的概率
    • 查全率R:所有被判斷有病的的樣本佔真正有病的樣本的比率
    • F1值:查準率和查全率的調和平均值
    • 查準率和查全率相互矛盾。對於一個測試樣本,通過設定不同的閾值,則分類器對樣本的預測結果大於該閾值則判為正例,小於該閾值則判為負例,每個閾值對應一個(查全率,查準率)資料點。所有閾值的對應點就組成了P-R曲線
      • 如果一個學習器的P-R曲線被另一個學習器完全包住,則可斷言後者的效能優於前者
        enter description here
  • ROC和AUC:
    • ROC曲線:
      • 縱軸為“真正例率”(true positive rate, TPR),即查全率
      • 橫軸為“假正例率(false positive rate, FPR),即所有沒病的樣本中被錯判為有病的概率

        enter description here
    • AUC(area under ROC curve):ROC曲線下的面積,AUC值越大,則學習器效能越好
    • 和P-R曲線相比,ROC曲線更具有魯棒性,不容易受到樣本變化的影響
      enter description here

4. 偏差bias與方差variance

  • 緣由:演算法在不同訓練集上學得的結果有可能不同,即便這些訓練集來自於同一個分佈
  • 假設:對某個測試樣本,令在資料集中的標記,的真實標記,某個訓練集上學到的模型上的預測輸出。以迴歸任務為例:
    • 學習演算法在不同資料集上的期望預測為

    • 使用樣本數相同的不同訓練集產生的預測結果的方差為

    • 噪聲為


      假定噪聲期望為0,即

    • 偏差(bias)為期望輸出與真實標記的差別,即


      注意:偏差是一個不隨測試集D變化的常數

  • 對演算法的期望泛化誤差進行分解:






    於是,返回誤差可以理解為方差、偏差與噪聲之和
    • 偏差:學習演算法的期望誤差與真實結果的偏離程度,刻畫了學習演算法本身的擬合能力
    • 方差:同樣大小的訓練集的變動所導致的學習效能的變化,刻畫了資料擾動所造成的影響
    • 噪聲:在當前任務下任何學習演算法所能達到的期望泛化誤差的下限,刻畫了學習問題本身的難度。表徵了資料集的質量(食材的好壞)
      enter description here
      enter description here
  • 偏差-方差權衡:
    • 欠擬合時,偏差主導了泛化誤差率,訓練資料的擾動不足以使學習器發生顯著變化
    • 過擬合時,方差主導了泛化誤差率,學習器的擬合能力非常強,訓練資料發生的輕微擾動都導致學習器發生顯著變化