1. 程式人生 > >【機器學習基礎】理解為什麼機器可以學習1——PAC學習模型

【機器學習基礎】理解為什麼機器可以學習1——PAC學習模型

引言

自從下定決心認真學習機器學習理論開始,接觸到很多基本問題,但其實都不是很理解,比如損失函式、風險函式、經驗結構最小化、結構風險最小化、學習方法的泛化能力、VC維等,這些概念在學習中都純屬空泛的概念存在,我都不理解這些概念存在的意義。
為什麼會存在這樣的問題呢?我自己想了一下,有幾個原因:首先,很多相關的書籍在講授這些概念的時候,很少說這些為什麼會有這樣的概念問題,為解決什麼問題引入的這些概念;然後,還有一些書,在簡單表述了這些概念之後就立馬挨個介紹演算法了,遇到這樣的書也會忽視這些基礎問題的存在;最後,當初學者在遇到這些概念的時候,看到很多公式和抽象的表達方式,很容易產生挫敗感,進而忽視了這些基礎。
但是,我覺得這些問題還是很重要的。為什麼這麼說呢?原因如下:
1、理解這些問題有助於理解為什麼機器可以學習,增強學習具體演算法的信心,有助於深入進去;
2、理解這些基本問題並掌握基本的分析方法有助於分析具體學習演算法的泛化能力;

舉例


如圖所示,輸入為x,是一個三維資料,且元素都為布林值,如果以D來做訓練資料,那麼要預測未知的情況,那請問當x為101,110,111的時候,預測輸出y是什麼呢?
我們看到圖表中,會有8中不同的假設(hypothesis),所以我們無論預測是哪種輸出,都有可能讓我們的預測是完全錯誤的。這是不是就說明這種條件下,學習器是不可學習的呢?現在我們就從這個角度出發,看看如何訓練我們的學習器,才能讓學習器真正學到有用的知識,進而來產生有效的預測。

可能近似正確(probably approximately correct,PAC)學習模型

問題框架

這裡我會簡要描述一下我們要處理的具體問題。

假定資料按照某概率分佈P從X中隨機產生,一般,D可為任意分佈,並且它對學習型演算法是未知的。對於P,所要求的是它的穩定性,即該分佈不會隨時間變化(不然我們就沒有學習的意義了)。訓練資料的由P分佈隨機抽取而產生x,然後x及其目標值(可以理解為y,標籤)被提供給學習器
學習器在學習目標函式時考慮可能假設的集合H。
在觀察了一系列訓練資料後,學習器需要從假設集合H中得到最終的假設g,這是對未知的符合D分佈的理想模型f的估計。
最後,我們通過精心挑選出來的假設g對X中新的資料的效能來評估訓練器。


錯誤率

為了描述學習器輸出的假設h對真實目標函式f的逼近程度,我們要定義兩種錯誤率:
1、真實錯誤率(true error),也可以說是out-of-sample error,即樣本之外,對於從任意分佈中抽取的所有資料而言。
h的真實錯誤率是應用h到未來按分佈P抽取的資料時的期望錯誤率


具體定義如下:


2、樣本錯誤率(sample error),也可以說是in-sample error,即針對所訓練的樣本資料的。
因為h關於f的錯誤率不能直接由學習器觀察到。學習器只能觀察到在訓練資料上h的效能如何,所以訓練器也只能在此效能基礎上選擇其假設輸出。我們用訓練錯誤率(training error)來指代訓練樣本中被h誤分類的資料所佔的比例,以區分真實錯誤率。
那麼,資料集合S的樣本錯誤率為資料集合S中被h誤分類的資料所佔的比例。訓練錯誤率就是當S為訓練資料集合時的樣本錯誤率。


PAC可學習性(PAC Learnability)

我們訓練學習器的目標是,能夠從合理數量的訓練資料中通過合理的計算量可靠的學習到知識。

機器學習的現實情況:
1、除非對每個可能的資料進行訓練,否則總會存在多個假設使得真實錯誤率不為0,即學習器無法保證和目標函式完全一致
2、訓練樣本是隨機選取的,訓練樣本總有一定的誤導性

為此,我們要弱化對學習器的要求:
1、我們不要求學習器輸出零錯誤率的假設,只要求錯誤率被限制在某常數ε範圍內,ε可為任意小。
2、不要求學習器對所有任意抽取的資料都能成功預測,只要求其失敗的概率被限定在某個常數μ的範圍內,μ可取任意小。
簡而言之,我們只要求學習器可能學習到一個近似正確的假設,故得到了“可能近似正確學習”或PAC學習。

一個可PAC學習的學習器要滿足兩個條件:

  • 學習器必須以任意高的概率輸出一個錯誤率任意低的假設
  • 學習過程的時間最多以多項式方式增長

對於PAC學習來說,訓練樣本的數量和學習所需的計算資源是密切相關的。如果學習器對每個訓練樣本需要某最小處理時間,那麼為了使目標函式f是可PAC學習的,學習器必須在多項式數量的訓練樣本中進行學習。實際上,為了顯示某輸出空間的類別C是可PAC學習的,一個典型的途徑是證明中每個C可以從多項式數量的訓練樣本中學習到,而後證明每個樣本處理時間也限制於多項式級。

參考資料

機器學習, Tom M.Mitchell ,機械工業出版社
機器學習基石課程,林軒田,臺灣大學

轉載請註明作者Jason Ding及其出處