1. 程式人生 > >周志華機器學習讀後總結 第12、13章

周志華機器學習讀後總結 第12、13章

計算學習理論

什麼是計算學習理論

計算學習理論是關於機器學習的理論基礎,其目的是分析學習任務的困難本質,為學習演算法提供理論保證,並根據分析結果指導演算法設計。泛化誤差和經驗誤差是計算學習理論的兩個重要概念,現實中我們常用經驗誤差作為泛化誤差的近擬。

PAC學習

PAC學習即概率近似正確學習理論,給定訓練集,我們希望基於學習演算法學得的模型所對應的假設儘可能接近目標概念。

PAC辨識:對於某種學習演算法,如果能以一個置信度學得假設滿足泛化誤差的預設上限,則稱該演算法能從假設空間中PAC辨識概念類,即該演算法的輸出假設已經十分地逼近目標概念。

PAC可學習:當樣本超過一定數量時,學習演算法總是能PAC辨識概念類,則稱概念類為PAC可學習的。

   PAC學習演算法:若學習演算法的執行時間為多項式時間,則稱其為PAC學習演算法。

有限假設空間

可分情形:可分情形指的是:目標概念包含在演算法的假設空間中;研究問題是需要多大規模的資料集D才能讓學習演算法以置信度的概率從這些經驗誤差都為0的假設中找到目標概念的有效近似。對於可分情形的有限假設空間,目標概念都是PAC可學習的,即當樣本數量滿足一定條件之後,在與訓練集一致的假設中總是可以在1-σ概率下找到目標概念的有效近似。

不可分情形:不可分情形指的是:目標概念不存在於假設空間中,這時我們就不能像可分情形時那樣從假設空間中尋找目標概念的近似。但當假設空間給定時,必然存在一個假設的泛化誤差最小,若能找出此假設的有效近似也不失為一個好的目標,這便是不可知學習的來源。

VC維

現實中的學習任務通常都是無限假設空間,欲對此種情形進行可學習研究,需要度量假設空間的複雜度,這便是VC維。VC維的幾個概念:整長函式、對分和打散。

任何VC維有限的假設空間都是(不可知)PAC可學習的,換而言之:若假設空間的最小泛化誤差為0即目標概念包含在假設空間中,則是PAC可學習,若最小泛化誤差不為0,則稱為不可知PAC可學習。

Rademacher複雜度和穩定性

Rademacher複雜度是一種刻畫假設空間複雜度的途徑,與VC維不同的是,它在一定程度上考慮了資料分佈。我們從Rademacher複雜度和增長函式能推匯出基於VC維的泛化誤差界。

穩定性考察的是當演算法的輸入發生變化時,輸出是否會隨之發生較大的變化。若學習演算法是ERM且穩定的,則假設空間可學習。

半監督學習

什麼是半監督學習

讓學習器不依賴外界互動、自動地利用未標記樣本來提升學習效能,這就是半監督學習;要利用未標記樣本,必須要做一些將未標記樣本所揭示的資料分佈資訊與類別標記相連繫的假設。最常見的是聚類假設和流形假設。

半監督學習可進一步劃分為純半監督學習和直推學習:純半監督學習是基於開放世界假設,希望學得模型能適用於訓練過程中未觀察到的資料;而直推學習是基於封閉世界假設,僅試圖對學習過程中觀察到的未標記資料進行預測。

生成式方法

生成式方法是直接基於生成式模型的方法,此類方法假設所有資料(無論是否有標記)都是由同一個潛在的模型生成的。未標記資料的標記可看做模型的缺失引數,通常可基於EM演算法進行極大似然估計求解。

半監督SVM

半監督支援向量機(S3VM)是支援向量機在半監督學習上的推廣;在不考慮未標記樣本時,支援向量機試圖找到最大間隔劃分超平面,而在考慮未標記樣本後,S3VM試圖找到能將兩類有標記樣本分開,且穿過資料低密度區域的劃分超平面。用TSVM演算法來計算未標記樣本的標記。

圖半監督學習

給定一個數據集,我們可以將資料集對映為一個圖,資料集中每個樣本對應於圖中一個結點,若兩個樣本之間的相似度很高(或相關性很強),則對應的結點之間存在一條邊,邊的強度正比於樣本之間的相似度(或相關性)。我們可以將有標記樣本所對應的結點想象為染過色,而未標記樣本所對應的結點尚未染色。於是,半監督學習就對應於“顏色”在圖上的擴散或傳播的過程。由於一個圖對應了一個矩陣,這就使得我們能基於矩陣運算來進行半監督學習演算法的推導與分析。在此用迭代式標記傳播方法來求出未標記樣本的標記。

基於分歧的方法

基於分歧的方法通過多個學習器之間的分歧或多樣性來利用未標記樣本資料,協同訓練就是其中的一種經典方法。協同訓練最初是針對於多檢視)資料而設計的,多檢視資料指的是樣本物件具有多個屬性集,每個屬性集則對應一個試圖。兩個關於檢視的重要性質:相容性:即使用單個檢視資料訓練出的學習器的輸出空間是一致的。例如都是{好,壞}、{+1,-1}等。互補性:即不同檢視所提供的資訊是互補/相輔相成的,實質上這裡體現的就是整合學習的思想。為了使用此類方法,需能生成具有顯著分歧、效能尚可的多個學習器。

半監督聚類

半監督聚類則是藉助已有的監督資訊來輔助聚類的過程。一般而言,監督資訊大致有兩種型別:必連與勿連約束(約束K均值演算法):必連指的是兩個樣本必須在同一個類簇,勿連則是必不在同一個類簇。標記資訊(約束種子K均值)演算法:少量的樣本帶有真實的標記。