學習筆記 | 機器學習-周志華 | 2
1.3 假設空間
-
歸納 (induction)與演繹 (deduction)是科學推理的兩大基本手段。
-
歸納:從特殊到一般的"泛化" (generalization)過程,即從具體的事實歸結出一般性規律。
-
演繹:從一般到特殊的"特化" (specialization)過程,即從基礎原理推演出具體狀況。
-
例:
演繹:在數學公理系鏡中,基於一組公理和推理規則推匯出與之相洽的定理。
而"從樣例中學習"顯然是一個歸納的過程,因此亦稱"歸納學習" (inductive learning). -
歸納狹義:狹義的歸納學習 要求從訓練資料中學得概念 (concept) ,因此亦稱為"概念學習"或"概念形成"。
-
廣義的歸納學習大體相當於從樣例中學習。
-
概念學習目前研究、應用都比較少,因為要學得泛化效能好且語義明確的概念很難。現實中常用技術大多產生“黑箱”模型。
-
概念學習中最基本的是布林概念學習,即對"是" "不是"這樣的可表示為 0/1 布林值的目標概念的學習。
-
布林表示式寫出來則是"好瓜 ↔(色澤=?) ^ (根蒂 = ?) ^ (敲聲 = ?)",?表示尚未確定的取值,我們的任務就是通過對錶1.1的訓練集進行學習把"?"確定下來。
-
可以把學習過程看作一個在所有假設(hypothesis)組成的空間中進行搜尋的過程,搜尋目標是找到與訓練集"匹配"(fit) 的假設.
-
萬用字元:好瓜 ↔(色澤=*) ^ (根蒂 = ?) ^ (敲聲 = ?)
-
∮表示不存在“好瓜 ”
-
搜尋策略:自頂向下、從一般到特殊、自底向上、從特殊到一半。
-
搜尋過程中可以不斷刪除與正例不一致的假設、和(或)與反例一致的假設.最終將會獲得與訓練集一致(即對所有訓練樣本能夠進行正確判斷)的假設,這就是我們學得的結果。
-
注意的是,現實問題中我們常面臨很大的假設空間?但學習過程是基於有限樣本訓練集進行的,因此,可能有多個假設與訓練集一致,即存在著一個與訓練集一致的"假設集合",我們稱之為"版本空間" (version space). 例如,在西瓜問題中,與表1. 1 訓練集所對應的版本空間如圖1.2 所示.