1. 程式人生 > >周志華機器學習筆記(一)

周志華機器學習筆記(一)

新人一枚,既是機器學習的初學者,也是首次發部落格。謹以此記錄我的學習體會,做一些總結。望與大家共同學習、共同進步。文中若有內容錯誤或有措詞不嚴謹之處,望大家不吝指出。謝謝!

機器學習中的基本概念

基本術語

這裡寫圖片描述

根據上圖我們可以用一個三維空間來了解以下幾個基本術語。

屬性與屬性值:屬性反映事件或物件在某方面的表現或性質的事項,在此圖表示為軸x1,x2,x3。即表示某個物件有3個屬性。屬性值就表現為在軸x1,x2,x3上可能的取值。

屬性空間:由這三個屬性張成的三維空間稱為屬性空間,亦稱為樣本空間或輸入空間。

特徵向量:空間中的每個點對應一個座標向量,如圖中A、B、C點。一個示例(沒有標記資訊的樣本)也稱之為一個“特徵向量”。

訓練集:訓練過程中使用的資料稱為“訓練資料”,其中每個樣本稱為一個”訓練樣本”,訓練樣本組成的集合稱為“訓練集”。

測試樣本:學得模型後,使用其測試的過程稱之為“測試”,被預測的樣本稱為“樣本測試”。

假設空間

將學習的過程看作一個在所有假設組成的空間中進行搜尋的過程,搜尋的目標是找到能夠將訓練集判斷正確的假設。那麼什麼是假設空間呢?

假設空間的大小是由屬性值所確定的,即每個屬性的可能取值(包括為空)構成了整個假設空間。我們在假設空間中進行搜尋,最終搜尋到與訓練集一致的假設就是我們學習的結果。

版本空間:在假設空間中存在著一個或者多個假設與訓練集一致。這樣一個或多個假設構成的集合我們稱之為“版本空間”。