1. 程式人生 > >Machine Learning筆記整理 ------ (一)基本概念

Machine Learning筆記整理 ------ (一)基本概念

機器學習的定義:假設用P來評估計算機程式在某任務類T上的效能,若一個程式通過利用經驗E,使其在T中任務獲得了效能改善,我們則說關於任務類T和P,該程式對經驗E進行了學習(Mitchell, 1997)。

機器學習的研究內容:關於在計算機上從資料中產生模型的演算法,即學習演算法(learning algorithm)。

 

1.名詞定義

資料集 (Data set):資料的集合,其中每條資料都稱為一條樣本 (Sample)或示例 (Instance)。即:

         樣本 (Sample) = 示例 (Instance)

         屬性 (Attribute) = 特徵 (Feature)

         屬性空間 (Attribute space) = 樣本空間 (Sample space) = 輸入空間 (Input space)  

E.g. 如圖所示,若某資料集中的資料擁有三種屬性,則可以看作是三維空間內對應座標的點。而該座標張成的空間即為屬性空間。

即:資料集 D = {x1, x2, ......, xm}, 其中,樣本 x = {x11, x22, ......, x1d},d為該條資料的維數(屬性或特徵的個數),xij 則是第 i 條資料中第 j 條屬性或特徵的值。

學習 (Learning) / 訓練 (Training)

:從資料中學得模型的過程。

訓練資料 (Training data):訓練過程中使用的資料,其中的每個樣本稱為一個訓練樣本。

訓練集 (Training set):訓練樣本所組成的集合。

標記 (Label):關於樣本結果的資訊。

樣例 (Example):擁有標記的樣本/示例即樣例。即:

        示例 (Instance) / 樣本 (Sample) + 標記 (Label) = 樣例 (Example)

                               (xi, yi)

測試 (Testing):使用學得的模型進行預測的過程。

測試集 (Testing Set)

:測試樣本所組成的集合,應儘量與訓練集互斥。

泛化 (Generalization):學得的模型適用於新樣本的能力。

獨立同分布 (Independent and identically distributed, i.i.d):假設樣本空間中的全體樣本服從一個未知的分佈D,我們獲得的每個樣本都是獨立地從這個分佈上取樣獲得的,這也是統計機器學習演算法的基本依據。

奧卡姆剃刀 (Occam's razor):如果有多個假設與觀察一致,則選取最簡單的那個。

“沒有免費的午餐”定理(No Free Lunch Theorem, NFL):無論學習演算法 Σ多聰明,學習演算法Σb多笨拙,它們的期望效能是相同的。

 

2. 分類、迴歸

根據預測任務中預測的值型別的不同:

根據是否擁有標記 (Label):