1. 程式人生 > >《機器學習》西瓜書 第一章 緒論

《機器學習》西瓜書 第一章 緒論

機器學習緒論


基本術語

基礎

  • 模型:泛指從資料中學得的結果
  • 資料集 data set:一組記錄的集合
  • 示例 instance/樣本 sample:關於一個事件或物件的描述
  • 屬性 attribute/特徵 feature:反映事件或物件在某方面的表現或性質的事項
  • 屬性值 attribute value:屬性上的取值
  • 屬性空間 attribute space/樣本空間 sample space:屬性張成的空間即 \(n\) 個特徵描述出的 \(n\) 維空間
  • 特徵向量 feature vector:每個示例在空間中的座標向量
  • \(D={\{\vec{x_1},\vec{x_2},\cdots,\vec{x_m}\}}​\)
    :包含 m 個樣本的資料集
  • \(\vec{x_i}=(x_{i1};x_{i2};\cdots;x_{id})\)\(d\) 維樣本空間 \({\chi}\) 中的一個向量,\({\vec{x_i}}{\in}{\chi}\)
  • 輸入空間:一個樣本所有特徵的集合
  • \(x_{ij}\)\(\vec{x_i}\)在第 \(j\) 個屬性上的取值,後期可能會用 \(\vec{X}\) 展示
  • \(d\)\({\vec{x_i}}​\) 的“維數 dimensionlity”
  • 學習 learning/訓練 training:從資料中學得模型的過程
  • 訓練資料 training data:訓練過程中使用的資料
  • 訓練樣本 training sample:訓練中的每個樣本
  • 假設 hypothesis:學習模型對應了關於資料某種潛在的規律
  • 真相/真實 ground-truth:潛在規律自身
  • 學習器 learner:模型
  • 預測 prediction:獲得訓練樣本的“結果”資訊
  • 標記 label:樣本結果的資訊
  • 樣例 example:擁有標記資訊的樣本
  • \((x_i,y_i)​\):第 \(i​\) 個樣例,\(y_i\in{\vec{Y}}​\) 是示例 \(x_i​\) 的標記,\(\vec{Y}​\) 是所有標記的集合
  • 標記空間 label space/輸出空間:所有標記的集合

監督學習 supervised learning

  • 分類 classification:預測結果是離散值的學習任務

  • 迴歸 regression:預測結果是連續值的學習任務

  • 二分類 binary calssification:涉及兩個類別

  • 正類 positive class 和 反類 negative class:“二分類”中的兩個類別

  • 多分類 multi-class classification:涉及多個類別

  • 預測任務:對訓練集 \(\{(\vec{x_1},y1),(\vec{x_2},y_2),\cdots,(\vec{x_m},y_m)\}\) 進行學習,建立一個從輸入空間 \(\vec{X}\) 到 輸出空間 \(\vec{Y}\) 的對映 \(f:\vec{X}\rightarrow\vec{Y}\),通常令 \(\vec{Y}=\{-1,+1\}\)\(\{0,1\}\);對於多分類任務,\(|\vec{Y}|\gt2\);對迴歸任務,\(|\vec{Y}|=R\)\(R\) 為實數集

  • 測試 testing:對學得模型進行預測的過程

  • 測試樣本 testing sample:被預測的樣本,例如學得 \(f\) 後,對測試例 \(\vec{x}\) ,可得到其預測標記 \(y=f(x)\)


無監督學習 unsupervised learning

  • 聚類 clustering:將訓練集中的西瓜分成若干組
  • 簇 cluster:“聚類”中的每一組。每一簇都可能對應一些潛在的概念劃分並且這些概念我們事先是不知道的

進階

  • 泛化 generalization:學得模型適用於新樣本的能力
  • 分佈 distribution \({{D}}\) :通常假設樣本空間中全體服從一個未知“分佈”
  • 獨立同分布 independent and identically distributed \(i.i.d.\):每個樣本都是獨立地從這個分佈上取樣獲得的

假設空間

  • 科學推理的兩大基本手段:歸納 induction 與 演繹 deduction
  • 歸納:從特殊到一般的“泛化 generalization”過程,即從具體的事實歸結出一般性規律
  • 演繹:從一般到特殊的“特化 specialization”過程,即從基礎原理推演出具體狀況
  • 歸納學習 inductive learning:從樣例中學習
  • 廣義歸納學習:相當於從樣例中學習
  • 狹義歸納學習:從訓練資料中學得概念,因此也稱為“概念學習”或“概念形成”
  • 布林概念學習:對“是”“不是”這樣的可表示為0/1布林值的目標概念的學習
  • 學習過程:在所有假設組成的空間中進行搜尋的過程,搜尋目標是找到與訓練集“匹配 fit”的假設,
  • 假設空間:能將訓練集中的樣本判斷為正確的假設的集合
  • 版本空間 version space:一個與訓練集一致的“假設集合”

歸納偏好

“版本空間”中可能有多個假設對應訓練集中的某個樣本,但是多個假設可能有不同的輸出,那麼應該採用哪一個模型(或假設)呢?

  • 歸納偏好 inductive bias:演算法在學習過程中對某種型別假設的偏好
  • 如果沒有歸納偏好:學得模型預測時時而告訴我們它是好的,時而告訴我們它是不好的
  • 奧卡姆剃刀 Ocam’s razor:若有多個假設與觀察一致,則選最簡單的那個
  • “沒有免費的午餐”定理 No Free Lunch Theorem:無論學習演算法 \(a\) 多聰明、學習演算法 \(b\) 多笨拙,它們的期望效能都會相同。
  • NFL 定理前提:所有“問題”出現的機會相同、或所有問題同等重要
  • NFL 定理最重要的寓意:空泛的談“什麼學習演算法更好毫無意義”,因為若考慮所有潛在的問題,則學習演算法都一樣好
  • 噪聲:出現不應該出現的資料,例如相同的屬性得出不一樣的分類

機器學習研究的主要內容:在計算機中從資料中產生“模型 model”的演算法,即“學習演算法 learning algorithm”。

電腦科學研究“演算法”;機器學習研究“學習演算法”。

大多數時候演算法的歸納偏好是否與問題本身匹配,直接決定了演算法能否取得好的效能。