1. 程式人生 > >學習筆記 | 機器學習-周志華 | 1

學習筆記 | 機器學習-周志華 | 1

第一章 緒論

機器學習所研究的主要內容,是關於在計算機上從資料中產生 模型(model) 的演算法,即 “學習演算法”(learning algorithm) .

基本術語

假定我們收集了一批關於西瓜的資料,例如(色澤=青綠;根蒂=蜷縮;敲聲=濁響), (色澤=烏黑;根蒂:稍蜷;敲聲=沉悶), (色澤=淺自;根蒂t硬挺;敲聲=清脆),……,每對括號內是一條記錄,“=”,意思是"取值為"。

  1. 一組記錄的集合稱為一個"資料集" (data set).

  2. 其中每條記錄是關於一個事件或物件(這裡是一個西瓜)的描述,稱為一個"示例" (instance) 或"樣本" (sample).

  3. “色澤”“根蒂” “敲聲”,稱為"屬性" (attribute) 或"特徵" (feature).

  4. 屬性上的取值,例如"青綠" “烏黑”,稱為")副主值" (attribute value).

  5. 屬性張成的空間稱為"屬性空間" (attribute space) 、 “樣本空間”(sample space)或"輸入空間"。如我們把"色澤" “根蒂” "敲聲"作為三個座標軸,則它們張成一個用於描述西瓜的三維空間,每個西瓜都可在這個空間中找到自己的座標位置。

  6. 空間中的每個點對應一個座標向量,因此我們也把一個示例稱為一個"特徵向量" (feature vector).

  7. 一般地,令 D = {x1,x2,x3,…,xm } 表示包含 m 個示例的資料集,每個示例由 d 個屬性描述(例如上面的西瓜資料使用了 3 個屬性),則每個示例Xi = (Xi1; Xi2; . . . ; Xid) 是 d 維樣本空間 X 中的一個向量 , Xi ∈ X , 其中 Xij 是xi在第 j 個屬性上的取值(例如上述第 3 個西瓜在第 2 個屬性上的值是"硬挺" ), d 稱為樣樣本xi的"維數" (dimensionality).

  8. 從資料中學得模型的過程稱為"學習" (learning)或"訓練" (training), 這個過程通過執行某個學習演算法來完成.

  9. 訓練過程中使用的資料稱為"訓練資料" (training data) ,其中每個樣本稱為一個"訓練樣本" (training sample), 訓練樣本組成的集合稱為"訓練集" (training set).

  10. 學得模型對應了關於資料的某種潛在的規律,因此亦稱"假設" (hypothesis).

  11. 這種潛在規律自身,則稱為"真相"或"真實" (ground-truth),學習過程就是為了找出或逼近真相.

  12. 本書有時將模型稱為"學習器" (learner),可看作學習演算法在給定資料和引數空間上的例項化.

  13. 建立關於"預測" (prediction) 的模型,我們需獲得訓練樣本的"結果"資訊,例如" ((色澤:青綠;根蒂二蜷縮;敲聲=濁響),好瓜)" .這裡關於示例結果的資訊,例如"好瓜",稱為"標
    記" (label); 擁有了標記資訊的示例,則稱為"樣例" (example).

  14. (xi , yi) 表示第 i 個樣例 , 其中x∈Y 是示例 Xi 的標記 , Y 是所有標記的集合,亦稱"標記空間" (label space)或"輸出空間.

  15. 若我們欲預測的是離散值,例如"好瓜" “壞瓜”,此類學習任務稱為"分類" (classification);

  16. 若欲預測的是連續值,例如西瓜成熟度 0.95 、 0.37 ,此類學習任務稱為"迴歸" (regression).

  17. 對只涉及兩個類別的"二分對只涉及兩個類別的"二分
    類" (binary classification)任務,通常稱其中一個類為 “正類” (positive class), 另一個類為"反類" (negative class); 涉及多個類別時,則稱為"多分類" (multi-class classification) 任務.

  18. 一般地,預測任務是希望通過對訓練集 {(x1, y1) , (x2 ,y2) ,…, (xm,ym)} 進行學習,建立一個從輸入空間 X 到輸出空間Y 的對映 f: X -> y. 對二分類任務,通常令 Y = {-1 ,+ 1} 或 {0, 1}; 對多分類任務, IYI >2; 對迴歸任務,Y=R,R為實數集.

  19. 學得模型後,使用其母行預測的過程稱為"測試" (testing),被預測的樣本稱為測試樣本" (testing sample). 例如在學得 f 後,對測試例 X , 可得到其預測標記 y = f(x).

  20. 還可以對西瓜做"聚類" (clustering) ,即將訓練集中的西瓜分成若干組,每組稱為一個"簇" (cluster); 這些自動形成的簇可能對應一些潛在的概念劃分,例如"淺色瓜" “深色瓜”. 在聚類學習中,“淺色瓜” "本地瓜"這樣的概念我們事先是不知道的,而且學習過程中使用的訓練樣本通常不擁有標記資訊.

  21. 根據訓練資料是否擁有標記資訊,學習任務可大致劃分為兩大類"監督學習"(supervised learning) 和"無監督學習" (unsupervised learning) ,分類和迴歸是前者的代表,而聚類則是後者的代表.

  22. 機器學習的目標是使學得的模型能很好地適用於"新樣本",
    而不是僅僅在訓練樣本上工作得很好。

  23. 即便對聚類這樣的無監督學習任務,我們也希望學得的簇劃分能適用於沒在訓練集中出現的樣本.

  24. 學得模型適用於新樣本的能力,稱為"泛化" (generalization)能力.具有強泛化能力的模型能很好地適用於整個樣本空間.

  25. 通常假設樣本空間中全體樣本服從一個未知"分佈"(distribution) D , 我們獲得的每個樣本都是獨立地從這個分佈上取樣獲得的,即"獨立同分布" (independent and identically distributed,簡稱 i.i.d.). 一般而言,訓練樣本越多,我們得到的關於 D 的資訊越多,這樣就越有可能通過學習獲得具有強泛化能力的模型.