1. 程式人生 > >Coursera機器學習基石筆記week3

Coursera機器學習基石筆記week3

Types of Learning

Learning with Different Output Space Y

機器學習按照輸出空間劃分的話,包括二元分類、多元分類、迴歸、結構化學習等不同的型別。其中二元分類和迴歸是最基礎、最核心的兩個型別。

Learning with Different Data Label

如果我們拿到的訓練樣本D既有輸入特徵x,也有輸出yn,那麼我們把這種型別的學習稱為監督式學習(Supervised Learning)。監督式學習可以是二元分類、多元分類或者是迴歸,最重要的是知道輸出標籤yn。

與監督式學習相對立的另一種型別是非監督式學習

(Unsupervised learning)。非監督式學習是沒有輸出標籤yn的,典型的非監督式學習包括:聚類(clustering)問題,比如對網頁上新聞的自動分類;密度估計,比如交通路況分析;異常檢測,比如使用者網路流量監測。

介於監督式和非監督式學習之間的叫做半監督式學習(Semi-supervised Learning)。顧名思義,半監督式學習就是說一部分資料有輸出標籤yn,而另一部分資料沒有輸出標籤yn。在實際應用中,半監督式學習有時候是必須的,比如醫藥公司對某些藥物進行檢測,考慮到成本和實驗人群限制等問題,只有一部分資料有輸出標籤yn。

除此之外,還有一種非常重要的型別:增強學習

(Reinforcement Learning)。增強學習中,我們給模型或系統一些輸入,但是給不了我們希望的真實的輸出y,根據模型的輸出反饋,如果反饋結果良好,更接近真實輸出,就給其正向激勵,如果反饋結果不好,偏離真實輸出,就給其反向激勵。不斷通過“反饋-修正”這種形式,一步一步讓模型學習的更好,這就是增強學習的核心所在。

Learning with Different Protocol

batch learning是一種常見的型別。batch learning獲得的訓練資料D是一批的,即一次性拿到整個D,對其進行學習建模,得到我們最終的機器學習模型。batch learning在實際應用中最為廣泛。

online是一種線上學習模型,資料是實時更新的,根據資料一個個進來,同步更新我們的演算法。比如線上郵件過濾系統,根據一封一封郵件的內容,根據當前演算法判斷是否為垃圾郵件,再根據使用者反饋,及時更新當前演算法。這是一個動態的過程。之前我們介紹的PLA和增強學習都可以使用online模型。

active learning是近些年來新出現的一種機器學習型別,即讓機器具備主動問問題的能力,例如手寫數字識別,機器自己生成一個數字或者對它不確定的手寫字主動提問。active learning優勢之一是在獲取樣本label比較困難的時候,可以節約時間和成本,只對一些重要的label提出需求。

Learning with Different Input Space

這部分,我們將談談輸入X有哪些型別。

輸入X的第一種型別就是concrete features。比如說硬幣分類問題中硬幣的尺寸、重量等;比如疾病診斷中的病人資訊等具體特徵。concrete features對機器學習來說最容易理解和使用。

第二種型別是raw features。比如說手寫數字識別中每個數字所在圖片的mxn維畫素值;比如語音訊號的頻譜等。raw features一般比較抽象,經常需要人或者機器來轉換為其對應的concrete features,這個轉換的過程就是Feature Transform。

第三種類型是abstract features。比如某購物網站做購買預測時,提供給參賽者的是抽象加密過的資料編號或者ID,這些特徵X完全是抽象的,沒有實際的物理含義。所以對於機器學習來說是比較困難的,需要對特徵進行更多的轉換和提取。

簡單總結一下,根據輸入X型別不同,可以分為concetet, raw, abstract。將一些抽象的特徵轉換為具體的特徵,是機器學習過程中非常重要的一個環節。在《機器學習技法》課程中,會再詳細介紹。

總結

在這裡插入圖片描述