1. 程式人生 > >機器學習速成筆記(一): 主要術語

機器學習速成筆記(一): 主要術語

機器學習研究如何通過計算的方式,利用資料集來改善系統自身的效能。

而深度學習是屬於機器學習的一個子分支。

機器學習的通用的兩種型別:

  • 無監督學習:事先並沒有任務訓練資料的樣本,需要直接對資料進行建模型。
  • 監督學習:通過已經有的訓練樣本(即輸入資訊和對應的輸出)來訓練,得到一個最優的模型。然後利用這個模型將所有的資料樣本對映為相應的輸出結果,對輸出的結果進行判斷。那這個最優模型,也就有對從未見過的資料做出有用的預測。

標籤(label)

        標籤是我們要預測的事物,標籤可以是某個地方未來的房價,也可以是圖片中貓、狗或任何事物等。

特徵(feature)

        特徵是輸入變數。一些簡單機器學習專案,可能只需要單個特徵,而複雜的機器學習專案可能需要上百萬個特徵組合。

        在垃圾簡訊檢測例子,特徵可能包含:

  • 簡訊的來源
  • 簡訊中的一些特殊語句
  • 傳送簡訊的時間段

樣本

樣本是指資料的特定例項缶量,樣本分為兩類

  • 有標籤樣本
  • 無標籤樣本

有標籤樣本包含標籤和特徵

無標籤樣本包含特徵,但不包含標籤。

一般是使用標籤樣本訓練好模型後,使用該模型預測無標籤樣本的標籤。在垃圾簡訊中,無標籤樣本是使用者尚未新增標籤的簡訊。

模型

模型定義了特徵和標籤的關係,比如 簡單一元線性迴歸模型:  y = w * x + b:

其中:  

  • y 表示標籤
  • x 表示特徵值

例子:垃圾簡訊檢測模型可能將某個特徵與“垃圾簡訊” 相關聯。

模型生命週期:

  1. 訓練 ---> 建立、學習模型。喂有標籤樣本給模型,讓模型逐漸學會特徵和標籤的關係。
  2. 推斷 ---> 將訓練好的模型預測無標籤樣本。

迴歸和分類

迴歸模型可以對連續值做出有用的預測,例子: 可以預測出廣州的一棟房子的價格為多少?

分類模型可預測離散值。例子:可以預測這條簡訊是垃圾簡訊,還是非垃圾簡訊;也可以預測這張照片是貓,還是狗,還是老鼠?