機器學習速成筆記(一): 主要術語
阿新 • • 發佈:2018-11-25
機器學習研究如何通過計算的方式,利用資料集來改善系統自身的效能。
而深度學習是屬於機器學習的一個子分支。
機器學習的通用的兩種型別:
- 無監督學習:事先並沒有任務訓練資料的樣本,需要直接對資料進行建模型。
- 監督學習:通過已經有的訓練樣本(即輸入資訊和對應的輸出)來訓練,得到一個最優的模型。然後利用這個模型將所有的資料樣本對映為相應的輸出結果,對輸出的結果進行判斷。那這個最優模型,也就有對從未見過的資料做出有用的預測。
標籤(label)
標籤是我們要預測的事物,標籤可以是某個地方未來的房價,也可以是圖片中貓、狗或任何事物等。
特徵(feature)
特徵是輸入變數。一些簡單機器學習專案,可能只需要單個特徵,而複雜的機器學習專案可能需要上百萬個特徵組合。
在垃圾簡訊檢測例子,特徵可能包含:
- 簡訊的來源
- 簡訊中的一些特殊語句
- 傳送簡訊的時間段
樣本
樣本是指資料的特定例項缶量,樣本分為兩類
- 有標籤樣本
- 無標籤樣本
有標籤樣本包含標籤和特徵
無標籤樣本包含特徵,但不包含標籤。
一般是使用標籤樣本訓練好模型後,使用該模型預測無標籤樣本的標籤。在垃圾簡訊中,無標籤樣本是使用者尚未新增標籤的簡訊。
模型
模型定義了特徵和標籤的關係,比如 簡單一元線性迴歸模型: y = w * x + b:
其中:
- y 表示標籤
- x 表示特徵值
例子:垃圾簡訊檢測模型可能將某個特徵與“垃圾簡訊” 相關聯。
模型生命週期:
- 訓練 ---> 建立、學習模型。喂有標籤樣本給模型,讓模型逐漸學會特徵和標籤的關係。
- 推斷 ---> 將訓練好的模型預測無標籤樣本。
迴歸和分類
迴歸模型可以對連續值做出有用的預測,例子: 可以預測出廣州的一棟房子的價格為多少?
分類模型可預測離散值。例子:可以預測這條簡訊是垃圾簡訊,還是非垃圾簡訊;也可以預測這張照片是貓,還是狗,還是老鼠?