機器學習中的迴歸(regression)與分類(classification)問題

阿新 • • 發佈：2019-01-21

分類模型和迴歸模型本質一樣，分類模型是將回歸模型的輸出離散化。

舉幾個例子:

1. Logistic Regression 和 Linear Regression：

Linear Regression：輸出一個標量 wx+b，這個值是連續值，所以可以用來處理迴歸問題。
Logistic Regression：把上面的 wx+b 通過 sigmoid函式對映到(0,1)上，並劃分一個閾值，大於閾值的分為一類，小於等於分為另一類，可以用來處理二分類問題。
更進一步：對於N分類問題，則是先得到N組w值不同的 wx+b，然後歸一化，比如用 softmax函式，最後變成N個類上的概率，可以處理多分類問題。

2. Support Vector Regression 和 Support Vector Machine:

SVR：輸出 wx+b，即某個樣本點到分類面的距離，是連續值，所以是迴歸模型。
SVM：把這個距離用 sign(·) 函式作用，距離為正(在超平面一側)的樣本點是一類，為負的是另一類，所以是分類模型。

3. 神經網路用於分類和迴歸:

用於迴歸：最後一層有m個神經元，每個神經元輸出一個標量，m個神經元的輸出可以看做向量 v，現全部連到一個神經元上，則這個神經元輸出wv+b，是一個連續值，可以處理迴歸問題，跟上面 Linear Regression 思想一樣。
用於N分類：現在這m個神經元最後連線到 N 個神經元，就有 N 組w值不同的 wv+b，同理可以歸一化（比如用 softmax ）變成
N個類上的概率。

拓展：上面的例子其實都是從 prediction 的角度舉例的，如果從training角度來看，分類模型和迴歸模型的目標函式不同，分類常見的是 log loss, hinge loss, 而回歸是 square loss。

1.迴歸問題的應用場景

迴歸問題通常是用來預測一個值，如預測房價、未來的天氣情況等等，例如一個產品的實際價格為500元，通過迴歸分析預測值為499元，我們認為這是一個比較好的迴歸分析。一個比較常見的迴歸演算法是線性迴歸演算法（LR）。另外，迴歸分析用在神經網路上，其最上層是不需要加上softmax函式的，而是直接對前一層累加即可。迴歸是對真實值的一種逼近預測。

2.分類問題的應用場景

分類問題是用於將事物打上一個標籤，通常結果為離散值。例如判斷一幅圖片上的動物是一隻貓還是一隻狗，分類通常是建立在迴歸之上，分類的最後一層通常要使用softmax函式進行判斷其所屬類別。分類並沒有逼近的概念，最終正確結果只有一個，錯誤的就是錯誤的，不會有相近的概念。最常見的分類方法是邏輯迴歸，或者叫邏輯分類。

3.如何選擇模型

下面一幅圖可以告訴實際應用中我們如何選擇合適的模型。
這裡寫圖片描述

機器學習中的迴歸(regression)與分類(classification)問題

機器學習中的迴歸(regression)與分類(classification)問題

李巨集毅機器學習課程--迴歸(Regression)

理解機器學習中的偏差與方差

機器學習入門 Linear Regression與Normal Equation

機器學習中擬合與過擬合

機器學習中Logistic Regression的個人理解

從重取樣到資料合成：如何處理機器學習中的不平衡分類問題？

機器學習中的LR 與 SVM 相同和不同

機器學習實戰（八）分類迴歸樹CART（Classification And Regression Tree）

區分識別機器學習中的分類與迴歸

機器學習中分類與迴歸的解決與區別

機器學習中分類與迴歸問題的區別與聯絡

機器學習筆記04：邏輯迴歸(Logistic regression)、分類(Classification)

先驗概率、後驗概率、似然函式與機器學習中概率模型（如邏輯迴歸）的關係理解

機器學習 | 詳解GBDT在分類場景中的應用原理與公式推導

李巨集毅機器學習課程筆記-4.1分類簡介及其與迴歸的區別

機器學習中的範數規則化之（一）L0、L1與L2範數

機器學習中各分類算法的優缺點比較

機器學習中的範數規則化之L0、L1與L2範數

先驗概率、後驗概率、似然函數與機器學習中概率模型（如邏輯回歸）的關系理解

機器學習中的迴歸(regression)與分類(classification)問題

相關推薦