機器學習系列（二）——迴歸模型

阿新 • • 發佈：2019-01-02

迴歸（Regression）模型是指機器學習方法學到的函式的輸出是連續實數值，迴歸模型可以用於預測或者分類，這篇部落格中主要整理用於預測的線性迴歸模型和多項式迴歸模型。

線性迴歸

按照機器學習建模的三個步驟，首先需要確定選用的模型，這裡就是線性迴歸（Linear regression）模型，然後將其形式化表達：

h (x) = w_{1} x_{1} + w_{2} x_{2} + \dots + w_{n} x_{n} + b

其中， $x_{1}, x_{2}, \dots, x_{n}$ 是樣本資料的n維屬性描述，每一組 $w$ 和 $b$ 能確定一個不一樣的 $h (x)$ ， $w$ 和 $b$ 的所有取值組合就構成了可選函式集合，我們的任務就是要從這個函式集合中選出“最好”的那個函式。
對於訓練資料集D描述如下： $D = {(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(m)}, y^{(m)})}$

D = {(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(m)}, y^{(m)})}

，其中

x^{(i)} = (x_{1}^{(i)}; x_{2}^{(i)}; \dots; x_{n}^{(i)})

是樣本的n維特徵向量表示，

y^{(i)} \in R

是樣本標記。線性迴歸的目標是學得一個線性函式以儘可能準確的預測實值輸出標記。
因此我們需要確定一個衡量標準用以度量一個函式的好壞，也就是選擇合適的損失函式（Loss Function）。根據線性迴歸的目標，我們只需要度量

h (x)

與

y

之間的差距，均方誤差（Mean Square Error，MSE）是迴歸任務中最常用的損失函式。

L (h) = \sum_{i = 1}^{m} (y^{(i)} - h (x^{(i)}))^{2}

因為 $h$ 是關於 $w, b$ 的函式，所以上式也可以寫成

L (w, b) = \sum_{i = 1}^{m} (y^{(i)} - (w^{T} x^{(i)} + b))^{2}

能夠讓 $L$ 最小的 $w, b$ 所確定的函式就是我們要找的最好的那個函式，記為 $w^{*}, b^{*}$

\begin{array}{rcl} w^{*}, b^{*} & = & a r g min_{w, b} L (w, b) \\ = & a r g min_{w, b} \sum_{i = 1}^{m} (y^{(i)} - (w^{T} x^{(i)} + b))^{2} \end{array}

機器學習系列（二）——迴歸模型

線性迴歸

機器學習系列（二）——迴歸模型

機器學習系列（八）——Logistic迴歸解決二分類問題

機器學習筆記（二）線性迴歸實現

機器學習（西瓜書）學習筆記（二）---------線性模型

機器學習筆記（二）：線性模型

迴歸演算法（python code）----------機器學習系列（一）

機器學習基礎（二）——詞集模型（SOW）和詞袋模型（BOW）

機器學習系列（2）：logistic迴歸，貝葉斯（bayes）方法

斯坦福Andrew Ng---機器學習筆記（二）：Logistic Regression(邏輯迴歸)

機器學習系列（五）——訓練集、測試集、驗證集與模型選擇

機器學習實戰（二）LR演算法：實現簡單的分類模型

Unity3D之Mecanim動畫系統學習筆記（二）：模型導入

Mybatis學習系列（二）Mapper映射文件

eShopOnContainers學習系列（二）：數據庫連接健康檢查

機器學習實戰（二）決策樹DT（Decision Tree、ID3演算法）

Windows Service 學習系列（二）：C# windows服務：安裝、解除安裝、啟動和停止Windows Service

模式識別與機器學習筆記（二）機器學習的基礎理論

Log4net學習系列（二）——Log4net的例項

機器學習實踐（二）—sklearn之資料集

Udacity強化學習系列（二）—— 馬爾科夫決策過程（Markov Decision Processes）