1. 程式人生 > >機器學習系列(二)——迴歸模型

機器學習系列(二)——迴歸模型

迴歸(Regression)模型是指機器學習方法學到的函式的輸出是連續實數值,迴歸模型可以用於預測或者分類,這篇部落格中主要整理用於預測的線性迴歸模型和多項式迴歸模型。

線性迴歸

按照機器學習建模的三個步驟,首先需要確定選用的模型,這裡就是線性迴歸(Linear regression)模型,然後將其形式化表達:

h(x)=w1x1+w2x2++wnxn+b

其中,x1,x2,,xn是樣本資料的n維屬性描述,每一組wb能確定一個不一樣的h(x)wb的所有取值組合就構成了可選函式集合,我們的任務就是要從這個函式集合中選出“最好”的那個函式。
對於訓練資料集D描述如下:

D={(x(1),y(1)),(x(2),y(2)),,(x(m),y(m))},其中x(i)=(x1(i);x2(i);;xn(i))是樣本的n維特徵向量表示,y(i)R是樣本標記。線性迴歸的目標是學得一個線性函式以儘可能準確的預測實值輸出標記。
因此我們需要確定一個衡量標準用以度量一個函式的好壞,也就是選擇合適的損失函式(Loss Function)。根據線性迴歸的目標,我們只需要度量h(x)y之間的差距,均方誤差(Mean Square Error,MSE)是迴歸任務中最常用的損失函式。

L(h)=i=1m(y(i)h(x(i)))2

因為h是關於w,b的函式,所以上式也可以寫成

L(w,b)=i=1m(y(i)(wTx(i)+b))2

能夠讓L最小的w,b所確定的函式就是我們要找的最好的那個函式,記為w,b