1. 程式人生 > >【演算法原理】從模型假設看線性迴歸和邏輯迴歸

【演算法原理】從模型假設看線性迴歸和邏輯迴歸

摘要

本文從演算法的模型假設方面,對線性迴歸、邏輯迴歸和感知器做一下簡要對比,說明了它們之間的聯絡。

符號約定

1)樣本集合: (xi,yi)(1im),其中i表示一共m個樣本中的第i
2)xi=(x0i,x1i,x2i,,xni)(x0i=1),表示輸入向量,其中x0i=1是為了統一格式
3)yi為標量,代表第i個樣本對應的值(或分類問題中的label)
4)θ=(θ0,θ1,θ2,,θn),表示待求引數
5)

xθT=θ0+j=1nθjxj=0,表示n維空間中的一個超平面

問題描述

已知m個樣本(xi,yi)(1im),當x=x0,x0(x1,x2,,xm)時,我們想要估計出相對應的輸出y0。根據y0取值範圍的不同,問題分為兩種情況。
1)當y0可以取無限多的連續值時,該問題稱為迴歸問題
2)當y0只能取有限多的離散值時,該問題稱為分類問題
P.S. 好吧,第2中情況稱為分類,很好理解。可第1種情況,為啥叫回歸?有啥意義?其實,沒啥意義,完全可以忽略。但感興趣的可以繼續閱讀參考文獻[1]。

線性迴歸 Linear Regression

一、模型假設

y=hθ(x)=xθT(1)
即,我們假設輸入和輸出之間的關係,符合以上的模型。問題是,你為何要做這種假設呢?如果這個假設本身就是錯的怎麼辦呢?
因為通過對樣本集的觀察和分析,直觀上認為模型應該是這個樣子的。當然如果假設本身就是錯的,那麼無論如何都學習不到很好的結果。這個時候只能修正模型假設,重新再來。

二、目標函式

L=12mj=1m(xiθTyi)2(2)
顯然,目標函式的每一項,是模型預測結果與真實值直接的誤差的平方。因此,目標函式刻畫的是,某一個特定的模型(對應一個特定的
θ
),在樣本集上的整體表現。我們的目標是可以讓目標函式取到最小值。求解最小值的過程,就是求解θ的過程。等號後面的12m完全可以不加,因為