1. 程式人生 > >吳恩達“機器學習”——學習筆記二

吳恩達“機器學習”——學習筆記二

最大似然 數據 learning 模型 ima 我們 回歸 eps 而是

定義一些名詞

欠擬合(underfitting):數據中的某些成分未被捕獲到,比如擬合結果是二次函數,結果才只擬合出了一次函數。

過擬合(overfitting):使用過量的特征集合,使模型過於復雜。

參數學習算法(parametric learning algorithms):用固定的參數進行數據的擬合。比如線性回歸。

非參數學習算法(non-parametric learning algorithms):使用的參數隨著訓練樣本的增多而增多。

局部加權回歸(locally weighted regression)

一種非參數學習算法。

算法思想:尋找到theta,使得

技術分享圖片, 技術分享圖片最小,其中w(i)稱為權值,tau稱為波長參數。由公式可知,我們在進行局部加權回歸時,對離x較近的訓練樣本賦予了較大的權重,對離x遠的樣本賦予了較小的權重。可以這樣說,我們在對某一個x進行局部加權回歸時,只使用x周圍的數據。

對線性模型的概率解釋

解釋為何要在線性回歸中選擇最小二乘法

技術分享圖片,其中varepsilon為誤差項(error),假設該誤差項服從均值為0,方差為sigma的正態分布,且varepsilon是IID,即獨立同分布的。

技術分享圖片,將y用varepsilon換掉,則

技術分享圖片,則

技術分享圖片

定義似然函數為

技術分享圖片

求出最大似然估計即可

技術分享圖片

技術分享圖片最小,此處隱含sigma對我們的運算無影響。

所以最小二乘法的目的實際上是假設誤差項滿足高斯分布且獨立同分布的條件下使似然性最大化。

第一個分類算法

可以采用線性回歸解決分類問題,但是有時候結果是好的,有時候結果是糟糕的,一般不這樣做。

討論二元分類,即y只能取0和1。那麽我們的h,即預測值可以假定在0與1之間。所以可以選擇logistic(sigmoid)函數來表示我們的h。即

技術分享圖片

對分類算法模型的概率解釋

假設我們估計的是y=1的時候的概率,那麽

技術分享圖片

技術分享圖片我們可以將兩個式子寫在一塊

技術分享圖片

同樣進行最大似然估計

技術分享圖片

可以用梯度上升技術分享圖片

算法進行最大似然估計

技術分享圖片

那麽學習過程就變成了

技術分享圖片

這與在線性回歸中使成本函數J最小的學習過程一樣!!!

感知器算法(perceptron algorithm)

感知器算法不是使用logistics函數,而是使用以下函數

技術分享圖片

同樣可以得到相同的學習過程。

吳恩達“機器學習”——學習筆記二