Machine Learning（Stanford）| 斯坦福大學機器學習筆記--第二週（1.多元線性迴歸及多元線性迴歸的梯度下降）

阿新 • • 發佈：2019-02-01

一.Multivariate Linear regression(多元線性迴歸)

現在起將開始介紹一種新的更為有效的線性迴歸形式。這種形式適用於多個變數或者多特徵量的情況。在之前學習過的線性迴歸中，都是隻有一個單一的特徵量--房屋面積 x，如圖1-1所示，

圖1-1 我們希望用房屋面積這個特徵量來預測房子的價格。但是想象一下如果我們不僅有房屋面積作為預測房屋價格的特徵量，我們還知道臥室的數量，樓層的數量以及房子的使用年限，如圖1-2所示，

圖1-2 這樣就給了我們更多可以用來預測房屋價格的資訊了。接著我們先簡單介紹一下符號記法，一開始的時候就提到過我要用x1,x2，x3,x4來表示種情況下的四個特徵量，然後仍然用 y來表示我們所想要預測的輸出變數。除此之外，我們來看看更多的表示方式，如圖1-3

圖1-3 首先介紹的是特徵數量n，這裡用小寫n來表示特徵量的數目。因此在這個例子中，我們的n等於4（之前我們是用的“m”來表示樣本的數量，現在開始我們用n來表示特徵量的數目）。接著介紹的是第i個訓練樣本的輸入特徵值x⁽ⁱ⁾（這裡一定要看清是上標，不要搞混了）。舉個具體的例子來說x⁽²⁾就是表示第二個訓練樣本的特徵向量，如圖1-4中用紅色框圈起來的位置，

圖1-4 紅色框圈起來的這四個數字對應了我用來預測第二個房屋價格的四個特徵量，因此在這種記法中，這個上標2就是訓練集的一個索引，而不是x的2次方，這個2就對應著你所看到的表格中的第二行，即我的第二個訓練樣本，同時也是一個四維向量。事實上更普遍

地來說這是n維的向量。最後介紹的是第i個訓練樣本的第j個特徵量，用

來表示。舉個具體的例子來說：

，即對應著圖1-4中第二個訓練樣本的第三個數。
我們最初使用的假設函式只有一個唯一的特徵量，如圖1-5黑色字型，

圖1-5 但現在我們有了多個特徵量，我們就不能再使用這種簡單的表示方式了。取而代之的我們將把線性迴歸的假設改成圖1-5中藍色字型那樣。如果我們有n個特徵量，那麼我們要將所有的n個特徵量相加，而不僅僅是四個特徵量，如圖1-6所示。

圖1-6 接下來，要做的是簡化這個等式的表示方式，為了表示方便我要將x0的（看清楚這裡是下標）值設為1。具體而言，這意味著對於第i個樣本，都有一個

等於1。一開始的時候有n個特徵量，由於另外定義了額外的第0個特徵向量，並且它的取值總是1，所以我現在的特徵向量x是一個從0開始標記的n+1維的向量。同時，我也把我的引數θ也都

看做一個n+1維的向量。如圖1-7所示

圖1-7 正是向量的引入，這裡我們的假設函式可以換一種更加高效的方式來寫，如圖1-8，

圖1-8 這裡我把假設函式等式寫成 θ轉置乘以X，這其實就是向量內積。這就為我們提供了一個表示假設函式更加便利的形式，即用引數向量θ以及特徵向量X的內積。這樣的表示習慣就讓我們可以以這種緊湊的形式寫出假設。以上就是多特徵量情況下的假設形式，另一個名字就是多元線性迴歸。

二.Gradient Descent for Multiple Variables(多元線性迴歸的梯度下降)

在之前我們談到的線性迴歸的假設形式，是一種有多特徵或者是多變數的形式。在這部分我們將會談到如何找到滿足這一假設的引數θ，尤其是如何使用梯度下降法來解決多特徵的線性迴歸問題。

現假設有多元線性迴歸，並約定x0=1，該模型的引數是從θ0到θn，如圖2-1所示，

圖2-1

這裡不要認為這是n+1個單獨的引數，我們要把這n+1個θ引數想象成一個n+1維的向量θ。

我們一開始的代價函式如圖2-2黑色字型所示，

圖2-2

但同樣地我們不要把函式J想成是一個關於n+1個自變數的函式，而是看成帶有一個n+1維向量的函式。

-----------------------------------------------------------------------------

關於圖2-2的這個公式要深入理解下，見圖2-3的練習

圖2-3

一開始選了2和4，提交後得知應該選擇1和2。分析如下：

選項1.其實這裡的x⁽ⁱ⁾拆開後是，然後和θ的轉置相乘，結果與是一樣的。

選項2.將括號裡的拆開後就是，可見選項2也是對的。

選項3.從1開始錯誤，我們規定了要從0開始。

選項4.，因為我們的y不像x有x0，x1，x2等等，y是沒有下標只有上標的，所以選項4錯誤。

-----------------------------------------------------------------------------

講完代價函式講梯度下降，如圖2-4所示，

圖2-4

同理這裡把函式J想成是帶有一個n+1維向量的函式。當我們實現梯度下降法後，我們可以仔細觀察一下它的偏導數項，圖2-5是我們當特徵個數n=1時梯度下降的情況。我們有兩條針對引數θ0和θ1不同的更新規則，

圖2-5

圖2-5的兩個式子不同點在於對引數θ1我們有另一個更新規則，即在最後多了一項

以上是特徵數量只有1個的情況下的梯度下降法的實現。當特徵數量大於等於1個的時候，我們的梯度下降更新規則，變成了如圖2-6的形式。

圖2-6

其實圖2-5和圖2-6這兩種新舊演算法實際上是一回事兒。考慮這樣一個情況，假設我們有3個特徵數量，我們就會有對θ1、θ2、θ3的三條更新規則。如圖2-7所示，

圖2-7

仔細觀察θ0的更新規則，就會發現這跟之前圖2-5中n=1的情況是相同的。它們之所以是等價的是因為在我們的標記約定裡有=1。

如果再仔細觀察θ1的更新規則，會發現這裡的這一項是和圖2-5對引數θ1的更新項是等價的。在圖2-7中我們只是用了新的符號來表示我們的第一個特徵。其實當n=1的時候，和是一樣的。因為圖2-7的新演算法應用更普遍，更廣泛，所以以後不管是單特徵變數還是多特徵變數我們都用圖2-7的演算法來做梯度下降。

Machine Learning（Stanford）| 斯坦福大學機器學習筆記--第二週（1.多元線性迴歸及多元線性迴歸的梯度下降）

一.Multivariate Linear regression(多元線性迴歸) 現在起將開始介紹一種新的更為有效的線性迴歸形式。這種形式適用於多個變數或者多特徵量的情況。在之前學習過的線性迴歸中

Machine Learning（Stanford）| 斯坦福大學機器學習筆記--第一週（1.監督學習與無監督學習的介紹）

以上例子中，總共有兩個特徵，即病人年齡和腫瘤大小。在別的ML問題中，經常會用到更多特徵，別人在研究這個問題時，通常使用如下這些特徵：比如腫瘤的厚度，腫瘤細胞大小和形狀的一致性等等。真正對於一些學習問題，用到的不只是三五個特徵，經常要用到無數多個特徵，非常多的屬性。所以，你的學習演算法要利用很多的屬性或特徵

斯坦福大學機器學習筆記——聚類（k-均值聚類演算法、損失函式、初始化、聚類數目的選擇）

上面的部落格的演算法都是有監督學習的演算法，即對於每個資料我們都有該資料對應的標籤，資料集的形式如下：而今天我們學習的演算法是一種無監督學習的演算法——聚類，該演算法中的每個資料沒有標籤，資料集的形式如下： K-均值聚類 k-均值聚類是一種最常見

斯坦福大學機器學習筆記——推薦系統（協同過濾、低秩分解、推薦系統）

這個部落格讓我們來討論一下推薦系統，首先我們來討論一下為什麼學習推薦系統： 1. 推薦系統是機器學習中的一個重要應用，它已經用於很多企業中，比如淘寶、今日頭條、亞馬遜等。它們會根據你的瀏覽記錄，當你再

斯坦福大學機器學習筆記——異常檢測演算法（高斯分佈、多元高斯分佈、異常檢測演算法）

異常檢測問題介紹：異常檢測演算法主要用於無監督學習問題，但從某種角度看它又類似於一種有監督學習的問題，下面我們從一個例子中簡單介紹一下什麼是異常檢測問題。比如我們有一個飛機引擎製造商，對於一個新造出的飛機引擎我們想判斷這個引擎是不是異常的。假如我們有

斯坦福大學機器學習筆記——多變數的線性迴歸以及梯度下降法注意事項（內有程式碼）

在前面部落格中介紹了單變數線性迴歸的實現過程，本文將介紹多變數線性迴歸演算法。兩者的對比如下： 1.資料方面的差異：單變數線性迴歸資料：多變數線性迴歸資料：對於單變數線性迴歸來說，只有一個特徵（房子的大小），而對於多變數線性特徵迴歸特徵

斯坦福大學機器學習筆記——單變數的線性迴歸以及損失函式和梯度下降法（包含程式碼）

迴歸問題：所謂的迴歸問題就是給定的資料集，且每個資料集中的每個樣例都有其正確的答案，通過給定的資料集進行擬合，找到一條能夠最好代表該資料集的曲線，然後對於給定的一個樣本，能夠預測出該樣本的答案（對於迴歸問題來說，最終的輸出結果是一個連續的數值）。比如

斯坦福大學機器學習筆記——機器學習系統設計（誤差分析、查全率和查準率、F1值）

這次部落格我們主要討論機器學習系統設計的主要問題，以及怎樣巧妙的構建一個複雜的機器學習系統。我們先用一個例子引入機器學習系統的設計：以一個垃圾郵件分類器演算法為例：對於該問題，我們首先要做的是怎樣選擇並且表達特徵向量x。我們可以選擇100個詞所構

斯坦福大學機器學習筆記——正則化的邏輯迴歸模型

在上面部落格中我們討論了正則化的線性迴歸模型，下面我們來討論一下正則化的邏輯迴歸模型。前面我們講述了兩種常用於邏輯迴歸的方法：基於梯度下降法的邏輯迴歸模型基於高階優化的邏輯迴歸模型基於

斯坦福大學機器學習筆記——特徵和多項式迴歸以及正規方程

我們可以舉一個例子來引入多項式迴歸：比如我們之前遇到的房價問題，對於房價的影響我們假設有兩個特徵，一個是房子的寬度x1，另外一個是房子的長度x2，這針對房價的估測我們可以建立下面形式的假設： hθ

斯坦福大學機器學習筆記——邏輯迴歸、高階優化以及多分類問題

shi先簡單說一下邏輯迴歸，其實會有很多人誤解，會將邏輯迴歸當成迴歸演算法，其實邏輯迴歸就是我們所說的分類問題，所謂的邏輯，一般我們說的邏輯就是邏輯0或者邏輯1，所以可以藉此理解。但是邏輯迴歸不僅僅只包括兩分類問題，它還包括多分類問題。那麼能否使用線性迴歸的

斯坦福大學機器學習課程第二周筆記

線性 line bili tla oct linear 基礎語大學學習簡記軟件安裝 Octave matlab 多元線性回歸multiple linear regression 多元梯度下降特征縮放feature scaling 學習速率learning

吳恩達機器學習筆記--第二週-3.解析法計算引數

week2-3.Computing Parameters Analytically一、Normal Equation正規方程（normal equation）用求（偏）導的方法求最值（若是多元變數函式，需要對每個變數求偏導，然後令他們都為0）：使用正規方程求J函式最值：構建設

吳恩達斯坦福大學機器學習 CS229 課程學習筆記（一）

說到機器學習總繞不過幾個鼎鼎大名的人物，他們都創造了不少的機器學習資料，斯坦福吳恩達Andrew Ng的公開課CS229；Google李飛飛的CS231、周志華的、李航的《統計學習方法》、林軒田的《機器學習基石》、Peter Harringtond 的《機器學習實戰》、周志華

斯坦福大學機器學習——誤差理論（Error Theory）

一、偏倚（bias）和方差(variance) 在討論線性迴歸時，我們用一次線性函式對訓練樣本進行擬合（如圖1所示）；然而，我們可以通過二次多項式函式對訓練樣本進行擬合（如圖2所示），函式對樣本的擬合程式看上去更“好”；當我們利用五次多項式函式對樣本進行擬合（如圖3所示），

斯坦福大學機器學習——交叉驗證（Cross Validation）

假設我們需要從某些候選模型中選擇最適合某個學習問題的模型，我們該如何選擇？以多元迴歸模型為例：，應該如何確定k的大小，使得該模型對解決相應的分類問題最為有效？如何在偏倚（bias）和方差（variance）之間尋求最佳的平衡點？更進一步，我們同樣需要知道如何在加權迴歸模型中

Stanford coursera Andrew Ng 機器學習課程程式設計作業（Exercise 1）Python3.x

Exercise 1：Linear Regression---實現一個線性迴歸在本次練習中，需要實現一個單變數的線性迴歸。假設有一組歷史資料<城市人口，開店利潤>，現需要預測在哪個城市中開店利潤比較好？歷史資料如下：第一列表示城市人口數，單位為萬人；第二

吳恩達老師機器學習筆記異常檢測（一）

明天就要開組會了，天天在辦公室划水都不知道講啥。。。今天開始異常檢測的學習，同樣程式碼比較簡單一點異常檢測的原理就是假設樣本的個特徵值都呈高斯分佈，選擇分佈較離散的樣本的作為異常值。這裡主要注意的是通過交叉驗證對閾值的選擇和F1score的應用。原始資料：程式碼如下：

機器學習筆記—svm演算法（上）

機器學習筆記—svm演算法（上）一：初識svm 問題：用一條直線把下圖的圓球和五角星分離開來。解答：有N種分法，如下圖：附加題：找出最佳分類？解答：如圖： Exe me?鬼知道哪一條是最佳？？等等這個最佳分類是不是等價於，地主讓管家給兩個兒子

機器學習第三週（下）

擬合 1、擬合程度 1.1、過擬合 1.1.1、原因 1.1.2、理論解決方法 1.1.3、實際解決方法之一：正則化 1.1.3.1、正則化線性迴歸 1.1.3.2、正則化正規方