吳恩達機器學習課程筆記——第一週

阿新 • • 發佈：2019-01-26

1. 單變數線性迴歸(Linear Regression with One Variable)

1.1 模型表示

單變數線性迴歸

像上述公式，因為只含有一個特徵/輸入變數，因此這樣的問題叫作單變數線性迴歸問題。

例子如下：
迴歸函式圖示

單變數線性方程，就是我們初中就學的一元一次函式。
當然啦，除了這個模型之外，我們還有很多其他的線性模型，比如指數模型、對數模型等等，除了線性模型之外，還有非線性模型，有這麼多的模型，其目的就是在於更好的擬合訓練集的資料，以使得預測率更高。

以下是對模型的具體定義：

迴歸圖示

2. 代價函式(Cost Function)

代價函式就是為了就是找到目的函式的最優解。

因為在一個訓練集中，有無數個模型（一元一次函式），我們需要找到最擬合這個訓練集的一個函式，所以就引入了代價函式，用來找到那個最好的模型。

2.1公式表示

代價函式

上述是平方誤差代價函式，這也是常用到的代價函式，它通過目的函式跟各個實際值的誤差平方建立新的函式。為了使這個值不受個別極端資料影響而產生巨大波動，採用類似方差再取二分之一的方式來減小個別數據的影響。

平方誤差代價函式圖示

2.2 代價函式的直觀理解①

最優解即為代價函式的最小值，根據以上公式多次計算可得到代價函式的影象：
代價函式圖示
可以看到該代價函式的確有最小值，這裡恰好是橫座標為1的時候。

2.3 代價函式的直觀理解②

如果有更多引數，就會更為複雜，兩個引數的時候就已經是三維影象了：
代價函式圖示2

3. 梯度下降演算法(Gradient Descent)

梯度下降是一個用來求函式最小值的演算法，我們將使用梯度下降演算法來求出代價函式J(θ0,θ1) 的最小值。

個人理解，代價函式是分析模型與實際訓練集之間的誤差，而梯度下降演算法的作用，就是找出那個誤差最小的代價函式。

演算法思想

演算法思想
- 從引數的某一個（組）值開始，比如從θ0=0和θ1=0開始
- 保持該（組）值持續減小，如果是一組值就要保證他們同步更新，直到找到我們希望找到的最小值

我們要找到一條最快下山的路徑，我們走的每一步大小就是α 。
梯度下降圖示1

如果在不同的起點，最後到達的最低點也會不一樣。
梯度下降圖示2

3.1批量梯度下降(batch gradient descent)

批量梯度下降

α：學習速率，決定我們讓代價函式下降程度最大的方向邁出的步子有多大

3.1.1 同步更新(Simultaneous update)

在梯度下降演算法中，我們需要更新θ0,θ1，實現梯度下降演算法的微妙之處是，在這個表示式中，如果你要更新這個等式，你需要同時更新。

同步更新公式

3.1.2 梯度下降演算法理解

如果 α 太大，那麼梯度下降法可能會越過最低點，甚至可能無法收斂，下一次迭代又移動了一大步，越過一次，又越過一次，一次次越過最低點，直到你發現實際上離最低點越來越遠，所以，如果 α 太大，它會導致無法收斂，甚至發散。

對α的理解

解決方法——乘偏導數

批量梯度下降直觀圖

首先初始化我的梯度下降演算法，在那個品紅色的點初始化，如果
我更新一步梯度下降，隨著我接近最低點，我的導數越來越接近零，所以，梯度下降一步後，新的導數會變小一點點。然後我想再梯度下降一步，在這個綠點，我自然會用一個稍微跟剛才在那個品紅點時比，再小一點的一步，到了新的紅色點，更接近全域性最低點了，因此這點的導數會比在綠點時更小。所以，我再進行一步梯度下降時，我的導數項是更小的，θ1更新的幅度就會更小。所以隨著梯度下降法的執行，你移動的幅度會自動變得越來越小，直到最終移動幅度非常小，你會發現，已經收斂到區域性極小值。

3.1.3 線性迴歸的批量梯度下降

偏導數求解推導過程

偏導數求解推導過程

批量梯度下降方程

通過上面幾條公式的整合，最終得出以下公式
線性迴歸方程

4. 線性代數基礎

個人現在認為，線性代數的作用主要是為了方便操作訓練集。

4.1 矩陣的定義

橫為行，豎為列，表示方法一般是R^(m*n)
矩陣的定義

尋找某個矩陣元素

4.2 矩陣加法(Matrix Addition)

同一個位置的矩陣元素相加，得到新的矩陣
矩陣加法

4.3 矩陣乘法(Scalar Multiplication)

將值與矩陣每個元素相乘，得到新的矩陣
矩陣乘法

4.4 矩陣的組合運算(Combination of Operands)

將矩陣加減法和乘除法結合起來，道理都一樣
矩陣的組合運算

4.5 兩個矩陣相乘

A矩陣的行乘 B矩陣的列得到新矩陣 y 。
兩個矩陣相乘1

兩個矩陣相乘2

4.6 矩陣應用到梯度下降演算法例項

把訓練集做成一個矩陣，把線性迴歸方程做成另外一個矩陣，將兩個矩陣相乘，最後就能得出一個新的矩陣。
矩陣應用到梯度下降演算法例項圖示

4.7 單位矩陣

在矩陣的乘法中，有一種矩陣起著特殊的作用，如同數的乘法中的1,這種矩陣被稱為單位矩陣．它是個方陣，從左上角到右下角的對角線（稱為主對角線）上的元素均為1。除此以外全都為0。

單位矩陣

除0矩陣外，任何矩陣乘單位矩陣都等於它本身。

單位矩陣運算

4.8 逆矩陣

用octave求得逆矩陣：pinv()函式

octave求得逆矩陣

吳恩達機器學習課程筆記——第一週

1. 單變數線性迴歸(Linear Regression with One Variable) 1.1 模型表示像上述公式，因為只含有一個特徵/輸入變數，因此這樣的問題叫作單變數線性迴歸問題。例子如下：單變數線性方程，就是我們初中就學的

吳恩達機器學習課程筆記——第二週

1. 多變數線性迴歸(Linear Regression with Multiple Variables) 也稱為多元線性迴歸，一元就是一個變數，多元就是多個變數，在這裡也可以叫做多個特徵 1.1 多維特徵(Multiple Features) 之前，

吳恩達機器學習課程筆記02——處理房價預測問題（梯度下降演算法詳解）

建議記住的實用符號符號含義 m 樣本數目 x 輸入變數 y 輸出變數/目標變數

吳恩達機器學習課程筆記章節二單變數線性迴歸

1、模型描述 Univariate（One variable）Linear Regression m=訓練樣本的數目，x's=輸入的變數/特徵，y's=輸出變數/目標變數 2、代價函式基本定義： 3、代價函式（一）回顧一下，前面一些定義：簡化的假設函式，theta0=0，得到假

吳恩達機器學習課程筆記第五週

Costfunction代價函式：在前面的課程總我們瞭解了邏輯迴歸的代價函式：在神經網路中，我們增加了對k個輸出的誤差進行了求和。得到代價函式如下：K為輸出的個數，在正則項中L表示神經網路的層數Backpropagation algorithm反向傳播演算法：當我們進行梯度下

Coursera 斯坦福吳恩達機器學習課程筆記 (1)

看了課程一週後發現忘光了，決定做一個筆記用作複習。如果涉及到侵權問題請聯絡我，我會立馬刪除並道歉。同時，禁止任何形式的轉載，包括全文轉載和部分轉載。如需使用請聯絡本人 [email protected]。如若發現侵權行為，我學過智慧財產權法的，嘿嘿第一週：基礎概念和

【吳恩達深度學習課程】第一週課後習題

先說明一下，以下答案均為個人見解，如有不同想法歡迎交流。另外轉載請註明出處，謝謝1.試分析‘AI是新能量’指的是：A.等價於100年前電的出現一樣，AI正在轉變大多數的產業B.AI和電一樣在生活和辦公中發揮著重要作用C.通過“智慧電力”，AI正在傳送一種電力的新浪潮D.AI執

Coursera吳恩達機器學習課程總結筆記及作業程式碼——第5周神經網路續

Neural Networks:Learning 上週的課程學習了神經網路正向傳播演算法，這周的課程主要在於神經網路的反向更新過程。 1.1 Cost function 我們先回憶一下邏輯迴歸的價值函式 J(θ)=1m[∑mi=1y(i)log(hθ

Coursera吳恩達機器學習課程總結筆記及作業程式碼——第1,2周

Linear’regression 發現這個教程是最入門的一個教程了，老師講的很好，也很通俗，每堂課後面還有程式設計作業，全程用matlab程式設計，只需要填寫核心程式碼，很適合自學。 1.1 Model representation 起始給出了

吳恩達機器學習課程第一週

關於線性迴歸的記錄：使用的損失函式是平方誤差損失函式J（θ），也就是最簡單的假設函式和真實值差的平方和（對於所有樣本求和），然後最小化J（θ），也就是使用梯度下降演算法；平方誤差代價函式是解決迴歸問題最常見的手段；對於單變數線性迴歸問題: 如果是對

Coursera吳恩達機器學習課程總結筆記及作業程式碼——第6周有關機器學習的小建議

1.1 Deciding what to try next 當你除錯你的學習演算法時，當面對測試集你的演算法效果不佳時，你會怎麼做呢？獲得更多的訓練樣本？嘗試更少的特徵？嘗試獲取附加的特徵？嘗試增加多項式的特徵？嘗試增加λ? 嘗試減小λ?

機器學習筆記--吳恩達機器學習課程2

梯度下降法對於梯度下降法而言，當偏導數的學習效率過大或過小時，收斂的速率會變得很緩慢，α過大時甚至會無法收斂。學習效率α是一個正數。同樣梯度下降法初始點在區域性最低點時同樣不會再更新，此時偏導數的值為0.

學習筆記——吳恩達-機器學習課程-1.3 用神經網路進行監督學習

神經網路有時媒體炒作的很厲害，考慮到它們的使用效果，有些說法還是靠譜的，事實上到目前為止，幾乎所有的神經網路創造的經濟價值都基於其中一種機器學習，我們稱之為“監督學習”，那是什麼意思呢？我們來看一些例子，在監督學習中輸入x，習得一個函式

Coursera吳恩達機器學習課程第一週測驗2（單變數線性迴歸）

Machine Learning Week 1 Quiz 2 (Linear Regression with One Variable) Stanford Coursera Question 1 Consider the problem of predi

學習筆記——吳恩達-機器學習課程 1.2 什麼是神經網路

1.2 什麼是神經網路 “深度學習”指的是訓練神經網路，有的時候規模很大，那麼神經網路是什麼呢？我們從一個房價預測的例子開始，假設有一個六間房屋的資料集已知房屋的面積，單位是平房英尺或者平方米，已知房屋價格，想要找到一個函式，根據房屋面積，預測房價的函式，

吳恩達-深度學習-課程筆記-3: Python和向量化( Week 2 )

有時指數檢查都是效果很快 -1 tro str 1 向量化( Vectorization ) 在邏輯回歸中，以計算z為例，z = w的轉置和x進行內積運算再加上b，你可以用for循環來實現。但是在python中z可以調用numpy的方法，直接一句z = np.d

吳恩達-深度學習-課程筆記-6: 深度學習的實用層面( Week 1 )

data 絕對值 initial 均值化 http 梯度下降法 ati lod 表示 1 訓練/驗證/測試集( Train/Dev/test sets ) 構建神經網絡的時候有些參數需要選擇，比如層數，單元數，學習率，激活函數。這些參數可以通過在驗證集上的表現好壞來進行選擇

吳恩達-深度學習-課程筆記-8: 超參數調試、Batch正則化和softmax( Week 3 )

erp 搜索給定 via 深度 mode any .com sim 1 調試處理( tuning process ) 如下圖所示，ng認為學習速率α是需要調試的最重要的超參數。其次重要的是momentum算法的β參數（一般設為0.9），隱藏單元數和mini-batch的

吳恩達機器學習視訊筆記03——矩陣和向量

注：非常基礎的內容，學過線性代數的童鞋可以跳過矩陣介紹：左邊是一個4×2的矩陣，右邊是一個2×3的矩陣 A是一個四行而列的矩陣 A11=1402(表示第一行第一列) A12=191(第一行第二列)

吳恩達機器學習視訊筆記——簡單知識背景

1、生活的機器學習：電腦區分垃圾郵件淘寶的智慧推薦照相時候的美顏什麼是人工智慧： Arthur Samuel(1959):部分特定程式碼賦予計算機自動學習的能力。世界上第一個機器學習的程式：Samuel編寫的西洋棋程式 &n