演算法工程師修仙之路：吳恩達機器學習（二）

阿新 • • 發佈：2018-12-08

吳恩達機器學習筆記及作業程式碼實現中文版

第二章單變數線性迴歸

模型描述

我們使用一個監督學習演算法的例子：預測住房價格。
- 我們要使用一個數據集，資料集包含俄勒岡州波特蘭市的住房價格。
- 在這裡，我要根據不同房屋尺寸所售出的價格，畫出我的資料集。
- 比方說，如果你朋友的房子是 1250 平方尺大小，你要告訴他們這房子能賣多少錢。
- 那麼模型也許是條直線，從這個資料模型上來看，他能以大約 220000(美元)左右的價格賣掉這個房子。
在監督學習中我們有一個數據集，這個資料集被稱訓練集。以房屋交易問題為例，假使我們迴歸問題的訓練集（ Training Set）如下表所示：
我們將要用來描述這個迴歸問題的標記如下:
- m代表訓練集中例項的數量。
- x代表特徵/輸入變數。
- y代表目標變數/輸出變數。
- (x, y)代表訓練集中的例項。
- ( $x^{(i)}, y^{(i)}$ )代表第i個觀察例項。
- ℎ 代表學習演算法的解決方案或函式也稱為假設（ hypothesis）。
要解決房價預測問題，我們實際上是要將訓練集“喂”給我們的學習演算法，進而學習得到一個假設ℎ，然後將我們要預測的房屋的尺寸作為輸入變數輸入給ℎ，預測出該房屋的交易價格作為輸出變數輸出為結果。
一種可能的表達方式為： $ℎ_\theta(x) = \theta_0 + \theta_1x$ ，因為只含有一個特徵/輸入變數，因此這樣的問題叫作單變數線性迴歸問題。

代價函式

線上性迴歸中我們有一個像這樣的訓練集， m代表了訓練樣本的數量，而我們的假設函式，也就是用來進行預測的函式，是這樣的線性函式形式： $ℎ_\theta(x) = \theta_0 + \theta_1x$ 。
我們現在要做的便是為我們的模型選擇合適的引數（parameters） $\theta_0$ 和 $\theta_1$ ，在房價問題這個例子中便是直線的斜率和在y 軸上的截距。
我們選擇的引數決定了我們得到的直線相對於我們的訓練集的準確程度，模型所預測的
值與訓練集中實際值之間的差距就是建模誤差（ modeling error）。
我們的目標便是選擇出可以使得建模誤差的平方和能夠最小的模型引數。即使得代價函式 $J(\theta_0, \theta_1)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$ 最小。
代價函式也被稱作平方誤差函式，有時也被稱為平方誤差代價函式。我們之所以要求出誤差的平方和，是因為誤差平方代價函式，對於大多數問題，特別是迴歸問題，都是一個合理的選擇。

梯度下降

梯度下降是一個用來求函式最小值的演算法，我們將使用梯度下降演算法來求出代價函式 $J(\theta_0, \theta_1)$ 的最小值。
梯度下降背後的思想是：開始時我們隨機選擇一個引數的組合 $(\theta_0, \theta_1, \theta_2, ... ,\theta_n)$ ，計算代價函式，然後我們尋找下一個能讓代價函式值下降最多的引數組合。我們持續這麼做直到到到一個區域性最小值（ local minimum），因為我們並沒有嘗試完所有的引數組合，所以不能確定我們得到的區域性最小值是否便是全域性最小值（ global minimum），選擇不同的初始引數組合，可能會找到不同的區域性最小值。
批量梯度下降（ batch gradient descent）演算法
- 公式為： $\theta_j=\theta_j-\alpha*\frac{\partial J(\theta_0, \theta_1)}{\partial \theta_j}$ 。
- 其中 $\alpha$ 是學習率（ learning rate），它決定了我們沿著能讓代價函式下降程度最大的方向向下邁出的步子有多大。
- 在批量梯度下降中，我們每一次都同時讓所有的引數減去學習速率乘以代價函式的導數。
- 實現梯度下降演算法的微妙之處。
  - 在這個表示式中，如果你要更新這個等式，你需要同時新 $\theta_0$ 和 $\theta_1$ 。
  - 實現方法是計算公式右邊的部分，通過那一部分計算出 $\theta_0$ 和 $\theta_1$ 的值，然後同時更新 $\theta_0$ 和 $\theta_1$ 。
- 如果 $\alpha$ 太小。
  - 學習速率太小。
  - 這樣就需要很多步才能到達最低點。
  - 可能會很慢，因為它會一點點挪動，它會需要很多步才能到達全域性最低點。
- 如果 $\alpha$ 太大。
  - 梯度下降法可能會越過最低點，甚至可能無法收斂。
  - 下一次迭代移動了一大步，越過一次，又越過一次，一次次越過最低點，直到你發現實際上離最低點越來越遠。
  - 導致無法收斂，甚至發散。
- 假設你將 $\theta_1$ 初始化在區域性最低點。
  - 在這兒，它已經在一個區域性的最優處或區域性最低點。
  - 結果是區域性最優點的導數將等於零，因為它是那條切線的斜率。
  - 這意味著你已經在區域性最優點，它使得 $\theta_1$ 不再改變，也就是新的 $\theta_1$ 等於原來的 $\theta_1$ 。
  - 如果你的引數已經處於區域性最低點，那麼梯度下降法更新其實什麼都沒做，它不會改變引數的值。
  - 這也解釋了為什麼即使學習速率 $\alpha$ 保持不變時，梯度下降也可以收斂到區域性最低點。
- 在梯度下降法中，當接近區域性最低點時，梯度下降法會自動採取更小的幅度。
  - 這是因為當我們接近區域性最低點時，很顯然在區域性最低時導數等於零。
  - 當我們接近區域性最低時，導數值會自動變得越來越小，所以梯度下降將自動採取較小的幅度，這就是梯度下降的做法。
  - 實際上沒有必要再另外減小 $\alpha$ 。
- 批量梯度下降指的是在梯度下降的每一步中，我們都用到了所有的訓練樣本。
  - 在梯度下降中，在計算微分求導項時，我們需要進行求和運算。
  - 在每一個單獨的梯度下降中，我們最終都需要對所有m個訓練樣本求和。
  - 批量梯度下降法這個名字說明了我們需要考慮所有這一"批"訓練樣本。
  - 事實上，有時也有其他型別的梯度下降法，不是這種"批量"型的，不考慮整個的訓練集，而是每次只關注訓練集中的一些小的子集。

演算法工程師修仙之路：吳恩達機器學習（二）

吳恩達機器學習筆記及作業程式碼實現中文版第二章單變數線性迴歸模型描述我們使用一個監督學習演算法的例子：預測住房價格。我們要使用一個數據集，資料集包含俄勒岡州波特蘭市的住房價格。在這裡，我要根據不同房屋尺寸所售出的價格，畫出我的資

演算法工程師修仙之路：吳恩達機器學習（九）

吳恩達機器學習筆記及作業程式碼實現中文版神經網路引數的反向傳播演算法代價函式假設神經網路的訓練樣本有 m

演算法工程師修仙之路：吳恩達機器學習（八）

吳恩達機器學習筆記及作業程式碼實現中文版第六章神經網路學習特徵和直觀理解從本質上講，神經網路能夠通過學習得出其自身的一系列特徵。神經網路中，單層神經元（無中間層）的計算可用來表示邏輯運算，比如邏輯與(AND)、邏輯或(OR)。邏輯

演算法工程師修仙之路：吳恩達機器學習（七）

吳恩達機器學習筆記及作業程式碼實現中文版第六章神經網路學習非線性假設無論是線性迴歸還是邏輯迴歸都有這樣一個缺點：當特徵太多時，計算的負荷會非常大。使用非線性的多項式項，能夠幫助我們建立更好的分類模型。假設我們有非常多的特徵，例如大於 100 個

演算法工程師修仙之路：吳恩達機器學習（六）

吳恩達機器學習筆記及作業程式碼實現中文版第五章正則化過擬合問題線性迴歸和邏輯迴歸能夠有效地解決許多問題，但是當將它們應用到某些特定的機器學習應用時，會遇到過擬合(over-fitting)的問題，可能會導致它們效果很差。正則化(regulari

演算法工程師修仙之路：吳恩達機器學習（五）

吳恩達機器學習筆記及作業程式碼實現中文版第四章 Logistic迴歸簡化代價函式與梯度下降邏輯迴歸的代價函式： C

演算法工程師修仙之路：吳恩達機器學習（四）

吳恩達機器學習筆記及作業程式碼實現中文版第四章 Logistic迴歸分類在分類問題中，要預測的變數y是離散的值，邏輯迴歸 (Logistic Regression) 演算法是目前最流行使用最廣泛的一種學習演算法。在分類問題中，我們嘗試預測的是結果

演算法工程師修仙之路：吳恩達機器學習（三）

吳恩達機器學習筆記及作業程式碼實現中文版第三章多變數線性迴歸多維特徵現在我們對房價模型增加更多的特徵，例如房間數樓層等，構成一個含有多個變數的模型，模型中的特徵為

演算法工程師修仙之路：吳恩達機器學習（一）

吳恩達機器學習筆記及作業程式碼實現中文版第一章緒論：初識機器學習什麼是機器學習 Machine Learning(機器學習)是研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的效能。機器學習被用

演算法工程師修仙之路：吳恩達機器學習（十三）

吳恩達機器學習筆記及作業程式碼實現中文版第十章支援向量機優化目標在監督學習中，許多學習演算法的效能都非常類似，因此，重要的不是你該選擇使用學習演算法 A 還是學習演算法 B，而更重要的是，所建立的大量資料在應用這些演算法時，表現情況通常依賴於你的水平。比如你

演算法工程師修仙之路：吳恩達機器學習（十）

吳恩達機器學習筆記及作業程式碼實現中文版第七章神經網路引數的反向傳播演算法理解反向傳播為了更好地理解反向傳播演算法，我們再來仔細研究一下前向傳播的原理：反向傳播演算法做的是：梯度檢測當我們對一個較為複雜

演算法工程師修仙之路：吳恩達機器學習（十五）

吳恩達機器學習筆記及作業程式碼實現中文版第十章支援向量機大間隔分類器的數學原理假設我有兩個二維向量 u

演算法工程師修仙之路：吳恩達機器學習（十四）

吳恩達機器學習筆記及作業程式碼實現中文版第十章支援向量機直觀上對大間隔的理解人們有時將支援向量機看作是大間距分類器。支援向量機模型的代價函式，在左邊這裡我畫出了關於 z 的代價函式

演算法工程師修仙之路：吳恩達機器學習（十二）

吳恩達機器學習筆記及作業程式碼實現中文版第九章機器學習系統設計確定執行的優先順序以一個垃圾郵件分類器演算法為例進行討論。為了解決這樣一個問題，我們首先要做的決定是如何選擇並表達特徵向量

演算法工程師修仙之路：吳恩達機器學習（十一）

吳恩達機器學習筆記及作業程式碼實現中文版第八章應用機器學習的建議決定下一步做什麼獲得更多的訓練例項——通常是有效的，但代價較大，下面的方法也可能有效，可考慮先採用下面的幾種方法：嘗試減少特徵的數量；嘗試獲得更多的特徵

演算法工程師修仙之路：吳恩達機器學習作業（一）

吳恩達機器學習筆記及作業程式碼實現中文版第一個程式設計作業：單變數線性迴歸（python程式碼實現）一元線性迴歸問題描述在本練習的這一部分中，您將使用只有單變數的線性迴歸方法預測餐車的利潤。假設你是一家連鎖餐廳的執行長，正在

演算法工程師修仙之路：python3官方文件筆記（二）

本筆記來自於python手冊的中文版使用 Python 直譯器呼叫 Python 直譯器通常你可以在主視窗輸入一個檔案結束符（Unix系統是Control-D，Windows系統是Control-Z）讓直譯器以 0 狀態碼退出。如果那沒有作用，你可以通過輸入

演算法工程師修仙之路：python3官方文件筆記（三）

本筆記來自於python手冊的中文版 Python 簡介 Python 中的註釋以 # 字元起始，直至實際的行尾。註釋可以從行首開始，也可以在空白或程式碼之後，但是不出現在字串中。文字字串中的 # 字元僅僅表示 # 。程式碼中的註釋

演算法工程師修仙之路：python3廖雪峰教程筆記（一）

此筆記摘錄於廖雪峰先生的教程，感謝廖先生的無私分享，特此致敬！ python簡介 Python是一種什麼語言？用任何程式語言來開發程式，都是為了讓計算機幹活，而計算機幹活的CPU只認識機器指令，所以，儘管不同的程式語言差異極大，最後都得“翻譯”成

演算法工程師修仙之路：python3官方文件筆記（一）

本筆記來自於python手冊的中文版第一章開胃菜雖然 Python 易於使用，但它卻是一門完整的程式語言。與 Shell 指令碼或批處理檔案相比，它為編寫大型程式提供了更多的結構和支援。 Python 提供了比 C 更多的錯誤檢查

演算法工程師修仙之路：吳恩達機器學習（二）

吳恩達機器學習筆記及作業程式碼實現中文版

第二章 單變數線性迴歸

模型描述

代價函式

梯度下降

相關推薦

第二章單變數線性迴歸