演算法工程師修仙之路：吳恩達機器學習作業（一）

阿新 • • 發佈：2018-12-08

吳恩達機器學習筆記及作業程式碼實現中文版

第一個程式設計作業：單變數線性迴歸（python程式碼實現）

一元線性迴歸

問題描述
- 在本練習的這一部分中，您將使用只有單變數的線性迴歸方法預測餐車的利潤。
- 假設你是一家連鎖餐廳的執行長，正在考慮在不同的城市開設一家新店。
- 這家連鎖公司已經在不同的城市擁有餐車，你也有這些城市的利潤和人口資料。
- 您希望使用這些資料來幫助您選擇要擴充套件到下一個城市。
- 檔案ex1data1.txt包含線性迴歸問題的資料集。
- 第一列是一個城市的人口，第二列是該城市一輛餐車的利潤。
- 利潤的負值表示虧損。
繪製資料
- 在開始任何任務之前，通過視覺化來理解資料通常是有用的。
- 對於這個資料集，您可以使用散點圖來視覺化資料，因為它只有兩個屬性需要繪製(利潤和總體)。
- 你在現實生活中遇到的許多其他問題是多維的，不能在二維圖上畫出來。
- 首先，我們匯入三個python庫：numpy，pandas，matplotlib：
```
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
```
- 然後我們使用pandas的read_csv函式讀入檔案ex1data1.txt，並打印出結果：
```
path = 'ex1data1.txt'
data = pd.read_csv(path, header = None, names = ['Population', 'Profit'])
data.head()
print(data) 
```
- 結果如下表所示，僅展示前五行內容：
- 接著我們給上表增加描述，得到一張新的表，表的內容已全部展示：
```
data1 = data.describe()
print(data1)
```
- 最後用plot方法得到訓練資料散點圖：
```
data.plot(kind = 'scatter', x = 'Population', y = 'Profit', figsize = (12, 8))
plt.show()
 
```
梯度下降法
- 現在讓我們使用梯度下降來實現線性迴歸，以最小化成本函式。
- 首先，我們將建立一個以引數θ為特徵函式的代價函式：
  - $J\left( \theta \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{{{\left( {{h}_{\theta }}\left( {{x}^{(i)}} \right)-{{y}^{(i)}} \right)}^{2}}}$ 。
  - 其中： ${{h_\theta }}\left( x \right)={\theta^T}X={\theta _0}{x_0}+{\theta _1}{x_1}+{\theta_2}{x_2}+...+{\theta _n}{x_n}$ 。
```
def computeCost(X, y, theta):
    inner = np.power(((X * theta.T)) - y, 2)
    return np.sum(inner) / (2 * len(X))
```
- 讓我們在訓練集中新增一列，以便我們可以使用向量化的解決方案來計算代價和梯度。
```
data.insert(0, 'ones', 1)
```
- 現在我們來做一些變數初始化。
```
cols = data.shape[1]
X = data.iloc[:, 0:cols-1]
y = data.iloc[:, cols-1:cols]
```
- 觀察下 X (訓練集) and y (目標變數)是否正確。
```
print(X.head())
print(y.head())
```
- 代價函式應該是numpy矩陣，所以我們需要轉換X和Y，然後才能使用它們，所以我們還需要初始化theta。
```
X = np.matrix(X.values)
y = np.matrix(y.values)
theta = np.matrix(np.array([0, 0]))
print(theta)
```
- 此時theta已經是一個(1,2)矩陣[[0, 0]]，看下維度：
```
print(X.shape, theta.shape, y.shape)
```
- 得到三個矩陣維度分別為：((97, 2), (1, 2), (97, 1))。
- 計算代價函式 (theta初始值為0)：
```
result = computeCost(X, y, theta)
print(result)
```
- 得到結果為：32.0727338775。

批量梯度下降

確認梯度下降的一個好方法是觀察J(θ)，然後檢查其值是否隨每一步計算而減少。假設您已經實現梯度下降法和computeCost正確，你的J(θ)不應該增加，而是應該收斂於一個穩定值的演算法。

先給出公式： $\theta_j=\theta_j-\alpha*\frac{\partial J(\theta_0, \theta_1, ..., \theta_n)}{\partial \theta_j}$ 。

def gradientDescent(X, y, theta, alpha, iters):
    temp = np.matrix(np.zeros(theta.shape))
    parameters = int(theta.ravel().shape[1])
    cost = np.zeros(iters)

    for i in range(iters):
        error = (X * theta.T) - y

        for j in range(parameters):
            term = np.multiply(error, X[:, j])
            temp[0, j] = theta[0, j] - ((alpha / len(X)) * np.sum(term))
        
        theta = temp
        cost[i] = computeCost(X, y, theta)

    return theta, cost

初始化一些附加變數：學習速率α和要執行的迭代次數。
```
alpha = 0.01
iters = 1000
```
現在讓我們執行梯度下降演算法來將我們的引數θ適合於訓練集。
```
g, cost = gradientDescent(X, y, theta, alpha, iters)
print(g)
```
得到了一個g的矩陣：[[-3.24140214 1.1272942 ]]。
最後，我們可以使用我們擬合的引數計算訓練模型的代價函式（誤差）。
```
result1 = computeCost(X, y, g)
print(result1)
```
得到最後的代價值為：4.51595550308。

現在我們來繪製線性模型以及資料，直觀地看出它的擬合。

x = np.linspace(data.Population.min(), data.Population.max(), 100)
f = g[0, 0] + (g[0, 1] * x)

fig, ax = plt.subplots(figsize = (12, 8))
ax.plot(x, f, 'r', label = 'Prediction')
ax.scatter(data.Population, data.Profit, label = 'Traning Data')
ax.legend(loc = 2)
ax.set_xlabel('Population')
ax.set_ylabel('Profit')
ax.set_title('Predicted Profit vs. Population Size')
plt.show()

結果如下圖所示：
由於梯度方程式函式也在每個訓練迭代中輸出一個代價的向量，所以我們也可以繪製。請注意，代價總是降低說明這是凸優化問題的一個例子。
```
fig, ax = plt.subplots(figsize = (12,8))
ax.plot(np.arange(iters), cost, 'r')
ax.set_xlabel('Iterations')
ax.set_ylabel('Cost')
ax.set_title('Error vs. Training Epoch')
plt.show()
```

演算法工程師修仙之路：吳恩達機器學習作業（一）

吳恩達機器學習筆記及作業程式碼實現中文版第一個程式設計作業：單變數線性迴歸（python程式碼實現）一元線性迴歸問題描述在本練習的這一部分中，您將使用只有單變數的線性迴歸方法預測餐車的利潤。假設你是一家連鎖餐廳的執行長，正在

演算法工程師修仙之路：吳恩達機器學習（九）

吳恩達機器學習筆記及作業程式碼實現中文版神經網路引數的反向傳播演算法代價函式假設神經網路的訓練樣本有 m

演算法工程師修仙之路：吳恩達機器學習（八）

吳恩達機器學習筆記及作業程式碼實現中文版第六章神經網路學習特徵和直觀理解從本質上講，神經網路能夠通過學習得出其自身的一系列特徵。神經網路中，單層神經元（無中間層）的計算可用來表示邏輯運算，比如邏輯與(AND)、邏輯或(OR)。邏輯

演算法工程師修仙之路：吳恩達機器學習（七）

吳恩達機器學習筆記及作業程式碼實現中文版第六章神經網路學習非線性假設無論是線性迴歸還是邏輯迴歸都有這樣一個缺點：當特徵太多時，計算的負荷會非常大。使用非線性的多項式項，能夠幫助我們建立更好的分類模型。假設我們有非常多的特徵，例如大於 100 個

演算法工程師修仙之路：吳恩達機器學習（六）

吳恩達機器學習筆記及作業程式碼實現中文版第五章正則化過擬合問題線性迴歸和邏輯迴歸能夠有效地解決許多問題，但是當將它們應用到某些特定的機器學習應用時，會遇到過擬合(over-fitting)的問題，可能會導致它們效果很差。正則化(regulari

演算法工程師修仙之路：吳恩達機器學習（五）

吳恩達機器學習筆記及作業程式碼實現中文版第四章 Logistic迴歸簡化代價函式與梯度下降邏輯迴歸的代價函式： C

演算法工程師修仙之路：吳恩達機器學習（四）

吳恩達機器學習筆記及作業程式碼實現中文版第四章 Logistic迴歸分類在分類問題中，要預測的變數y是離散的值，邏輯迴歸 (Logistic Regression) 演算法是目前最流行使用最廣泛的一種學習演算法。在分類問題中，我們嘗試預測的是結果

演算法工程師修仙之路：吳恩達機器學習（三）

吳恩達機器學習筆記及作業程式碼實現中文版第三章多變數線性迴歸多維特徵現在我們對房價模型增加更多的特徵，例如房間數樓層等，構成一個含有多個變數的模型，模型中的特徵為

演算法工程師修仙之路：吳恩達機器學習（二）

吳恩達機器學習筆記及作業程式碼實現中文版第二章單變數線性迴歸模型描述我們使用一個監督學習演算法的例子：預測住房價格。我們要使用一個數據集，資料集包含俄勒岡州波特蘭市的住房價格。在這裡，我要根據不同房屋尺寸所售出的價格，畫出我的資

演算法工程師修仙之路：吳恩達機器學習（一）

吳恩達機器學習筆記及作業程式碼實現中文版第一章緒論：初識機器學習什麼是機器學習 Machine Learning(機器學習)是研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的效能。機器學習被用

演算法工程師修仙之路：吳恩達機器學習（十五）

吳恩達機器學習筆記及作業程式碼實現中文版第十章支援向量機大間隔分類器的數學原理假設我有兩個二維向量 u

演算法工程師修仙之路：吳恩達機器學習（十四）

吳恩達機器學習筆記及作業程式碼實現中文版第十章支援向量機直觀上對大間隔的理解人們有時將支援向量機看作是大間距分類器。支援向量機模型的代價函式，在左邊這裡我畫出了關於 z 的代價函式

演算法工程師修仙之路：吳恩達機器學習（十三）

吳恩達機器學習筆記及作業程式碼實現中文版第十章支援向量機優化目標在監督學習中，許多學習演算法的效能都非常類似，因此，重要的不是你該選擇使用學習演算法 A 還是學習演算法 B，而更重要的是，所建立的大量資料在應用這些演算法時，表現情況通常依賴於你的水平。比如你

演算法工程師修仙之路：吳恩達機器學習（十二）

吳恩達機器學習筆記及作業程式碼實現中文版第九章機器學習系統設計確定執行的優先順序以一個垃圾郵件分類器演算法為例進行討論。為了解決這樣一個問題，我們首先要做的決定是如何選擇並表達特徵向量

演算法工程師修仙之路：吳恩達機器學習（十一）

吳恩達機器學習筆記及作業程式碼實現中文版第八章應用機器學習的建議決定下一步做什麼獲得更多的訓練例項——通常是有效的，但代價較大，下面的方法也可能有效，可考慮先採用下面的幾種方法：嘗試減少特徵的數量；嘗試獲得更多的特徵

演算法工程師修仙之路：吳恩達機器學習（十）

吳恩達機器學習筆記及作業程式碼實現中文版第七章神經網路引數的反向傳播演算法理解反向傳播為了更好地理解反向傳播演算法，我們再來仔細研究一下前向傳播的原理：反向傳播演算法做的是：梯度檢測當我們對一個較為複雜

吳恩達機器學習作業（五）：支援向量機

目錄 1）資料預處理 2）Scikit-learn支援向量機 3）決策邊界比較 4）非線性SVM 5）最優超引數 6）垃圾郵件過濾器在本練習中，我們將使用支援向量機（SVM）來構建垃圾郵件分類器。我們將從一些簡單的2D資料集開始使用SVM來檢視它們的工作原理。

吳恩達機器學習課程（一）之梯度下降原理

梯度下降法對於線性迴歸分析，我們將假設函式定義為h(x)=θ0+θ1x1+⋯+θnxn 令x0=1，記x=(x0x1⋯xn),θ=⎛⎝⎜⎜⎜⎜θ0θ1⋮θn⎞⎠⎟⎟⎟⎟ 因為假設函式與引數θ有關，記hθ(x)=h(x)=xθ 對於每一

吳恩達機器學習筆記（一），含作業及附加題答案連結

吳恩達機器學習筆記（一）標籤（空格分隔）：機器學習吳恩達機器學習筆記一一機器學習簡介機器學習的定義監督學習非監督學習

演算法工程師修仙之路：python3官方文件筆記（三）

本筆記來自於python手冊的中文版 Python 簡介 Python 中的註釋以 # 字元起始，直至實際的行尾。註釋可以從行首開始，也可以在空白或程式碼之後，但是不出現在字串中。文字字串中的 # 字元僅僅表示 # 。程式碼中的註釋

演算法工程師修仙之路：吳恩達機器學習作業（一）

吳恩達機器學習筆記及作業程式碼實現中文版

第一個程式設計作業：單變數線性迴歸（python程式碼實現）

一元線性迴歸

相關推薦