機器學習 | 吳恩達機器學習第三週程式設計作業(Python版)

阿新 • • 發佈：2018-11-14

實驗指導書下載密碼:fja4

本篇部落格主要講解，吳恩達機器學習第三週的程式設計作業，作業內容主要是利用邏輯迴歸演算法(正則化)進行二分類。實驗的原始版本是用Matlab實現的，本篇部落格主要用Python來實現。

1.實驗包含的檔案

2.使用邏輯迴歸演算法(不帶正則化)進行二分類

3.邏輯迴歸演算法(不帶正則化)進行二分類完整專案程式碼

4.利用邏輯迴歸演算法(帶正則化)進行二分類

5.邏輯迴歸演算法(正則化)進行二分類完整專案程式碼

1.實驗包含的檔案

檔名稱	含義
ex2.py	邏輯迴歸演算法(不帶正則化)主程式
ex2_reg.py	邏輯迴歸演算法(帶正則化)主程式
ex2data1.txt	第一個實驗的訓練資料集
ex2data2txt	第二個實驗的訓練資料集
mapFeature.py	在原始輸入特徵基礎上生成新的多項式特徵的程式
plotDecisionBoundary.py	繪製決策邊界的程式
plotData.py	視覺化待分類資料的程式
sigmoid.py	Sigmoid函式
costFunction.py	計算邏輯迴歸(不帶正則化）代價函式的程式
predict.py	邏輯迴歸測試函式
costFunctionReg.py	計算邏輯迴歸(帶正則化）代價函式的程式

實驗任務：編寫紅色部分程式的關鍵程式碼。

2.使用邏輯迴歸演算法(不帶正則化)進行二分類

開啟主程式ex2.py

data = np.loadtxt('ex2data1.txt', delimiter=',') #讀取txt檔案 每一行以','分隔
X = data[:, 0:2] #前兩列為原始輸入特徵   分別兩門考試的成績
y = data[:, 2]   #第三列是輸出變數(標籤)  二分類 0/1  1代表通過 0代表未通過

'''第1部分 視覺化訓練資料集'''
print('Plotting Data with + indicating (y = 1) examples and o indicating (y = 0) examples.')

plot_data(X, y)

plt.axis([30, 100, 30, 100])  #設定x,y軸的取值範圍
plt.legend(['Admitted', 'Not admitted'], loc=1)  #設定圖例
plt.xlabel('Exam 1 score')   #x軸標題  考試1成績
plt.ylabel('Exam 2 score')   #y軸標題  考試2成績

編寫視覺化程式plotData.py

def plot_data(X, y):
    plt.figure()

    postive=X[y==1]  #分離正樣本
    negtive=X[y==0]  #分離負樣本
    
    plt.scatter(postive[:,0],postive[:,1],marker='+',c='red',label='Admitted') #畫出正樣本
    plt.scatter(negtive[:,0],negtive[:,1],marker='o',c='blue',label='Not Admitted') #畫出負樣本

檢視視覺化效果

計算邏輯迴歸的代價函式和梯度

'''第2部分 計算代價函式和梯度'''


(m, n) = X.shape #m樣本數 n原始輸入特徵數


X = np.c_[np.ones(m), X] #特徵矩陣X前加一列1  方便矩陣運算

#初始化模型引數為0
initial_theta = np.zeros(n + 1)

# 計算邏輯迴歸的代價函式和梯度
cost, grad = cf.cost_function(initial_theta, X, y)

np.set_printoptions(formatter={'float': '{: 0.4f}\n'.format}) #設定輸出格式

#與期望值進行比較 驗證程式的正確性
print('Cost at initial theta (zeros): {:0.3f}'.format(cost)) #0引數下的代價函式值
print('Expected cost (approx): 0.693')
print('Gradient at initial theta (zeros): \n{}'.format(grad)) #0引數下的梯度值
print('Expected gradients (approx): \n-0.1000\n-12.0092\n-11.2628')

# 用非零引數值計算代價函式和梯度
test_theta = np.array([-24, 0.2, 0.2])
cost, grad = cf.cost_function(test_theta, X, y)
#與期望值進行比較 驗證程式的正確性
print('Cost at test theta (zeros): {}'.format(cost))#非0引數下的代價函式值
print('Expected cost (approx): 0.218')
print('Gradient at test theta: \n{}'.format(grad))
print('Expected gradients (approx): \n0.043\n2.566\n2.647')#非0引數下的代價函式值

編寫sigmoid函式sigmoid.py

def sigmoid(z):
    g = np.zeros(z.size)
    
    g=1/(1+np.exp(-z))

    return g

編寫計算代價函式和梯度的程式costFunction.py

def h(theta,X): #假設函式
    return sigmoid(np.dot(X,theta))

def cost_function(theta, X, y):
    m = y.size #樣本數

   
    cost = 0
    grad = np.zeros(theta.shape)
    
    myh=h(theta,X)  #得到假設函式值
    term1=-y.dot(np.log(myh))
    term2=(1-y).dot(np.log(1-myh))
    cost=(term1-term2)/m
    
    grad=(myh-y).dot(X)/m

    return cost, grad

證明我們的程式碼是正確的。

訓練分類器，並用高階優化方法fmin_bfgs求解最優引數

'''第3部分 用高階優化方法fmin_bfgs求解最優引數'''

#可以把高階優化想像成梯度下降法 只不過不用人工設定學習率
'''
    fmin_bfgs優化函式 第一個引數是計算代價的函式 第二個引數是計算梯度的函式 引數x0傳入初始化的theta值
    maxiter設定最大迭代優化次數
'''
def cost_func(t):  #單獨寫一個計算代價的函式  返回代價函式值
    return cf.cost_function(t, X, y)[0]


def grad_func(t): #單獨寫一個計算梯度的函式 返回梯度值
    return cf.cost_function(t, X, y)[1]


# 執行高階優化方法
theta, cost, *unused = opt.fmin_bfgs(f=cost_func, fprime=grad_func, x0=initial_theta, maxiter=400, full_output=True, disp=False)

#列印最優的代價函式值和引數值  與期望值比較 驗證正確性
print('Cost at theta found by fmin: {:0.4f}'.format(cost))
print('Expected cost (approx): 0.203')
print('theta: \n{}'.format(theta))
print('Expected Theta (approx): \n-25.161\n0.206\n0.201')

# 畫出決策邊界
pdb.plot_decision_boundary(theta, X, y)

plt.xlabel('Exam 1 score')
plt.ylabel('Exam 2 score')

可以發現我們的結果和期望值差不多：

呼叫已經寫好的plotDecisionBoundary.py畫出決策邊界：

用訓練好的分類器進行預測，並計算在訓練集上的準確率

'''第4部分 用訓練好的分類器進行預測，並計算分類器在訓練集上的準確率'''

#假設一個學生 考試1成績45 考試2成績85  預測他通過的概率
prob = sigmoid(np.array([1, 45, 85]).dot(theta))
#與期望值進行比較 驗證正確性
print('For a student with scores 45 and 85, we predict an admission probability of {:0.4f}'.format(prob))
print('Expected value : 0.775 +/- 0.002')

# 計算分類器在訓練集上的準確率
p = predict.predict(theta, X)
#與期望值進行比較 驗證正確性
print('Train accuracy: {}'.format(np.mean(y == p) * 100))
print('Expected accuracy (approx): 89.0')

編寫預測程式predict.py

def predict(theta, X):
    m = X.shape[0] #樣本數

    p = np.zeros(m) #每個樣本預測的標籤

    p=sigmoid(X.dot(theta))  #每個樣本屬於正類的概率
    p[p>=0.5]=1  #概率大於等於0.5 認為屬於正類 標籤為1 否則為0
    p[p<0.5]=0
    return p

發現我們的結果和期望值差不多：

3.邏輯迴歸演算法(不帶正則化)進行二分類完整專案程式碼

下載連結下載密碼:546j

4.利用邏輯迴歸演算法(帶正則化)進行二分類

使用邏輯迴歸進行分類時，一種方案是直接使用原始輸入特徵進行運算；另一種是當輸入特徵比較少或分類效果不理想時時，可以考慮在原始輸入特徵的基礎上擴充一些新特徵，再進行邏輯迴歸。本小節的實驗就屬於第二種情況，該資料集視覺化後會發現線性不可分，所以僅用兩個原始輸入特徵是不可行的，需要擴充套件一些新特徵。

擴充的新特徵多一些沒關係，訓練過程中會自動篩選對分類效果貢獻大的特徵，體現在求解的最優引數上，一般不重要的特徵，前面的引數都接近於0.

開啟主程式ex2_reg.py

data = np.loadtxt('ex2data2.txt', delimiter=',') #載入txt格式訓練資料集 每一行用','分隔 
X = data[:, 0:2]  #前兩列是原始輸入特徵（2）
y = data[:, 2]  #最後一列是標籤 0/1

plot_data(X, y)  #視覺化訓練集

plt.xlabel('Microchip Test 1') 
plt.ylabel('Microchip Test 2')
plt.legend(['y = 1', 'y = 0'])#圖例

input('Program paused. Press ENTER to continue')

'''第1部分 增加新的多項式特徵，計算邏輯迴歸(正則化)代價函式和梯度'''
X = mf.map_feature(X[:, 0], X[:, 1])


initial_theta = np.zeros(X.shape[1])


lmd = 1 #正則化懲罰項係數

# 計算引數為0時的代價函式值和梯度
cost, grad = cfr.cost_function_reg(initial_theta, X, y, lmd)

#與期望值比較 驗證正確性
np.set_printoptions(formatter={'float': '{: 0.4f}\n'.format})
print('Cost at initial theta (zeros): {}'.format(cost))
print('Expected cost (approx): 0.693')
print('Gradient at initial theta (zeros) - first five values only: \n{}'.format(grad[0:5]))
print('Expected gradients (approx) - first five values only: \n 0.0085\n 0.0188\n 0.0001\n 0.0503\n 0.0115')

input('Program paused. Press ENTER to continue')


test_theta = np.ones(X.shape[1])
# 計算引數非0（1）時的代價函式值和梯度
cost, grad = cfr.cost_function_reg(test_theta, X, y, lmd)
#與期望值比較 驗證正確性
print('Cost at test theta: {}'.format(cost))
print('Expected cost (approx): 2.13')
print('Gradient at test theta - first five values only: \n{}'.format(grad[0:5]))
print('Expected gradients (approx) - first five values only: \n 0.3460\n 0.0851\n 0.1185\n 0.1506\n 0.0159')

編寫視覺化程式plotData.py

def plot_data(X, y):
    plt.figure()

    postive=X[y==1] #取出正樣本
    negtive=X[y==0] #取出負樣本
    
    plt.scatter(postive[:,0],postive[:,1],marker='x',c='red',label='y=1')
    plt.scatter(negtive[:,0],negtive[:,1],marker='o',c='blue',label='y=0')

檢視已經寫好的特徵對映程式mapFeature.py

在原始輸入特徵（兩個）基礎上增加新的多項式特徵：

def map_feature(x1, x2): #生成新的多項式特徵
    degree = 6

    x1 = x1.reshape((x1.size, 1))
    x2 = x2.reshape((x2.size, 1))
    result = np.ones(x1[:, 0].shape) #result初始為一個列向量 值全為1

    for i in range(1, degree + 1):
        for j in range(0, i + 1):
            result = np.c_[result, (x1**(i-j)) * (x2**j)]  #不斷拼接新的列 擴充特徵矩陣

    return result

編寫邏輯迴歸(正則化)的代價函式和梯度計算程式costFunctionReg.py

注意不懲罰第一個引數。

def h(theta,X): #假設函式
    return sigmoid(X.dot(theta))

def cost_function_reg(theta, X, y, lmd):
    m = y.size

    cost = 0
    grad = np.zeros(theta.shape)
    
    myh=h(theta,X) #假設函式值
    term1=-y.dot(np.log(myh))
    term2=(1-y).dot(np.log(1-myh))
    term3=(lmd/(2*m))*(theta[1:].dot(theta[1:])) #不懲罰第一項
    cost=(term1-term2)/m+term3

    grad=(myh-y).dot(X)/m
    grad[1:]+=(lmd/m)*theta[1:]

    return cost, grad

與期望值進行比較，差不多，說明我們的程式是正確的：

資料集視覺化效果

訓練與預測

'''第2部分 嘗試不同的懲罰係數[0,1,10,100],分別利用高階優化演算法求解最優引數，分別計算訓練好的分類器在訓練集上的準確率，
並畫出決策邊界
 '''

initial_theta = np.zeros(X.shape[1])

# Set regularization parameter lambda to 1 (you should vary this)
lmd = 1 #需要改變這個值

# Optimize
def cost_func(t):
    return cfr.cost_function_reg(t, X, y, lmd)[0]

def grad_func(t):
    return cfr.cost_function_reg(t, X, y, lmd)[1]

theta, cost, *unused = opt.fmin_bfgs(f=cost_func, fprime=grad_func, x0=initial_theta, maxiter=400, full_output=True, disp=False)


print('Plotting decision boundary ...')
pdb.plot_decision_boundary(theta, X, y)
plt.title('lambda = {}'.format(lmd))

plt.xlabel('Microchip Test 1')
plt.ylabel('Microchip Test 2')


p = predict.predict(theta, X)

print('Train Accuracy: {:0.4f}'.format(np.mean(y == p) * 100))
print('Expected accuracy (with lambda = 1): 83.1 (approx)')

編寫預測函式

def predict(theta, X):
    m = X.shape[0]

    p = np.zeros(m)

    p=sigmoid(X.dot(theta))
    p[p>=0.5]=1
    p[p<0.5]=0

    return p

嘗試不同的懲罰係數值

$\lambda =1$ 時：

視覺化決策邊界，檢視分類效果：

與期望值進行比較，差不多，說明我們的程式是正確的：

$\lambda =0$ 時：

相當於不進行正則化。

視覺化決策邊界，檢視分類效果：

雖然此時分類效果看起來更好，在訓練集上的準確率更高，但是很有可能出現過擬合，模型泛化能力比較差。

$\lambda =10$ 時：

視覺化決策邊界，檢視分類效果：

此時，正則化懲罰係數有些大，分類效果不太好以及在訓練集上的準確率不太高，應該稍微減小一下。

$\lambda =100$ 時：

視覺化決策邊界，檢視分類效果：

此時，正則化懲罰係數有些過大，分類效果很不好以及在訓練集上的準確率很低，應該大幅度減小一下。

綜上，在訓練過程中，需要新增正則化懲罰項防止過擬合，但懲罰係數要合理設定，過大過小都不行。

5.邏輯迴歸演算法(正則化)進行二分類完整專案程式碼

下載連結下載密碼:73we

深度學習-吳恩達第一課第三週課程作業

第二週的課程作業是利用邏輯迴歸來訓練一個分類器來辨別一張圖片是否為貓，這周老師講了單隱層的神經網路，所以先看看利用這個模型能否在上次作業的基礎上對訓練準確度作出改善訓練一個神經網路神經網路分為幾層，隱藏層中包含幾個神經元，使用的啟用函式初始化引數 W（i）和

機器學習 | 吳恩達機器學習第三週程式設計作業(Python版)

實驗指導書下載密碼:fja4 本篇部落格主要講解，吳恩達機器學習第三週的程式設計作業，作業內容主要是利用邏輯迴歸演算法(正則化)進行二分類。實驗的原始版本是用Matlab實現的，本篇部落格主要用Python來實現。目錄 1.實驗包含的檔案 2.使用邏

機器學習 | 吳恩達機器學習第八週程式設計作業(Python版）

實驗指導書下載密碼:higl 本篇部落格主要講解，吳恩達機器學習第八週的程式設計作業，主要包含KMeans實驗和PCA實驗兩部分。原始實驗使用Matlab實現，本篇部落格提供Python版本。目錄 1.實驗包含的檔案 2.KMeans實驗 3.K-me

機器學習 | 吳恩達機器學習第七週程式設計作業(Python版)

實驗指導書下載密碼:a15g 本篇部落格主要講解，吳恩達機器學習第七週的程式設計作業，包含兩個實驗，一是線性svm和帶有高斯核函式的svm的基本使用；二是利用svm進行垃圾郵件分類。原始實驗使用Matlab實現，本篇部落格提供Python版本。目錄 1.

機器學習 | 吳恩達機器學習第六週程式設計作業(Python版）

實驗指導書下載密碼:4t4y 本篇部落格主要講解，吳恩達機器學習第六週的程式設計作業，作業內容主要是實現一個正則化的線性迴歸演算法，涉及本週講的模型選擇問題，繪製學習曲線判斷高偏差/高方差問題。原始實驗使用Matlab實現，本篇部落格提供Python版本。目錄 1.實驗包

吳恩達 deep learning 第三週淺層神經網路

文章目錄神經網路概覽神經網路的表示計算神經網路的輸出多個例子中的向量化啟用函式為什麼需要非線性啟用函式啟用函式的導數神經網路的梯度下降

tensorflow+ tutorial 吳恩達第二課第三週作業

TensorFlow Tutorial Welcome to this week's programming assignment. Until now, you've always used numpy to build neural networks. Now we will step you

機器學習 | 吳恩達機器學習第四周程式設計作業(Python版本)

實驗指導書下載密碼:u8dl 本篇部落格主要講解，吳恩達機器學習第四周的程式設計作業，作業內容主要是對手寫數字進行識別，是一個十分類問題，要求使用兩種不同的方法實現：一是用之前講過的邏輯迴歸實現手寫數字識別，二是用本週講的神經網路實現手寫數字

機器學習 | 吳恩達機器學習第四周學習筆記

課程視訊連結第四周課件下載密碼:kx0q 上一篇部落格主要介紹了第三週的課程的內容，主要講解分類問題，引入了邏輯迴歸模型來解決分類問題，並詳細的介紹了邏輯迴歸模型的細節，包括假設函式，代價函式，優化求解方法包括之前學習的梯度下降法和更高

機器學習 | 吳恩達機器學習第六週學習筆記

課程視訊連結第六週PPT 下載密碼:zgkq 本週主要講解了如何設計機器學習系統和如何改進機器學習系統，包括一些模型選擇的方法，模型效能的評價指標，模型改進的方法等。目錄一、應用機器學習建議 1.決定下一步做什麼 2.評估假設函式 3.模型選擇和訓練、驗

機器學習 | 吳恩達機器學習第八週學習筆記

課程視訊連結第八週PPT 下載密碼:qedd 上週主要講解了支援向量機SVM的原理包括優化目標、大間隔以及核函式等SVM核心內容，以及SVM的使用。本週主要講解經典的無監督聚類演算法k-means，包括k-means的優化目標，原理以及一些引數設定細節；和降維演算法PCA的原理，

機器學習 | 吳恩達機器學習第七週學習筆記

課程視訊連結第七週PPT 下載密碼:tmss 上週主要講解了如何設計機器學習系統和如何改進機器學習系統，包括一些模型選擇的方法，模型效能的評價指標，模型改進的方法等。本週主要講解支援向量機SVM的原理包括優化目標、大間隔以及核函式等SVM核心內容，以及SVM的使用。 &nbs

機器學習 | 吳恩達機器學習第三週學習筆記

第三週PPT彙總下載連結:https://pan.baidu.com/s/101uY5KV_2i3Ey516DYma_A 密碼:8o4e 上一篇部落格主要介紹了第二週的課程的內容，包括多變數線性迴歸，使用梯度下降法求解多變數線性迴歸的實用技巧，特徵縮放與模型特徵選擇並

Coursera-機器學習（吳恩達）第三週-程式設計作業

1、邏輯迴歸邏輯迴歸與線性迴歸的主要區別在於假設函式，邏輯迴歸中的假設函式： hθ(x) = g(θ'x)=sgmoid(θ’

機器學習 | 吳恩達機器學習第二週程式設計作業(Python版）

實驗指導書下載密碼:hso0 本篇部落格主要講解，吳恩達機器學習第二週的程式設計作業，作業內容主要是實現單元/多元線性迴歸演算法。實驗的原始版本是用Matlab實現的，本篇部落格主要用Python來實現。目錄 1.實驗包含的檔案 2.單元

Coursera 吳恩達《神經網路與深度學習》第三週程式設計作業

# Package imports import numpy as np import matplotlib.pyplot as plt from testCases import * import sklearn import sklearn.datasets impo

深度學習-吳恩達第一課第四周課程作業

在前面兩節課的基礎上，這次作業是訓練一個N層神經網路，來判斷一張圖片是否有貓，實現過程其實和第三週很相似，因為層數不確定，所以在向前傳播和反向傳播的時候會用到for迴圈，程式碼相對而言反而更精簡了。貼出的程式碼可能和老師給的模板不一樣，我沒有看到老師的原版課程作業，也是在網上

吳恩達第一課第三周隨筆

imu tro 廣播最終表示調用大小有關使用 2.1 雙層神經網絡圖 1 圖 2 圖1是一個雙層網絡模型，實際上有三層，但是通常把輸入層給忽略掉稱為輸入層註意層了，圖1層有4個節點，圖2只要1個，所以圖1 應該是一個（4,3）的矩陣，圖2的是

網易雲深度學習第一課第三週程式設計作業

具有一個隱藏層的平面資料分類第三週的程式設計任務：構建一個含有一層隱藏層的神經網路，你將會發現這和使用邏輯迴歸有很大的不同。首先先匯入在這個任務中你需要的所有的包。 -numpy是Python中與科學計算相關的基礎包 -sklearn提供簡單高效

《深度學習——Andrew Ng》第四課第三週程式設計作業

第三週的課程是目標檢測，程式設計作業是以yolo網路為主。程式設計作業的主要部分是對yolo網路輸出進行 anchor boxes過濾、IOU過濾、非極大抑制處理。理論知識交併比（Intersection-over-Union，IoU），目標檢測中使

機器學習 | 吳恩達機器學習第三週程式設計作業(Python版)

1.實驗包含的檔案

2.使用邏輯迴歸演算法(不帶正則化)進行二分類

3.邏輯迴歸演算法(不帶正則化)進行二分類完整專案程式碼

4.利用邏輯迴歸演算法(帶正則化)進行二分類

5.邏輯迴歸演算法(正則化)進行二分類完整專案程式碼

相關推薦