吳恩達機器學習作業程式碼1

阿新 • • 發佈：2018-11-08

一：當訓練集為1維時

#進行資料分析所需庫，可以看做是對numpy工具的補充
import pandas as pd
import numpy as np

#應該把Seaborn視為matplotlib的補充,作圖所用工具，在大多數情況下使用seaborn就能做出很具有吸引力的圖，而使用matplotlib就能製作具有更多特色的圖
import seaborn as sns
import matplotlib.pyplot as plt
#設定繪畫的圖示格式和顏色
sns.set(context="notebook", style="whitegrid", palette="dark 
")
#讀取資料並賦予列名，此時df共有兩列，列名分別為population和profit
df = pd.read_csv('ex1data1.txt', names=['population', 'profit'])


def get_x(df):
    #ones:格式化為一個m列的全為1的向量
    ones = pd.DataFrame({'ones':np.ones(len(df))})
    #將date格式化為ones向量右邊加上df矩陣的矩陣
    data = pd.concat([ones, df], axis=1)
    #返回data矩陣的前兩列，返回m * 2的矩陣 

    return data.iloc[:, :-1].as_matrix() # 這個操作返回 ndarray,不是矩陣


def get_y(df):
    #返回df矩陣的最後一列，返回m × 1的向量
    return np.array(df.iloc[:, -1])


def normalize_feature(df):
    # 特徵縮放,對df中的兩列資料分別進行特徵縮放 ：（x - x平均值）/ x方差
    return df.apply(lambda column: (column - column.mean())/column.std())


X = get_x(df)
 
print(X.shape, type(X)) #X為m × 2的矩陣
y = get_y(df)
print(y.shape, type(y)) #y為m × 1的向量

theta = np.zeros(X.shape[1])#X.shape[1]=2,代表特徵數n X.shape(0) = 97;X.shape(1) = 2;將theta初始化為2行的零向量（列向量）


def lr_cost(theta, X, y):
#     """
#     計算theta固定時，此時的代價函式值
#     X: R(m*n), m 樣本數, n 特徵數
#     y: R(m)
#     theta : R(n), 線性迴歸的引數
#     """
    m = X.shape[0]#m為樣本數

    #X矩陣和theta矩陣的點積所得矩陣（m × 1） - 矩陣y（m × 1）
    inner = X @ theta - y  # R(m*1)，X @ theta等價於X.dot(theta)

    #square_sum為inner的每個元素平方之和，即二範數
    square_sum = inner.T @ inner

    #得到此時代價函式的值
    cost = square_sum / (2 * m)

    return cost


#將代價函式對theta求導，即求梯度
def gradient(theta, X, y):
    #m為樣本數
    m = X.shape[0]

    #這裡的inner為代價函式對theta求導的結果
    inner = X.T @ (X @ theta - y)  # (m,n).T @ (m, 1) -> (n, 1)，X @ theta等價於X.dot(theta)

    return inner / m

#梯度下降函式
def batch_gradient_decent(theta, X, y, epoch, alpha=0.01):
#   擬合線性迴歸，返回引數和代價
#     epoch: 批處理的輪數
#     alpha: theta移動的步長
#     """

    #得到初始theta時的代價
    cost_data = [lr_cost(theta, X, y)]

    # 拷貝一份，不和原來的theta混淆
    _theta = theta.copy()

    #開始迭代epoch次
    for _ in range(epoch):
        #根據當前梯度更新theta
        _theta = _theta - alpha * gradient(_theta, X, y)
        #記錄此時的代價
        cost_data.append(lr_cost(_theta, X, y))

    return _theta, cost_data


#迭代500次求最小代價和所對應的theta
epoch = 500
final_theta, cost_data = batch_gradient_decent(theta, X, y, epoch)

# 計算最終的代價
lr_cost(final_theta, X, y)

#畫出代價函式值變化圖
#可以看到從第二輪代價資料變換很大，接下來平穩了
ax = sns.tsplot(cost_data, time=np.arange(epoch+1))
ax.set_xlabel('epoch')
ax.set_ylabel('cost')
plt.show()


b = final_theta[0] # intercept，Y軸上的截距
m = final_theta[1] # slope，斜率

#畫出原資料點和線性迴歸的最終結果
plt.scatter(df.population, df.profit, label="Training data")
plt.plot(df.population, df.population*m + b, label="Prediction")
plt.legend(loc=2)
plt.show()

二：當訓練集為多維時

當訓練集為多維時只需將上述程式碼稍作改動，完整程式碼如下：

#進行資料分析所需庫，可以看做是對numpy工具的補充
import pandas as pd
import numpy as np

#應該把Seaborn視為matplotlib的補充,作圖所用工具，在大多數情況下使用seaborn就能做出很具有吸引力的圖，而使用matplotlib就能製作具有更多特色的圖
import seaborn as sns
import matplotlib.pyplot as plt

#設定繪畫的圖示格式和顏色
sns.set(context="notebook", style="whitegrid", palette="dark")
#讀取資料並賦予列名，此時df共有兩列，列名分別為population和profit
df = pd.read_csv('ex1data2.txt', names=['square', 'bedrooms', 'price'])
df.head()



def get_x(df):
    #ones:格式化為一個m列的全為1的向量
    ones = pd.DataFrame({'ones':np.ones(len(df))})
    #將date格式化為ones向量右邊加上df矩陣的矩陣
    data = pd.concat([ones, df], axis=1)
    #返回data矩陣的前兩列，返回m * 2的矩陣
    return data.iloc[:, :-1].as_matrix() # 這個操作返回 ndarray,不是矩陣


def get_y(df):
    #返回df矩陣的最後一列，返回m × 1的向量
    return np.array(df.iloc[:, -1])


def normalize_feature(df):
    # 特徵縮放,對df中的兩列資料分別進行特徵縮放 ：（x - x平均值）/ x方差
    return df.apply(lambda column: (column - column.mean())/column.std())

data = normalize_feature(df) #特徵縮放

X = get_x(data)
print(X.shape, type(X)) #X為m × 2的矩陣
y = get_y(data)
print(y.shape, type(y)) #y為m × 1的向量

theta = np.zeros(X.shape[1])#X.shape[1]=2,代表特徵數n X.shape(0) = 97;X.shape(1) = 2;將theta初始化為2行的零向量（列向量）


def lr_cost(theta, X, y):
#     
#     計算theta固定時，此時的代價函式值
#     X: R(m*n), m 樣本數, n 特徵數
#     y: R(m)
#     theta : R(n), 線性迴歸的引數
#     
    m = X.shape[0]#m為樣本數

    #X矩陣和theta矩陣的點積所得矩陣（m × 1） - 矩陣y（m × 1）
    inner = X @ theta - y  # R(m*1)，X @ theta等價於X.dot(theta)

    #square_sum為inner的每個元素平方之和，即二範數
    square_sum = inner.T @ inner

    #得到此時代價函式的值
    cost = square_sum / (2 * m)

    return cost


#將代價函式對theta求導，即求梯度
def gradient(theta, X, y):
    #m為樣本數
    m = X.shape[0]

    #這裡的inner為代價函式對theta求導的結果
    inner = X.T @ (X @ theta - y)  # (m,n).T @ (m, 1) -> (n, 1)，X @ theta等價於X.dot(theta)

    return inner / m


#梯度下降函式
def batch_gradient_decent(theta, X, y, epoch, alpha=0.01):
#   擬合線性迴歸，返回引數和代價
#     epoch: 批處理的輪數
#     alpha: theta移動的步長
#     

    #得到初始theta時的代價
    cost_data = [lr_cost(theta, X, y)]

    # 拷貝一份，不和原來的theta混淆
    _theta = theta.copy()

    #開始迭代epoch次
    for _ in range(epoch):
        #根據當前梯度更新theta
        _theta = _theta - alpha * gradient(_theta, X, y)
        #記錄此時的代價
        cost_data.append(lr_cost(_theta, X, y))

    return _theta, cost_data


base = np.logspace(-1, -5, num=4)
candidate = np.sort(np.concatenate((base, base*3)))

epoch = 50

fig, ax = plt.subplots(figsize=(16, 9))

for alpha in candidate:
    _, cost_data = batch_gradient_decent(theta, X, y, epoch, alpha=alpha)
    ax.plot(np.arange(epoch+1), cost_data, label=alpha)

ax.set_xlabel('epoch', fontsize=18)
ax.set_ylabel('cost', fontsize=18)
ax.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.)
ax.set_title('learning rate', fontsize=18)
plt.show()
'''
#畫出代價函式值變化圖
#可以看到從第二輪代價資料變換很大，接下來平穩了
ax = sns.tsplot(cost_data, time=np.arange(epoch+1))
ax.set_xlabel('epoch')
ax.set_ylabel('cost')
plt.show()
'''

吳恩達機器學習作業程式碼1

一：當訓練集為1維時 #進行資料分析所需庫，可以看做是對numpy工具的補充 import pandas as pd import numpy as np #應該把Seaborn視為matplotlib的補充,作圖所用工具，在大多數情況下使用seaborn就能做出很具有吸引力的圖，而使用matplo

[吳恩達機器學習筆記]15.1-3非監督學習異常檢測算法/高斯回回歸模型

閾值訓練集 jpg -a 情況 color 訓練 ase 需要 15.異常檢測 Anomaly detection 覺得有用的話,歡迎一起討論相互學習~Follow Me 15.1問題動機 Problem motivation 飛機引擎異常檢測假想你是一個飛機引擎制造

演算法工程師修仙之路：吳恩達機器學習作業（一）

吳恩達機器學習筆記及作業程式碼實現中文版第一個程式設計作業：單變數線性迴歸（python程式碼實現）一元線性迴歸問題描述在本練習的這一部分中，您將使用只有單變數的線性迴歸方法預測餐車的利潤。假設你是一家連鎖餐廳的執行長，正在

[吳恩達機器學習筆記]15.1-3非監督學習異常檢測演算法/高斯回回歸模型

15.異常檢測 Anomaly detection 覺得有用的話,歡迎一起討論相互學習~Follow Me 15.1問題動機 Problem motivation 飛機引擎異常檢測

吳恩達機器學習作業（五）：支援向量機

目錄 1）資料預處理 2）Scikit-learn支援向量機 3）決策邊界比較 4）非線性SVM 5）最優超引數 6）垃圾郵件過濾器在本練習中，我們將使用支援向量機（SVM）來構建垃圾郵件分類器。我們將從一些簡單的2D資料集開始使用SVM來檢視它們的工作原理。

吳恩達機器學習作業Python實現(六)：SVM支援向量機

1 Support Vector Machines 1.1 Example Dataset 1 %matplotlib inline import numpy as np import pandas as pd import matplotlib.pyplot

Coursera 斯坦福吳恩達機器學習課程筆記 (1)

看了課程一週後發現忘光了，決定做一個筆記用作複習。如果涉及到侵權問題請聯絡我，我會立馬刪除並道歉。同時，禁止任何形式的轉載，包括全文轉載和部分轉載。如需使用請聯絡本人 [email protected]。如若發現侵權行為，我學過智慧財產權法的，嘿嘿第一週：基礎概念和

吳恩達機器學習作業Python實現(一)：線性迴歸

單變數線性迴歸在本部分的練習中，您將使用一個變數實現線性迴歸，以預測食品卡車的利潤。假設你是一家餐館的執行長，正在考慮不同的城市開設一個新的分店。該連鎖店已經在各個城市擁有卡車，而且你有來自城市的利潤和人口資料。您希望使用這些資料來幫助您選擇將哪個城市擴充

Coursera吳恩達機器學習課程總結筆記及作業程式碼——第1,2周

Linear’regression 發現這個教程是最入門的一個教程了，老師講的很好，也很通俗，每堂課後面還有程式設計作業，全程用matlab程式設計，只需要填寫核心程式碼，很適合自學。 1.1 Model representation 起始給出了

吳恩達機器學習學習筆記（四）（附作業程式碼註釋）

吳恩達機器學習學習筆記（四）標籤：機器學習吳恩達機器學習學習筆記四代價函式與反向傳播Costfunction and Backpropagation 一代價函式 1邏輯分類的評價函式

Coursera吳恩達機器學習課程總結筆記及作業程式碼——第5周神經網路續

Neural Networks:Learning 上週的課程學習了神經網路正向傳播演算法，這周的課程主要在於神經網路的反向更新過程。 1.1 Cost function 我們先回憶一下邏輯迴歸的價值函式 J(θ)=1m[∑mi=1y(i)log(hθ

Coursera吳恩達機器學習課程總結筆記及作業程式碼——第6周有關機器學習的小建議

1.1 Deciding what to try next 當你除錯你的學習演算法時，當面對測試集你的演算法效果不佳時，你會怎麼做呢？獲得更多的訓練樣本？嘗試更少的特徵？嘗試獲取附加的特徵？嘗試增加多項式的特徵？嘗試增加λ? 嘗試減小λ?

【吳恩達機器學習】學習筆記——1.5無監督學習

分類哪些 rep epm 朋友工作 style class 客戶 1 無監督學習：在不知道數據點的含義的情況下，從一個數據集中找出數據點的結構關系。 2 聚類算法：相同屬性的數據點會集中分布，聚集在一起，聚類算法將數據集分成不同的聚類。也就是說，機器不知道這些數據點具體

【吳恩達機器學習】學習筆記——2.1單變量線性回歸算法

工作方式樣本 body 聚類屬性 bsp 定義算法信息 1 回顧1.1 監督學習定義：給定正確答案的機器學習算法分類：（1）回歸算法：預測連續值的輸出，如房價的預測（2）分類算法：離散值的輸出，如判斷患病是否為某種癌癥1.2 非監督學習定義：不給定數據的信息的情況下

吳恩達機器學習筆記1-機器學習概述

可能 perf hat 定義視頻 nbsp 這樣的 spec 學習能力今天看了視頻的第一章-緒論：初識機器學習（Machine Learning） 1、定義： Arthur Samuel（1959）.Machine Learning:Field of study tha

吳恩達機器學習筆記（一），含作業及附加題答案連結

吳恩達機器學習筆記（一）標籤（空格分隔）：機器學習吳恩達機器學習筆記一一機器學習簡介機器學習的定義監督學習非監督學習

Coursera-吳恩達-機器學習-第七週-程式設計作業: Support Vector Machines

本次文章內容： Coursera吳恩達機器學習課程，第七週程式設計作業。程式語言是Matlab。本文只是從程式碼結構上做的小筆記，更復雜的推導不在這裡。演算法分兩部分進行理解，第一部分是根據code對演算法進行綜述，第二部分是程式碼。本次作業分兩個part，第一個是using SVM，第

機器學習 | 吳恩達機器學習第四周程式設計作業(Python版本)

實驗指導書下載密碼:u8dl 本篇部落格主要講解，吳恩達機器學習第四周的程式設計作業，作業內容主要是對手寫數字進行識別，是一個十分類問題，要求使用兩種不同的方法實現：一是用之前講過的邏輯迴歸實現手寫數字識別，二是用本週講的神經網路實現手寫數字

吳恩達機器學習第四周程式設計作業

lrCostFunction function [J, grad] = lrCostFunction(theta, X, y, lambda) %LRCOSTFUNCTION Compute cost and gradient for logistic regression with %reg

機器學習 | 吳恩達機器學習第二週程式設計作業(Python版）

實驗指導書下載密碼:hso0 本篇部落格主要講解，吳恩達機器學習第二週的程式設計作業，作業內容主要是實現單元/多元線性迴歸演算法。實驗的原始版本是用Matlab實現的，本篇部落格主要用Python來實現。目錄 1.實驗包含的檔案 2.單元

吳恩達機器學習作業程式碼1

相關推薦