機器學習初步瞭解

阿新 • • 發佈：2019-01-16

初學機器學習，作為一個入門的新手，且第一次寫部落格，因為時間比較多同時也為了理解地更加深刻，就把自己的想法寫出來，將來如果需要用到的話，也方便找到，理解地可能不是很準確，望大家理解。

重點內容
對機器學習的理解，所謂機器學習，就是機器從資料中學習，機器從資料中學出規律，然後運用到新的資料中，在機器學習中，前者稱為訓練集，後者稱為測試集。
學機器學習，我們第一個往往學的是線性迴歸（linear regression）,在這裡，我從吳恩達教授講的例子說起，吳恩達講的是一個房屋價格與面積的關係，已知一部分房屋的面積與其價格，讓我們預測新的房子的價格。
房屋價格與面積的分佈關係

我們的目的是要找到一條直線，是的這些點儘量要靠攏這條直線。那麼要如何找到這條直線呢？
接下來，我們就要建立一個模型，我們設房屋面積為X，那麼房屋的價格可以用下式來表示：

上面的關係式中，X是特徵，h(x)是標籤，在本例中特徵可以是房屋面積，房屋的臥室數目，房屋所處的樓層，只要是能夠影響或者決定價格的因素都可以算，而theta(抱歉，我找不到Mathtype編輯器在哪）是引數，可以稱之為權重，也就是特徵能夠對標籤的貢獻是多大。
那麼，問題又來了，我們該如何選擇theta才能使得這個模型是相對準確的呢，在這裡我們需要定義一個損失函式，也稱為懲罰函式，損失函式衡量的是預測值與真實值之間的差異。損失函式定義如下：

之所以這樣定義損失是因為用數學問題很好解決，你也可以定義成其他方式，比如差的絕對值函式。
從上式看出，損失函式是一個二次函式，也就是說他是一個凸函式，具有全域性最優解，也是因為它具有凸函式的性質，它才可以用梯度下降演算法來解決，事實上，無論具有多少特徵，也改變不了損失函式具有全域性最優解的本質，例如當具有兩個特徵時，是一個碗狀曲面，在本例中，損失函式是一個二次函式，我畫了一個二次函式：損失函式形狀

損失函式就是上面圖的左右上下平移。接下來，我們就要求解theta了，我們的目的是要到達最低點，也就是讓損失函式最小，在這裡我們就想到了梯度，梯度是方向向量，因為某一點的梯度代表的是損失函式下降最快的方向，所以我們用導數更新theta.
引數更新

為什麼是“減號”，我們來看損失函式，當某處的斜率是負值時，我們要增加theta,這樣就會離目標更近，當斜率是正值時，我們要減小theta,因此是“減號”。注意，損失函式的橫軸代表theta.
我寫了一個程式碼，是用的python.
程式碼如下：

import matplotlib.pyplot as plt                
import numpy as np  
from numpy  import *                        
# Load the diabetes dataset       載入資料集
diabetes = datasets.load_diabetes()


# Use only one feature  該資料共6維，取第三列
diabetes_X = diabetes.data[:, np.newaxis, 2]

# Split the data into training/testing sets  
diabetes_X_train = diabetes_X[:-20]   #訓練集為除去後面的20個
##############
diabetes_X_train1=diabetes_X
##############
#diabetes_X_test = diabetes_X[-20:]    #測試集為後20個

# Split the targets into training/testing sets
diabetes_y_train = diabetes.target[:-20]   #同
############
diabetes_y_train1=diabetes.target
#plt.scatter(diabetes_X_train1, diabetes_y_train1,  color='black')
############
#定義loss function
X=diabetes_X_train1
y=diabetes_y_train1
w=np.zeros((2,1))
m=len(X)
X0=np.ones((1,m), dtype='float64')
XX=vstack((X0,X.T))#垂直連線函式
#estimation=np.dot(w.T,XX)
#J=0.5*np.dot(estimation-y,(estimation-y).T)
J0=np.zeros((1000,1),dtype='float64')
#梯度下降
#迭代次數1000，學習率0.1
lamada=0.1
iritation=1000
for i in range(1000):
    estimation=np.dot(w.T,XX)
    w0=w[0]-0.1/m*np.sum(estimation-y)
    w1=w[1]-0.1/m*np.dot((estimation-y),X)
    w[0]=w0
    w[1]=w1
    J0[i]=0.5/m*np.dot(estimation-y,(estimation-y).T)
plt.scatter(diabetes_X_train1, diabetes_y_train1,  color='black')  
plt.scatter(X.T,np.dot(w.T,XX), color='green', linewidth=1)
#plt.scatter(diabetes_X_train1[-20:], diabetes_y_train1[-20:],  color='black') 
#plt.plot(X.T[-20:],np.dot(w.T,XX)[-20:], color='green', linewidth=1)
plt.show()
t=arange(1000)
plt.plot(t,J0,color='red',linewidth=3)
plt.xticks(())
plt.yticks(())
plt.show()
print("引數為：" ,w)
#總結一下，迭代過程中，估計值也會隨著引數的迭代而改變，第二，通常會除以一個m,
#雖然我不知道為什麼沒有加m就會迭代不出來，反正我的是這樣，為什麼那條直線用plot畫不出來
#而我要畫scatter圖，為什麼，最終得到的引數是對的。
    先寫到這裡，如有錯誤歡迎指正。

機器學習初步瞭解

初學機器學習，作為一個入門的新手，且第一次寫部落格，因為時間比較多同時也為了理解地更加深刻，就把自己的想法寫出來，將來如果需要用到的話，也方便找到，理解地可能不是很準確，望大家理解。

機器學習初步瞭解

機器學習，瞭解一下？

Spring學習——初步瞭解(一)

機器學習初步探索

機器學習入門-瞭解相關概念

機器學習應該瞭解的十大演算法

機器學習01-簡單瞭解

深入瞭解機器學習之降低損失：迭代方法

深入瞭解機器學習之降低損失 (Reducing Loss)：梯度下降法

深入瞭解機器學習 (Descending into ML)：訓練與損失

瞭解機器學習、資料探勘、人工智慧的關係。

不得不瞭解的機器學習面試知識點

機器學習第7天：深入瞭解邏輯迴歸

關於機器學習你必須瞭解的十個真相

ITK 學習筆記1（初步瞭解）

pygame學習教程（二）初步瞭解pygame

淺入瞭解深度學習&&機器學習&&模式識別

【GANs學習筆記】（一）初步瞭解GANs

深入瞭解機器學習之降低損失 (Reducing Loss)：學習速率

深入瞭解機器學習之使用 TensorFlow 的起始步驟 (First Steps with TensorFlow)：工具包

機器學習初步瞭解

初學機器學習，作為一個入門的新手，且第一次寫部落格，因為時間比較多同時也為了理解地更加深刻，就把自己的想法寫出來，將來如果需要用到的話，也方便找到，理解地可能不是很準確，望大家理解。

相關推薦