機器學習（5）：機器學習的一個例項

大家都知道tensorflow（簡稱tf）是一個機器學習的框架，使用它就可以完成機器學習。那就用tf來演示一下怎麼做機器學習吧，這樣你就有一個具體的感受：原來是這樣的啊！

本文使用tensorflow做一次機器學習的演示。但是，tensorflow的理解跟使用，是可以作為一個獨立的專題來講解的，這個我再補充。

機器學習有兩個關鍵點，一個是樣本，一個是模型。樣本的作用，包括用於訓練（帶標籤）跟測試（帶或不帶標籤），大量特徵良好而標籤準確的訓練樣本，是關鍵。模型，簡單理解，就是一個函式，一個接受不斷調整引數以達到最佳預測狀態的函式，比如之前提到的簡單線性迴歸模型。

本文的“原型”是這個地址：https://colab.research.google.com/notebooks/mlcc/first_steps_with_tensor_flow.ipynb?hl=zh-cn#scrollTo=9ivCDWnwE2Zx，你可以查閱這個網頁的內容。

我會盡量用自己的話來講，突出重點，並且堅持“不要完整、不要完美”的思路。

（一）樣本

不同的問題場景，使用不同的樣本。有時，樣本的獲取或建立，是很耗時間，也是很關鍵的事情。

這裡，要解決的問題，是“預測房價”，而樣本已經有人準備好了，地址是這個：https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv

對於樣本的讀取與分析，使用pandas（之前有單獨介紹）。使用pandas讀取時，可以直接讀取這個地址，因為pandas支援聯網的遠端讀取，也可以把這個檔案下載到本地，再使用pandas來讀取。

小程先下載這個樣本檔案，比如使用這個命令：

curl -o housing.csv "https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv"

然後，使用pandas來讀取，展示一些內容，並檢視一般的統計資訊：

執行這段程式碼，效果如下：

這個樣本，是某個地區的房子的資訊，小程的目標是根據這些資訊，預測出在新的特徵資訊下（比如經緯度、房齡、面積等），會有什麼樣的median_house_value，即房子價值的中位數。

至此，已經解決了樣本的問題，這個樣本主要用於模型的訓練。

（二）模型

先來回顧一下機器學習的工作圖：

上圖的整體，為機器的迭代學習過程。這裡的“模型”，指的是整體的迭代學習過程，包括輸入、預測模型、權重調整與損失計算。

為了更好地組織與實現學習過程，小程對上圖的步驟加了劃分，請留意下圖的註釋：

（1）輸入

對於訓練（即訓練“預測模型”），需要輸入特徵與標籤的組合（即樣本）。這裡，預測標籤（也是目標）設定為房子價值的中位數即median_house_value，所以樣本的標籤也就設定為median_house_value。對於特徵，為了演示上的簡單，這裡選擇某個街道的房子總數即total_rooms做為單一特徵。

於是，訓練樣本的特徵與標籤就確定下來了，可以這樣寫程式碼來獲得：

以上把特徵與標籤明確下來了，但是，在把樣本（特徵與標籤的組合）設定給預測模型進行訓練的時候，還有一些“預處理”可以實施以獲得更好的訓練效果，這個預處理，包括把樣本轉換成tensorflow的Dataset切片、是否隨機抽取樣本進行訓練、資料重用的次數、迭代學習的次數、每次迭代使用的樣本數，等等。

這個預處理，也叫“輸入函式”，在預測模型執行訓練時，需要指定輸入函式。

在實現輸入函式之前，先講解幾個概念。

epoch，資料被（重複）使用的次數。比如epoch為1則所有樣本只使用一次，epoch為2則所有樣本使用兩次。比如有三個樣本為{a,b,c}，epoch為2時，就是使用2次，變成{a,b,c,a,b,c}，當然樣本的順序是可以打亂的。

迭代，一次迭代包括了標籤預測、損失計算與權重調整的過程，一次迭代一般只使用小批量（batch_size個）樣本。

step，迭代的總次數。

batch_size，每次迭代使用的樣本的個數（並不一定要所有樣本都使用上，比如小批量的梯度下降法）。

每次step（迭代），都呼叫一次輸入函式，返回指定大小的資料集，直至step次數處理完，或者樣本資料已經用完。

這個輸入函式可以這樣實現，請留意下圖中的解釋：

（2）預測模型

之前提到，簡單線性迴歸是一個簡單的預測模型，這個預測模型適用於從x到y的對映。本例中，就是從total_rooms預測出median_house_value，所以使用簡單線性迴歸模型即可解決問題。

在tf.estimator模組中，有一個LinearRegressor類，它的物件就是一個線性迴歸模型。

在建立LinearRegressor模型時，需要指定調整模型引數的優化器，這裡使用這前介紹的“小批量隨機梯度下降”的優化器，程式碼如下：

建立預測模型之後，就可以執行訓練了：

在建立預測模型時指定的梯度下降優化器，完成迭代學習過程中模型引數（比如權重）的調整。只要觸發訓練，這個優化器就會調整引數，這個過程不需要讀者介入，包括下面的損失計算，也是優化器完成的工作。而我們進行損失計算，是為了觀察收斂的情況，進而調整訓練的引數，而不是模型的引數（如權重，這個是tensorflow的引數調整器來做的）。

（3）損失計算

預測模型在訓練的過程中，會自動地，進行預測與損失計算，進而自動地調整模型的引數。

這一步，也叫評估。

需要注意，損失計算是建立預測模型時指定的優化器自動完成的事情，而這裡計算損失，是為了調整模型的訓練引數（比如步長、epoch等，這是你要做的事情）。

預測所有樣本，得到預測值，再把預測值與真實的標籤值，進行損失計算，分別計算出均方誤差（MSE）跟均根方誤差（RMSE），程式碼與執行效果如下：

以上對所有樣本進行了預測，並計算了誤差MSE跟RMSE，一般來說根據RMSE進行誤差大小的判斷即可，那麼，現在的RMSE值，到底有多大呢？可以看一下median_house_value的最大值跟最小值，再來理解一下，現在的RMSE值是一個什麼樣的概念，程式碼與效果如下：

由上圖的值來看，RMSE的值已經達到實際標籤值的一半的誤差，所以這個誤差是巨大的。

為了更直觀地觀察預測與實際值的差別，一個辦法是使用pandas的統計分析來對比，另一個辦法是繪製擬合線，這裡分別演示一下。

以下程式碼使用pandas進行分析，對比預測與實際值的差別，程式碼與效果如下：

另一個辦法是繪製當前誤差下的擬合線，程式碼與效果如下：

擬合線的目的是儘可能地擬合所有的點，但上圖只訓練了一次的模型，明顯沒有擬合的效果。為了得到更好的擬合效果，應該根據反饋的誤差資訊，調整訓練引數，並進行反覆的訓練。

（三）調整訓練引數

在樣本跟模型（包括輸入、建立預測模型、損失計算）確定下來之後，就可以反覆地訓練這個模型。

然後，根據反饋的誤差資訊，調整訓練引數。

這裡先“隨意”地設定一下訓練引數，再進行若干次訓練，來觀察一下誤差的資訊，把之前的程式碼調整一下，如下：

可以看到這樣的輸出：

上面演示的最終誤差還是很大，這時，為了讓模型取得更好的收斂，應該調整訓練引數，比如調整為：

train_model(learning_rate=0.0001, step=500, batch_size=10)

讀者可以嘗試使用不同的訓練引數，並留意誤差收斂的情況（某些訓練引數下誤差並不會一直減小）。

最終的效果，小程就不演示了，因為最終的效果不是重點，重點是你應該明白，為了取得更好的訓練效果，應該根據樣本的數量與質量（特徵的質量）來調整訓練引數（需要反覆試驗），一般來說，可以嘗試使用較小的learning_rate+較大的step+較大的batch_size進行訓練，但是，最終還是看效果，包括誤差收斂情況，還有最終的使用情況。

調整訓練引數，很有可能是一個反覆試驗的過程，就像是一個科學實驗，不斷重複“給出結論”、“驗證”、“調整結論”再次“驗證”的過程。

（四）使用模型進行預測

使用模型進行預測，也就是最終使用訓練後的模型，屬於測試模型的環節，方法類似於訓練過程中的predict的使用，我記得在“音訊標籤化”的講解時已經提過了，這裡不細說。

再羅索一下。模型簡單來說就是函式，一個接受調整引數的函式，可以不斷進化，得到更好的預測效果。對於模型，如果你不會寫，沒有關係，tensorflow包括了一些有效的模型，而且連調整模型引數的梯度優化器也內建了（調整引數的過程不用你介入）。模型的訓練引數怎麼設定，是你要上心的，而訓練引數的設定，跟樣本的數量與質量都有關係，還跟你的經驗有關係。另一方面，你最要上心的，是樣本怎麼來？你怎麼獲取或建立大量特徵良好的用於訓練的樣本？你要花掉多少時間？

總結一下，本文演示了機器學習的一個實戰的例子，流程上，包括樣本的獲取、模型的建立（包括樣本輸入、預測模型建立、梯度下降優化器指定、損失計算等）、訓練與訓練引數的調整、測試模型等。本文希望，能讓你對傳統機器學習的操作，有一個具體感性的認識。

機器學習（5）：機器學習的一個例項

（一）樣本

（二）模型

（1）輸入

（2）預測模型

（3）損失計算

（三）調整訓練引數

（四）使用模型進行預測

機器學習（5）：機器學習的一個例項

機器學習（二）：機器學習中的幾個基本概念

機器學習（一）：統計學習問題概述

機器學習（3）：機器的進化-迭代學習

mybatis學習（5）：關聯查詢的幾種方式

tensorflow學習（5）：變數管理

多執行緒學習（5）：synchronized 的基礎使用

three.js學習（5）：Renderer

caffe入門學習（5）：繪製網路結構圖

mysql學習（5）：多表之間的關係

Spring學習（5）：SpringAOP的5種增強型別

MFC學習（三）：專案學習

python學習（三）：matplotlib學習

【機器學習】（5）：貝葉斯決策定理

機器學習回顧篇（5）：樸素貝葉斯演算法

Andrew Ng機器學習（零）：什麽是機器學習

TensorFlow系列專題（二）：機器學習基礎

TensorFlow系列專題（一）：機器學習基礎

人工智慧入門（三）：機器學習問題的基本型別

機器學習（5）特征值的處理總結和缺失值的處理

機器學習（5）：機器學習的一個例項

（一）樣本

（二）模型

（1）輸入

（2）預測模型

（3）損失計算

（三）調整訓練引數

（四）使用模型進行預測

相關推薦