機器學習（3）：機器的進化-迭代學習

之前介紹的簡單線性迴歸，就是一個迴歸模型，是一個可用於機器學習的模型。什麼意思呢？就是模型的狀態（引數集合）是可以進化的，只要合理訓練它，模型就能取得更好的預測狀態，所以說模型可用於機器學習。

要應用機器學習，一開始就要考慮選擇一個良好的模型（分類模型或迴歸模型），想清楚了，這步是很重要的，如果你選擇了一個不對口的模型，你可能花了半輩子的樣本挑選與訓練，也得不到一個好的模型狀態，最終預測不到好的結果。但這裡講的不是怎麼選擇模型，而是想說，模型是怎麼進化的，也就是訓練的過程是怎麼樣的。

又是一些枯燥的內容，但是我也沒有辦法，難道枯燥就不去了解嗎？或者你有更好的表達辦法？

（一）迭代訓練的概念

你可能已經想像到，訓練會一直在調整模型的引數。是的，訓練就是要強大，強大就是要固化出最好的引數集合，跟你全面鍛鍊身體一樣，你體重多少？

為了更具體地理解訓練的執行原理，可以參考以下這張圖（圖片源於：https://developers.google.com/machine-learning/crash-course/reducing-loss/an-iterative-approach）：

因為訓練接受的樣本是帶標籤的，所以交給模型的是特徵與標籤的組合，但你要注意，模型處理的是“所有”樣本，它對“所有”樣本進行預測，得到一堆預測標籤，然後再計算誤差或損失，然後再調整引數。所以你不要理解為一定是先處理一個樣本就調參然後再來一個樣本。這裡，我留了一個後路，為了計算損失，並不一定要所有樣本參與，甚至可以一次迭代只用一個樣本，這個在最後再說。

比如，套用之前的簡單線性迴歸模型，根據關係y=mx+b，每一個樣本都得到預測標籤。之後，根據預測標籤與真實標籤，進行損失計算，比如按均方誤差計算出損失，如果損失已經很小了，或者若干次調整都不能讓損失變小或變小的幅度很小，那你可以下結論了：這個就是最小損失，不用再訓練了，模型的狀態是最fit的了--這個叫訓練收斂。

如果損失比上一次還小（還小很多）而且還不是你以為最小的值，那說明什麼？說明還有好處可撈啊，還要調整引數以取得更小的損失啊。那調整引數之後，是不是預測效果就更好了呢？不知道！這時要對所有樣本再預測一遍、再計算一次損失，才知道。於是，迭代開始了。

如此，反覆迭代預測、算損失、調參的流程，至到天荒地老（即收斂，收斂了就放過它）。迭代的過程是自驅動的，這個是機器學習的特點。

迭代的流程是比較重要的概念（能讓你較全域性地理解機器學習），你有必要在腦海中多想一下這個情景，為了配合你，小程把一元迴歸模型的圖放在下面，你想像一下，圖裡面的那根線，調整一個角度後，對所有點算一次損失，如果不是最小損失，就再調整一個角度...

上面多次說到調整引數，說得輕巧，怎麼調整？隨便加1或減1嗎？

（二）調整模型引數的辦法

在迭代學習的過程中，機器會自驅動地調整模型的引數。調整模型的引數是機器學習的一個重要環節，那麼，如何調整模型的引數呢？

以簡單的一元迴歸（是一塊錢回到家的意思嗎？）為例：y=wx+b，要調整的引數就是w跟b，怎麼調？首先你要記得你的目的，你調參的目的，是為了得到最小損失，那w跟b是何值時，才是最小損失呢？

先說一個不經過設計的自然的想法，假設先調整w（b先隨便固定一個值），如果我能把所有的w值的損失都計算出來了，也就是對於w取{1，-1，2，2.5，...}各個值時，都算出所有點的整體損失，那不是有最小損失了嗎？最小損失對應的那個w值就是最佳的引數啊。

想法是沒錯的，但是，一般來說，越自然的想法，越不是一個好的演算法。

演算法就是設計的東西。怎麼調整出最佳引數，同樣有更好的演算法，而不是對所有w值全量計算（效率太低了！），其中一個常用演算法叫梯度下降法。

首先要理解一個前提。據研究（不是我的研究），損失跟權重的關係，是一個碗狀圖（這就是損失函式），就是這個：

有什麼特點？一個特點是，有一個最低點，就是損失最小的點，這個就是我們的目標（對應的w值就是最佳引數），另一個特點是，沿著碗邊走，只要方向對而且移動幅度足夠小，就一定能到達最低點。

要到達遠方，現在就要出發。這裡有兩個關鍵點，一個是方向，一個是移動幅度。

怎麼確定方向呢？比如對於曲線，往左還是往右（即w是增加還是減小），對於曲面呢？

這時，梯度下降法來幫你，它可以有效地去到最低點。

以下分隔線內的東西，橫空而來，你若有興趣則讀一讀，它告訴你，什麼是梯度。

什麼是導數？

導數是函式的導數，函式只有一個自變數時叫導數（否則叫偏導數）。直觀點，函式都是曲線，所以導數就是曲線上某一點的導數（不說不可導的情況）。

某一點的導數是什麼意思呢，就是這一點的變化率，定義大概是這樣的（數學符號不好寫）：在某一點，在x的增量趨於0時，也就是x的變化很小很小很小時，y的增量與x的增量的比值，就是變化率。明顯，以x的增量趨於0來描述了這一點的變化（讓變化很小）。這個就是變化率的含義，簡單來說，導數就是變化率，描述了變化的情況。

換一個角度來說（只考慮變數值是實數的情況），先看看我的手繪圖（你給多少分？）：

上圖，表達的是p1下一步（“附近”）的變化率，為了好畫線，找了一個很遠的p2點。你可以想象，當p1的下一步變化很小很小時（dx趨於0時），p2就會無限接近p1，而這個過程，直線p1p2的變化是怎麼樣的？想象一下，是不是p1p2會越來越像p1處的切線？

點p1的導數，從另一個角度來說，就是這個地方的切線斜率。可以想象，如果曲線上的所有點，都取它的切線，就可以逼近曲線。這種用導數來還原曲線（函式）的辦法，就叫積分。求導跟積分是互逆過程。

如果你還是不太明白，那知道一個概念就算了：變化、導數跟切線，是關聯的東西。

什麼是偏導數？

上面提到的損失函式是一個曲線，因為只有一個特徵變數。如果有多個特徵，那損失函式就不再是曲線，而是曲面（某點的切線有無數條）。曲面（多個自變數）時，不再叫導數，而叫某某變數的偏導數，只是為了明確是誰的變化率。而問題也在這裡，為了得到x的偏導數，就要固定其它自變數，而此時的偏導數就只是沿x方向的變化（不能同時考慮進其它方向），這樣就沒有任意方向了，沒有任意方向是個問題嗎？

舉個例子，假設你在山坡上，你要走到山谷的小湖中。如果每次移動你只能在x、y或z（平面與高度）中的一個方向移動（假設你總能移動哪怕是穿透），那你只能是“直上直下”、“直前直後”的，這個不是高效的走法。此時，為了形象，手繪圖再次出場：

圖中的虛線（實際上有無線），可能讓你更快地到達小湖洗腳，這個叫方向導數。

什麼是方向導數？

為了解決直前直後的偏導數的問題，引入另一個概念就是方向導數。方向導數就是任意方向的導數，可以想象，你所在的山坡的位置，有無數的方向導數，於是，哪一個方向導數（也就是變化率）是變化最大的？變化最大的方向在哪裡？這個大小跟方向都是可以求出來的。

為了標誌方向導數的最大值跟方向，引入了一個名字，叫梯度。

什麼是梯度

終於到我出場了，梯度是一個向量（有大小跟方向），梯度的值就是最大的變化率（方向導數的最大值），梯度的方向就是最大變化率的方向（取得最大方向導數的方向）。

所以，沿著梯度的反方向，就是下降最快的方向，就是最快到損失最低點的方向，而梯度下降演算法就利用了這個特徵。

梯度是一個向量，值是最大方向導數的值，方向是取得最大方向導數的方向。是不是很繞？是的，跟廢話一樣繞。簡單來說，梯度的反方向代表著最佳的前進方向，指引你快速到達損失最低點。

問題是，我不會計算梯度啊，怎麼辦？在應用的世界，這都不是問題，比如tensorflow會幫你計算梯度，你躺著就好。

但稍微理解一下操作總是要的吧。梯度下降法，在整體操作上，還是較容易理解的。可以參考這個圖（圖片來源於：https://developers.google.com/machine-learning/crash-course/reducing-loss/gradient-descent）：

前面提過，走到最低點，一看方向，二看移動幅度。方向的問題用梯度解決了，那移動的幅度呢？這時引入一個概念，叫學習速率（learning_rate），也叫步長。移動的幅度，就是當前點的梯度值乘以學習速率（比如是0.001），再加上原梯度值。

如果學習速率很小，那總會走到損失的最低點，但訓練時間有可能很長。如果學習速率很大，那有可能總是跳過最低點而無法收斂（注意，不是說一出現跳過最低點就一定不能收斂，它可以左右擺動最終到達最低點，因為移動幅度是變化的，跟陡峭的程度有關）。

一般可以邊訓練邊觀察，尋找一個折中的學習速率值，這個跟樣本的數量、特徵複雜度等有關。對於學習速率的直觀感受，你可以在這個頁面操作一下：
https://developers.google.com/machine-learning/crash-course/fitter/graph

以上就介紹了怎麼調整引數。

最後，再重提一下損失曲線，上面說每一次迭代都要對所有樣本預測並計算損失，而實際上，“所有”並不是終極方案，如果有更優的方案呢，如果不必所有的樣本都計算一次呢（畢竟有時樣本是海量的）？這時，一些優化方案就出來了，比如隨機梯度下降（只使用一個樣本）、小批量隨機梯度下降（多一點樣本），這些就不細說了，誰用誰研究。

總結一下，本文介紹了模型訓練的迭代學習的原理。迭代學習的過程，主要是模型的計算引數被調整，進而觸發反覆的標籤預測（預測是為了算損失）、損失計算與模型引數調整，是一個自驅動的過程。在迭代的過程中，調整模型的引數是重要的一環，梯度下降演算法可以有效地調整模型引數，以達到最小的損失，從而使訓練收斂。

機器學習（3）：機器的進化-迭代學習

（一）迭代訓練的概念

（二）調整模型引數的辦法

機器學習（3）：機器的進化-迭代學習

機器學習（二）：機器學習中的幾個基本概念

機器學習（5）：機器學習的一個例項

PYTHON設計模式學習（3）：Singleton pattern

tcpdump 學習（3）：MySQL Query

web前端學習（3）：認識HTML基本標簽

Spring學習（3）：Spring概述（轉載）

Spring學習（3）：IOC基礎（轉載）

ADB 學習（3）：adb uninstall 命令

robotframework 學習（3）：Excel檔案的操作

three.js學習（3）：匯入threejs

tensorflow學習（3）：初始化

C語言學習（3）：陣列和指標

Numpy學習（3）：將mnist資料檔案讀入到資料結構（numpy陣列）中

SpringMVC學習（3）：使用@PathVariable對映請求引數

Mondrian學習（3）：整合到spring web專案中

linux命令學習（3）：pwd命令

tensorflow學習（3）：解讀mnist_experts例子，訓練儲存模型並tensorboard視覺化

機器學習筆記（3）：線性代數回顧

機器學習儲備（3）：似然函式例子解析

機器學習（3）：機器的進化-迭代學習

（一）迭代訓練的概念

（二）調整模型引數的辦法

相關推薦