機器學習快速入門3迴歸

機器學習 · 發表 2019-04-25 16:34:52

摘要：迴歸簡介在本章中，我們將繼續討論監督機器學習中的另一項主要任務，即迴歸。分類總是很好的起點，因為它在邏輯上是直觀的。 "這是一張圖片。告訴我它裡面有什麼物體。" "這是一封電子郵件。告訴我它是垃圾郵件還是垃圾郵件。" "這是醫學測...

在本章中，我們將繼續討論監督機器學習中的另一項主要任務，即迴歸。

分類總是很好的起點，因為它在邏輯上是直觀的。

"這是一張圖片。告訴我它裡面有什麼物體。"

"這是一封電子郵件。告訴我它是垃圾郵件還是垃圾郵件。"

"這是醫學測試的一些測量結果。告訴我這個人是否患有某種疾病。"

迴歸也非常直觀，且展現方式更直觀。比如：

圖片.png

這就是迴歸的全部。 “這裡有一些點，現在告訴我適合這些點的線條或曲線。”

分類意味著您正在預測某個類別。

迴歸意味著你在預測數字。這個數字通常是線上的數字。

在迴歸中，數字實際上確實有意義。

圖片.png

通過身高體重。或相反亦然。

當然，身材較高的人體重更大，因此體重更重。這種相關性並不完美，但多數情況確實如此。

例如，您可以想象恐龍的重量遠遠超過螞蟻。

房屋的價格可能與居民區的平均家庭收入以及該社群的犯罪率有關。它可能還取決於它的大小，它有多少臥室以及最後一次翻新的屬性。當你有多個維度時，你預測的東西不再是一條線。

股票市場的“規則”之一是你應該低買高賣。這樣，你總能得到比你投入更多的錢。但很多人有情緒和恐懼。

分析會關注過去10天該股票的價格和新聞等。

X是形狀NxD的2D陣列，Y是長度為N的1D陣列.N =樣本數，D =輸入特徵數。

首先，我們例項化模型。假設我們正在使用線性迴歸。

model = LinearRegression()

然後，我們通過呼叫fit並傳入X和Y來訓練模型。

model.fit(X, Y)

我們還可以通過呼叫預測函式來進行新的預測。

predictions = model.predict(X)

最後，我們可以通過呼叫score函式來評估模型。

model.score(X, Y)

一個細微差別是得分函式不再返回準確度，這隻有在我們進行分類時才有意義。因為準確度只是＃correct / #total。

當我們有標籤時，這是有道理的，因為如果你猜對了標籤，那麼你是正確的，否則，你不是。但對於迴歸，這沒有意義。準確性可能不是最好的評估指標。通常，衡量回歸模型效能的一種方法是使用均方誤差(MSE mean squared error)。