1. 程式人生 > >機器學習之分類和迴歸區別闡述

機器學習之分類和迴歸區別闡述

很多人分不清楚分類和迴歸,我來講一下,我們經常會碰到這樣的問題:

1、如何將信用卡申請人分為低、中、高風險群?

2、如何預測哪些顧客在未來半年內會取消該公司服務,哪些電話使用者會申請增值服務?

3、如何預測具有某些特徵的顧客是否會購買一臺新的計算機?

4、如何預測病人應當接受三種具體治療方案的哪一種?

5、如何預測一位顧客在一次銷售期間將花多少錢?

6、如何預測銀行可以安全地貸給貸款人的貸款量?

7、使用 2G 通訊網路的手機使用者哪些有可能轉換到 3G 通訊網路?

8、如何有效預測房地產開發中存在的風險?

除此之外,市場經理需要資料分析,以便幫助他來猜測具有某些特徵的顧客是否會購買一臺新的計算機;醫學研究者希望分析乳腺癌資料,預測病人應當接受三種具體治療方案的哪一種;市場經理希望預測一位顧客在一次銷售期間將花多少錢;預測銀行可以安全地貸給貸款人的貸款量,這些都是分類與迴歸的例子。

分類(Classification):分類是指將資料對映到預先定義好的群組或類。因為在分析測試資料之前,類別就已經確定了,所以分類通常被稱為有監督的學習。分類演算法要求基於資料屬性值來定義類別,通常通過已知所屬類別的資料的特徵來描述類別。

分類就是構造一個分類函式(分類模型),把具有某些特徵的資料項對映到某個給定的類別上。

該過程由兩步構成:模型建立和模型使用。模型建立是指通過對訓練資料集的學習來建立分類模型;模型使用是指使用分類模型對測試資料和新的資料進行分類。其中的訓練資料集是帶有類標號的,也就是說在分類之前,要劃分的類別是已經確定的。通常分類模型是以分類規則,決策樹或數學表示式的形式給出。

迴歸(Regression):用屬性的歷史資料預測未來趨勢。迴歸首先假設一些已知型別的函式(例如線性函式、Logistic 函式等)可以擬合目標資料,然後利用某種誤差分析確定一個與目標資料擬合程度最好的函式。

 而回歸模式採用連續的預測值。在這種觀點下,分類和迴歸都是預測問題。但在資料探勘業界,普遍認為:用預測法預測類標號為分類,預測連續值(例如使用迴歸方法)為預測。許多問題可以用線性迴歸解決,對於許多非線性問題可以通過對變數進行變化,從而轉換為線性問題來解決。

主要演算法總結