1. 程式人生 > >機器學習(二)分類器及迴歸擬合

機器學習(二)分類器及迴歸擬合

在機器學習中,分類器作用是在標記好類別的訓練資料基礎上判斷一個新的觀察樣本所屬的類別。分類器依據學習的方式可以分為非監督學習和監督學習。非監督學習顧名思義指的是給予分類器學習的樣本但沒有相對應類別標籤,主要是尋找未標記資料中的隱藏結構。,監督學習通過標記的訓練資料推斷出分類函式,分類函式可以用來將新樣本對映到對應的標籤。在監督學習方式中,每個訓練樣本包括訓練樣本的特徵和相對應的標籤。監督學習的流程包括確定訓練樣本的型別、收集訓練樣本集、確定學習函式的輸入特徵表示、確定學習函式的結構和對應的學習演算法、完成整個訓練模組設計、評估分類器的正確率。這一節的目的是分類器的選取。可以依據下面四個要點來選擇合適的分類器。

1. 泛化能力和擬合之間的權衡

  過擬合評估的是分類器在訓練樣本上的效能。如果一個分類器在訓練樣本上的正確率很高,說明分類器能夠很好地擬合訓練資料。但是一個很好的擬合訓練資料的分類器就存在著很大的偏置,所以在測試資料上不一定能夠得到好的效果。如果一個分類器在訓練資料上能夠得到很好效果但是在測試資料上效果下降嚴重,說明分類器過擬合了訓練資料。從另一個方面分析,若分類器在測試資料上能夠取得好效果,那麼說明分類器的泛化能力強。分類器的泛化和擬合是一個此消彼長的過程,泛化能力強的分類器擬合能力一般很弱,另外則反之。所以分類器需要在泛化能力和擬合能力間取得平衡。

2. 分類函式的複雜度和訓練資料的大小

  訓練資料的大小對於分類器的選擇也是至關重要的,如果是一個簡單的分類問題,那麼擬合能力強泛化能力弱的分類器就可以通過很小的一部分訓練資料來得到。反之,如果是一個複雜的分類問題,那麼分類器學習就需要大量的訓練資料和泛化能力強的學習演算法。一個好的分類器應該能夠根據問題的複雜度和訓練資料的大小自動地調整擬合能力和泛化能力之間的平衡。

3. 輸入的特徵空間的維數

  如果輸入特徵空間的向量維數很高的話,就會造成分類問題變得複雜,即使最後的分類函式僅僅就靠幾個特徵來決定的。這是因為過高的特徵維數會混淆學習演算法並且導致分類器的泛化能力過強,而泛化能力過強會使得分類器變化太大,效能下降。因此,一般高維特徵向量輸入的分類器都需要調節引數使其泛化能力較弱而擬合能力強。另外在實驗中,也可以通過從輸入資料中去除不相干的特徵或者降低特徵維數來提高分類器的效能。

4. 輸入的特徵向量之間的均一性和相互之間的關係

  如果特徵向量包含多種型別的資料(如離散,連續),許多分類器如SVM,線性迴歸,邏輯迴歸就不適用。這些分類器要求輸入的特徵必須是數字而且要歸一化到相似的範圍內如 之間。而像K最近鄰演算法和高斯核的SVM這些使用距離函式的分類器對於資料的均一性更加敏感。但是另一種分類器決策樹卻能夠處理這些不均一的資料。如果有多個輸入特徵向量,每個特徵向量之間相互獨立,即當前特徵向量的分類器輸出僅僅和當前的特徵向量輸入有關,那麼最好選擇那些基於線性函式和距離函式的分類器如線性迴歸、SVM、樸素貝葉斯等。反之,如果特徵向量之間存在複雜的相互關係,那麼決策樹和神經網路更加適合於這類問題。

1迴歸
一般指線性迴歸,是求最小二乘解的過程。在求迴歸前,已經假設所有型值點同時滿足某一曲線方程,計算只要求出該方程的係數
2多項式插值:
用一個多項式來近似代替資料列表函式,並要求多項式通過列表函式中給定的資料點。(插值曲線要經過型值點。)
3多項式逼近:
為複雜函式尋找近似替代多項式函式,其誤差在某種度量意義下最小。(逼近只要求曲線接近型值點,符合型值點趨勢。)
4多項式擬合:
在插值問題中考慮給定資料點的誤差,只要求在用多項式近似代替列表函式時,其誤差在某種度量意義下最小。
注意:
表列函式:給定n+1個不同的資料點(x0,y0),(x1,y1)…,(xn,yn),稱由這組資料表示的函式為表列函式。
逼近函式:求一函式,使得按某一標準,這一函式y=f(x)能最好地反映這一組資料即逼近這一表列函式,這一函式y=f(x)稱為逼近函式
插值函式:根據不同的標準,可以給出各種各樣的函式,如使要求的函式y=f(x)在以上的n+1個數據點出的函式值與相應資料點的縱座標相等,即yi=f(x1)(i=0,1,2….n) 這種函式逼近問題稱為插值問題,稱函式y=f(x)為資料點的插值函式,xi稱為插值點。

插值和擬合都是函式逼近或者數值逼近的重要組成部分
他們的共同點都是通過已知一些離散點集M上的約束,求取一個定義在連續集合S(M包含於S)的未知連續函式,從而達到獲取整體規律的目的,即通過”窺幾斑”來達到”知全豹”。
簡單的講,所謂擬合是指已知某函式的若干離散函式值{f1,f2,…,fn},通過調整該函式中若干待定係數f(λ1, λ2,…,λ3), 使得該函式與已知點集的 差別(最小二乘意義)最小。如果待定函式是線性,就叫線性擬合或者線性迴歸(主要在統計中),否則叫作非線性擬合或者非線性迴歸。表示式也可以是分段函式,這種情況下叫作樣條擬合。
而插值是指已知某函式的在若干離散點上的函式值或者導數資訊,通過求解該函式中待定形式的插值函式以及待定係數,使得該函式在給 定離散點上滿足約束。插值函式又叫作基函式,如果該基函式定義在整個定義域上,叫作全域基,否則叫作分域基。如果約束條件中只有函式值的約束,叫作Lagrange插值,否則叫作Hermite插值。
從幾何意義上將,擬合是給定了空間中的一些點,找到一個已知形式未知引數的連續曲面來最大限度地逼近這些點;而插值是找到一個(或幾個分片光滑的)連續曲面來穿過這些點。