1. 程式人生 > >機器學習基本概念梳理(一)

機器學習基本概念梳理(一)

1.輸入空間:輸入所有可能取值的集合 2.輸出空間:輸出所有可能的集合 3.特徵空間:所有特徵向量存在的空間 4.統計學習方法三要素:模型、策略、演算法。 5.監督學習的目的在於找到一個從輸入到輸出的對映,分為學習和預測。 6.期望損失:又稱風險函式,R=L(y,f(x))P(x,y)dxdyR=\int_L(y,f(x))P(x,y)dxdy,用經驗風險估計期望風險。 7.經驗風險最小化:模型關於訓練資料集的平均損失稱為經驗風險,經驗風險最小的模型。minfi=1NL(yi,f(xi))min_f\sum_{i=1}^NL(y_i,f(x_i))

,樣本容量足夠大時,經驗風險最小化能夠保證有很好的學習效果。樣本小則可能產生過擬合。 8.結構風險最小化:是為了防止過擬合而提出來的策略,等價於正則化。它等於經驗風險加上表示模型複雜度的正則化項或者罰項。Rsrm(f)=1Ni=1NL(yi,f(xi))+rJ(f)R_{srm}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+rJ(f),其中r>=0r>=0為懲罰係數,用來權衡經驗風險和模型複雜度。結構風險小需要經驗風險和模型複雜度同時小。 9.過擬合:指學習時選擇的模型所包含的引數過多,以致於出現這一模型對已知資料預測得很好,但對未知資料預測得很差的現象。減小過擬合一般用正則化或交叉驗證。 10.正則化:結構風險最小化策略的實現,在經驗風險上加上一個正則化項或罰項。模型越複雜,正則化值就越大。正則化的作用是選擇經驗風險和模型複雜度同時較小的模型。 11.奧卡姆剃刀原理:在所有可能選擇的模型中,能夠很好地解釋已知資料並且十分簡單才是最好的模型。 12.交叉驗證:隨機將資料集切分為三部分,分為訓練集、驗證集和測試集。訓練集用來訓練模型,驗證集用於模型的選擇,測試集用於最終對學習方法的評估。重複使用資料,在此基礎上反覆進行訓練測試,最終選擇對驗證集有最小誤差的模型。 13.泛化能力:指由該方法學習到的模型對未知資料的預測能力。通過測試誤差來評價學習方法的泛化能力。 14.泛化誤差:用這個模型對未知資料預測的誤差。泛化誤差反應了學習方法的泛化能力。泛化誤差就是所學習到的模型的期望風險。 15.分類問題:是監督學習的一個核心問題。當輸出變數取有限個離散值時,預測問題便成為分類問題。包括學習和分類兩個過程。首先根據有效的學習方法學習一個分類器,然後利用學習的分類器對新的輸入例項進行分類。 16:精確率P
=TPTP+FPP=\frac{TP}{TP+FP}
; 召回率R=TPTP+FNR=\frac{TP}{TP+FN}; 其中TPTP為正類預測為正類數目、FNFN為正類預測為負類數目、FPFP為負類預測為正類數目、TNTN為負類預測為負類數目。通俗解釋:精確率就是分類正確的正類除以分類之後的正類數目;召回率就是分類正確的正類除以分類之前的正類數目。 17:標註問題:也是一個監督學習問題。是分類問題的一個推廣,是更復雜的結構預測問題的簡單形式。它的輸入是一個觀測序列,輸出是一個標記序列或者狀態序列。目標在於學習一個模型,使它能夠對觀測序列給出標記序列作為預測。 18:迴歸問題:監督學習的問題。用於預測輸入變數和輸出變數之間的關係。迴歸模型正是表示從輸入變數到輸出變數之間對映的函式。等價於函式擬合,選擇一條函式曲線使其能夠很好的擬合已知資料且能夠很好地預測未知資料。分為學習預測兩個過程。最常用的損失函式為平方損失函式,此時可以用最小二乘法求解。