關於機器學習的一些總結
以下是自己關於機器學習的一些知識點總結,主要滲透了自己對某些知識點的理解,涵蓋的面較廣,將會不定期地更新。若有理解不一致之處,望指明並相互交流。
1 SVM中常用的核函式有哪些?如何選擇相應的核函式?
常用的核函式有線性核,多項式核以及高斯核。
1.1 線性核
線性核對應的對映函式為:。即對映空間與原始空間是相同的。它適用於原始資料集是線性可分的情況。此時所使用的是線性SVM。
1.2 多項式核
多項式核將資料從原始空間對映到了高維空間。
考慮資料集在原始空間的分佈情況:如果分隔的決策面非線性且較為規則的話(比如,決策面是橢圓,橢球,雙曲線等),可以考慮使用多項式核。
1.3 高斯核
高斯核將資料從原始空間對映到了無限維空間。關於高斯核與多項式核的關係,可以參見這篇文章:關於支援向量機(SVM)的高斯核和懲罰因子C的理解(簡單易懂)。
當原始空間的決策面較不規則,難以使用多項式核進行分類的時候,可以考慮高斯核。因為多項式核只是將原始空間對映成高維空間,而高斯核將原始空間對映成了無限維,所以對應的決策面可以更復雜,可以使得資料更容易被劃分(當然這樣也就可能出現過擬合的情況,關於高斯核引數的理解,上文關於支援向量機(SVM)的高斯核和懲罰因子C的理解(簡單易懂)亦有介紹)。
2 L1和L2正則化的理解?有何區別?
L1和L2正則化項的加入都是為了避免模型的過擬合。
L1正則化損失函式:
實際上,L1正則化就是在原有損失函式的基礎上加入了權重約束:
L2正則化損失函式:
類似的,L2正則化就是在原有損失函式的基礎上加上了權重約束:
上圖表示損失函式分別在L2和L1正則化權重約束下尋找最優解示意圖,此時特徵數維度為2,兩個權重約束下的可行域分別為圓形和菱形區域。
所以:L1正則化約束下的最優解往往位於可行域的凸點,而凸點處的權值 很多為0(上圖所示 )。故而L1正則化的解具有稀疏性,可用於特徵選擇,去掉對研究問題沒有貢獻的特徵,而只保留某些貢獻較大的特徵;L2正則化約束下的最優解很難使得某些個 為0,其更偏向於選擇更多的特徵,這些特徵的權重都會接近於0。
3 常見的損失函式有哪些?
常見的損失函式有平方損失函式(迴歸損失函式),對數損失函式,指數損失函式,Hinge損失函式,感知損失函式。
3.1 平方損失函式
其是最小二乘法的應用:常用於連續變數的迴歸問題。最優擬合曲線應該使得所有點的輸出與實際結果之間的距離平方和最小。
線性迴歸:
3.2 對數損失函式
其與極大似然估計有異曲同工之處:利用已知的樣本分佈(二分類問題是0-1分佈),找到最大概率導致這種分佈的引數值。
邏輯迴歸(二分類):
其中:。① 如果屬於0類, 越接近1越好(此時越靠近0);② 如果屬於1類,越接近1越好(此時越靠近0)。
Softmax分類: