資料分類與排序隨記

分類問題中如果資料量不大的情況下用SVM會多一些。
做排序的話用LR和NN比較多,像GBDT這種模型也是可以輸出概率值。

在噪聲的影響下,閾值y會有很多的浮動,如果絕對閾值做不了的話,那能不能找到一個相對閾值呢?
能不能找一函式將連續的y值約束到某一個範圍內,常見的範圍是0-1(概率)。

將離散值壓縮到0-1之間的連續值。

分類問題實際上是在n維空間裡面試圖找到一條曲線或者超平面(可能是曲面)做判定的一個區分邊界。

Z=θ0+θ1_X1+θ2_X2, g(Z)=1/1+e^-Z




這個損失函式是很多個二次函式的疊加,走到區域性最低點就不動了,所以不能用GD去做優化!!
這是非凸函式,即有很多個窪點。

損失函式不一定都要求是非凸的,神經網路裡面用的loss function就是非凸的,不過他用的是SGD,保證隨機找一個接近全域性最優點即可。

在正樣本的情況下,如果h_θ(x)預測出來是正樣本概率很低0.01,那麼損失函式負log之後的損失值就會非常大。
在負樣本的情況下,如果h_θ(x)預測出來是正樣本概率很高0.99,那麼損失函式負log之後的損失值也會非常大。
如果預測的值和我真實的值差別越大,那麼損失函式計算的結果值就會越大。

-1/m是為了方便計算。
但是現實中的分類一般是多分類,不是二分類,在多分類的情況下,使用的是上面式子的拓展形式。

隨著它不斷的接近谷底,他的斜率值會慢慢的變小,所以隨著梯度的計算 他的步長自動就會越來越小。

多分類通過多個二分類實現,取概率最大的那個!!
在樣本不均衡的情況,通過下采樣等方式讓樣本儘量均衡。
上取樣,通過拷貝樣本來達到樣本均衡會帶來一個問題 過擬合。千萬不要在樣本的量級相差極大的情況下,試圖用上取樣的方式去解決unbalance的問題。
SVM與分類


線性不可分的情況,對映到一個高維空間。
神經網路與分類



SVM+kernel理論上可以做非線性分割,但是他比較慢,另外如果樣本不是很合適的話,效果也會不太好。工業界,特別是資料量大的時候,大部分用的都是linear LR或者linear SVM。 如果要完成一些非線性切分的話,你需要手動的去構造一些特徵,已經設定好的,高次的,可以完成非線性切分的這樣一些對映,但是在工業界你很難知道怎樣去構造這些特徵。


一個神經元完成邏輯與的操作。

兩個分類器+一個邏輯與操作完成分類任務。

神經網路完成非線性切分

理論上兩個隱層的神經網路應該都可以完成最後結果的判定,但是如果樣本量非常大,你的類別數比較多的話,對兩個隱層的神經元個數要求非常多,全連線的情況下,引數會暴漲,所以這個時候,我們的常用做法是把神經網路拉昇或拉長,把各層的節點數(神經元個數)降下來。在一些場合下,兩層的神經網路是夠用的。
神經網路層數與分類理解

神經網路之BP演算法
分批次,在每個批次上求梯度。BP演算法是來幫助求梯度的。 神經網路裡面最優化演算法叫SGD,而SGD要使用到梯度,所以求梯度要藉助於BP演算法。



BP演算法實際使用中,我們是將每一層的導數直接先記下來,往前推的時候,連乘就行。
BP 演算法執行的流程
在手工設定了神經網路的層數,每層的神經元的個數,學習率 η(下面會提到)後,BP 演算法會先隨機初始化每條連線線權重和偏置,然後對於訓練集中的每個輸入 x 和輸出 y,BP 演算法都會先執行前向傳輸得到預測值,然後根據真實值與預測值之間的誤差執行逆向反饋更新神經網路中每條連線線的權重和每層的偏好。在沒有到達停止條件的情況下重複上述過程。
其中,停止條件可以是下面這三條:
● 權重的更新低於某個閾值的時候
● 預測的錯誤率低於某個閾值
● 達到預設一定的迭代次數
分類與排序

GBDT(Gradient Boosting Decision Tree 梯度提升決策樹) 又叫 MART(Multiple Additive Regression Tree),是一種迭代的決策樹演算法,該演算法由多棵決策樹組成,所有樹的結論累加起來做最終答案。


下面的樣本示例中,LR會往左邊靠一些,因為LR考慮的是概率,它會沿著兩邊樣本點的重心去做這個分割。但SVM只跟支援向量有關,一般我們認為SVM在分類任務當中的魯棒性或健壯性是更強的。
如果資料量不是那麼大的話,可以用RBF kernel,用注意加正則化項。如果資料量特別大的話,建議把特徵離散化,拉高維度,然後用linear SVM。
神經網路的學習能力特別強,但它是個黑盒不具解釋性,可調性不高。
神經網路要注意控制層數和樣本的個數。
LR的損失函式是交叉熵,SVM使用的是hinge loss。LR天生可以產出概率,而SVM需要根據樣本到超平面的距離去做一個對映。LR簡單,可解釋性強。 SVM會有點慢,但他的健壯性很強,他不會因為樣本的不同分佈,而使得決策邊界左右移動。