1. 程式人生 > >秋招材料整理——LR

秋招材料整理——LR

一、整體概述

LR假設資料服從伯努利分佈(零一分佈,二項分佈),通過極大化似然函式的方法,運用梯度下降來求解引數,從而達到將資料二分類的目的。

  • 極大似然原理:
    • 簡單理解:樣本所展現的狀態便是所有可能狀態中出現概率最大的狀態
    • 引數估計:調整引數使實驗結果發生的概率最大,此時引數的取值即為所求
  • 為什麼用極大似然函式?求解引數速度快,損失函式的更新速度只和資料有關,和sigmoid本身的梯度無關
  • 為什麼不用平方損失?梯度更新速度和sigmoid本身梯度相關.sigmoid梯度<=0,25,慢

二、損失函式

損失函式:極大似然函式(對其取對數<=>對數損失函式)(h是Sigmoid函式) c

ost(hθ(x),y)=i=1myilog(hθ(x))+(1yilog(1hθ(x)))cost(h_θ(x),y)=-\sum_{i=1}^my_ilog(h_θ(x))+(1-y_ilog(1-h_θ(x)))

三、特徵高度相關

  • 訓練過程中,若很多特徵高度相關,會造成怎樣的影響? 在損失函式最終收斂的情況下,不會影響分類器效果
  • 那為什麼還會在訓練過程中將高度相關的特徵去掉? 提高訓練速度

四、處理非線性

LR是線性分類器嗎,LR要處理非線性怎麼辦? 是線性 用K-means算出N箇中心點,每一個類別的中心點只留少數幾個,然後用核函式

五、為什麼LR要使用Sigmod函式

忘了從哪個大神那看到的了,如果有誰知道,麻煩聯絡我加上鍊接,謝謝

  • 首先,LR假設兩個類別的特徵服從均值不等,方差相等的高斯分佈,也就是 p(xy=0)N(μ0,σ)p(x|y=0)∼N(μ_0,σ) p(xy=1)N(μ1,σ)p(x|y=1)∼N(μ_1,σ) 為什麼假設服從高斯分佈?一方面是高斯分佈比較容易處理,另一方面,從資訊理論的角度看,當均值和方差已知時,高斯分佈是熵最大的分佈,為什麼要熵最大?因為最大熵的分佈可以平攤風險,就好比不要把雞蛋放到同一個籃子裡。為什麼假設方差相等?為了計算方便…
  • 定義風險: R(y=0x)=λ00P(y=0x)+λ01P(y=1x)R(y=0|x)=λ_{00}P(y=0|x)+λ_{01}P(y=1|x)R(y=1x)=λ10P(y=0x)+λ11P(y=1x)R(y=1|x)=λ_{10}P(y=0|x)+λ_{11}P(y=1|x) λijλ_{ij}是樣本實際標籤為j時,卻把它預測為i是所帶來的風險。 我們認為,預測正確不會帶來風險,因此 λ00=λ11=0λ_{00}=λ_{11}=0, 又認為λ10=λ01λ_{10}=λ_{01},記λ。 所以, R(y=0x)=λP(y=1x)R(y=0|x)=λP(y=1|x) R(y=1x)=λP(y=0x)R(y=1|x)=λP(y=0|x)
  • 現在問題來了,我拿到一個樣本,我應該把它預測為0還是預測為1好? 按照風險最小化的原則,應該選擇風險最小的, 即R(y=0x)&lt;R(y=1x)R(y=0|x)&lt;R(y=1|x)時,預測為0的風險 < 預測為1的風險, 即P(y=1x)&lt;P(y=0x)P(y=1|x)&lt;P(y=0|x)時,應該把樣本預測為0, 兩邊除一下,就會得到 P(y=1x)P(y=0x)&lt;1\frac{P(y=1|x)}{P(y=0|x)}&lt;1 對不等式左邊的部分取一下對數(為什麼取對數?因為兩個類別的特徵服從均值不等,方差相等的高斯分佈,取對數方便處理高斯分佈裡的指數),再利用貝葉斯公式進行展開,即得 logP(y=1x)P(y=0x)=logP(x,y=1)P(x,y=0)=logP(xy=1)P(y=1)P(xy=0)P(y=0)=logP(xy=1)P(xy=0)+logP(y=1)P(y=0) log \frac{P(y=1|x)}{P(y=0|x)} =log \frac{P(x,y=1)}{P(x,y=0)} =log \frac{P(x│y=1)P(y=1)}{P(x│y=0)P(y=0)} =log \frac{P(x│y=1)}{P(x│y=0)}+log \frac{P(y=1)}{P(y=0)} 方便起見,假設x是一維的,套入高斯分佈的公式,此外,由於P(y=1)P(y=1)P(y=0)P(y=0)都是常數,第二項記為常數C1繼續展開,將得到 =(xμ1)22σ2+(xμ0)22σ2+C1=μ1σ2x+μ0σ2x+C2=θx=logP(y=1x)P(y=0x)=-\frac{(x-μ_1 )^2}{2σ^2}+\frac{(x-μ_0 )^2}{2σ^2}+C1=\frac{μ_1}{σ^2} x+\frac{μ_0}{σ^2}x+C2=θx=log \frac{P(y=1|x)}{P(y=0|x)}P(y=1x)+P(y=0x)=1P(y=1|x)+P(y=0|x)=1,即可得到 P(y=1x)=1/(1+eθx)P(y=1│x)= 1/(1+e^{-θx})