1. 程式人生 > >數據挖掘筆試面試(10)

數據挖掘筆試面試(10)

求導 統計學 -i random statistic read 混合 max ood

【校招面經】機器學習與數據挖掘常見面試題整理 part5

2018年08月04日 15:58:45 稻蛙 閱讀數:105

五十九、計量經濟學中的平穩性

技術分享圖片

技術分享圖片

六十、高斯混合分布

1. 生成模型

2. 認為點是由多個高斯分布產生的,每個點可以歸入多個類

3. 目標是使觀測到的點在生成的高斯分布中出現概率最大

在做參數估計的時候,常采用的方法是 最大似然 。最大似然法就是使樣本點在估計的概率密度函數上的概率值最大 。由於概率值一般都很小, N 很大的時候這個連乘的結果非常小,容易造成浮點數下溢。所以我們通常取 log ,將目標改寫成:

技術分享圖片

也就是最大化 log-likelyhood function ,完整形式則為:

技術分享圖片

一般用來做參數估計的時候,我們都是通過對待求變量進行求導來求極值,在上式中, log 函數中又有求和,你想用求導的方法算的話方程組將會非常復雜,所以我們不好考慮用該方法求解(沒有閉合解)。可以采用的求解方法是 EM 算法 ——將求解分為兩步:第一步是假設我們知道各個高斯模型的參數(可以初始化一個,或者基於上一步叠代結果),去估計每個高斯模型的權值;第二步是基於估計的權值,回過頭再去確定高斯模型的參數。重復這兩個步驟,直到波動很小,近似達到極值(註意這裏是個極值不是最值, EM 算法會陷入局部最優)。具體表達如下:

4. 過程和K-means類似

5. 使用EM算法進行求解

六十一、采用 EM 算法求解的模型有哪些,為什麽不用牛頓法或梯度下降法?

用EM算法求解的模型一般有GMM或者協同過濾,k-means其實也屬於EM。EM算法一定會收斂,但是可能收斂到局部最優。由於求和的項數將隨著隱變量的數目指數上升,會給梯度計算帶來麻煩

六十二、解釋下AUC

The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example.

作者:馬澤鋒

鏈接:https://www.zhihu.com/question/39840928/answer/105922223

隨機給定一個正樣本和一個負樣本,分類器輸出該正樣本為正的那個概率值 比 分類器輸出該負樣本為正的那個概率值 要大的可能性

六十三、lift

from:https://blog.csdn.net/half_cigar/article/details/5970143

Lift = (d/b+d)/(c+d/a+b+c+d)=PV_plus/pi1),這個指標需要多說兩句。它衡量的是,與不利用模型相比,模型的預測能力“變好” 了多少。不利用模型,我們只能利用“正例的比例是c+d/a+b+c+d”這個樣本信息來估計正例的比例(baseline model),而利用模型之後,我們不需要從整個樣本中來挑選正例,只需要從我們預測為正例的那個樣本的子集(b+d)中挑選正例,這時預測的準確率為 d/b+d。

顯然,lift(提升指數)越大,模型的運行效果越好。如果這個模型的預測能力跟baseline model一樣,那麽d/b+d就等於c+d/a+b+c+d(lift等於1),這個模型就沒有任何“提升”了(套一句金融市場的話,它的業績沒有跑過市場)。這個概念在數據庫營銷中非常有用,舉個例子:

比如說你要向選定的1000人郵寄調查問卷(a+b+c+d=1000)。以往的經驗告訴你大概20%的人會把填好的問卷寄回給你,即1000人中有200人會對你的問卷作出回應(response,c+d=200),用統計學的術語,我們說baseline response rate是20%(c+d/a+b+c+d=20%)。

如果你現在就漫天郵寄問卷,1000份你期望能收回200份,這可能達不到一次問卷調查所要求的回收率,比如說工作手冊規定郵寄問卷回收率要在25%以上。

通過以前的問卷調查,你收集了關於問卷采訪對象的相關資料,比如說年齡、教育程度之類。利用這些數據,你確定了哪類被訪問者對問卷反應積極。假設你已經利用這些過去的數據建立了模型,這個模型把這1000人分了類,現在你可以從你的千人名單中挑選出反應最積極的100人來(b+d=100),這 10%的人的反應率 (response rate)為60%(d/b+d=60%,d=60)。那麽,對這100人的群體(我們稱之為Top 10%),通過運用我們的模型,相對的提升(lift value)就為60%/20%=3;換句話說,與不運用模型而隨機選擇相比,運用模型而挑選,效果提升了3倍。

上面說lift chart是不同閾值下Lift和Depth的軌跡,先畫出來:

symbol i=join v=none c=black;

proc gplot data=valid_lift;

plot lift*depth;

run; quit;

技術分享圖片

上圖的縱坐標是lift,意義已經很清楚。橫坐標depth需要多提一句。以前說過,隨著閾值的減小,更多的客戶就會被歸為正例,也就是 depth(預測成正例的比例)變大。當閾值設得夠大,只有一小部分觀測值會歸為正例,但這一小部分(一小撮)一定是最具有正例特征的觀測值集合(用上面數據庫營銷的例子來說,這一部分人群對郵寄問卷反應最為活躍),所以在這個depth下,對應的lift值最大。

同樣,當閾值設定得足夠的小,那麽幾乎所有的觀測值都會被歸為正例(depth幾乎為1)——這時分類的效果就跟baseline model差不多了,相對應的lift值就接近於1。

一個好的分類模型,就是要偏離baseline model足夠遠。在lift圖中,表現就是,在depth為1之前,lift一直保持較高的(大於1的)數值,也即曲線足夠的陡峭。

六十四、gain

from:https://blog.csdn.net/half_cigar/article/details/5970143

Gains (增益) 與 Lift (提升)相當類似:Lift chart是不同閾值下Lift和Depth的軌跡,Gains chart是不同閾值下PV+和Depth的軌跡,而PV+=lift*pi1(正例的比例為pi1)= d/b+d(見上),所以它們顯而易見的區別就在於縱軸刻度的不同:

symbol i=join v=none c=black;

proc gplot data=valid_lift;

plot pv_plus*depth;

run; quit;

技術分享圖片

上圖閾值的變化,含義與lift圖一樣。隨著閾值的減小,更多的客戶就會被歸為正例,也就是depth(預測成正例的比例,b+d/a+b+c+d)變大(b+d變大),這樣PV+(d/b+d,正確預測到的正例數占預測正例總數的比例)就相應減小。當閾值設定得足夠的小,那麽幾乎所有的觀測值都會被歸為正例(depth幾乎為1),那麽PV+就等於數據中正例的比例pi1了(這裏是0.365。在Lift那一節裏,我們說此時分類的效果就跟baseline model差不多,相對應的lift值就接近於1,而PV+=lift*pi1。Lift的baseline model是縱軸上恒等於1的水平線,而Gains的baseline model是縱軸上恒等於pi1的水平線)。顯然,跟lift 圖類似,一個好的分類模型,在閾值變大時,相應的PV+就要變大,曲線足夠陡峭。

技術分享圖片

Gains(增益) 與 Lift (提升)類似:Lift 曲線是不同閾值下Lift和Depth的軌跡,Gain曲線則是不同閾值下PV_plus和Depth的軌跡,而PV_plus=Lift*pi1= TP/TP+FP,所以它們顯而易見的區別就在於縱軸刻度的不同。

(累積的正例數?)

技術分享圖片

數據挖掘筆試面試(10)