數據挖掘筆試面試（10）

阿新 • • 發佈：2019-02-07

求導統計學 -i random statistic read 混合 max ood

【校招面經】機器學習與數據挖掘常見面試題整理 part5

2018年08月04日 15:58:45 稻蛙閱讀數：105

五十九、計量經濟學中的平穩性

技術分享圖片

六十、高斯混合分布

1. 生成模型

2. 認為點是由多個高斯分布產生的，每個點可以歸入多個類

3. 目標是使觀測到的點在生成的高斯分布中出現概率最大

在做參數估計的時候，常采用的方法是最大似然。最大似然法就是使樣本點在估計的概率密度函數上的概率值最大。由於概率值一般都很小， N 很大的時候這個連乘的結果非常小，容易造成浮點數下溢。所以我們通常取 log ，將目標改寫成：

技術分享圖片

也就是最大化 log-likelyhood function ，完整形式則為：

技術分享圖片

一般用來做參數估計的時候，我們都是通過對待求變量進行求導來求極值，在上式中， log 函數中又有求和，你想用求導的方法算的話方程組將會非常復雜，所以我們不好考慮用該方法求解（沒有閉合解）。可以采用的求解方法是 EM 算法 ——將求解分為兩步：第一步是假設我們知道各個高斯模型的參數（可以初始化一個，或者基於上一步叠代結果），去估計每個高斯模型的權值；第二步是基於估計的權值，回過頭再去確定高斯模型的參數。重復這兩個步驟，直到波動很小，近似達到極值（註意這裏是個極值不是最值， EM 算法會陷入局部最優）。具體表達如下：

4. 過程和K-means類似

5. 使用EM算法進行求解

六十一、采用 EM 算法求解的模型有哪些，為什麽不用牛頓法或梯度下降法？

用EM算法求解的模型一般有GMM或者協同過濾，k-means其實也屬於EM。EM算法一定會收斂，但是可能收斂到局部最優。由於求和的項數將隨著隱變量的數目指數上升，會給梯度計算帶來麻煩

六十二、解釋下AUC

The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example.

作者：馬澤鋒

鏈接：https://www.zhihu.com/question/39840928/answer/105922223

隨機給定一個正樣本和一個負樣本，分類器輸出該正樣本為正的那個概率值比分類器輸出該負樣本為正的那個概率值要大的可能性

六十三、lift

from：https://blog.csdn.net/half_cigar/article/details/5970143

Lift = (d/b+d)/(c+d/a+b+c+d)=PV_plus/pi1)，這個指標需要多說兩句。它衡量的是，與不利用模型相比，模型的預測能力“變好” 了多少。不利用模型，我們只能利用“正例的比例是c+d/a+b+c+d”這個樣本信息來估計正例的比例（baseline model），而利用模型之後，我們不需要從整個樣本中來挑選正例，只需要從我們預測為正例的那個樣本的子集（b+d）中挑選正例，這時預測的準確率為 d/b+d。

顯然，lift(提升指數)越大，模型的運行效果越好。如果這個模型的預測能力跟baseline model一樣，那麽d/b+d就等於c+d/a+b+c+d（lift等於1），這個模型就沒有任何“提升”了（套一句金融市場的話，它的業績沒有跑過市場）。這個概念在數據庫營銷中非常有用，舉個例子：

比如說你要向選定的1000人郵寄調查問卷（a+b+c+d=1000）。以往的經驗告訴你大概20%的人會把填好的問卷寄回給你，即1000人中有200人會對你的問卷作出回應（response，c+d=200），用統計學的術語，我們說baseline response rate是20%（c+d/a+b+c+d=20%）。

如果你現在就漫天郵寄問卷，1000份你期望能收回200份，這可能達不到一次問卷調查所要求的回收率，比如說工作手冊規定郵寄問卷回收率要在25%以上。

通過以前的問卷調查，你收集了關於問卷采訪對象的相關資料，比如說年齡、教育程度之類。利用這些數據，你確定了哪類被訪問者對問卷反應積極。假設你已經利用這些過去的數據建立了模型，這個模型把這1000人分了類，現在你可以從你的千人名單中挑選出反應最積極的100人來（b+d=100），這 10%的人的反應率 (response rate)為60%（d/b+d=60%，d=60）。那麽，對這100人的群體（我們稱之為Top 10%），通過運用我們的模型，相對的提升(lift value)就為60%/20%=3；換句話說，與不運用模型而隨機選擇相比，運用模型而挑選，效果提升了3倍。

上面說lift chart是不同閾值下Lift和Depth的軌跡，先畫出來：

symbol i=join v=none c=black;

proc gplot data=valid_lift;

plot lift*depth;

run; quit;

技術分享圖片

上圖的縱坐標是lift，意義已經很清楚。橫坐標depth需要多提一句。以前說過，隨著閾值的減小，更多的客戶就會被歸為正例，也就是 depth（預測成正例的比例）變大。當閾值設得夠大，只有一小部分觀測值會歸為正例，但這一小部分（一小撮）一定是最具有正例特征的觀測值集合（用上面數據庫營銷的例子來說，這一部分人群對郵寄問卷反應最為活躍），所以在這個depth下，對應的lift值最大。

同樣，當閾值設定得足夠的小，那麽幾乎所有的觀測值都會被歸為正例（depth幾乎為1）——這時分類的效果就跟baseline model差不多了，相對應的lift值就接近於1。

一個好的分類模型，就是要偏離baseline model足夠遠。在lift圖中，表現就是，在depth為1之前，lift一直保持較高的（大於1的）數值，也即曲線足夠的陡峭。

六十四、gain

from：https://blog.csdn.net/half_cigar/article/details/5970143

Gains (增益) 與 Lift （提升）相當類似：Lift chart是不同閾值下Lift和Depth的軌跡，Gains chart是不同閾值下PV+和Depth的軌跡，而PV+=lift*pi1（正例的比例為pi1）= d/b+d（見上），所以它們顯而易見的區別就在於縱軸刻度的不同：

symbol i=join v=none c=black;

proc gplot data=valid_lift;

plot pv_plus*depth;

run; quit;

技術分享圖片

上圖閾值的變化，含義與lift圖一樣。隨著閾值的減小，更多的客戶就會被歸為正例，也就是depth（預測成正例的比例，b+d/a+b+c+d）變大（b+d變大），這樣PV+（d/b+d，正確預測到的正例數占預測正例總數的比例）就相應減小。當閾值設定得足夠的小，那麽幾乎所有的觀測值都會被歸為正例（depth幾乎為1），那麽PV+就等於數據中正例的比例pi1了（這裏是0.365。在Lift那一節裏，我們說此時分類的效果就跟baseline model差不多，相對應的lift值就接近於1，而PV+=lift*pi1。Lift的baseline model是縱軸上恒等於1的水平線，而Gains的baseline model是縱軸上恒等於pi1的水平線）。顯然，跟lift 圖類似，一個好的分類模型，在閾值變大時，相應的PV+就要變大，曲線足夠陡峭。

技術分享圖片

Gains(增益) 與 Lift （提升）類似：Lift 曲線是不同閾值下Lift和Depth的軌跡，Gain曲線則是不同閾值下PV_plus和Depth的軌跡，而PV_plus=Lift*pi1= TP/TP+FP，所以它們顯而易見的區別就在於縱軸刻度的不同。

（累積的正例數？）

技術分享圖片

數據挖掘筆試面試（10）

求導統計學 -i random statistic read 混合 max ood 【校招面經】機器學習與數據挖掘常見面試題整理 part5 2018年08月04日 15:58:45 稻蛙閱讀數：105 五十九、計量經濟

數據挖掘筆試面試（10）

【校招面經】機器學習與數據挖掘常見面試題整理 part5

數據挖掘筆試面試（10）

數據挖掘筆試面試（13）

數據挖掘筆試面試（9）

數據挖掘筆試面試（5）

數據挖掘筆試面試（7）

數據挖掘筆試面試（12）

數據挖掘筆試面試（6）

R語言數據挖掘實戰系列（1）

R語言數據挖掘實戰系列（3）

用SQL玩轉數據挖掘之MADlib（一）——安裝

R語言數據挖掘實戰系列（5）

數據挖掘方法系列（一）數據探索

數據挖掘面試題（1）

聊一聊統計學與數據挖掘的區別（一）

遊戲數據挖掘開發訓練營（一）遊戲大數據概述

機器學習&數據挖掘筆記_16（常見面試之機器學習算法思想簡單梳理）

地震數據挖掘分析系統（雲計算處理、智能挖掘技術）

數據挖掘——統計學分析（三：數據的概括性度量）

數據挖掘——統計學分析（五：統計量）

數據結構-線性表（2）

數據挖掘筆試面試（10）

【校招面經】機器學習與數據挖掘常見面試題整理 part5

相關推薦