1. 程式人生 > >資料探勘常見面試題

資料探勘常見面試題

機器學習方面:

SVM

1、支撐平面-和支援向量互動的平面,分割平面---支援平面中間面也就是最優分類平面

2、SVM不是定義損失,而是定義支援向量之間的距離目標函式

3、正則化引數對支援向量數的影響

LR

1、LR的形式:h(x)=g(f(x)) 其中x為原資料,f(x)為線性/非線性迴歸得到的值,也叫判定邊界 g()為Sigmod函式,最終h(x)輸出的範圍為(0,1)

LR對樣本分佈敏感

LR和樸素貝葉斯(NB)之間的區別

LR是loss最優化求出的 NB是跳過統計Loss最優,直接得出權重的   NB比LR多了一個條件獨立假設  LR屬於判別模型 NB是生成模型

在機器學習中,LR和SVM有什麼區別?

兩者都可以處理非線性的問題;LR和SVM最初都是針對二分類問題的,SVM最大化間隔平面,LR極大似然估計,SVM只能輸出類別,不能輸出概率,兩者LOSS function 不同,LR的可解釋性更強,SVM自帶有約束的正則化

LR為什麼用sigmod函式,這個函式有什麼優點和缺點?為什麼不用其他函式?

LR只能用於處理二分類,而Sigmod對於所有的輸入,得到的輸出接近0或者 1

Sigmod存在的問題,梯度消失、他的輸出不是關於原點對稱的導致收斂速度非常慢,計算非常耗時間

Tanh啟用桉樹存在的問題:梯度消失,計算耗時,但是其輸出的是中心對稱的

Relu:其輸出不關於原點對稱:反向傳播時,輸入的神經元小於0時,會有梯度消失問題,當x=0是,該點的梯度不存在(沒有定義)

Relu問題:權重初始化不當,出事學習率設定的非常大

SVM原問題和對偶問題關係?

SVM對偶問題的獲得方法:將原問題的目標函式L和約束條件構造拉格朗日函式,再對L中原引數和lambda、miu分別求導,並且三種導數都等於0;再將等於0的三個導數帶入原目標函式中,即可獲得對偶問題的目標函式

關係:原問題的最大值相對於對偶問題的最小值

KKT(Karysh-Kuhn-Tucker)條件有哪些,完整描述?

KKT條件是思考如何把約束優化轉化為無約束優化à進而求約束條件的極值點

決策樹過擬合哪些方法,前後剪枝

決策樹對訓練屬性有很好的分類能力;但對位置的測試資料未必有好的分類能力,泛化能力弱,即發生過擬合

防止過擬合的方法:剪枝(把一些相關的屬性歸為一個大類,減少決策樹的分叉);隨機森林

L1正則為什麼可以把係數壓縮成0,座標迴歸的具體實現細節?

L1正則化可以實現稀疏(即截斷),使訓練得到的權重為0;

l1正則會產生稀疏解,即不相關的的特徵對應的權重為0,就相當於降低了維度。但是l1的求解複雜度要高於l2,並且l1更為流行

正則化就是對loss進行懲罰(加了正則化項之後,使loss不可能為0,lambda越大懲罰越大-->lambda較小時,約束小,可能仍存在過擬合;太大時,使loss值集中於正則化的值上)

正則化使用方法:L1/L2/L1+L2

LR在特徵較多時可以進行怎樣的優化?-->L1正則有特徵選擇的作用

如果是離線的話,L1正則可以有稀疏解,batch大點應該也有幫助,線上的解決思路有ftrl,rds,robots,還有阿里的mlr。當然還可以用gbdt,fm,ffm做一些特性選擇和組合應該也有效果。

機器學習裡面的聚類和分類模型有哪些?

分類:LR、SVM、KNN、決策樹、RandomForest、GBDT

迴歸:non-Linear regression、SVR(支援向量迴歸-->可用線性或高斯核(RBF))、隨機森林

聚類:Kmeans、層次聚類、GMM(高斯混合模型)、譜聚類

聚類演算法(可以作為監督學習中稀疏特徵的處理):Kmeans、層次聚類、GMM(高斯混合模型)

聚類演算法唯一用到的資訊是樣本和樣本之間的相似度。

評判聚類效果準則:高類間距,低類內距;高類內相似度,低類間相似度。

相似度與距離負相關。

影象之間的距離的度量是對每個畫素操作,最後獲得距離

正則化為什麼能防止過擬合?

過擬合表現在訓練資料上的誤差非常小,而在測試資料上誤差反而增大。其原因一般是模型過於複雜,過分得去擬合數據的噪聲. 正則化則是對模型引數新增先驗,使得模型複雜度較小,對於噪聲的輸入擾動相對較小。

正則化時,相當於是給模型引數w添加了一個協方差為1/lambda的零均值高斯分佈先

驗。對於lambda =0,也就是不新增正則化約束,則相當於引數的高斯先驗分佈有

著無窮大的協方差,那麼這個先驗約束則會非常弱,模型為了擬合所有的訓練數

據,w可以變得任意大不穩定。lambda越大,表明先驗的高斯協方差越小,模型

約穩定,相對的variance(方差)也越小。