資料探勘常見面試題

阿新 • • 發佈：2019-02-20

機器學習方面:

SVM

1、支撐平面-和支援向量互動的平面,分割平面---支援平面中間面也就是最優分類平面

2、SVM不是定義損失,而是定義支援向量之間的距離目標函式

3、正則化引數對支援向量數的影響

1、LR的形式:h(x)=g(f(x)) 其中x為原資料,f(x)為線性/非線性迴歸得到的值,也叫判定邊界 g()為Sigmod函式,最終h(x)輸出的範圍為(0,1)

LR對樣本分佈敏感

LR和樸素貝葉斯(NB)之間的區別

LR是loss最優化求出的 NB是跳過統計Loss最優,直接得出權重的 NB比LR多了一個條件獨立假設 LR屬於判別模型 NB是生成模型

在機器學習中,LR和SVM有什麼區別?

兩者都可以處理非線性的問題;LR和SVM最初都是針對二分類問題的,SVM最大化間隔平面,LR極大似然估計,SVM只能輸出類別,不能輸出概率,兩者LOSS function 不同,LR的可解釋性更強,SVM自帶有約束的正則化

LR為什麼用sigmod函式,這個函式有什麼優點和缺點?為什麼不用其他函式?

LR只能用於處理二分類,而Sigmod對於所有的輸入,得到的輸出接近0或者 1

Sigmod存在的問題,梯度消失、他的輸出不是關於原點對稱的導致收斂速度非常慢,計算非常耗時間

Tanh啟用桉樹存在的問題:梯度消失,計算耗時,但是其輸出的是中心對稱的

Relu:其輸出不關於原點對稱:反向傳播時,輸入的神經元小於0時,會有梯度消失問題,當x=0是,該點的梯度不存在(沒有定義)

Relu問題:權重初始化不當,出事學習率設定的非常大

SVM原問題和對偶問題關係？

SVM對偶問題的獲得方法：將原問題的目標函式L和約束條件構造拉格朗日函式，再對L中原引數和lambda、miu分別求導，並且三種導數都等於0；再將等於0的三個導數帶入原目標函式中，即可獲得對偶問題的目標函式

關係：原問題的最大值相對於對偶問題的最小值

KKT（Karysh-Kuhn-Tucker）條件有哪些，完整描述？

KKT條件是思考如何把約束優化轉化為無約束優化à進而求約束條件的極值點

決策樹過擬合哪些方法，前後剪枝

決策樹對訓練屬性有很好的分類能力；但對位置的測試資料未必有好的分類能力，泛化能力弱，即發生過擬合

防止過擬合的方法：剪枝（把一些相關的屬性歸為一個大類，減少決策樹的分叉）；隨機森林

L1正則為什麼可以把係數壓縮成0，座標迴歸的具體實現細節？

L1正則化可以實現稀疏（即截斷），使訓練得到的權重為0；

l1正則會產生稀疏解，即不相關的的特徵對應的權重為0，就相當於降低了維度。但是l1的求解複雜度要高於l2,並且l1更為流行

正則化就是對loss進行懲罰（加了正則化項之後，使loss不可能為0,lambda越大懲罰越大-->lambda較小時，約束小，可能仍存在過擬合；太大時，使loss值集中於正則化的值上）

正則化使用方法：L1/L2/L1+L2

LR在特徵較多時可以進行怎樣的優化？-->L1正則有特徵選擇的作用

如果是離線的話，L1正則可以有稀疏解，batch大點應該也有幫助，線上的解決思路有ftrl,rds,robots,還有阿里的mlr。當然還可以用gbdt,fm,ffm做一些特性選擇和組合應該也有效果。

機器學習裡面的聚類和分類模型有哪些？

分類：LR、SVM、KNN、決策樹、RandomForest、GBDT

迴歸：non-Linear regression、SVR（支援向量迴歸-->可用線性或高斯核（RBF））、隨機森林

聚類：Kmeans、層次聚類、GMM（高斯混合模型）、譜聚類

聚類演算法（可以作為監督學習中稀疏特徵的處理）：Kmeans、層次聚類、GMM（高斯混合模型）

聚類演算法唯一用到的資訊是樣本和樣本之間的相似度。

評判聚類效果準則：高類間距，低類內距；高類內相似度，低類間相似度。

相似度與距離負相關。

影象之間的距離的度量是對每個畫素操作，最後獲得距離

正則化為什麼能防止過擬合？

過擬合表現在訓練資料上的誤差非常小，而在測試資料上誤差反而增大。其原因一般是模型過於複雜，過分得去擬合數據的噪聲. 正則化則是對模型引數新增先驗，使得模型複雜度較小，對於噪聲的輸入擾動相對較小。

正則化時，相當於是給模型引數w添加了一個協方差為1/lambda的零均值高斯分佈先

驗。對於lambda =0，也就是不新增正則化約束，則相當於引數的高斯先驗分佈有

著無窮大的協方差，那麼這個先驗約束則會非常弱，模型為了擬合所有的訓練數

據，w可以變得任意大不穩定。lambda越大，表明先驗的高斯協方差越小，模型

約穩定，相對的variance(方差)也越小。

資料探勘常見面試題

機器學習資料探勘常見面試題,

資料探勘常見面試題

最全的資料探勘面試筆試題（修改版）

機器學習資料探勘崗位面試題總結（實時更新）

JAVA的基本資料型別以及常見面試題

大資料常見面試題彙總

面試了10為大資料開發者，總結了幾道常見面試題

金秋十月跳槽季 ——為你解答大資料&資料分析行業10個常見面試題

【PHP常見面試題程式功能設計】先寫一個線上留言本，實現使用者的線上留言功能，留言資訊儲存到資料庫，要求書籍資料表內容以及使用PHP編碼完成。

網易2017校園招聘資料探勘筆試題

網易遊戲2016校園招聘資料探勘研究員線上筆試題和答案

大資料常見面試題彙總（一）

百度2015年資料探勘面試題

大資料常見面試題總結

Python常見面試題——如何遍歷一個內部未知的資料夾？

【資料結構】連結串列的原理及與其相關的常見面試題總結

資料探勘（機器學習）面試--SVM面試常考問題

資料探勘分析相關面試題（親身經歷），持續更新中

Java常見面試題—JVM執行時資料區域

2017年百度校招《資料探勘工程師》筆試題---程式題

資料探勘常見面試題

相關推薦