1. 程式人生 > >機器學習演算法崗常見筆試面試題整理

機器學習演算法崗常見筆試面試題整理

  • 資料庫中的主鍵、索引和外來鍵(資料分析崗經常問)
  • 決策樹ID3和C4.5的差別?各自優點?
  • Boost演算法
  • CART(迴歸樹用平方誤差最小化準則,分類樹用基尼指數最小化準則)
  • GBDT與隨機森林演算法的原理以及區別。
  • 優化演算法中常遇到的KKT條件?作用是?
  • 最近鄰演算法KNN(分類與迴歸)
  • L1和L2函式?L1和L2正則項的比較,如何解決 L1 求導困難?
  • L1正則為何可把係數壓縮成0,說明座標下降法的具體實現細節
  • LR為什麼用sigmoid函式。這個函式有什麼優點和缺點?為什麼不用其他函式?
  • LR和SVM的區別?libsvm和liblinear的區別?
  • Logistics與隨機森林比較
  • Logistics(理論推導);Logistic迴歸的推導,如何得到objective function?
  • SVM與隨機森林的差別?
  • SVM為何要引入拉格朗日的優化方法?
  • SVM原問題和對偶問題關係?
  • SVM在哪個地方引入的核函式, 如果用高斯核可以升到多少維。
  • SVM如何防止過擬合?
  • SVM的目標函式?常用的核函式有哪些?
  • SVM的過程,理論推導
  • bagging、adaboost、boosting區別在哪
  • EM 與 k-means 的關係?
  • k-means演算法中的k如何選取?
  • k-means演算法初始點怎麼選擇?
  • k-means的原理,優缺點以及改進。
  • k折交叉驗證中k取值多少有什麼關係?
  • L2懲罰項是怎麼減小Overfitting的?L1,L2等範數的通式是?差別是?在什麼場景下用什麼範數?L1在0處不可導,怎麼處理?
  • 隨機森林和GBDT差別?
  • RF, GBDT, xgboost的區別?
  • 為什麼要做資料歸一化?
  • 梯度下降法的原理以及各個變種(批量梯度下降,隨機梯度下降法,mini 梯度下降法),以及這幾個方法會不會有區域性最優問題。
  • 牛頓法原理和適用場景,有什麼缺點,如何改進(擬牛頓法)
  • 什麼情況下一定會發生過擬合?
  • 貝葉斯估計?
  • 介紹LR、RF、GBDT ,分析它們的優缺點
  • 會哪些機器學習演算法?資訊熵公式?
  • 決策樹原理;決策樹處理連續值的方法;決策樹如何防止過擬合;決策樹過擬合哪些方法,前後剪枝。
  • 分類模型可做迴歸分析嗎?反過來可以嗎?
  • 分類模型和迴歸模型的區別?
  • 判別模型和生成模型?差別
  • 各個模型的Loss function,牛頓學習法、SGD如何訓練。
  • 在模型的訓練迭代中,怎麼評估效果?
  • 如何防止過擬合(增加資料,減少模型複雜度->正則化)
  • 對於同分布的弱分類器,求分類器均值化之後的分佈的均值跟方差。
  • 對於機器學習你都學了哪些?講一個印象深的。
  • 常見分類模型( svm,決策樹,貝葉斯等)的優缺點,適用場景以及如何選型
  • 資料歸一化的方式
  • 手寫k-means的虛擬碼。
  • 手寫svm硬軟間隔對偶的推導
  • 手寫邏輯迴歸(損失函式及更新方式推導)
  • BP演算法原理
  • 改變隨機森林的訓練樣本資料量,是否會影響到隨機森林學習到的模型的複雜度?
  • 資料探勘各種演算法,以及各種場景下的解決方案
  • 是否瞭解mutual infomation、chi-square、LR前後向、樹模型等特徵選擇方式。
  • 是否瞭解線性加權、bagging、boosting、cascade等模型融合方式
  • 有哪些常見的分類器,簡單介紹下原理
  • 機器學習與深度學習的區別
  • 線性迴歸與邏輯迴歸區別?
  • 機器學習:幾種樹模型的原理和對比,樸素貝葉斯分類器原理以及公式,出現估計概率值為 0 怎麼處理(拉普拉斯平滑),缺點; 
  • DBSCAN聚類演算法原理
  • 主成分分析法原理、MapReduce原理、Spark等(資料崗題)
  • 梯度下降、牛頓、擬牛頓演算法的原理
  • 梯度下降的優缺點。
  • 深度學習有很大部分是CNN,給他用通俗的語言解釋下卷積的概念,解釋下CNN中的優勢及原因
  • 牛頓法、隨機梯度下降演算法和直接梯度下降演算法的區別?
  • 牛頓法推導
  • 特徵選擇方法有哪些
  • 由資料引申到資料不平衡怎麼處理(10W正例,1W負例,牛客上有原題)
  • 聊聊SVM,這段說了好久,從基本的線性可分到不可分,相關升維,各種核函式,每個是如何實現升。以及出現了XX問題,分析是樣本的原因還是其他原因。針對不同情況,採取什麼解決方案較好。
  • 自己實現過什麼機器學習演算法
  • 解決過擬合的方法有哪些?
  • 解釋一下過擬合和欠擬合,有哪些方法防止過擬合。
  • 如何構造決策樹、計算資訊熵和資訊增益、說明C4.5 、ID3、 CART的區別及優缺點
  • 詳細討論了樣本取樣和bagging的問題
  • 說一下Adaboost,權值更新公式。當弱分類器是LR時,每個樣本的的權重是w1,w2...,寫出最終的決策公式。
  • 說了一下bagging跟boosting。
  • 說明L1和L2正則的效果與為什麼形成這種情況(L1正則稀疏,L2正則平滑,之後說明就是畫圖說明正則化)
  • 選個你熟悉的機器學習方法 ,著重介紹一下產生原因,推導公式,背後統計意義什麼等等
  • 邏輯迴歸估計引數時的目標函式
  • 邏輯迴歸的值表示概率嗎?
  • 資料探勘的基礎知識,包括SVM,邏輯迴歸、EM、K-means等,然後給出很多場景問你遇到這些情況你如何處理資料,怎麼進行建模等
  • 隨機梯度下降,標準梯度
  • 隨機森林和GBDT的區別?LR的引數怎麼求解?有沒有最優解?