機器學習演算法崗常見筆試面試題整理

阿新 • • 發佈：2019-01-25

資料庫中的主鍵、索引和外來鍵（資料分析崗經常問）
決策樹ID3和C4.5的差別？各自優點？
Boost演算法
CART（迴歸樹用平方誤差最小化準則，分類樹用基尼指數最小化準則）
GBDT與隨機森林演算法的原理以及區別。
優化演算法中常遇到的KKT條件？作用是？
最近鄰演算法KNN（分類與迴歸）
L1和L2函式？L1和L2正則項的比較，如何解決 L1 求導困難？
L1正則為何可把係數壓縮成0，說明座標下降法的具體實現細節
LR為什麼用sigmoid函式。這個函式有什麼優點和缺點？為什麼不用其他函式？
LR和SVM的區別？libsvm和liblinear的區別？
Logistics與隨機森林比較

Logistics（理論推導）；Logistic迴歸的推導，如何得到objective function？
SVM與隨機森林的差別？
SVM為何要引入拉格朗日的優化方法？
SVM原問題和對偶問題關係？
SVM在哪個地方引入的核函式, 如果用高斯核可以升到多少維。
SVM如何防止過擬合？
SVM的目標函式？常用的核函式有哪些？
SVM的過程，理論推導
bagging、adaboost、boosting區別在哪
EM 與 k-means 的關係？
k-means演算法中的k如何選取？
k-means演算法初始點怎麼選擇？
k-means的原理，優缺點以及改進。
k折交叉驗證中k取值多少有什麼關係？

L2懲罰項是怎麼減小Overfitting的？L1，L2等範數的通式是？差別是？在什麼場景下用什麼範數？L1在0處不可導，怎麼處理？
隨機森林和GBDT差別？
RF, GBDT, xgboost的區別？
為什麼要做資料歸一化？
梯度下降法的原理以及各個變種（批量梯度下降，隨機梯度下降法，mini 梯度下降法），以及這幾個方法會不會有區域性最優問題。
牛頓法原理和適用場景，有什麼缺點，如何改進（擬牛頓法）
什麼情況下一定會發生過擬合？
貝葉斯估計？
介紹LR、RF、GBDT ，分析它們的優缺點
會哪些機器學習演算法？資訊熵公式？
決策樹原理；決策樹處理連續值的方法；決策樹如何防止過擬合；決策樹過擬合哪些方法，前後剪枝。

分類模型可做迴歸分析嗎？反過來可以嗎？
分類模型和迴歸模型的區別？
判別模型和生成模型？差別
各個模型的Loss function，牛頓學習法、SGD如何訓練。
在模型的訓練迭代中，怎麼評估效果？
如何防止過擬合（增加資料，減少模型複雜度->正則化）
對於同分布的弱分類器，求分類器均值化之後的分佈的均值跟方差。
對於機器學習你都學了哪些？講一個印象深的。
常見分類模型（ svm，決策樹，貝葉斯等）的優缺點，適用場景以及如何選型
資料歸一化的方式
手寫k-means的虛擬碼。
手寫svm硬軟間隔對偶的推導
手寫邏輯迴歸（損失函式及更新方式推導）
BP演算法原理
改變隨機森林的訓練樣本資料量，是否會影響到隨機森林學習到的模型的複雜度？
資料探勘各種演算法，以及各種場景下的解決方案
是否瞭解mutual infomation、chi-square、LR前後向、樹模型等特徵選擇方式。
是否瞭解線性加權、bagging、boosting、cascade等模型融合方式
有哪些常見的分類器，簡單介紹下原理
機器學習與深度學習的區別
線性迴歸與邏輯迴歸區別？
機器學習：幾種樹模型的原理和對比，樸素貝葉斯分類器原理以及公式，出現估計概率值為 0 怎麼處理（拉普拉斯平滑），缺點；
DBSCAN聚類演算法原理
主成分分析法原理、MapReduce原理、Spark等（資料崗題）
梯度下降、牛頓、擬牛頓演算法的原理
梯度下降的優缺點。
深度學習有很大部分是CNN，給他用通俗的語言解釋下卷積的概念，解釋下CNN中的優勢及原因
牛頓法、隨機梯度下降演算法和直接梯度下降演算法的區別？
牛頓法推導
特徵選擇方法有哪些
由資料引申到資料不平衡怎麼處理（10W正例，1W負例，牛客上有原題）
聊聊SVM，這段說了好久，從基本的線性可分到不可分，相關升維，各種核函式，每個是如何實現升。以及出現了XX問題，分析是樣本的原因還是其他原因。針對不同情況，採取什麼解決方案較好。
自己實現過什麼機器學習演算法
解決過擬合的方法有哪些？
解釋一下過擬合和欠擬合，有哪些方法防止過擬合。
如何構造決策樹、計算資訊熵和資訊增益、說明C4.5 、ID3、 CART的區別及優缺點
詳細討論了樣本取樣和bagging的問題
說一下Adaboost，權值更新公式。當弱分類器是LR時，每個樣本的的權重是w1，w2...,寫出最終的決策公式。
說了一下bagging跟boosting。
說明L1和L2正則的效果與為什麼形成這種情況（L1正則稀疏，L2正則平滑，之後說明就是畫圖說明正則化）
選個你熟悉的機器學習方法，著重介紹一下產生原因，推導公式，背後統計意義什麼等等
邏輯迴歸估計引數時的目標函式
邏輯迴歸的值表示概率嗎？
資料探勘的基礎知識，包括SVM,邏輯迴歸、EM、K-means等，然後給出很多場景問你遇到這些情況你如何處理資料，怎麼進行建模等
隨機梯度下降，標準梯度
隨機森林和GBDT的區別？LR的引數怎麼求解？有沒有最優解？

機器學習演算法崗常見筆試面試題整理

資料庫中的主鍵、索引和外來鍵（資料分析崗經常問）決策樹ID3和C4.5的差別？各自優點？ Boost演算法 CART（迴歸樹用平方誤差最小化準則，分類樹用基尼指數最小化準則） GBDT與隨機森林演算法的原理以及區別。優化演算法中常遇到的KKT條件？作用是？最近鄰演算法KNN（分類與迴歸）

機器學習演算法校招筆試面試題集

泛化誤差Bias(偏差)，Error(誤差)，Variance(方差)及CV(交叉驗證) Error = Bias^2 + Variance+Noise 什麼是Bias(偏差) Bias反映的是模型在樣本上的輸出與真實值之間的誤差，即模型本身的精準度，即演算法本身的擬合

大疆機器學習演算法崗筆試

題目的總體難度屬於中等偏上。5道單選，5道多選。之後是2道填空、5道簡答和2道程式設計。單選和多選考了機器學習和深度學習裡的一些常見的知識點。填空考了CNN和熵的計算。簡答考的範圍很廣，包括啟用函式、BP公式推導、歸一化的原因及方法等。程式設計題考了兩道，一個是陣列，一個是求

機器學習演算法崗的常見面試問題及準備

機器學習常見問題1) 幾種模型（ SVM，LR，GBDT，EM ）的原理以及公式推導；2) RF,GBDT 的區別； GBDT,XgBoost的區別（爛大街的問題最好從底層原理去分析回答）； 3) 決策樹處理連續值的方法； 4) 特徵選擇的方法； 5) 過擬合的解決方法； 6

作業系統常見筆試面試題

來源：k6k4 答案參考：作業系統常見面試題精選IT書籍面試題筆試大全 IT導航系統架構線上程式設計1、簡單介紹程序和執行緒以及它們的區別?2、程序有哪幾種狀態?3、程序的通訊方式有哪些?4、執行緒同步的方式有哪些?5、作業系統中程序排程策略有哪幾種?6、說一說死鎖

【不定期更新】FPGA/IC崗位常見筆試面試題總結

1 數字IC（ASIC）設計流程：　　規格定製、詳細設計、HDL編碼、模擬驗證、邏輯綜合（產生網表）、靜態時序分析（STA）、形式驗證（對比綜合後網表與HDL設計功能是否一致）。之後包括佈局佈線（進行硬體模組和連線資源對映）等操作，最終生成驗證後的版圖檔案用於流片。其中綜合是劃分IC設計前端和後端的界限。

[C/C++常見筆試面試題] 程式設計基礎 - 預處理、結構體與類篇

5 預處理預處理也稱為預編譯，它為編譯做預備工作，主要進行程式碼文字的替換工作，用於處理#開頭的指令，其中前處理器產生編譯器的輸出。下圖所示為常見的一些預處理指令及其功能。 5.1 C/C++標頭檔案中的ifndef/define/endif的作用有哪些？如果一個專案中存在兩個C

[C/C++常見筆試面試題] 程式設計基礎 - 面向物件相關、虛擬函式、程式設計技巧篇

13 面向物件相關面向物件思想是程式設計歷史上一次偉大的創新，面向物件的提出極大地提高了程式設計的效率，為程式設計的重用性奠定了堅實的基礎，面向物件思想已經廣泛應用在現今主流的程式語言中，如C++、Java、C#等。 13.1 面向物件與面向過程有什麼區別？面向物件面向物件是把資

資料庫常見筆試面試題

資料庫基礎(面試常見題) 一、資料庫基礎 1. 資料抽象：物理抽象、概念抽象、檢視級抽象,內模式、模式、外模式 2. SQL語言包括資料定義、資料操縱(Data Manipulation),資料控制(Data Control) 資料定義：Create Table,

計算機網路常見筆試面試題

· OSI，TCP/IP，五層協議的體系結構，以及各層

常見C++筆試面試題整理

1、C和C++的區別 1）C是面向過程的語言，是一個結構化的語言，考慮如何通過一個過程對輸入進行處理得到輸出；C++是面向物件的語言，主要特徵是“封裝、繼承和多型”。封裝隱藏了實現細節，使得程式碼模組化；派生類可以繼承父類的資料和方法，擴充套件了已經存在的模組，實現了程式碼

機器學習——boosting 與 bagging 知識點+面試題總結

一、boosting與bagging：（1）bagging：從原始資料中隨機抽樣得到多個同樣大小的資料集，來訓練多個基學習器，各學習器之間互不依賴。是一種並行的方法。各分類器的權重都是相等的。（抽樣方法為有放回的抽樣：允許每個小資料集中可以有重複的值。）（2）bo

二叉樹的常見筆試面試題

在二叉樹的基本操作裡已經說明如何用遞迴的方法進行二叉樹的遍歷，那麼如何用非遞迴的方法來進行二叉樹的遍歷呢，請看下文1.使用非遞迴方式進行二叉樹的先序遍歷思想：先將根節點入棧然後出棧，繼續將右子樹先入棧，然後將左子樹入棧，因為棧是先進後出的原則，所以左子樹後進是先出來的實現程式

機器學習-演算法工程師 -面試/筆試準備-重要知識點梳理

整理了一下機器學習-演算法工程師需要掌握的機器學習基本知識點，並附上了網上筆者認為寫得比較好的博文地址，供參考。（持續更新）機器學習相關基礎概念 Variance（方差）與bias（偏差）常用效能指標生成模型與判別模型整合學習：Bagging

機器學習資料探勘崗位面試題總結（實時更新）

1. 專案介紹 2. 你這個專案中間哪些地方提升，中間過程分別提升了多少CTR？ 3. 你專案用的分散式LR的是用什麼優化方法，引數怎麼調的，mini-batch的batch是多少？ parameter-server原理，如何解決資料一致性？ 4. 會分散式麼，hadoop,spark會麼，說說ha

2017暑期實習面試總結-機器學習演算法崗

雖然心裡唸叨該早點準備3月開始的這波面試，但由於生病等種種原因，又或者可以說我是一個輕微拖延症患者吧，直到3月初被內推了阿里才真正開始準備。截止目前，還算幸運，拿到了幾個offer。

資料庫常見筆試面試題及其解析

資料庫基礎(面試常見題) 一、資料庫基礎 1. 資料抽象：物理抽象、概念抽象、檢視級抽象,內模式、模式、外模式 2. SQL語言包括資料定義、資料操縱(Data Manipulation),資料控制(Data Control) 資料定義：Cre

常見作業系統筆試面試題整理

1、程序和執行緒的區別和聯絡 1）程序是作業系統進行資源分配的基本單位，執行緒是CPU排程的基本單位 2）一個程序可以包含多個執行緒，執行緒間共享程序的所有資源，每個執行緒都自己的堆疊和區域性變數 3）進行有自己的獨立的地址空間，每啟動一個程序，系統就會為它分配空間，建

常見SQL面試題整理（實時更新）

1）有一張表，裡面有3個欄位：語文，數學，英語。其中有3條記錄分別表示語文70分，數學80分，英語58分，請用一條SQL語句查詢出這三條記錄並按以下條件顯示出來：大於或等於80表示優秀，大於或等於60表示及格，小於60分表示不及格。 select (case when 語文

Java筆試面試題整理第四波

本系列整理Java相關的筆試面試知識點，其他幾篇文章如下：1、HashMap、HashTable、ConcurrentHashMap的區別（關於HashMap的分析，在第三篇總結《》中的hash

機器學習演算法崗常見筆試面試題整理

相關推薦