1. 程式人生 > >機器學習-機器學習試題(一)

機器學習-機器學習試題(一)

前言

在網上找的一些試題及延伸的一些問題,以選擇題為主,主要是關於基礎理論知識,同時給出自己聯想到的一些問題。當然基礎問題應當包含演算法本身的過程和某些推導過程。比如:LR、SVM的推導。

試題

試題1: 已知座標軸中兩點A(2,2)B(1,2),求這兩點的曼哈頓距離(L1距離)。

 答案:7 。向量AB(-3,4),L1 是向量中非零元素的絕對值和。

問題延伸:機器學習演算法中哪些應用了L1,哪些應用了L2.

參考連結正則化技術

試題2SVM中的核技巧(Kernal trick)的作用包括以下哪項?

A. 特徵升維
B. 特徵降維
C. 防止過擬合

答案:C 

核技巧使用核函式將樣本從原特徵空間對映到更高維的空間,使得樣本在更高維的空間中線性可分。

問題延伸:SVM的核函式本質及推導過程。

試題3: 在資料預處理階段,我們常常對數值特徵進行歸一化或標準化(standardization, normalization)處理。這種處理方式理論上不會對下列哪個模型產生很大影響?

 A. k-Means
B. k-NN
C. 決策樹

答案:C

k-Means和k-NN都需要使用距離。而決策樹對於數值特徵,只在乎其大小排序,而非絕對大小。不管是標準化或者歸一化,都不會影響數值之間的相對大小。關於決策樹如何對數值特徵進行劃分

問題延伸:機器學習那些演算法是進行歸一化處理或標準化。

試題4:下面哪個情形不適合作為K-Means迭代終止的條件?

  A. 前後兩次迭代中,每個聚類中的成員不變


 B. 前後兩次迭代中,每個聚類中樣本的個數不變
C. 前後兩次迭代中,每個聚類的中心點不變

答案:B

A和C是等價的,因為中心點是聚類中成員各座標的均值

問題延伸:K-means的k值選擇及更新,迭代終止的兩個條件。

試題5關於欠擬合(under-fitting),下面哪個說法是正確的?

  A. 訓練誤差較大,測試誤差較小
 B. 訓練誤差較小,測試誤差較大
C. 訓練誤差較大,測試誤差較大

答案:C

當欠擬合發生時,模型還沒有充分學習訓練集中基本有效資訊,導致訓練誤差太大。測試誤差也會較大,因為測試集中的基本資訊(分佈)是

與訓練集相一致的。

延伸問題:模型狀態?怎樣判定?工具是什麼?