1. 程式人生 > >知乎專欄 —機器學習筆試題精選試題總結(一)

知乎專欄 —機器學習筆試題精選試題總結(一)

機器學習筆試題精選試題一

1. 線上性迴歸問題中,利用R平方(R-Squared)來判斷擬合度:數值越大說明模型擬合的越好。數值在[0 1]之間。

隨著樣本數量的增加,R平方的數值必然也會增加,無法定量地說明新增的特徵有無意義。對於新增的特徵,R平方的值可能變大也可能不變,兩者不一定呈正相關。

用校正決定係數(Adjusted R-Square): 可以消除樣本數量對R-Square的影響,做到了真正的0~1,越大越好。若這個新增的特徵是冗餘的特徵,則係數會變小;是有意義的特徵,則係數會增大。

2. 相關係數在[-1 1]之間。

3. 利用最小二乘法進行擬合的時候,使用垂直偏移(vertical offsets);在PCA中使用垂向偏移(perpendicular offsets)。

4. 資料量比較少時,容易出現過擬合,該模型不具備較好的泛化能力;假設空間較小時,容易出現高偏差、低方差,即欠擬合。

機器學習筆試題精選試題二

1. Lasso迴歸:

資料集的特徵是100個(X1,X2,......X100),把其中的一個特徵值擴大10倍(例如是特徵值X1),然後利用相同的正則化引數對Lasso迴歸進行修正,則對於特徵X1而言,有

特徵X1很可能還包括在模型之中。因為它對應的迴歸係數較小,但不為0,保證仍滿足正則化約束。

這種迴歸(Lasso迴歸,是普通的線性迴歸後加上L1正則項)適合於樣本數量較少,特徵維數較大的情形,便於從較多的特徵中進行特徵的選擇。

2. Ridge迴歸:

又稱為嶺迴歸,是普通的線性迴歸後加上L2正則項。

3. 相關與線性關係:

相關不一定是線性關係,可能是非線性關係。

相關時若有相關係數r為0,說明兩個變數之間不存線上性關係,仍可能存在非線性關係。

相關係數為0是兩個變數獨立的必要不充分條件。

4. 異常值的判斷和處理

目前,人們對於異常值的判別和剔除主要採用物理判別法和統計判別法這兩種方法。

物理判別法:判別由於外界干擾、人為誤差等造成實測資料值偏離正常結果。

統計判別法:給定置信概率,確定置信限,凡超過此限的誤差就認為不屬於隨機誤差的範圍,將其視為異常值剔除。

當物理判別法不好判斷時,一般採用統計判別法。

5. 用於評價線性模型的指標有:

R-Squared,Adjusted R-Squared, F-Statistics, RMSE(均方根誤差 Root Mean Squared Error)/MSE(均方誤差 Mean Squared Error )/MAE(絕對誤差 Mean Absolute Error)。

機器學習筆試題精選試題三

1. 迴歸與相關:

對於相關而言,x與y的相關係數同y與x的相關係數是一樣的,即是對稱的。對於迴歸而言,則是單向的、非對稱的。

2. 知道變數的均值和中值,可以計算出變數的傾斜度嗎?

不可以。可以由均值和中值看出分佈的傾斜程度。傾斜度是用三階矩定義的,計算公式是:

\[{S_c} = \frac{{\sum {{{({x_i} - \bar x)}^3}} }}{m}\]

3. 觀察次數少,且樣本的數量比較少,提高模型的複雜度容易發生過擬合;

觀察次數多,即使樣本的數量比較多,提高模型的複雜度也不容易發生過擬合。

4. 預測值與殘差之間應該不存在任何的函式關係,若存在則說明擬合效果不好。

5. 邏輯迴歸和線性迴歸中,損失函式對於權重係數的導數是一樣的。

可以參見周志華《機器學習》筆記。

機器學習筆試題精選試題四

1. 在n維空間中(n>1),最適合檢測異常值的方法是:馬氏距離

馬氏距離多用來計算某樣本點與資料集的距離,有點在於具有尺度無關性。計算公式如下:

\[{D_M}(\vec x) = \sqrt {{{(\vec x - \vec \mu )}^T}{S^{ - 1}}(\vec x - \vec \mu )} \]

其中,

\[\vec \mu \]是樣本均值,S是樣本集協方差矩陣。相比於歐式距離,區別在於多了一個協方差矩陣的逆。考慮到不同特徵之間的協方差不同,將其進行歸一化,使得距離的度量與尺度是無關的。

2. bootstrap:

從總的N個樣本中,有放回地抽取n個樣本(n<N)。

思想:從已有的資料集中模擬出類似但不完全相同的資料集。主要針對於沒有足夠的資料進行訓練的情況。

3. 對於非監督學習,依然存在過擬合。

評價的指標有很多,如 調整蘭德指數(Adjusted Rand Score)來評估聚類模型。值越大說明聚類的結果與真實的結果越吻合。

4. 若迴歸模型中有多重共線性(multicollinearity),可以採用如下措施來解決這一問題而且不丟失太多資訊:

1)刪除共線性變數中的一個;

2)計算方差膨脹因子(VIF)來檢查共線性程度,並採取相應的措施;

3)刪除相關變數會遺失資訊,我們可以 不刪除相關變數,使用正則化的方法來解決多重共線性的問題,如Ridge或Lasso迴歸。

5.決策樹的資訊增益

1)計算;

2)可以用“1位元-熵”獲得;如果選擇一個屬性具有很多特徵值,那麼這個資訊增益是有偏差的。

6. SVM模型出現欠擬合,可以採取:

1)增大懲罰引數C的值,C很小時,出錯較多;很大的時候出現過擬合(將noise也進行處理)。

2)增大核函式中指數項的絕對值大小,當值較小時,分類較光滑;很大時分類會很複雜(出現分類線是一個個獨立的小區域)。這是因為係數越大,對應的核函式越尖銳。

機器學習筆試題精選試題五

1. 對於二元分類,輸出是概率值。若將判斷為正類的閾值提高,則準確率(Precision)和召回率(Recall)有何變化:

準確率增加或不變,召回率減小或不變。

準確率:預測是正類的樣本中,真正為正類的樣本所佔預測是正類的樣本的比例;

召回率:在真實的正類的樣本中,被預測出是正類的樣本所佔的比例。

若提高閾值,則判別為正類的要求提高了,預測是正類的樣本可能會不變或者減少,準確率會增加或者不變。由於真實的樣本是事先確定的,所以數量是不變的,被預測出是正類的樣本的數量可能會不變或者減少,所以召回率會不變或減少。

F1是準確率和召回率的調和平均數。

2. 對於類別不平衡的情況,需要做一些資料處理,如取樣、資料合成、懲罰因子加權、一分類。

一分類:即在正負樣本分佈不均勻的時候,將其看成一分類或者異常檢測。

3. 使用原始的非線性可分版本的Soft-SVM優化目標函式,可以設定:

C為正無窮來保證得到的模型是線性可分的。理解如下;

1) 正常的線性可分的情況下,對偶形式的拉格朗日乘子有\[{\alpha _n} \ge 0\],在Soft-SVM中對偶形式的拉格朗日乘子有\[0 \le {\alpha _n} \le C\]。當C為正無窮大時,形式是一樣的。

2)C越大越希望得到更少的分類錯誤,當趨近於正無窮時分類誤差趨於0,即線性可分。

注:C很大時,將noise算入,即Soft-SVM中出現了過擬合。

4. 支援向量機中與模型的分類能力相關的點只有支援向量(非支援向量與結果是無關的)。

具體的{\alpha _n}的值對結果的影響參照 林軒田的《機器學習技法》。

5. 隱馬爾科夫模型(Hidden Markov Model,簡稱HMM)解決時間序列的問題。