1. 程式人生 > >一個月刷完機器學習筆試題300題(6)

一個月刷完機器學習筆試題300題(6)

第六天

61、bootstrap資料是什麼意思?(提示:考“bootstrap”和“boosting”區別)
A 有放回地從總共M個特徵中抽樣m個特徵
B 無放回地從總共M個特徵中抽樣m個特徵
C 有放回地從總共N個樣本中抽樣n個樣本
D 無放回地從總共N個樣本中抽樣n個樣本
正確答案是:C
bootstrap其實就是bagging的意思,是Bootstrap Aggregating的縮寫,根據定義就可知是有放回的取樣,
從m個樣本的原始資料集裡進行n(n<=m)次取樣,構成一個包含n個樣本的新訓練資料集,然後拿這個新的資料集來訓練模型。重複上述過程B次,得到B個模型,當有新的模型需要進行預測時,拿這B個模型分別對這個樣本進行預測,然後採用投票的方式(分類問題)或求平均值(迴歸問題)得到新樣本的預測值。
62、“過擬合”只在監督學習中出現,在非監督學習中,沒有“過擬合”,這是()
A 對的
B 錯的
正確答案是: B
我們可以評估無監督學習方法通過無監督學習的指標
63、對於k折交叉驗證, 以下對k的說法正確的是()
A k越大, 不一定越好, 選擇大的k會加大評估時間
B 選擇更大的k, 就會有更小的bias (因為訓練集更加接近總資料集)
C 在選擇k時, 要最小化資料集之間的方差
D 以上所有
正確答案:D
k越大, bias越小, 訓練時間越長. 在訓練時, 也要考慮資料集間方差差別不大的原則. 比如, 對於二類分類問題, 使用2-折交叉驗證, 如果測試集裡的資料都是A類的, 而訓練集中資料都是B類的, 顯然, 測試效果會很差.
64、迴歸模型中存在多重共線性, 你如何解決這個問題?
1 去除這兩個共線性變數
2 我們可以先去除一個共線性變數
3 計算VIF(方差膨脹因子), 採取相應措施
4 為了避免損失資訊, 我們可以使用一些正則化方法, 比如, 嶺迴歸和lasso迴歸
A 1
B 2
C 2和3
D 2, 3和4
正確答案是:D
解決多重公線性, 可以使用相關矩陣去去除相關性高於75%的變數 (有主觀成分). 也可以VIF, 如果VIF值<=4說明相關性不是很高, VIF值>=10說明相關性較高.
我們也可以用 嶺迴歸和lasso迴歸的帶有懲罰正則項的方法. 我們也可以在一些變數上加隨機噪聲, 使得變數之間變得不同, 但是這個方法要小心使用, 可能會影響預測效果。
65、模型的高bias是什麼意思, 我們如何降低它 ?
A 在特徵空間中減少特徵
B 在特徵空間中增加特徵
C 增加資料點
D B和C
E 以上所有
正確答案是: B
bias太高說明模型太簡單了, 資料維數不夠, 無法準確預測資料, 所以, 升維吧 !
66、訓練決策樹模型, 屬性節點的分裂, 具有最大資訊增益的圖是下圖的哪一個()


A Outlook
B Humidity
C Windy
D Temperature
正確答案是:A
根據資訊增益的定義計算可得。
67、對於資訊增益, 決策樹分裂節點, 下面說法正確的是()
1 純度高的節點需要更多的資訊去區分
2 資訊增益可以用”1位元-熵”獲得
3 如果選擇一個屬性具有許多歸類值, 那麼這個資訊增益是有偏差的
A 1
B 2
C 2和3
D 所有以上
正確答案是:C
純度越高,表示不確定越少,更少的資訊就可以區分
68、下圖是同一個SVM模型, 但是使用了不同的徑向基核函式的gamma引數, 依次是g1, g2, g3 , 下面大小比較正確的是

A g1 > g2 > g3
B g1 = g2 = g3
C g1 < g2 < g3
D g1 >= g2 >= g3E. g1 <= g2 <= g3
正確答案是:C
所謂徑向基函式 (Radial Basis Function 簡稱 RBF), 就是某種沿徑向對稱的標量函式。 通常定義為空間中任一點x到某一中心點xc之間歐氏距離的單調函式 , 可記作 k(||x-xc||), 其作用往往是區域性的 , 即當x遠離xc時函式取值很小。最常用的徑向基函式是高斯核函式 ,形式為 k(||x-xc||)=exp{- ||x-xc||2/(2*σ
2) } 其中xc為核函式中心,σ為函式的寬度引數 , 控制了函式的徑向作用範圍。由radial basis: exp(-gamma*|u-v|^2)可知, gamma越小, 模型越簡單, 平滑度越好, 分類邊界越不容易過擬合, 所以選C。
69、假設我們要解決一個二類分類問題, 我們已經建立好了模型, 輸出是0或1, 初始時設閾值為0.5, 超過0.5概率估計, 就判別為1, 否則就判別為0 ; 如果我們現在用另一個大於0.5的閾值, 那麼現在關於模型說法, 正確的是 :
1 模型分類的召回率會降低或不變
2 模型分類的召回率會升高
3 模型分類準確率會升高或不變
4 模型分類準確率會降低
A 1
B 2
C 1和3
D 2和4
E 以上都不是
正確答案是:A
精確率, 準確率和召回率是廣泛用於資訊檢索和統計學分類領域的度量值,用來評價結果的質量。下圖可以幫助理解和記憶它們之間的關係, 其中精確率(precision)和準確率(accuracy)都是關於預測效果的描述. 召回率是關於預測樣本的描述。
精確率表示的是預測為正的樣本中有多少是真正的正樣本。那麼預測為正就有兩種可能了,一種就是把正類預測為正類(TP),另一種就是把負類預測為正類(FP), 也就是P = TP / (TP + FP)。

準確率表示的是預測的正負樣本有多少是真實的正和負, 預測正確的數量佔全部預測數量的比例, 也就是A = (TP + TN) / (TP + FP + TN + FN) = (TP + TN) / 全部樣本。

召回率表示的是樣本中的正例有多少被預測正確了。那也有兩種可能,一種是把原來的正類預測成正類(TP),另一種就是把原來的正類預測為負類(FN), 也就是R = TP / (TP + FN)。
精確率和召回率二者計算方法其實就是分母不同,一個分母是預測為正的樣本數,另一個是原來樣本中所有的正樣本數。
提高分界閾值大於0.5, 則預測為正的樣本數要降低, 相當於把圖中圓圈變小, 按下圖則可計算

召回率的分子變小分母不變, 所以召回率會變小或不變;
精確率的分子分母同步變化, 所以精確率的變化不能確定;
準確率的分子為圓內綠色加圓外右側矩形面積所圍樣本, 兩者之和變化不能確定; 分母為矩形所含全部樣本不變化, 所以準確率的變化不能確定;
綜上, 所以選A。
70、“點選率問題”是這樣一個預測問題, 99%的人是不會點選的, 而1%的人是會點選進去的, 所以這是一個非常不平衡的資料集. 假設, 現在我們已經建了一個模型來分類, 而且有了99%的預測準確率, 我們可以下的結論是
A 模型預測準確率已經很高了, 我們不需要做什麼了
B 模型預測準確率不高, 我們需要做點什麼改進模型
C 無法下結論
D 以上都不對
正確答案是:C
類別不均衡的情況下,不要用準確率做分類評估指標,因為全判斷為不會點,準確率也是99%,但是這個分類器一點用都沒有。
此時應該用查準率或查全率,更加能反映情況。