1. 程式人生 > >機器學習筆試面試題目 二

機器學習筆試面試題目 二

1、使用k=1的knn演算法, 下圖二類分類問題, “+” 和 “o” 分別代表兩個類, 那麼, 用僅拿出一個測試樣本的交叉驗證方法, 交叉驗證的錯誤率是多少:

A 0%

B 100%

C 0%到100

D  以上都不是

正確答案是: B

解析:

knn演算法就是, 在樣本週圍看k個樣本, 其中大多數樣本的分類是A類, 我們就把這個樣本分成A類. 顯然, k=1 的knn在上圖不是一個好選擇, 分類的錯誤率始終是100%。
2、我們想在大資料集上訓練決策樹, 為了使用較少時間, 我們可以

A 增加樹的深度

B 增加學習率 (learning rate)

C 減少樹的深度

D 減少樹的數量

正確答案是:C

解析:

增加樹的深度, 會導致所有節點不斷分裂, 直到葉子節點是純的為止. 所以, 增加深度, 會延長訓練時間.
決策樹沒有學習率引數可以調. (不像整合學習和其它有步長的學習方法)
決策樹只有一棵樹, 不是隨機森林。
3、假如我們使用非線性可分的SVM目標函式作為最優化物件, 我們怎麼保證模型線性可分?

A 設C=1

B 設C=0

C 設C=無窮大

D 以上都不

正確答案是:C

解析:

C無窮大保證了所有的線性不可分都是可以忍受的.
4、以下哪些演算法, 可以用神經網路去構造: 
1. KNN
2. 線性迴歸
3. 對數機率迴歸

A 1和 2

B 2 和 3

C 1, 2 和 3

D 以上都不是

正確答案是: B

解析:

1. KNN演算法不需要訓練引數, 而所有神經網路都需要訓練引數, 因此神經網路幫不上忙
2. 最簡單的神經網路, 感知器, 其實就是線性迴歸的訓練
3. 我們可以用一層的神經網路構造對數機率迴歸
5、請選擇下面可以應用隱馬爾科夫(HMM)模型的選項

A 基因序列資料集

B 電影瀏覽資料集

C 股票市場資料集

D 所有以上

正確答案是:D

解析:

只要是和時間序列問題有關的 , 都可以試試HMM
6、我們建立一個5000個特徵, 100萬資料的機器學習模型. 我們怎麼有效地應對這樣的大資料訓練 : 

A我們隨機抽取一些樣本, 在這些少量樣本之上訓練

B我們可以試用線上機器學習演算法

C我們應用PCA演算法降維, 減少特徵數

D  B 和 C

E  A 和 B

F  以上所有 

正確答案是:F

解析:

樣本數過多, 或者特徵數過多, 而不能單機完成訓練, 可以用小批量樣本訓練, 或者線上累計式訓練, 或者主成分PCA降維方式減少特徵數量再進行訓練. 
7、我們想要減少資料集中的特徵數, 即降維. 選擇以下適合的方案 :
1. 使用前向特徵選擇方法
2. 使用後向特徵排除方法
3. 我們先把所有特徵都使用, 去訓練一個模型, 得到測試集上的表現. 然後我們去掉一個特徵, 再去訓練, 用交叉驗證看看測試集上的表現. 如果表現比原來還要好, 我們可以去除這個特徵.
4. 檢視相關性表, 去除相關性最高的一些特徵

A 1 和 2

B 2, 3和4

C 1, 2和4

D All

正確答案是:D

解析:

1.前向特徵選擇方法和後向特徵排除方法是我們特徵選擇的常用方法
2.如果前向特徵選擇方法和後向特徵排除方法在大資料上不適用, 可以用這裡第三種方法.
3.用相關性的度量去刪除多餘特徵, 也是一個好方法

8、對於隨機森林和GradientBoosting Trees, 下面說法正確的是:
1 在隨機森林的單個樹中, 樹和樹之間是有依賴的, 而GradientBoosting Trees中的單個樹之間是沒有依賴的
2 這兩個模型都使用隨機特徵子集, 來生成許多單個的樹
3 我們可以並行地生成GradientBoosting Trees單個樹, 因為它們之間是沒有依賴的
4 GradientBoosting Trees訓練模型的表現總是比隨機森林好

A 2

B 1 and 2

C 1, 3 and 4

D 2 and 4

正確答案是:A

解析:

1 隨機森林是基於bagging的, 在隨機森林的單個樹中, 樹和樹之間是沒有依賴的。
2 Gradient Boosting trees是基於boosting的,且GradientBoosting Trees中的單個樹之間是有依賴關係。
3 這兩個模型都使用隨機特徵子集, 來生成許多單個的樹。
9、對於PCA(主成分分析)轉化過的特徵 ,  樸素貝葉斯的”不依賴假設”總是成立, 因為所有主要成分是正交的, 這個說法是 :

A 正確的

B 錯誤的

正確答案是: B

解析:

這個說法是錯誤的, 首先, “不依賴”和”不相關”是兩回事, 其次, 轉化過的特徵, 也可能是相關的
10、對於PCA說法正確的是 :
1. 我們必須在使用PCA前規範化資料
2. 我們應該選擇使得模型有最大variance的主成分
3. 我們應該選擇使得模型有最小variance的主成分
4. 我們可以使用PCA在低維度上做資料視覺化

A 1, 2 and 4

B 2 and 4

C 3 and 4

D 1 and 3

E 1, 3 and 4

正確答案是:A

解析:

1)PCA對資料尺度很敏感, 打個比方, 如果單位是從km變為cm, 這樣的資料尺度對PCA最後的結果可能很有影響(從不怎麼重要的成分變為很重要的成分).
2)我們總是應該選擇使得模型有最大variance的主成分
3)有時在低維度上左圖是需要PCA的降維幫助的