機器學習筆試面試題目二

阿新 • • 發佈：2018-12-12

1、使用k=1的knn演算法, 下圖二類分類問題, “+” 和 “o” 分別代表兩個類, 那麼, 用僅拿出一個測試樣本的交叉驗證方法, 交叉驗證的錯誤率是多少：

A 0%

B 100%

C 0%到100

D 以上都不是

正確答案是： B

解析：

knn演算法就是, 在樣本週圍看k個樣本, 其中大多數樣本的分類是A類, 我們就把這個樣本分成A類. 顯然, k=1 的knn在上圖不是一個好選擇, 分類的錯誤率始終是100%。

2、我們想在大資料集上訓練決策樹, 為了使用較少時間, 我們可以

A 增加樹的深度

B 增加學習率 (learning rate)

C 減少樹的深度

D 減少樹的數量

正確答案是：C

解析：

增加樹的深度, 會導致所有節點不斷分裂, 直到葉子節點是純的為止. 所以, 增加深度, 會延長訓練時間.
決策樹沒有學習率引數可以調. (不像整合學習和其它有步長的學習方法)
決策樹只有一棵樹, 不是隨機森林。

3、假如我們使用非線性可分的SVM目標函式作為最優化物件, 我們怎麼保證模型線性可分？

A 設C=1

B 設C=0

C 設C=無窮大

D 以上都不

正確答案是：C

解析：

C無窮大保證了所有的線性不可分都是可以忍受的.

4、以下哪些演算法, 可以用神經網路去構造: 
1. KNN
2. 線性迴歸
3. 對數機率迴歸

A 1和 2

B 2 和 3

C 1, 2 和 3

D 以上都不是

正確答案是： B

解析：

1. KNN演算法不需要訓練引數, 而所有神經網路都需要訓練引數, 因此神經網路幫不上忙
2. 最簡單的神經網路, 感知器, 其實就是線性迴歸的訓練
3. 我們可以用一層的神經網路構造對數機率迴歸

5、請選擇下面可以應用隱馬爾科夫(HMM)模型的選項

A 基因序列資料集

B 電影瀏覽資料集

C 股票市場資料集

D 所有以上

正確答案是：D

解析：

只要是和時間序列問題有關的 , 都可以試試HMM

6、我們建立一個5000個特徵, 100萬資料的機器學習模型. 我們怎麼有效地應對這樣的大資料訓練 :

A我們隨機抽取一些樣本, 在這些少量樣本之上訓練

B我們可以試用線上機器學習演算法

C我們應用PCA演算法降維, 減少特徵數

D B 和 C

E A 和 B

F 以上所有

正確答案是：F

解析：

樣本數過多, 或者特徵數過多, 而不能單機完成訓練, 可以用小批量樣本訓練, 或者線上累計式訓練, 或者主成分PCA降維方式減少特徵數量再進行訓練.

7、我們想要減少資料集中的特徵數, 即降維. 選擇以下適合的方案 :
1. 使用前向特徵選擇方法
2. 使用後向特徵排除方法
3. 我們先把所有特徵都使用, 去訓練一個模型, 得到測試集上的表現. 然後我們去掉一個特徵, 再去訓練, 用交叉驗證看看測試集上的表現. 如果表現比原來還要好, 我們可以去除這個特徵.
4. 檢視相關性表, 去除相關性最高的一些特徵

A 1 和 2

B 2, 3和4

C 1, 2和4

D All

正確答案是：D

解析：

1.前向特徵選擇方法和後向特徵排除方法是我們特徵選擇的常用方法
2.如果前向特徵選擇方法和後向特徵排除方法在大資料上不適用, 可以用這裡第三種方法.
3.用相關性的度量去刪除多餘特徵, 也是一個好方法

8、對於隨機森林和GradientBoosting Trees, 下面說法正確的是:
1 在隨機森林的單個樹中, 樹和樹之間是有依賴的, 而GradientBoosting Trees中的單個樹之間是沒有依賴的
2 這兩個模型都使用隨機特徵子集, 來生成許多單個的樹
3 我們可以並行地生成GradientBoosting Trees單個樹, 因為它們之間是沒有依賴的
4 GradientBoosting Trees訓練模型的表現總是比隨機森林好

A 2

B 1 and 2

C 1, 3 and 4

D 2 and 4

正確答案是：A

解析：

1 隨機森林是基於bagging的, 在隨機森林的單個樹中, 樹和樹之間是沒有依賴的。
2 Gradient Boosting trees是基於boosting的，且GradientBoosting Trees中的單個樹之間是有依賴關係。
3 這兩個模型都使用隨機特徵子集, 來生成許多單個的樹。

9、對於PCA(主成分分析)轉化過的特徵 ,  樸素貝葉斯的”不依賴假設”總是成立, 因為所有主要成分是正交的, 這個說法是 :

A 正確的

B 錯誤的

正確答案是： B

解析：

這個說法是錯誤的, 首先, “不依賴”和”不相關”是兩回事, 其次, 轉化過的特徵, 也可能是相關的

10、對於PCA說法正確的是 :
1. 我們必須在使用PCA前規範化資料
2. 我們應該選擇使得模型有最大variance的主成分
3. 我們應該選擇使得模型有最小variance的主成分
4. 我們可以使用PCA在低維度上做資料視覺化

A 1, 2 and 4

B 2 and 4

C 3 and 4

D 1 and 3

E 1, 3 and 4

正確答案是：A

解析：

1）PCA對資料尺度很敏感, 打個比方, 如果單位是從km變為cm, 這樣的資料尺度對PCA最後的結果可能很有影響(從不怎麼重要的成分變為很重要的成分).
2）我們總是應該選擇使得模型有最大variance的主成分
3）有時在低維度上左圖是需要PCA的降維幫助的

機器學習筆試面試題目二

1、使用k=1的knn演算法, 下圖二類分類問題, “+” 和 “o” 分別代表兩個類, 那麼, 用僅拿出一個測試樣本的交叉驗證方法, 交叉驗證的錯誤率是多少： A 0% B 100% C 0%到100 D 以上都不是正確答案是： B 解析： knn演

機器學習筆試面試超詳細總結（二）

51、概率和資訊量的關係示例：符號集 a 、 b 、 c 、 d ，它們相互獨立，相應概率為 1/2 、 1/4 、 1/8/ 、 1/16 ，其中包含資訊量最小的符號（a）解析：訊息出現的概率越小，說明限制條件越多，則訊息中所包含的資訊量就越大；

機器學習深度學習筆試面試題目整理（2）

1. CNN問題：（1）思想　　改變全連線為區域性連線，這是由於圖片的特殊性造成的（影象的一部分的統計特性與其他部分是一樣的），通過區域性連線和引數共享大範圍的減少引數值。可以通過使用多個filter來提取圖片的不同特徵（多卷積核）。　　（2）filte

Java筆試面試題目（二）

與他得到訪問開發上進 instance 分配基本類當前每日一句：人生充滿著期待，夢想連接著未來！ java應屆生或自學初學者筆試面試題目總結，希望對大家有幫助，題目來自自己學習總結和老師講解，網絡資源，書籍資料。敲出來大家看，每次更新10+道題目，希望大家能找

機器學習筆試題目----網易2016春招

2016年3月23日參加了網易機器學習崗的筆試，然後又被鄙視了。因為不允許截圖和拍照，只憑記憶記錄了一些問題。 1、常見的生成式模型和判別式模型有哪些？生成式模型：HMM、樸素貝葉斯判別式模型：svm、最大熵模型、決策樹、神經網路、條件隨機場。 2、

機器學習筆試題目

1、常見的生成式模型和判別式模型有哪些？生成式模型：HMM、樸素貝葉斯判別式模型：SVM、最大熵模型、神經網路、決策樹、條件隨機場 2、EM演算法的基本概念和應用場景？ EM演算法是在概率模型中尋找引數最大似然估計或者最大後驗估計的演算法，其中概

【機器學習基石筆記】二、感知機

證明機器學習 sign 線性可分缺點學習犯錯 nbsp 錯誤感知機算法： 1、首先找到點，使得sign(wt * xt) != yt，　　那麽如果yt = 1，說明wt和xt呈負角度，wt+1 = wt + xt能令wt偏向正角度。　　如果yt = -1, 說

Java筆試面試題目（一）

java運算最大數 sys 功能正整數 true 編譯阻止有效每日一句：沒有一勞永逸的幸福，只有先苦後甜的努力！加油！ java應屆生或自學初學者筆試面試題目總結，希望對大家有幫助，題目來自自己學習總結和老師講解，網絡資源，書籍資料。敲出來

機器學習簡要筆記（二）——常見學習任務及算法

bubuko 屬性。 src 沒有數據數量類別降維筆記 1、分類從標識數據中學習分類特征，利用學習的分類特征，識別某個對象屬於哪個類別。 2、回歸預測與對象相關聯的連續性屬性。 3、聚類從沒有標記的數據中發現類似特征的分組，即將對象自動分組。

吳恩達老師機器學習筆記SVM（二）

今天的部分是利用高斯核函式對分佈稍微複雜一點的資料進行分類這裡的高斯核函式是構建新的特徵，該特徵是關於到其餘所有樣點的歐式距離。下面放出程式碼： load('ex6data2.mat'); [m n]=size(X); f=zeros(m,m); a=0.005 for i=

機器學習之旅（二）

吳恩達教授的機器學習課程的第二週相關內容： 1、多變數線性迴歸(Linear Regression with Multiple Variables) 1.1、多維特徵 x

[置頂] 找工作知識儲備(3)---從頭說12種排序演算法：原理、圖解、動畫視訊演示、程式碼以及筆試面試題目中的應用

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

機器學習基礎知識（二）

深度神經網路：深度學習實際指的是基於深度神經網路（ deep neural networks, DNN）的學習，也就是深度人工神經網路所進行的學習過程，或稱作 Deep Learning。這個 Deep 指的是神經網路的深度（層數多）。 T

系統學習機器學習之總結（二）--機器學習演算法比較

轉自：https://blog.csdn.net/bryan__/article/details/52026214 其實這篇文章真正出處來自：csuldw 本文主要回顧下幾個常用演算法的適應場景及其優缺點！機器學習演算法太多了，分類、迴歸、聚類、推薦、影象識別領域等等，要想找到一個合適演算

系統學習機器學習之隨機場(二)--MEMM

最大熵模型（Maximum Entropy Models, MaxEnt）是基於大熵理論的統計模型，廣泛應用於模式識別和統計評估中。最大熵原理有一個很長的歷史，其中最大熵理論方面的先驅 E.T.Jaynes 在 1990 年給出了最大熵原理的基本屬性：最

機器學習筆記----最小二乘法，區域性加權，嶺迴歸講解

https://www.cnblogs.com/xiaohuahua108/p/5956254.html 前情提要：關於logistic regression，其實本來這章我是不想說的，但是剛看到嶺迴歸了，我感覺還是有必要來說一下。一:最小二乘法最小二乘法的基本思想：基於均方誤差最小化來

機器學習筆記（十二）：TensorFlow實戰四（影象識別與卷積神經網路）

1 - 卷積神經網路常用結構 1.1 - 卷積層我們先來介紹卷積層的結構以及其前向傳播的演算法。一個卷積層模組，包含以下幾個子模組：使用0擴充邊界(padding) 卷積視窗過濾器（filter）前向卷積反向卷積（可選） 1.1

機器學習速成筆記（二）：訓練與損失

訓練模型通過有標籤樣本來學習（確定）所有的權重和偏差的理想值。損失是對槽糕預測的懲罰，損失是一個數值，模型的預測完全正確，則損失為零，反之，模型的預測越槽糕，損失越大。平方損失：一種常見的損失函式，線性迴歸模型就是使用該平方損失均方誤差：每個樣本的平均平方損失，計算均方誤差，要算出

機器學習-神經網路（二）

上一篇：機器學習-神經網路（一）神經網路的代價函式符號意義 L

C++單刷《機器學習實戰》之二——決策樹

演算法概述：決策樹是用於分類的一種常用方法，根據資料集特徵值的不同，構造決策樹來將資料集不斷分成子資料集，直至決策樹下的每個分支都是同一類或用完所有的特徵值。決策樹的一般流程：（1）收集資料（2）準備資料：樹構造演算法只適用於標稱型資料，因此數值型資料必須離散化，最好轉為bool型

機器學習筆試面試題目 二

相關推薦

機器學習筆試面試題目二