機器學習筆試、面試題五

阿新 • • 發佈：2019-02-17

1、Logistic迴歸分類器是否能對下列資料進行完美分類？

注：只可使用X1和X2變數，且只能使用兩個二進位制值（0,1）。

A 是
B 否
C 不確定
D 都不是

正確答案是： B

解析：邏輯迴歸只能形成線性決策面，而圖中的例子並非線性可分的。

2、假設對給定資料應用了Logistic迴歸模型，並獲得了訓練精度X和測試精度Y。現在要在同一資料中新增一些新特徵，以下哪些是錯誤的選項。
注：假設剩餘引數相同。
A 訓練精度提高
B 訓練準確度提高或保持不變
C 測試精度提高或保持不變

正確答案是： B

解析：將更多的特徵新增到模型中會增加訓練精度，因為模型必須考慮更多的資料來適應邏輯迴歸。但是，如果發現特徵顯著，則測試精度將會增加

3、選擇Logistic迴歸中的One-Vs-All方法中的哪個選項是真實的。
A 我們需要在n類分類問題中適合n個模型
B 我們需要適合n-1個模型來分類為n個類
C 我們需要只適合1個模型來分類為n個類
D 這些都沒有

正確答案是：A

解析：如果存在n個類，那麼n個單獨的邏輯迴歸必須與之相適應，其中每個類的概率由剩餘類的概率之和確定。

4、假設有一個如下定義的神經網路：

如果我們去掉ReLU層，這個神經網路仍能夠處理非線性函式，這種說法是：
A 正確的
B 錯誤的

正確答案是： B

5、假定特徵 F1 可以取特定值：A、B、C、D、E 和 F，其代表著學生在大學所獲得的評分。
在下面說法中哪一項是正確的？
A 特徵 F1 是名義變數（nominal variable）的一個例項。
B 特徵 F1 是有序變數（ordinal variable）的一個例項。
C 該特徵並不屬於以上的分類。
D 以上說法都正確。

正確答案是： B

解析：有序變數是一種在類別上有某些順序的變數。例如，等級 A 就要比等級 B 所代表的成績好一些。

6、下面哪個選項中哪一項屬於確定性演算法？
A PCA
B K-Means
C 以上都不是

正確答案是：A

解析：確定性演算法表明在不同執行中，演算法輸出並不會改變。如果我們再一次執行演算法，PCA 會得出相同的結果，而 k-means 不會。

7、兩個變數的 Pearson 相關性係數為零，但這兩個變數的值同樣可以相關。
A 正確
B 錯誤

正確答案是：A

解析：答案為（A）：Y=X2，請注意他們不僅僅相關聯，同時一個還是另一個的函式。儘管如此，他們的相關性係數還是為 0，因為這兩個變數的關聯是正交的，而相關性係數就是檢測這種關聯。詳情檢視：https://en.wikipedia.org/wiki/Anscombe's_quartet

8、下面哪一項對梯度下降（GD）和隨機梯度下降（SGD）的描述是正確的？
1 在 GD 和 SGD 中，每一次迭代中都是更新一組引數以最小化損失函式。
2 在 SGD 中，每一次迭代都需要遍歷訓練集中的所有樣本以更新一次引數。
3 在 GD 中，每一次迭代需要使用整個訓練集的資料更新一個引數。
A 只有 1
B 只有 2
C 只有 3
D 都正確

正確答案是：A

解析：在隨機梯度下降中，每一次迭代選擇的批量是由資料集中的隨機樣本所組成，但在梯度下降，每一次迭代需要使用整個訓練資料集。

9、下面哪個/些超引數的增加可能會造成隨機森林資料過擬合？
1 樹的數量
2 樹的深度
3 學習速率
A 只有 1
B 只有 2
C 只有 3
D 都正確

正確答案是： B

解析：通常情況下，我們增加樹的深度有可能會造成模型過擬合。學習速率在隨機森林中並不是超引數。增加樹的數量可能會造成欠擬合。

10、假如你在「Analytics Vidhya」工作，並且想開發一個能預測文章評論次數的機器學習演算法。你的分析的特徵是基於如作者姓名、作者在 Analytics Vidhya 寫過的總文章數量等等。那麼在這樣一個演算法中，你會選擇哪一個評價度量標準？
1 均方誤差
2 精確度
3 F1 分數
A 只有 1
B 只有 2
C 只有 3

正確答案是：A

解析：你可以把文章評論數看作連續型的目標變數，因此該問題可以劃分到迴歸問題。因此均方誤差就可以作為損失函式的度量標準。

1、給定以下三個圖表（從上往下依次為1，2，3）. 哪一個選項對以這三個圖表的描述是正確的？

A 1 是 tanh，2 是 ReLU，3 是 SIGMOID 啟用函式
B 1 是 SIGMOID，2 是 ReLU，3 是 tanh 啟用函式
C 1 是 ReLU，2 是 tanh，3 是 SIGMOID 啟用函式
D 1 是 tanh，2 是 SIGMOID，3 是 ReLU 啟用函式

正確答案是：D

解析：因為 SIGMOID 函式的取值範圍是 [0,1]，tanh 函式的取值範圍是 [-1,1]，RELU 函式的取值範圍是 [0,infinity]。

2、以下是目標變數在訓練集上的 8 個實際值 [0,0,0,1,1,1,1,1]，目標變數的熵是所少？
A -(5/8 log(5/8) + 3/8 log(3/8))
B 5/8 log(5/8) + 3/8 log(3/8)
C 3/8 log(5/8) + 5/8 log(3/8)
D 5/8 log(3/8) – 3/8 log(5/8)

正確答案是：A

解析：資訊熵的公式為：

3、假定你正在處理類屬特徵，並且沒有檢視分類變數在測試集中的分佈。現在你想將 one hot encoding（OHE）應用到類屬特徵中。
那麼在訓練集中將 OHE 應用到分類變數可能要面臨的困難是什麼？
A 分類變數所有的類別沒有全部出現在測試集中
B 類別的頻率分佈在訓練集和測試集是不同的
C 訓練集和測試集通常會有一樣的分佈
D A 和 B 都正確

正確答案是：D

解析：A、B 項都正確，如果類別在測試集中出現，但沒有在訓練集中出現，OHE 將會不能進行編碼類別，這將是應用 OHE 的主要困難。選項 B 同樣也是正確的，在應用 OHE 時，如果訓練集和測試集的頻率分佈不相同，我們需要多加小心。

4、Skip gram 模型是在 Word2vec 演算法中為詞嵌入而設計的最優模型。以下哪一項描繪了 Skip gram 模型？

A A
B B
C A和B
D 以上都不是

正確答案是： B

解析：這兩個模型都是在 Word2vec 演算法中所使用的。模型 A 代表著 CBOW，模型 B 代表著 Skip gram。
5、假定你在神經網路中的隱藏層中使用啟用函式 X。在特定神經元給定任意輸入，你會得到輸出「-0.0001」。X 可能是以下哪一個啟用函式？
A ReLU
B tanh
C SIGMOID
D 以上都不是

正確答案是： B

解析：該啟用函式可能是 tanh，因為該函式的取值範圍是 (-1,1)。

6、對數損失度量函式可以取負值。
A 對
B 錯

正確答案是： B

解析：對數損失函式不可能取負值。

7、下面哪個/些對「型別 1（Type-1）」和「型別 2（Type-2）」錯誤的描述是正確的？
型別 1 通常稱之為假正類，型別 2 通常稱之為假負類。
型別 2 通常稱之為假正類，型別 1 通常稱之為假負類。
型別 1 錯誤通常在其是正確的情況下拒絕假設而出現。
A 只有 1
B 只有 2
C 只有 3
D 1和3

正確答案是：D

解析：在統計學假設測試中，I 類錯誤即錯誤地拒絕了正確的假設（即假正類錯誤），II 類錯誤通常指錯誤地接受了錯誤的假設（即假負類錯誤）

8、假定你想將高維資料對映到低維資料中，那麼最出名的降維演算法是 PCA 和 t-SNE。現在你將這兩個演算法分別應用到資料「X」上，並得到資料集「X_projected_PCA」，「X_projected_tSNE」。
下面哪一項對「X_projected_PCA」和「X_projected_tSNE」的描述是正確的？
A X_projected_PCA 在最近鄰空間能得到解釋
B X_projected_tSNE 在最近鄰空間能得到解釋
C 兩個都在最近鄰空間能得到解釋
D 兩個都不能在最近鄰空間得到解釋

正確答案是： B

解析：t-SNE 演算法考慮最近鄰點而減少資料維度。所以在使用 t-SNE 之後，所降的維可以在最近鄰空間得到解釋。但 PCA 不能。

9、給定下面兩個特徵的三個散點圖（從左到右依次為圖 1、2、3）

在上面的影象中，哪一個是多元共線（multi-collinear）特徵？
A 圖 1 中的特徵
B 圖 2 中的特徵
C 圖 3 中的特徵
D 圖 1、2 中的特徵

正確答案是：D

解析：在圖 1 中，特徵之間有高度正相關，圖 2 中特徵有高度負相關。所以這兩個圖的特徵是多元共線特徵。

10、在先前問題中，假定你已經鑑別了多元共線特徵。那麼下一步你可能的操作是什麼？
1 移除兩個共線變數
2 不移除兩個變數，而是移除一個
3 移除相關變數可能會導致資訊損失。為了保留這些變數，我們可以使用帶罰項的迴歸模型（如 ridge 或 lasso regression）。
A 只有 1
B 只有 2
C 只有 3
D 2 或 3

正確答案是：D

解析：因為移除兩個變數會損失一切資訊，所以我們只能移除一個特徵，或者也可以使用正則化演算法（如 L1 和 L2）。

1、給線性迴歸模型新增一個不重要的特徵可能會造成：
1 增加 R-square
2 減少 R-square
A 只有 1 是對的
B 只有 2 是對的
C 1 或 2 是對的
D 都不對

正確答案是：A，您的選擇是：C

解析：在給特徵空間添加了一個特徵後，不論特徵是重要還是不重要，R-square 通常會增加

R-square可參考這篇部落格

2、假設給定三個變數 X，Y，Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相關性係數分別為 C1、C2 和 C3。現在 X 的所有值加 2（即 X+2），Y 的全部值減 2（即 Y-2），Z 保持不變。
那麼運算之後的 (X, Y)、(Y, Z) 和 (X, Z) 相關性係數分別為 D1、D2 和 D3。
現在試問 D1、D2、D3 和 C1、C2、C3 之間的關係是什麼？
A D1= C1, D2 < C2, D3 > C3
B D1 = C1, D2 > C2, D3 > C3
C D1 = C1, D2 > C2, D3 < C3
D D1 = C1, D2 < C2, D3 < C3
E D1 = C1, D2 = C2, D3 = C3

正確答案是：E

解析：特徵之間的相關性係數不會因為特徵加或減去一個數而改變。

3、假定你現在解決一個有著非常不平衡類別的分類問題，即主要類別佔據了訓練資料的 99%。現在你的模型在測試集上表現為 99% 的準確度。那麼下面哪一項表述是正確的？
1 準確度並不適合於衡量不平衡類別問題
2 準確度適合於衡量不平衡類別問題
3 精確率和召回率適合於衡量不平衡類別問題
3 精確率和召回率不適合于衡量不平衡類別問題
A 1 and 3
B 1 and 4
C 2 and 3
D 2 and 4

正確答案是：A

4、在整合學習中，模型集成了弱學習者的預測，所以這些模型的整合將比使用單個模型預測效果更好。下面哪個/些選項對整合學習模型中的弱學習者描述正確？
1 他們經常不會過擬合
2 他們通常帶有高偏差，所以其並不能解決複雜學習問題
3 他們通常會過擬合
A 1 和 2
B 1 和 3
C 2 和 3
D 只有 1

正確答案是：A，您的選擇是：C

解析：弱學習者是問題的特定部分。所以他們通常不會過擬合，這也就意味著弱學習者通常擁有低方差和高偏差。

5、下面哪個/些選項對 K 折交叉驗證的描述是正確的
1 增大 K 將導致交叉驗證結果時需要更多的時間
2 更大的 K 值相比於小 K 值將對交叉驗證結構有更高的信心
3 如果 K=N，那麼其稱為留一交叉驗證，其中 N 為驗證集中的樣本數量
A 1 和 2
B 2 和 3
C 1 和 3
D 1、2 和 3

正確答案是：D

解析：大 K 值意味著對過高估計真實預期誤差（訓練的折數將更接近於整個驗證集樣本數）擁有更小的偏差和更多的執行時間（並隨著越來越接近極限情況：留一交叉驗證）。我們同樣在選擇 K 值時需要考慮 K 折準確度和方差間的均衡。

6、為了得到和 SVD 一樣的投射（projection），你需要在 PCA 中怎樣做？
A 將資料轉換成零均值
B 將資料轉換成零中位數
C 無法做到
D 以上方法不行

正確答案是：A

解析：當資料有一個 0 均值向量時，PCA 有與 SVD 一樣的投射，否則在使用 SVD 之前，你必須將資料均值歸 0。

7、假設存在一個黑箱演算法，其輸入為有多個觀察（t1, t2, t3,…….. tn）的訓練資料和一個新的觀察（q1）。該黑箱演算法輸出 q1 的最近鄰 ti 及其對應的類別標籤 ci。你可以將這個黑箱演算法看作是一個 1-NN（1-最近鄰）
能夠僅基於該黑箱演算法而構建一個 k-NN 分類演算法？注：相對於 k 而言，n（訓練觀察的數量）非常大。
A 可以
B 不可以

正確答案是：A

解析：在第一步，你在這個黑箱演算法中傳遞一個觀察樣本 q1，使該演算法返回一個最近鄰的觀察樣本及其類別，在第二步，你在訓練資料中找出最近觀察樣本，然後再一次輸入這個觀察樣本（q1）。該黑箱演算法將再一次返回一個最近鄰的觀察樣本及其類別。你需要將這個流程重複 k 次

8、假設存在一個黑箱演算法，其輸入為有多個觀察（t1, t2, t3,…….. tn）的訓練資料和一個新的觀察（q1）。該黑箱演算法輸出 q1 的最近鄰 ti 及其對應的類別標籤 ci。你可以將這個黑箱演算法看作是一個 1-NN（1-最近鄰）
我們不使用 1-NN 黑箱，而是使用 j-NN(j>1) 演算法作為黑箱。為了使用 j-NN 尋找 k-NN，下面哪個選項是正確的？
A j 必須是 k 的一個合適的因子
B j>k
C 不能辦到

正確答案是：A

解析：用 1NN 實現 KNN 的話，每次找到最近鄰，然後把這項從資料中取出來，重新執行 1NN 演算法，這樣重複 K 次，就行了。所以，少找多的話，少一定要是多的因子。

9、有以下 7 副散點圖（從左到右分別編號為 1-7），你需要比較每個散點圖的變數之間的皮爾遜相關係數。下面正確的比較順序是？

1 1<2<3<4
2 1>2>3 > 4
3 7<6<5<4
4 7>6>5>4
A 1 和 3
B 2 和 3
C 1 和 4
D 2 和 4

正確答案是： B

10、你可以使用不同的標準評估二元分類問題的表現，例如準確率、log-loss、F-Score。讓我們假設你使用 log-loss 函式作為評估標準。
下面這些選項，哪個／些是對作為評估標準的 log-loss 的正確解釋

1如果一個分類器對不正確的分類很自信，log-loss 會嚴重的批評它。
2 對一個特別的觀察而言，分類器為正確的類別分配非常小的概率，然後對 log-loss 的相應分佈會非常大。
3 log-loss 越低，模型越好。
A 1 和 3
B 2 和 3
C 1 和 2
D 1、2、3

正確答案是：D

1、假設你被給到以下資料，你想要在給定的兩個類別中使用 logistic 迴歸模型對它進行分類

你正在使用帶有 L1 正則化的 logistic 迴歸，其中 C 是正則化引數，w1 和 w2 是 x1 和 x2 的係數。

當你把 C 值從 0 增加至非常大的值時，下面哪個選項是正確的？
A 第一個 w2 成了 0，接著 w1 也成了 0
B 第一個 w1 成了 0，接著 w2 也成了 0
C w1 和 w2 同時成了 0
D 即使在 C 成為大值之後，w1 和 w2 都不能成 0

正確答案是： B

解析：通過觀察影象我們發現，即使只使用 x2，我們也能高效執行分類。因此一開始 w1 將成 0；當正則化引數不斷增加時，w2 也會越來越接近 0。

2、假設我們有一個數據集，在一個深度為 6 的決策樹的幫助下，它可以使用 100% 的精確度被訓練。現在考慮一下兩點，並基於這兩點選擇正確的選項。
注意：所有其他超引數是相同的，所有其他因子不受影響。

1 深度為 4 時將有高偏差和低方差
2 深度為 4 時將有低偏差和低方差
A 只有 1
B 只有 2
C 1 和 2
D 沒有一個

正確答案是：A，您的選擇是：D

解析：如果在這樣的資料中你擬合深度為 4 的決策樹，這意味著其更有可能與資料欠擬合。因此，在欠擬合的情況下，你將獲得高偏差和低方差。

3、在 k-均值演算法中，以下哪個選項可用於獲得全域性最小？
1 嘗試為不同的質心（centroid）初始化執行演算法
2 調整迭代的次數
3 找到叢集的最佳數量
A 2 和 3
B 1 和 3
C 1 和 2
D 以上所有

正確答案是：D

解析：所有都可以用來除錯以找到全域性最小
4、假設你正在做一個專案，它是一個二元分類問題。你在資料集上訓練一個模型，並在驗證資料集上得到混淆矩陣。基於上述混淆矩陣，下面哪個選項會給你正確的預測。
1 精確度是~0.91
2 錯誤分類率是~0.91
3 假正率（False correct classification）是~0.95
4 真正率（True positive rate）是~0.95
A 1 和 3
B 2 和 4
C 1 和 4
D 2 和 3

正確答案是：C

解析：精確度（正確分類）是 (50+100)/165，約等於 0.91。真正率是你正確預測正分類的次數，因此真正率將是 100/105 = 0.95，也被稱作敏感度或召回。

5、對於下面的超引數來說，更高的值對於決策樹演算法更好嗎？
1 用於拆分的樣本量
2 樹深
3 樹葉樣本
A 1 和 2
B 2 和 3
C 1 和 3
D 1、2 和 3
E 無法分辨

正確答案是：E

解析：對於選項 A、B、C 來說，如果你增加引數的值，效能並不一定會提升。例如，如果我們有一個非常高的樹深值，結果樹可能會過擬合數據，並且也不會泛化。另一方面，如果我們有一個非常低的值，結果樹也許與資料欠擬合。因此我們不能確定更高的值對於決策樹演算法就更好。

6、想象一下，你有一個 28x28 的圖片，並使用輸入深度為 3 和輸出深度為 8 在上面執行一個 3x3 的卷積神經網路。注意，步幅padding是1，你正在使用相同的填充（padding）。當使用給定的引數時，輸出特徵圖的尺寸是多少？
A 28 寬、28 高、8 深
B 13 寬、13 高、8 深
C 28 寬、13 高、8 深
D 13 寬、28 高、8 深

正確答案是：A

解析：計算輸出尺寸的公式是：輸出尺寸=(N – F)/S + 1。其中，N 是輸入尺寸，F 是過濾器尺寸，S 是步幅。

7、假設，我們正在 SVM 演算法中為 C（懲罰引數）的不同值進行視覺化繪圖。由於某些原因，我們忘記了使用視覺化標註 C 值。這個時候，下面的哪個選項在 rbf 核心的情況下最好地解釋了下圖（1、2、3 從左到右，圖 1 的 C 值是 C 1，圖 2 的 C 值是 C 2，圖 3 的 C 值是 C 3）中的 C 值。

A C1 = C2 = C3
B C1 > C2 > C3
C C1 < C2 < C3
D 沒有一個

正確答案是：C

解析：錯誤項的懲罰引數 C。它也控制平滑決策邊界和訓練點正確分類之間的權衡。對於 C 的大值，優化會選擇一個較小邊距的超平面。

C是懲罰係數就是說你對誤差的寬容度，這個值越高，說明你越不能容忍出現誤差

8、假設有如下一組輸入並輸出一個實數的資料，則線性迴歸（Y = bX+c）的留一法交叉驗證均方差為？

A 10/27
B 20/27
C 50/27
D 49/27

正確答案是：D，您的選擇是： B

解析：我們需要計算每個交叉驗證點的殘差，擬合後得到兩點連線和一點用於交叉驗證。

留一法交叉驗證均方差為(2^2 +(2/3)^2 +1^2) /3 = 49/27

9、下列哪一項關於極大似然估計（MLE）的說法是正確的？
1.MLE並不總是存在
2.MLE一直存在
3.如果MLE存在，它可能不特異
4.如果MLE存在，它一定是特異的
A 1和4
B 2和3
C 1和3
D 2和4

正確答案是：C，您的選擇是：A

解析：MLE可能不是一個轉折點，即它可能不是一個似然函式的一階導數消失的點 MLE可能並不特異

10、假設線性迴歸模型完美擬合訓練資料（即訓練誤差為零），則下列哪項是正確的？
A 測試誤差一定為零
B 測試誤差一定不為零
C 以上都不對

正確答案是：C

解析：如果測試資料無干擾，則測試誤差可能為零。換言之，如果測試資料是訓練資料的典型代表，測試誤差即為零，但這種情況並不總是出現。

機器學習筆試、面試題五

機器學習筆試、面試題五

機器學習筆試、面試題三

C++概念總結（筆試、面試題總結）

計算機組成常見筆試、面試題總結

資料庫常見筆試、面試題總結

java筆試、面試題

python web後端，筆試面試題五

ng機器學習視頻筆記（五） ——過擬合與正則化

代寫編程、代寫機器學習模型、代寫AI python

《機器學習理論、方法及應用》研讀(1)

2018JAVA成都崗---螞蟻金服筆試部分面試題

2017——騰訊產培生筆試、面經

吳恩達機器學習（十六）機器學習流水線、上限分析

day 12、13、14 ：summary、homework、面試題

【劍指Offer學習】【面試題5 ：從尾到頭列印連結串列】【思路】

未明學院活動：機器學習熱門專案開始報名，一次收穫資料探勘&機器學習技能、行業專案經歷！

機器學習筆試面試題目二

機器學習資料、特徵處理、模型融合

劍指offer（面試題五）--從尾到頭列印單鏈表

《劍指offer》學習筆記_面試題7_重建二叉樹

機器學習筆試、面試題五

相關推薦