BAT機器學習面試1000題系列（第150~279題）

阿新 • • 發佈：2019-01-11

長文~可先收藏再看喲~

150、在感知機中（Perceptron）的任務順序是什麼？深度學習 DL基礎易
1 隨機初始化感知機的權重
2 去到資料集的下一批（batch）
3 如果預測值和輸出不一致，則調整權重
4 對一個輸入樣本，計算輸出值
　　A. 1, 2, 3, 4
　　B. 4, 3, 2, 1
　　C. 3, 1, 2, 4
　　D. 1, 4, 3, 2
　　答案：（D）

151、假設你需要調整引數來最小化代價函式（cost function），會使用下列哪項技術？深度學習 DL基礎易

　　A．窮舉搜尋

　　B．隨機搜尋

　　C． Bayesian優化

　　D．梯度下降

　　答案：（D）

152、在下面哪種情況下，一階梯度下降不一定正確工作（可能會卡住）？深度學習 DL基礎易

　　D. 以上都不正確

答案：（B）

這是鞍點（Saddle Point）的梯度下降的經典例子。另，本題來源於：https://www.analyticsvidhya.com/blog/2017/01/must-know-questions-deep-learning/。

153、下圖顯示了訓練過的3層卷積神經網路準確度，與引數數量(特徵核的數量)的關係。深度學習 DL基礎易

從圖中趨勢可見，如果增加神經網路的寬度，精確度會增加到一個特定閾值後，便開始降低。造成這一現象的可能原因是什麼？

答案：（C）

網路規模過大時，就可能學到資料中的噪聲，導致過擬合

A 即使增加捲積核的數量，只有少部分的核會被用作預測

B 當卷積核數量增加時，神經網路的預測能力（Power）會降低

C 當卷積核數量增加時，導致過擬合

D 以上都不正確

154、假設我們有一個如下圖所示的隱藏層。隱藏層在這個網路中起到了一定的降緯作用。假如現在我們用另一種維度下降的方法，比如說主成分分析法(PCA)來替代這個隱藏層。深度學習 DL基礎易

那麼，這兩者的輸出效果是一樣的嗎？

　　A.是

　　B.否

　　答案：（B）

PCA 提取的是資料分佈方差比較大的方向，隱藏層可以提取有預測能力的特徵。

155、下列哪個函式不可以做啟用函式？深度學習 DL基礎易

A. y = tanh(x)
B. y = sin(x)
C. y = max(x,0)
D. y = 2x

答案：（D）

線性函式不能作為啟用函式。

156、下列哪個神經網路結構會發生權重共享？深度學習 DL模型易

　　A.卷積神經網路

　　B.迴圈神經網路

　　C.全連線神經網路

　　D.選項A和B

　　答案：（D）

157、批規範化(Batch Normalization)的好處都有啥？深度學習 DL基礎中
　　A.在將所有的輸入傳遞到下一層之前對其進行歸一化（更改）
　　B.它將權重的歸一化平均值和標準差
　　C.它是一種非常有效的反向傳播(BP)方法
　　D.這些均不是
　　答案：（A）

158、在一個神經網路中，下面哪種方法可以用來處理過擬合？（D）深度學習 DL基礎易
A Dropout
B 分批歸一化(Batch Normalization)
C 正則化(regularization)
D 都可以
對於選項C，分批歸一化處理過擬合的原理，是因為同一個資料在不同批中被歸一化後的值會有差別，相當於做了data augmentatio。

159、如果我們用了一個過大的學習速率會發生什麼？深度學習 DL基礎易
A 神經網路會收斂
B 不好說
C 都不對
D 神經網路不會收斂

160、下圖所示的網路用於訓練識別字符H和T，如下所示（深度學習 DL基礎易）：

網路的輸出是什麼？

D.可能是A或B，取決於神經網路的權重設定
答案：（D）
不知道神經網路的權重和偏差是什麼，則無法判定它將會給出什麼樣的輸出。

161、假設我們已經在ImageNet資料集(物體識別)上訓練好了一個卷積神經網路。然後給這張卷積神經網路輸入一張全白的圖片。對於這個輸入的輸出結果為任何種類的物體的可能性都是一樣的，對嗎？深度學習 DL模型中
A 對的
B 不知道
C 看情況
D 不對
答案：D，已經訓練好的卷積神經網路, 各個神經元已經精雕細作完工, 對於全白圖片的輸入, 其j層層啟用輸出給最後的全連線層的值幾乎不可能恆等, 再經softmax轉換之後也不會相等, 所以"輸出結果為任何種類的等可能性一樣"也就是softmax的每項均相等, 這個概率是極低的。

162、當在卷積神經網路中加入池化層(pooling layer)時，變換的不變性會被保留，是嗎？深度學習 DL模型中
A 不知道
B 看情況
C 是
D 否
答案：（C）
池化演算法比如取最大值/取平均值等, 都是輸入資料旋轉後結果不變, 所以多層疊加後也有這種不變性。

163、當資料過大以至於無法在RAM中同時處理時，哪種梯度下降方法更加有效？（A）深度學習 DL基礎易
A 隨機梯度下降法(Stochastic Gradient Descent)
B 不知道
C 整批梯度下降法(Full Batch Gradient Descent)
D 都不是

梯度下降法分隨機梯度下降(每次用一個樣本)、小批量梯度下降法(每次用一小批樣本算出總損失, 因而反向傳播的梯度折中)、全批量梯度下降法則一次性使用全部樣本。這三個方法, 對於全體樣本的損失函式曲面來說, 梯度指向一個比一個準確. 但是在工程應用中,受到記憶體/磁碟IO的吞吐效能制約, 若要最小化梯度下降的實際運算時間, 需要在梯度方向準確性和資料傳輸效能之間取得最好的平衡. 所以, 對於資料過大以至於無法在RAM中同時處理時, RAM每次只能裝一個樣本, 那麼只能選隨機梯度下降法。

164、下圖是一個利用sigmoid函式作為啟用函式的含四個隱藏層的神經網路訓練的梯度下降圖。這個神經網路遇到了梯度消失的問題。下面哪個敘述是正確的？（A）深度學習 DL基礎中

第一隱藏層對應D，第二隱藏層對應C，第三隱藏層對應B，第四隱藏層對應A
第一隱藏層對應A，第二隱藏層對應C，第三隱藏層對應B，第四隱藏層對應D
第一隱藏層對應A，第二隱藏層對應B，第三隱藏層對應C，第四隱藏層對應D
第一隱藏層對應B，第二隱藏層對應D，第三隱藏層對應C，第四隱藏層對應A 。

由於反向傳播演算法進入起始層，學習能力降低，這就是梯度消失。換言之，梯度消失是梯度在前向傳播中逐漸減為0, 按照圖示題所說, 四條曲線是4個隱藏層的學習曲線, 那麼第一層梯度最高(損失函式曲線下降明顯), 最後一層梯度幾乎為零(損失函式曲線變成平直線). 所以D是第一層, A是最後一層。

165、對於一個分類任務，如果開始時神經網路的權重不是隨機賦值的，二是都設成0，下面哪個敘述是正確的？（C）深度學習 DL基礎易
A 其他選項都不對
B 沒啥問題，神經網路會正常開始訓練
C 神經網路可以訓練，但是所有的神經元最後都會變成識別同樣的東西
D 神經網路不會開始訓練，因為沒有梯度改變
令所有權重都初始化為0這個一個聽起來還蠻合理的想法也許是一個我們假設中最好的一個假設了, 但結果是錯誤的，因為如果神經網路計算出來的輸出值都一個樣，那麼反向傳播演算法計算出來的梯度值一樣，並且引數更新值也一樣(w=w−α∗dw)。更一般地說，如果權重初始化為同一個值，網路即是對稱的, 最終所有的神經元最後都會變成識別同樣的東西。

166、下圖顯示，當開始訓練時，誤差一直很高，這是因為神經網路在往全域性最小值前進之前一直被卡在區域性最小值裡。為了避免這種情況，我們可以採取下面哪種策略？深度學習 DL基礎易

A 改變學習速率，比如一開始的幾個訓練週期不斷更改學習速率
B 一開始將學習速率減小10倍，然後用動量項(momentum)
C 增加引數數目，這樣神經網路就不會卡在區域性最優處
D 其他都不對
答案：（A）
選項A可以將陷於區域性最小值的神經網路提取出來。

167、對於一個影象識別問題(在一張照片裡找出一隻貓)，下面哪種神經網路可以更好地解決這個問題？（D）深度學習 DL基礎易
A 迴圈神經網路
B 感知機
C 多層感知機
D 卷積神經網路
卷積神經網路將更好地適用於影象相關問題，因為考慮到影象附近位置變化的固有性質。

168、假設在訓練中我們突然遇到了一個問題，在幾次迴圈之後，誤差瞬間降低
你認為資料有問題，於是你畫出了資料並且發現也許是資料的偏度過大造成了這個問題。
你打算怎麼做來處理這個問題？深度學習 DL基礎易
A 對資料作歸一化
B 對資料取對數變化
C 都不對
D 對資料作主成分分析(PCA)和歸一化
答案：（D）

首先您將相關的資料去掉，然後將其置零。具體來說，誤差瞬間降低, 一般原因是多個數據樣本有強相關性且突然被擬合命中, 或者含有較大方差資料樣本突然被擬合命中. 所以對資料作主成分分析(PCA)和歸一化能夠改善這個問題。

169、下面那個決策邊界是神經網路生成的？（E）深度學習 DL基礎易
A A
B D
C C
D B
E 以上都有
神經網路可以逼近方式擬合任意函式, 所以以上圖都可能由神經網路通過監督學習訓練得到決策邊界。

170、在下圖中，我們可以觀察到誤差出現了許多小的"漲落"。這種情況我們應該擔心嗎？深度學習 DL基礎易
A 需要，這也許意味著神經網路的學習速率存在問題
B 不需要，只要在訓練集和交叉驗證集上有累積的下降就可以了
C 不知道
D 不好說
答案：（B）
選項B是正確的，為了減少這些“起伏”，可以嘗試增加批尺寸(batch size)。具體來說，在曲線整體趨勢為下降時, 為了減少這些“起伏”，可以嘗試增加批尺寸(batch size)以縮小batch綜合梯度方向擺動範圍. 當整體曲線趨勢為平緩時出現可觀的“起伏”, 可以嘗試降低學習率以進一步收斂. “起伏”不可觀時應該提前終止訓練以免過擬合。

171、在選擇神經網路的深度時，下面那些引數需要考慮？深度學習 DL基礎易
1 神經網路的型別(如MLP,CNN)
2 輸入資料
3 計算能力(硬體和軟體能力決定)
4 學習速率
5 對映的輸出函式

A 1,2,4,5
B 2,3,4,5
C 都需要考慮
D 1,3,4,5
答案：（C）
所有上述因素對於選擇神經網路模型的深度都是重要的。特徵抽取所需分層越多, 輸入資料維度越高, 對映的輸出函式非線性越複雜, 所需深度就越深. 另外為了達到最佳效果, 增加深度所帶來的引數量增加, 也需要考慮硬體計算能力和學習速率以設計合理的訓練時間。

172、考慮某個具體問題時，你可能只有少量資料來解決這個問題。不過幸運的是你有一個類似問題已經預先訓練好的神經網路。可以用下面哪種方法來利用這個預先訓練好的網路？（C）深度學習 DL基礎易
A 把除了最後一層外所有的層都凍住，重新訓練最後一層
B 對新資料重新訓練整個模型
C 只對最後幾層進行調參(fine tune)
D 對每一層模型進行評估，選擇其中的少數來用
如果有個預先訓練好的神經網路, 就相當於網路各引數有個很靠譜的先驗代替隨機初始化. 若新的少量資料來自於先前訓練資料(或者先前訓練資料量很好地描述了資料分佈, 而新資料取樣自完全相同的分佈), 則凍結前面所有層而重新訓練最後一層即可; 但一般情況下, 新資料分佈跟先前訓練集分佈有所偏差, 所以先驗網路不足以完全擬合新資料時, 可以凍結大部分前層網路, 只對最後幾層進行訓練調參(這也稱之為fine tune)。

173、增加捲積核的大小對於改進卷積神經網路的效果是必要的嗎？（C）深度學習 DL基礎易
A 沒聽說過
B 是
C 否
D 不知道
答案：C，增加核函式的大小不一定會提高效能。這個問題在很大程度上取決於資料集。

174、請簡述神經網路的發展史。深度學習 DL基礎易

@SIY.Z。本題解析來源：https://zhuanlan.zhihu.com/p/29435406
sigmoid會飽和，造成梯度消失。於是有了ReLU。
ReLU負半軸是死區，造成梯度變0。於是有了LeakyReLU，PReLU。
強調梯度和權值分佈的穩定性，由此有了ELU，以及較新的SELU。
太深了，梯度傳不下去，於是有了highway。
乾脆連highway的引數都不要，直接變殘差，於是有了ResNet。
強行穩定引數的均值和方差，於是有了BatchNorm。
在梯度流中增加噪聲，於是有了 Dropout。
RNN梯度不穩定，於是加幾個通路和門控，於是有了LSTM。
LSTM簡化一下，有了GRU。
GAN的JS散度有問題，會導致梯度消失或無效，於是有了WGAN。
WGAN對梯度的clip有問題，於是有了WGAN-GP。

175、說說spark的效能調優。大資料 Hadoop/spark 中
https://tech.meituan.com/spark-tuning-basic.html
https://tech.meituan.com/spark-tuning-pro.html

176、常見的分類演算法有哪些？機器學習 ML基礎易
SVM、神經網路、隨機森林、邏輯迴歸、KNN、貝葉斯

177、常見的監督學習演算法有哪些？機器學習 ML基礎易
感知機、svm、人工神經網路、決策樹、邏輯迴歸

178、在其他條件不變的前提下，以下哪種做法容易引起機器學習中的過擬合問題（）機器學習 ML基礎易
A. 增加訓練集量
B. 減少神經網路隱藏層節點數
C. 刪除稀疏的特徵
D. SVM演算法中使用高斯核/RBF核代替線性核
正確答案：D
@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html
一般情況下，越複雜的系統，過擬合的可能性就越高，一般模型相對簡單的話泛化能力會更好一點。
B.一般認為，增加隱層數可以降低網路誤差（也有文獻認為不一定能有效降低），提高精度，但也使網路複雜化，從而增加了網路的訓練時間和出現“過擬合”的傾向， svm高斯核函式比線性核函式模型更復雜，容易過擬合
D.徑向基(RBF)核函式/高斯核函式的說明,這個核函式可以將原始空間對映到無窮維空間。對於引數，如果選的很大，高次特徵上的權重實際上衰減得非常快，實際上（數值上近似一下）相當於一個低維的子空間；反過來，如果選得很小，則可以將任意的資料對映為線性可分——當然，這並不一定是好事，因為隨之而來的可能是非常嚴重的過擬合問題。不過，總的來說，通過調整引數，高斯核實際上具有相當高的靈活性，也是使用最廣泛的核函式之一。

179、下列時間序列模型中,哪一個模型可以較好地擬合波動性的分析和預測。機器學習 ML模型易
A.AR模型
B.MA模型
C.ARMA模型
D.GARCH模型
正確答案：D
@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html
AR模型是一種線性預測，即已知N個數據，可由模型推出第N點前面或後面的資料（設推出P點），所以其本質類似於插值。

MA模型(moving average model)滑動平均模型，其中使用趨勢移動平均法建立直線趨勢的預測模型。

ARMA模型(auto regressive moving average model)自迴歸滑動平均模型，模型參量法高解析度譜分析方法之一。這種方法是研究平穩隨機過程有理譜的典型方法。它比AR模型法與MA模型法有較精確的譜估計及較優良的譜解析度效能，但其引數估算比較繁瑣。

GARCH模型稱為廣義ARCH模型，是ARCH模型的拓展，由Bollerslev(1986)發展起來的。

它是ARCH模型的推廣。GARCH(p,0)模型，相當於ARCH(p)模型。GARCH模型是一個專門針對金融資料所量體訂做的迴歸模型，除去和普通迴歸模型相同的之處，GARCH對誤差的方差進行了進一步的建模。特別適用於波動性的分析和預測，這樣的分析對投資者的決策能起到非常重要的指導性作用，其意義很多時候超過了對數值本身的分析和預測。

180、以下()屬於線性分類器最佳準則？機器學習 ML模型易
A.感知準則函式
B.貝葉斯分類
C.支援向量機
D.Fisher準則
正確答案：ACD
@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html
線性分類器有三大類：感知器準則函式、SVM、Fisher準則，而貝葉斯分類器不是線性分類器。

感知準則函式：準則函式以使錯分類樣本到分介面距離之和最小為原則。其優點是通過錯分類樣本提供的資訊對分類器函式進行修正，這種準則是人工神經元網路多層感知器的基礎。

支援向量機：基本思想是在兩類線性可分條件下，所設計的分類器介面使兩類之間的間隔為最大，它的基本出發點是使期望泛化風險儘可能小。（使用核函式可解決非線性問題）
Fisher 準則：更廣泛的稱呼是線性判別分析（LDA），將所有樣本投影到一條遠點出發的直線，使得同類樣本距離儘可能小，不同類樣本距離儘可能大，具體為最大化“廣義瑞利商”。

根據兩類樣本一般類內密集，類間分離的特點，尋找線性分類器最佳的法線向量方向，使兩類樣本在該方向上的投影滿足類內儘可能密集，類間儘可能分開。這種度量通過類內離散矩陣 Sw 和類間離散矩陣 Sb 實現。

181、基於二次準則函式的H-K演算法較之於感知器演算法的優點是()？深度學習 DL基礎易
A.計算量小
B.可以判別問題是否線性可分
C.其解完全適用於非線性可分的情況
D.其解的適應性更好
正確答案：BD
@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html
HK演算法思想很樸實,就是在最小均方誤差準則下求得權向量.

他相對於感知器演算法的優點在於,他適用於線性可分和非線性可分得情況,對於線性可分的情況,給出最優權向量,對於非線性可分得情況,能夠判別出來,以退出迭代過程.

182、以下說法中正確的是() 機器學習 ML模型中
A.SVM對噪聲(如來自其他分佈的噪聲樣本)魯棒
B.在AdaBoost演算法中,所有被分錯的樣本的權重更新比例相同
C.Boosting和Bagging都是組合多個分類器投票的方法,二都是根據單個分類器的正確率決定其權重
D.給定n個數據點,如果其中一半用於訓練,一般用於測試,則訓練誤差和測試誤差之間的差別會隨著n的增加而減少
正確答案：BD
@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html

A、SVM對噪聲（如來自其他分佈的噪聲樣本）魯棒
SVM本身對噪聲具有一定的魯棒性，但實驗證明，是當噪聲率低於一定水平的噪聲對SVM沒有太大影響，但隨著噪聲率的不斷增加，分類器的識別率會降低。

B、在AdaBoost演算法中所有被分錯的樣本的權重更新比例相同
AdaBoost演算法中不同的訓練集是通過調整每個樣本對應的權重來實現的。開始時，每個樣本對應的權重是相同的，即其中n為樣本個數，在此樣本分佈下訓練出一弱分類器。對於分類錯誤的樣本，加大其對應的權重；而對於分類正確的樣本，降低其權重，這樣分錯的樣本就被凸顯出來，從而得到一個新的樣本分佈。在新的樣本分佈下，再次對樣本進行訓練，得到弱分類器。以此類推，將所有的弱分類器重疊加起來，得到強分類器。

C、Boost和Bagging都是組合多個分類器投票的方法，二者均是根據單個分類器的正確率決定其權重。

Bagging與Boosting的區別：
取樣方式不同。
Bagging採用均勻取樣，而Boosting根據錯誤率取樣。
Bagging的各個預測函式沒有權重，而Boosting是有權重的。
Bagging的各個預測函式可以並行生成，而Boosing的各個預測函式只能順序生成。

@AntZ
A. SVM解決的是結構風險最小, 經驗風險處理較弱, 所以對資料噪聲敏感.
B. AdaBoost演算法中, 每個迭代訓練一個學習器並按其誤分類率得到該學習器的權重alpha, 這個學習器的權重算出兩個更新比例去修正全部樣本的權重: 正樣本是exp(-alpha), 負樣本是exp(alpha). 所以所有被分錯的樣本的權重更新比例相同.
C. bagging的學習器之間無權重不同, 簡單取投票結果; Boosting的adaboost根據誤分類率決定權重, boosting的gbdt則是固定小權重(也稱學習率), 用逼近偽殘差函式本身代替權重.
D: 根據中心極限定律, 隨著n的增加, 訓練誤差和測試誤差之間的差別必然減少 -- 這就是大資料訓練的由來。

183、輸入圖片大小為200×200，依次經過一層卷積（kernel size 5×5，padding 1，stride 2），pooling（kernel size 3×3，padding 0，stride 1），又一層卷積（kernel size 3×3，padding 1，stride 1）之後，輸出特徵圖大小為：

A. 95

B. 96

C. 97

D. 98

E. 99

F. 100

深度學習 DL基礎易，正確答案：C
@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html
首先我們應該知道卷積或者池化後大小的計算公式：

outputw=⌊imagew+2padding−kernelsizestride⌋+1

outputh=⌊imageh+2padding−kernelsizestride⌋+1

其中，padding指的是向外擴充套件的邊緣大小，而stride則是步長，即每次移動的長度。

這樣一來就容易多了，首先長寬一般大，所以我們只需要計算一個維度即可，這樣，經過第一次卷積後的大小為:

200+2−52+1=99

經過第一次池化後的大小為：

99+0−31+1=97

經過第二次卷積後的大小為：

97+2−31+1=97

最終的結果為97。

184、在spss的基礎分析模組中，作用是“以行列表的形式揭示資料之間的關係”的是（）大資料 Hadoop/spark 易
A. 資料描述
B. 相關
C. 交叉表
D. 多重相應
正確答案：C

185、一監獄人臉識別准入系統用來識別待進入人員的身份，此係統一共包括識別4種不同的人員：獄警，小偷，送餐員，其他。下面哪種學習方法最適合此種應用需求：（）機器學習 ML基礎易
A. 二分類問題
B. 多分類問題
C. 層次聚類問題
D. k-中心點聚類問題
E. 迴歸問題
F. 結構分析問題
正確答案：B
@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html
二分類：每個分類器只能把樣本分為兩類。監獄裡的樣本分別為獄警、小偷、送餐員、其他。二分類肯定行不通。瓦普尼克95年提出來基礎的支援向量機就是個二分類的分類器，這個分類器學習過程就是解一個基於正負二分類推導而來的一個最優規劃問題（對偶問題），要解決多分類問題就要用決策樹把二分類的分類器級聯，VC維的概念就是說的這事的複雜度。

層次聚類：建立一個層次等級以分解給定的資料集。監獄裡的物件分別是獄警、小偷、送餐員、或者其他，他們等級應該是平等的，所以不行。此方法分為自上而下（分解）和自下而上（合併）兩種操作方式。

K-中心點聚類：挑選實際物件來代表簇，每個簇使用一個代表物件。它是圍繞中心點劃分的一種規則，所以這裡並不合適。

迴歸分析：處理變數之間具有相關性的一種統計方法，這裡的獄警、小偷、送餐員、其他之間並沒有什麼直接關係。

結構分析：結構分析法是在統計分組的基礎上，計算各組成部分所佔比重，進而分析某一總體現象的內部結構特徵、總體的性質、總體內部結構依時間推移而表現出的變化規律性的統計方法。結構分析法的基本表現形式，就是計算結構指標。這裡也行不通。

多分類問題：針對不同的屬性訓練幾個不同的弱分類器，然後將它們整合為一個強分類器。這裡獄警、小偷、送餐員以及他某某，分別根據他們的特點設定依據，然後進行區分識別。

186、關於 logit 迴歸和 SVM 不正確的是（）機器學習 ML模型易
A.Logit迴歸目標函式是最小化後驗概率
B. Logit迴歸可以用於預測事件發生概率的大小
C. SVM目標是結構風險最小化
D.SVM可以有效避免模型過擬合
正確答案： A
@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html
A. Logit迴歸本質上是一種根據樣本對權值進行極大似然估計的方法，而後驗概率正比於先驗概率和似然函式的乘積。logit僅僅是最大化似然函式，並沒有最大化後驗概率，更談不上最小化後驗概率。而最小化後驗概率是樸素貝葉斯演算法要做的。A錯誤
B. Logit迴歸的輸出就是樣本屬於正類別的機率，可以計算出概率，正確
C. SVM的目標是找到使得訓練資料儘可能分開且分類間隔最大的超平面，應該屬於結構風險最小化。
D. SVM可以通過正則化係數控制模型的複雜度，避免過擬合。

187、有兩個樣本點，第一個點為正樣本,它的特徵向量是(0,-1);第二個點為負樣本,它的特徵向量是(2,3),從這兩個樣本點組成的訓練集構建一個線性SVM分類器的分類面方程是()機器學習 ML基礎易
A. 2x+y=4
B. x+2y=5
C. x+2y=3
D. 2x-y=0
正確答案：C
解析：這道題簡化了，對於兩個點來說，最大間隔就是垂直平分線，因此求出垂直平分線即可。斜率是兩點連線的斜率的負倒數-1/((-1-3)/(0-2)) = -1/2, 可得y=-(1/2)x + c, 過中點((0+2)/2, (-1+3)/2) = (1, 1), 可得c=3/2, 故選C.

188、下面有關分類演算法的準確率，召回率，F1 值的描述，錯誤的是？機器學習 ML基礎易
A.準確率是檢索出相關文件數與檢索出的文件總數的比率，衡量的是檢索系統的查準率
B.召回率是指檢索出的相關文件數和文件庫中所有的相關文件數的比率，衡量的是檢索系統的查全率
C.正確率、召回率和 F 值取值都在0和1之間，數值越接近0，查準率或查全率就越高
D.為了解決準確率和召回率衝突問題，引入了F1分數
正確答案：C
解析：
對於二類分類問題常用的評價指標是精準度（precision）與召回率（recall）。通常以關注的類為正類，其他類為負類，分類器在測試資料集上的預測或正確或不正確，4種情況出現的總數分別記作：
TP——將正類預測為正類數
FN——將正類預測為負類數
FP——將負類預測為正類數
TN——將負類預測為負類數
由此：
精準率定義為：P = TP / (TP + FP)
召回率定義為：R = TP / (TP + FN)
F1值定義為： F1 = 2 P R / (P + R)
精準率和召回率和F1取值都在0和1之間，精準率和召回率高，F1值也會高，不存在數值越接近0越高的說法，應該是數值越接近1越高。

189、以下幾種模型方法屬於判別式模型(Discriminative Model)的有() 機器學習 ML模型易
1)混合高斯模型
2)條件隨機場模型
3)區分度訓練
4)隱馬爾科夫模型
A.2,3
B.3,4
C.1,4
D.1,2
正確答案：A
@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html
常見的判別式模型有：
Logistic regression（logistical 迴歸）
Linear discriminant analysis（線性判別分析）
Supportvector machines（支援向量機）
Boosting（整合學習）
Conditional random fields（條件隨機場）
Linear regression（線性迴歸）
Neural networks（神經網路）
常見的生成式模型有:
Gaussian mixture model and othertypes of mixture model（高斯混合及其他型別混合模型）
Hidden Markov model（隱馬爾可夫）
NaiveBayes（樸素貝葉斯）
AODE（平均單依賴估計）
Latent Dirichlet allocation（LDA主題模型）
Restricted Boltzmann Machine（限制波茲曼機）
生成式模型是根據概率乘出結果，而判別式模型是給出輸入，計算出結果。

190、SPSS中，資料整理的功能主要集中在（）等選單中。大資料 Hadoop/spark 易
A.資料
B.直銷
C.分析
D.轉換
正確答案：AD
@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html
解析：對資料的整理主要在資料和轉換功能選單中。

191、深度學習是當前很熱門的機器學習演算法，在深度學習中，涉及到大量的矩陣相乘，現在需要計算三個稠密矩陣A,B,C的乘積ABC,假設三個矩陣的尺寸分別為m∗n，n∗p，p∗q，且m<n<p<q，以下計算順序效率最高的是（）
A.(AB)C

B.AC(B)

C.A(BC)

D.所以效率都相同

深度學習 DL基礎易，正確答案：A

@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html
首先，根據簡單的矩陣知識，因為 A*B ， A 的列數必須和 B 的行數相等。因此，可以排除 B 選項，
然後，再看 A 、 C 選項。在 A 選項中，m∗n 的矩陣 A 和n∗p的矩陣 B 的乘積，得到 m∗p的矩陣 A*B ，而 A∗B的每個元素需要 n 次乘法和 n-1 次加法，忽略加法，共需要 m∗n∗p次乘法運算。同樣情況分析 A*B 之後再乘以 C 時的情況，共需要 m∗p∗q次乘法運算。因此， A 選項 (AB)C 需要的乘法次數是 m∗n∗p+m∗p∗q 。同理分析， C 選項 A (BC) 需要的乘法次數是 n∗p∗q+m∗n∗q。
由於m∗n∗p<m∗n∗q，m∗p∗q<n∗p∗q，顯然 A 運算次數更少，故選 A 。

192、Nave Bayes是一種特殊的Bayes分類器,特徵變數是X,類別標籤是C,它的一個假定是:()
A.各類別的先驗概率P(C)是相等的

B.以0為均值，sqr(2)/2為標準差的正態分佈

C.特徵變數X的各個維度是類別條件獨立隨機變數

D.P(X|C)是高斯分佈

機器學習 ML模型中，正確答案：C

@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html

樸素貝葉斯的條件就是每個變數相互獨立。

193、關於支援向量機SVM,下列說法錯誤的是（）
A.L2正則項，作用是最大化分類間隔，使得分類器擁有更強的泛化能力

B.Hinge 損失函式，作用是最小化經驗分類錯誤

C.分類間隔為1/||w||，||w||代表向量的模

D.當引數C越小時，分類間隔越大，分類錯誤越多，趨於欠學習

機器學習 ML模型，易，正確答案：C

@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html

A正確。考慮加入正則化項的原因：想象一個完美的資料集，y>1是正類，y<-1是負類，決策面y=0，加入一個y=-30的正類噪聲樣本，那麼決策面將會變“歪”很多，分類間隔變小，泛化能力減小。加入正則項之後，對噪聲樣本的容錯能力增強，前面提到的例子裡面，決策面就會沒那麼“歪”了，使得分類間隔變大，提高了泛化能力。

B正確。

C錯誤。間隔應該是2/||w||才對，後半句應該沒錯，向量的模通常指的就是其二範數。

D正確。考慮軟間隔的時候，C對優化問題的影響就在於把a的範圍從[0，+inf]限制到了[0,C]。C越小，那麼a就會越小，目標函式拉格朗日函式導數為0可以求出w=求和ai∗yi∗xi，a變小使得w變小，因此間隔2/||w||變大。

194、在HMM中,如果已知觀察序列和產生觀察序列的狀態序列,那麼可用以下哪種方法直接進行引數估計() 機器學習 ML模型易
A.EM演算法
B.維特比演算法
C.前向後向演算法
D.極大似然估計
正確答案：D
@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html
EM演算法：只有觀測序列，無狀態序列時來學習模型引數，即Baum-Welch演算法
維特比演算法：用動態規劃解決HMM的預測問題，不是引數估計
前向後向演算法：用來算概率
極大似然估計：即觀測序列和相應的狀態序列都存在時的監督學習演算法，用來估計引數
注意的是在給定觀測序列和對應的狀態序列估計模型引數，可以利用極大似然發估計。如果給定觀測序列，沒有對應的狀態序列，才用EM，將狀態序列看不不可測的隱資料。

195、假定某同學使用Naive Bayesian（NB）分類模型時，不小心將訓練資料的兩個維度搞重複了，那麼關於NB的說法中正確的是（）：機器學習 ML模型易
A.這個被重複的特徵在模型中的決定作用會被加強
B.模型效果相比無重複特徵的情況下精確度會降低
C.如果所有特徵都被重複一遍，得到的模型預測結果相對於不重複的情況下的模型預測結果一樣。
D.當兩列特徵高度相關時，無法用兩列特徵相同時所得到的結論來分析問題
E.NB可以用來做最小二乘迴歸
F.以上說法都不正確
正確答案：BD

樸素貝葉斯的條件就是每個變數相互獨立. 若高度相關的特徵在模型中引入兩次, 這樣增加了這一特徵的重要性, 則它的效能因資料包含高度相關的特徵而下降。正確做法是評估特徵的相關矩陣，並移除那些高度相關的特徵。

196、L1與L2範數。機器學習 ML基礎易

在Logistic Regression 中,如果同時加入L1和L2範數,會產生什麼效果()

A.可以做特徵選擇,並在一定程度上防止過擬合

B.能解決維度災難問題

C.能加快計算速度

D.可以獲得更準確的結果

正確答案:ABC

@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html
Ｌ１範數具有係數解的特性，但是要注意的是，Ｌ１沒有選到的特徵不代表不重要，原因是兩個高相關性的特徵可能只保留一個。如果需要確定哪個特徵重要，再通過交叉驗證。

它的優良性質是能產生稀疏性，導致 W 中許多項變成零。稀疏的解除了計算量上的好處之

外，更重要的是更具有“可解釋性”。所以能加快計算速度和緩解維數災難. 所以BC正確.

在代價函式後面加上正則項，Ｌ１即是Ｌｏｓｓｏ迴歸，Ｌ２是嶺迴歸。L1範數是指向量中各個元素絕對值之和，用於特徵選擇。L2範數是指向量各元素的平方和然後求平方根，用於防止過擬合，提升模型的泛化能力。因此選擇A。

對於機器學習中的範數規則化，也就是L0,L1,L2範數的詳細解答，請參閱《範數規則化》。

197、正則化。機器學習 ML基礎易
機器學習中L1正則化和L2正則化的區別是？
A.使用L1可以得到稀疏的權值
B.使用L1可以得到平滑的權值
C.使用L2可以得到稀疏的權值
D.使用L2可以得到平滑的權值
正確答案:AD
@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html
L1正則化偏向於稀疏，它會自動進行特徵選擇，去掉一些沒用的特徵，也就是將這些特徵對應的權重置為0.

L2主要功能是為了防止過擬合，當要求引數越小時，說明模型越簡單，而模型越簡單則，越趨向於平滑，從而防止過擬合。

L1正則化/Lasso
L1正則化將係數w的l1範數作為懲罰項加到損失函式上，由於正則項非零，這就迫使那些弱的特徵所對應的係數變成0。因此L1正則化往往會使學到的模型很稀疏（係數w經常為0），這個特性使得L1正則化成為一種很好的特徵選擇方法。

L2正則化/Ridge regression
L2正則化將係數向量的L2範數新增到了損失函式中。由於L2懲罰項中係數是二次方的，這使得L2和L1有著諸多差異，最明顯的一點就是，L2正則化會讓係數的取值變得平均。對於關聯特徵，這意味著他們能夠獲得更相近的對應係數。還是以Y=X1+X2為例，假設X1和X2具有很強的關聯，如果用L1正則化，不論學到的模型是Y=X1+X2還是Y=2X1，懲罰都是一樣的，都是2alpha。但是對於L2來說，第

BAT機器學習面試1000題系列（第150~279題）

196、L1與L2範數。機器學習 ML基礎易

BAT機器學習面試1000題系列（第150~279題）

BAT機器學習面試1000題系列（第76~149題）

BAT機器學習面試1000題系列（第1~305題

BAT題庫 | 機器學習面試1000題系列（第246~250題）

BAT機器學習面試1000題系列（第1~60題）

BAT機器學習面試1000題系列（第1~305題）

BAT機器學習面試1000題系列第1 305題

BAT機器學習面試1000題系列大集合整理(320)

機器學習中的數學系列（一）矩陣與矩陣乘法

機器學習知識點查漏補缺（隨機森林和extraTrees）

機器學習知識點查漏補缺（支持向量機）

機器學習筆記 -吳恩達（第一章：緒論）

吳恩達機器學習邏輯迴歸python實現（未正則化）[對應ex2-ex2data2.txt資料集]

機器學習演算法簡介和程式碼（P&R語言）

機器學習2：Naive Bayes（樸素貝葉斯）

機器學習-實現簡單神經網路（筆記和程式碼實現）

機器學習實戰【5】（SVM-支援向量機）

python機器學習庫sklearn——Lasso迴歸（L1正則化）

《機器學習》--周志華（第五章學習筆記）

TensorsFlow學習筆記3----面向機器學習初學者的MNIST教程（MNIST For ML Beginners）

BAT機器學習面試1000題系列（第150~279題）

196、L1與L2範數。機器學習 ML基礎 易

相關推薦

196、L1與L2範數。機器學習 ML基礎易