1. 程式人生 > >一個月刷完機器學習筆試題300題(5)

一個月刷完機器學習筆試題300題(5)

第五天

1、下列方法中,不可以用於特徵降維的方法包括
A 主成分分析PCA
B 線性判別分析LDA
C 深度學習SparseAutoEncoder
D 矩陣奇異值分解SVD
正確答案是:C
特徵降維方法主要有:
PCA,LLE,Isomap
SVD和PCA類似,也可以看成一種降維方法
LDA:線性判別分析,可用於降維
AutoEncoder:AutoEncoder的結構與神經網路的隱含層相同,由輸入L1,輸出 L2組成,中間則是權重連線。Autoencoder通過L2得到輸入的重構L3,最小化L3與L1的差別 進行訓練得到權重。在這樣的權重引數下,得到的L2可以儘可能的儲存L1的資訊。
Autoencoder的輸出L2的維度由輸出的神經元個數決定。當輸出維度大於L1時,則需要在訓練目標函式中加入sparse 懲罰項,避免L2直接複製L1(權重全為1)。所以稱為sparseAutoencoder( Andrew Ng提出的)。
結論:SparseAutoencoder大多數情況下都是升維的,所以稱之為特徵降維的方法不準確。
image


2、下列哪些不特別適合用來對高維資料進行降維
A LASSO
B 主成分分析法
C 聚類分析
D 小波分析法
E 線性判別法
F 拉普拉斯特徵對映
正確答案是:C
lasso通過引數縮減達到降維的目的;
pca就不用說了
線性鑑別法即LDA通過找到一個空間使得類內距離最小類間距離最大所以可以看做是降維;
小波分析有一些變換的操作降低其他干擾可以看做是降維
拉普拉斯請看這個http://f.dataguru.cn/thread-287243-1-1.html
3、下列屬於無監督學習的是
A k-means
B SVM
C 最大熵
D CRF
正確答案:A
A是聚類,屬於無監督學習。BC是分類,屬於監督學習。至於D是序列化標註,也是有監督學習。
4、下列哪個不屬於CRF模型對於HMM和MEMM模型的優勢( )
A 特徵靈活
B 速度快
C 可容納較多上下文資訊
D 全域性最優
正確答案是: B
CRF 的優點:特徵靈活,可以容納較多的上下文資訊,能夠做到全域性最優CRF 的缺點:速度慢
CRF沒有HMM那樣嚴格的獨立性假設條件,因而可以容納任意的上下文資訊。特徵設計靈活(與ME一樣) ————與HMM比較
同時,由於CRF計算全域性最優輸出節點的條件概率,它還克服了最大熵馬爾可夫模型標記偏置(Label-bias)的缺點。 ­­————與MEMM比較
CRF是在給定需要標記的觀察序列的條件下,使用維特比演算法,計算整個標記序列的聯合概率分佈,而不是在給定當前狀態條件下,定義下一個狀態的狀態分佈。————與ME比較
5、以下哪個是常見的時間序列演算法模型
A RSI
B MACD
C ARMA
D KDJ
正確答案是:C
自迴歸滑動平均模型(ARMA)
其建模思想可概括為:逐漸增加模型的階數,擬合較高階模型,直到再增加模型的階數而剩餘殘差方差不再顯著減小為止。
其他三項都不是一個層次的。
A.相對強弱指數 (RSI, Relative Strength Index) 是通過比較一段時期內的平均收盤漲數和平均收盤跌數來分析市場買沽盤的意向和實力 , 從而作出未來市場的走勢 .
B.移動平均聚散指標 (MACD, Moving Average Convergence Divergence), 是根據均線的構造原理 , 對股票價格的收盤價進行平滑處理 , 求出算術平均值以後再進行計算 , 是一種趨向類指標 .
D. 隨機指標 (KDJ) 一般是根據統計學的原理 , 通過一個特定的週期 ( 常為 9 日 ,9 周等 ) 內出現過的最高價 , 最低價及最後一個計算週期的收盤價及這三者之間的比例關係 , 來計算最後一個計算週期的未成熟隨機值 RSV, 然後根據平滑移動平均線的方法來計算 K 值 , D 值與 J 值 , 並繪成曲線圖來研判股票走勢 .
6、下列不是SVM核函式的是
A 多項式核函式
B logistic核函式
C 徑向基核函式
D Sigmoid核函式
正確答案是: B
SVM核函式包括線性核函式、多項式核函式、徑向基核函式、高斯核函式、冪指數核函式、拉普拉斯核函式、ANOVA核函式、二次有理核函式、多元二次核函式、逆多元二次核函式以及Sigmoid核函式。
核函式的定義並不困難,根據泛函的有關理論,只要一種函式 K ( x i , x j ) 滿足Mercer條件,它就對應某一變換空間的內積.對於判斷哪些函式是核函式到目前為止也取得了重要的突破,得到Mercer定理和以下常用的核函式型別:
(1)線性核函式
K ( x , x i ) = x ⋅ x i
(2)多項式核
K ( x , x i ) = ( ( x ⋅ x i ) + 1 ) d
(3)徑向基核(RBF)
K ( x , x i ) = exp ( − ∥ x − x i ∥ 2 σ 2 )
Gauss徑向基函式則是區域性性強的核函式,其外推能力隨著引數 σ 的增大而減弱。多項式形式的核函式具有良好的全域性性質。區域性性較差。
(4)傅立葉核
K ( x , x i ) = 1 − q 2 2 ( 1 − 2 q cos ( x − x i ) + q 2 )
(5)樣條核
K ( x , x i ) = B 2 n + 1 ( x − x i )
(6)Sigmoid核函式
K ( x , x i ) = tanh ( κ ( x , x i ) − δ )
採用Sigmoid函式作為核函式時,支援向量機實現的就是一種多層感知器神經網路,應用SVM方法,隱含層節點數目(它確定神經網路的結構)、隱含層節點對輸入節點的權值都是在設計(訓練)的過程中自動確定的。而且支援向量機的理論基礎決定了它最終求得的是全域性最優值而不是區域性最小值,也保證了它對於未知樣本的良好泛化能力而不會出現過學習現象。

核函式的選擇
在選取核函式解決實際問題時,通常採用的方法有:
一是利用專家的先驗知識預先選定核函式;
二是採用Cross-Validation方法,即在進行核函式選取時,分別試用不同的核函式,歸納誤差最小的核函式就是最好的核函式.如針對傅立葉核、RBF核,結合訊號處理問題中的函式迴歸問題,通過模擬實驗,對比分析了在相同資料條件下,採用傅立葉核的SVM要比採用RBF核的SVM誤差小很多.
三是採用由Smits等人提出的混合核函式方法,該方法較之前兩者是目前選取核函式的主流方法,也是關於如何構造核函式的又一開創性的工作.將不同的核函式結合起來後會有更好的特性,這是混合核函式方法的基本思想.
7、解決隱馬模型中預測問題的演算法是
A 前向演算法
B 後向演算法
C Baum-Welch演算法
D 維特比演算法
正確答案是:D
A、B:前向、後向演算法解決的是一個評估問題,即給定一個模型,求某特定觀測序列的概率,用於評估該序列最匹配的模型。
C:Baum-Welch演算法解決的是一個模型訓練問題,即引數估計,是一種無監督的訓練方法,主要通過EM迭代實現;
D:維特比演算法解決的是給定 一個模型和某個特定的輸出序列,求最可能產生這個輸出的狀態序列。如通過海藻變化(輸出序列)來觀測天氣(狀態序列),是預測問題,通訊中的解碼問題。
58、一般,k-NN最近鄰方法在()的情況下效果較好
A 樣本較多但典型性不好
B 樣本較少但典型性好
C 樣本呈團狀分佈
D 樣本呈鏈狀分佈
正確答案是: B
K近鄰演算法主要依靠的是周圍的點,因此如果樣本過多,那肯定是區分不出來的。因此應當選擇B
樣本呈團狀頗有迷惑性,這裡應該指的是整個樣本都是呈團狀分佈,這樣kNN就發揮不出其求近鄰的優勢了,整體樣本應該具有典型性好,樣本較少,比較適宜。
9、在一個n維的空間中, 最好的檢測outlier(離群點)的方法是()
A 作正態分佈概率圖
B 作盒形圖
C 馬氏距離
D 作散點圖
正確答案是:C
解析:


10、對數機率迴歸(logistics regression)和一般迴歸分析有什麼區別?
A 對數機率迴歸是設計用來預測事件可能性的
B 對數機率迴歸可以用來度量模型擬合程度
C 對數機率迴歸可以用來估計迴歸係數
D 以上所有
正確答案是:D
解析:
A: 對數機率迴歸其實是設計用來解決分類問題的
B: 對數機率迴歸可以用來檢驗模型對資料的擬合度
C: 雖然對數機率迴歸是用來解決分類問題的,但是模型建立好後,就可以根據獨立的特徵,估計相關的迴歸係數。就我認為,這只是估計迴歸係數,不能直接用來做迴歸模型。