1. 程式人生 > >一個月刷完機器學習筆試題300題(4)

一個月刷完機器學習筆試題300題(4)

第四天:

1、下列時間序列模型中,哪一個模型可以較好地擬合波動性的分析和預測。
A AR模型
B MA模型
C ARMA模型
D GARCH模型
解析:AR auto regressive model AR模型是一種線性預測
MA模型(moving average model)滑動平均模型,其中使用趨勢移動平均法建立直線趨勢的預測模型。
ARMA模型(auto regressive moving average model)自迴歸滑動平均模型,模型參量法高解析度譜分析方法之一。這種方法是研究平穩隨機過程有理譜的典型方法。它比AR模型法與MA模型法有較精確的譜估計及較優良的譜解析度效能,但其引數估算比較繁瑣。
GARCH模型稱為廣義ARCH模型,是ARCH模型的拓展,由Bollerslev(1986)發展起來的。它是ARCH模型的推廣。GARCH(p,0)模型,相當於ARCH§模型。GARCH模型是一個專門針對金融資料所量體訂做的迴歸模型,除去和普通迴歸模型相同的之處,GARCH對誤差的方差進行了進一步的建模。特別適用於波動性的分析和預測,這樣的分析對投資者的決策能起到非常重要的指導性作用,其意義很多時候超過了對數值本身的分析和預測。
正確答案 D
2、以下說法中錯誤的是()
A SVM對噪聲(如來自其他分部的噪聲樣本)具備魯棒性
B 在adaboost演算法中,所有被分錯樣本的權重更新比例不相同
C boosting和bagging都是組合多個分類器投票的方法,二者都是根據單個分類器的正確率確定其權重
D 給定n個數據點,如果其中一半用於訓練,一半使用者測試,則訓練誤差和測試誤差之間的差別會隨著n的增加而減少的
解析:
A 軟間隔分類器對噪聲是有魯棒性的
B 具體說來,整個Adaboost 迭代演算法就3步:
初始化訓練資料的權值分佈。如果有N個樣本,則每一個訓練樣本最開始時都被賦予相同的權值:1/N。
訓練弱分類器。具體訓練過程中,如果某個樣本點已經被準確地分類,那麼在構造下一個訓練集中,它的權值就被降低;相反,如果某個樣本點沒有被準確地分類,那麼它的權值就得到提高。然後,權值更新過的樣本集被用於訓練下一個分類器,整個訓練過程如此迭代地進行下去。
將各個訓練得到的弱分類器組合成強分類器。各個弱分類器的訓練過程結束後,加大分類誤差率小的弱分類器的權重,使其在最終的分類函式中起著較大的決定作用,而降低分類誤差率大的弱分類器的權重,使其在最終的分類函式中起著較小的決定作用。換言之,誤差率低的弱分類器在最終分類器中佔的權重較大,否則較小。
C boosting是根據分類器正確率確定權重,bagging不是。
Bagging即套袋法,其演算法過程如下:
A)從原始樣本集中抽取訓練集。每輪從原始樣本集中使用Bootstraping的方法抽取n個訓練樣本(在訓練集中,有些樣本可能被多次抽取到,而有些樣本可能一次都沒有被抽中)。共進行k輪抽取,得到k個訓練集。(k個訓練集之間是相互獨立的)
B)每次使用一個訓練集得到一個模型,k個訓練集共得到k個模型。(注:這裡並沒有具體的分類演算法或迴歸方法,我們可以根據具體問題採用不同的分類或迴歸方法,如決策樹、感知器等)
C)對分類問題:將上步得到的k個模型採用投票的方式得到分類結果;對迴歸問題,計算上述模型的均值作為最後的結果。(所有模型的重要性相同)
Boosting其主要思想是將弱分類器組裝成一個強分類器。在PAC(概率近似正確)學習框架下,則一定可以將弱分類器組裝成一個強分類器。
關於Boosting的兩個核心問題:
1)在每一輪如何改變訓練資料的權值或概率分佈?
通過提高那些在前一輪被弱分類器分錯樣例的權值,減小前一輪分對樣例的權值,來使得分類器對誤分的資料有較好的效果。
2)通過什麼方式來組合弱分類器?
通過加法模型將弱分類器進行線性組合,比如AdaBoost通過加權多數表決的方式,即增大錯誤率小的分類器的權值,同時減小錯誤率較大的分類器的權值。
而提升樹通過擬合殘差的方式逐步減小殘差,將每一步生成的模型疊加得到最終模型。
D 訓練集變大會提高模型魯棒性。
正確答案C
3、你正在使用帶有 L1 正則化的 logistic 迴歸做二分類,其中 C 是正則化引數,w1 和 w2 是 x1 和 x2 的係數。當你把 C 值從 0 增加至非常大的值時,下面哪個選項是正確的?
image


A 第一個 w2 成了 0,接著 w1 也成了 0
B 第一個 w1 成了 0,接著 w2 也成了 0
C w1 和 w2 同時成了 0
D 即使在 C 成為大值之後,w1 和 w2 都不能成 0
解析:L1正則化的函式如圖,所以w1和w2可以為0。同時w1和w2是對稱的,不會導致一個為0另一個不為0的狀態。
正確答案D
4、在 k-均值演算法中,以下哪個選項可用於獲得全域性最小?
A 嘗試為不同的質心(centroid)初始化執行演算法
B 整迭代的次數
C 找到叢集的最佳數量
D 以上所有
解析:所有都可以用來除錯以找到全域性最小。
正確答案D
5、假設你使用 log-loss 函式作為評估標準。下面這些選項,哪些是對作為評估標準的 log-loss 的正確解釋。
A 如果一個分類器對不正確的分類很自信,log-loss 會嚴重的批評它
B 對一個特別的觀察而言,分類器為正確的類別分配非常小的概率,然後對 log-loss 的相應分佈會非常大
C log-loss 越低,模型越好
D 以上都是
解析:損失函式總結(
https://blog.csdn.net/ZHANG781068447/article/details/82752598
)
正確答案D
6、下面哪個選項中哪一項屬於確定性演算法?
A PCA
B K-Means
C 以上都不是
解析:確定性演算法表明在不同執行中,演算法輸出並不會改變。如果我們再一次執行演算法,PCA 會得出相同的結果,而 k-means 不會。
正確答案:A
7、兩個變數的 Pearson 相關性係數為零,但這兩個變數的值同樣可以相關。這句描述是正確還是錯誤?
A 正確
B 錯誤
解析:
答案為(A):Pearson相關係數只能衡量線性相關性,但無法衡量非線性關係。如y=x^2,x和y有很強的非線性關係。

8、下面哪個/些超引數的增加可能會造成隨機森林資料過擬合?
A 樹的數量
B 樹的深度
C 學習速率
解析:
答案為(B):通常情況下,我們增加樹的深度有可能會造成模型過擬合。學習速率並不是隨機森林的超引數。增加樹的數量可能會造成欠擬合。
9、下列哪個不屬於常用的文字分類的特徵選擇演算法?
A 卡方檢驗值
B 互資訊
C 資訊增益
D 主成分分析
解析:
答案D
常採用特徵選擇方法。常見的六種特徵選擇方法:
1)DF(Document Frequency) 文件頻率
DF:統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性
2)MI(Mutual Information) 互資訊法
互資訊法用於衡量特徵詞與文件類別直接的資訊量。
如果某個特徵詞的頻率很低,那麼互資訊得分就會很大,因此互資訊法傾向"低頻"的特徵詞。
相對的詞頻很高的詞,得分就會變低,如果這詞攜帶了很高的資訊量,互資訊法就會變得低效。
3)(Information Gain) 資訊增益法
通過某個特徵詞的缺失與存在的兩種情況下,語料中前後資訊的增加,衡量某個特徵詞的重要性。
4)CHI(Chi-square) 卡方檢驗法
利用了統計學中的"假設檢驗"的基本思想:首先假設特徵詞與類別直接是不相關的
如果利用CHI分佈計算出的檢驗值偏離閾值越大,那麼更有信心否定原假設,接受原假設的備則假設:特徵詞與類別有著很高的關聯度。
5)WLLR(Weighted Log Likelihood Ration)加權對數似然
6)WFO(Weighted Frequency and Odds)加權頻率和可能性
10、機器學習中做特徵選擇時,可能用到的方法有?
A 卡方
B 資訊增益
C 平均互資訊
D 期望交叉熵
E 以上都有
正確答案是:E