1. 程式人生 > >一個月刷完機器學習筆試題300題(19)

一個月刷完機器學習筆試題300題(19)

第19天

1、下圖顯示了三個邏輯迴歸模型的AUC-ROC曲線。不同的顏色表示不同超引數值的曲線。以下哪個AUC-ROC會給出最佳結果? A 黃色 B 粉紅色 C 黑色 D 都相同 正確答案是:A 最佳分類是曲線下區域面積最大者,而黃線在曲線下面積最大 2、假設你在測試邏輯迴歸分類器,設函式H為

下圖中的哪一個代表上述分類器給出的決策邊界?

A B C 正確答案是: B 選項B正確。雖然我們的式子由選項A和選項B所示的y = g(-6 + x2)表示,但是選項B才是正確的答案,因為當將x2 = 6的值放在等式中時,要使y = g(0)就意味著y = 0.5將在線上,如果你將x2的值增加到大於6,你會得到負值,所以輸出將是區域y = 0。 3、所謂機率,是指發生概率和不發生概率的比值。所以,拋擲一枚正常硬幣,正面朝上的機率(odds)為多少? A 0.5 B 1 C 都不是 正確答案是: B 機率(odds)是事件發生不發生概率的比率,正面朝上概率為1/2和反面朝上的概率都為1/2,所以機率為1。 4、Logit函式(給定為l(x))是機率函式的對數。域x = [0,1]中logit函式的範圍是多少? A ( - ∞,∞) B (0,1) C (0,∞) D ( - ∞,0) 正確答案是:A 為了與目標相適應,機率函式具有將值從0到1的概率函式變換成值在0和∞之間的等效函式的優點。當我們採用機率函式的自然對數時,我們便能範圍是-∞到∞的值。 這裡給出Logit函式的影象(來自維基百科):

5、如果對相同的資料進行邏輯迴歸,將花費更少的時間,並給出比較相似的精度(也可能不一樣),怎麼辦? (假設在龐大的資料集上使用Logistic迴歸模型。可能遇到一個問題,Logistic迴歸需要很長時間才能訓練。) A 降低學習率,減少迭代次數 B 降低學習率,增加迭代次數 C 提高學習率,增加迭代次數 D 增加學習率,減少迭代次數 正確答案是:D 如果在訓練時減少迭代次數,就能花費更少的時間獲得相同的精度,但需要增加學習率。

6、以下哪些選項為真? A 線性迴歸誤差值必須正態分佈,但是在Logistic迴歸的情況下,情況並非如此 B 邏輯迴歸誤差值必須正態分佈,但是線上性迴歸的情況下,情況並非如此 C 線性迴歸和邏輯迴歸誤差值都必須正態分佈 D 線性迴歸和邏輯迴歸誤差值都不能正態分佈 正確答案是:A

7、以下哪個影象顯示y = 1的代價函式? 以下是兩類分類問題的邏輯迴歸(Y軸損失函式和x軸對數概率)的損失函式。 注:Y是目標類 A A B B C 兩者 D 這些都沒有 正確答案是:A A正確,因為損失函式隨著對數概率的增加而減小

8、對於任意值“x”,考慮到 Logistic(x):是任意值“x”的邏輯(Logistic)函式 Logit(x):是任意值“x”的logit函式 Logit_inv(x):是任意值“x”的逆邏輯函式

以下哪一項是正確的? A Logistic(x)= Logit(x) B Logistic(x)= Logit_inv(x) C Logit_inv(x)= Logit(x) D 都不是 正確答案是: B

9、假設,下圖是邏輯迴歸的代價函式 現在,圖中有多少個區域性最小值? A 1 B 2 C 3 D 4 正確答案是:D 圖中總共有四個凹的地方,故有四個區域性最小值。 10、使用 high(infinite) regularisation時偏差會如何變化?

有散點圖“a”和“b”兩類(藍色為正,紅色為負)。在散點圖“a”中,使用了邏輯迴歸(黑線是決策邊界)對所有資料點進行了正確分類。 A 偏差很大 B 偏差很小 C 不確定 D 都不是

正確答案是:A 模型變得過於簡單,所以偏差會很大。 Bias:誤差,物件是單個模型,期望輸出與真實標記的差別(可以解釋為描述了模型對本訓練集的擬合程度) Variance:方差,物件是多個模型(這裡更好的解釋是換同樣規模的訓練集,模型的擬合程度怎麼樣;也可以說方差是刻畫資料擾動對模型的影響,描述的是訓練結果的分散程度) 從同一個資料集中,用科學的取樣方法得到幾個不同的子訓練集,用這些訓練集訓練得到的模型往往並不相同。

以上圖為例:

  1. 左上的模型偏差最大,右下的模型偏差最小;
  2. 左上的模型方差最小,右下的模型方差最大(根據上面紅字的解釋這裡就很好理解了) 一般來說,偏差、方差和模型的複雜度之間的關係是這樣的: 實際中,我們需要找到偏差和方差都較小的點。

XGBOOST中,我們選擇儘可能多的樹,儘可能深的層,來減少模型的偏差; 通過cross-validation,通過在驗證集上校驗,通過正則化,來減少模型的方差 從而獲得較低的泛化誤差。