1. 程式人生 > >西瓜書配套習題第一章

西瓜書配套習題第一章

  • 2.1題:資料集包含1000個樣本,其中500個正例,500個反例,將其劃分為包含70%樣本的訓練集和30%樣本的測試集用於留出法評估,試估算共有多少種劃分方式。

答:留出法將資料集劃分為兩個互斥的集合,為了保持資料的一致性,應該保證兩個集合中的類別比例相同。故可以用分層取樣的方法。訓練集包含350個正例與350個反例,測試集包含150個正例與150個反例。
屬於從500個正例中無順序的選擇350個和500個反例中無順序的選擇350個 。
故有500C350*500C350 種劃分方式

2.2
題:資料集包含100個樣本,其中正反例各一半,假定學習演算法所產生的模型是將新樣本預測為訓練樣本數較多的類別(訓練樣本數相同時進行隨機猜測),試給出用10折交叉驗證法和留一法分別對錯誤率進行評估所得的結果。
答:(1)10折交叉驗證法:通過分層取樣產生10個互斥子集,每個子集包括10個樣本,正反例各半。每次取其中9個子集做訓練,1個子集做測試。因此在訓練樣本中兩個類別數目相同,隨機進行猜測,因此錯誤率為50%。
(2)留一法:每次取一個樣本做測試集,若取出的樣本為正例,那麼剩下的訓練集中有50個反例,49個正例,因此預測結果為反例,反之亦然。故錯誤率為100%。

2.3
題:若學習器A的F1值比學習器B高,試析A的BEP值是否也比B高。
答:BEP是查準率P與查全率R相等時的取值,F1則為P與R的調和平均。
若A的F1值要高於B,則在以下不等式中:

令Pa=Ra=BEPa,Pb=Rb=BEPb,得到
BEPa>BEPb
故假設成立

2.4
題:試述真正例率(TPR)、假正例率(FPR)與查準率(P)、查全率(R)之間的聯絡。
答:
真正例率是所有真實正例中真正例的比例;
假正例率是所有真實反例中假正例的比例;
查準率是所有預測正例中真正例的比例;
查全率是所有真實正例中真正例的比例;
所以查全率與真正例率相等 , R=TPR

2.5
題:試證明下式:
AUC=1-lrank, 其中Lrank 是排序損失
答:
按照有限樣例繪製的ROC曲線計算公式:

roc曲線中,向上的點是正例點,向右的點是反例點
。。?後續不知道該如何證明。。

2.6
題:試述錯誤率與ROC曲線之間的關係
答:錯誤率可以用下式表示:

參考真假正例率的定義,由於樣本中正例和反例的比例是確定的。因此以某個樣本的score為閾值時(即對應ROC曲線中的一個點),該點的真正例率越高,假正例率越低,則錯誤率越低,因此越靠近(0,1)點錯誤率越低。

2.7
題:試證明任意一條ROC曲線都有一條代價曲線與之對應,反之亦然。
答:
代價曲線可以由(0,FPR)到(1,FNR)的曲線族包絡得到。
由於ROC曲線是連續的,故必然有確定的一條代價曲線與之對應。
反之,對代價曲線上的任何一點作切線,可以得到對應的FPR與FNR,即可以得到ROC曲線上一個點的座標。因此代價曲線也有一條對應的ROC曲線存在

2.8
題:Min-Max規範化與z-score規範化如下所示。試析二者的優缺點。
答:
Min-Max 規範化適用於最大最小值已知的情形。缺點在於當有新資料輸入時,可能導致max和min的變化,需要重新定義。
z-score規範化適用於最大值或最小值未知的情況,或有超出取值範圍的離群資料的情況。

2.9
題:試述卡方檢驗過程。
答:
根據概率論與數理統計中的內容(交大版本,P239)。卡方檢驗適用於方差的檢驗。步驟如下:
1)分均值已知與均值未知兩種情況,求得卡方檢驗統計量
2)根據備選假設以及α,求得所選假設對應的拒絕域
3)根據1)中求得的卡方統計量與2)中求得的拒絕域,判斷假設成立與否