1. 程式人生 > >7.開發和測試資料集多大合適 翻譯自 吳恩達新書-Machine Learning Yearning

7.開發和測試資料集多大合適 翻譯自 吳恩達新書-Machine Learning Yearning

為了檢測出不同演算法之間的差異,開發資料集應該足夠大。比如,分類演算法A的準確率為90.0%, 分類演算法B的準確率為90.1%,如果開發資料集中只有100個樣本,那你無法檢測出這0.1%差在哪兒。100個樣本的開發資料集實在時太小了。通常,我們會在開發資料集通中,放入1000到10,000個樣本。對於10,000個樣本來說,找到這0.1%並改進它,就相對容易多了。

別小看這0.1%,對於一些成熟和重要的應用來說,比如廣告推薦、網頁搜尋、產品推薦,這0.1%就直接影響著公司的利潤,因此這些團隊都非常積極的改進模型,哪怕時0.1%。這種情況下,開發資料集中的樣本數量會遠大於10,000個,目的就是能讓模型獲得改善,哪怕是微小的改善。

那對於測試樣本集呢?它多大合適呢?它也應該要足夠大,這樣他給出的評估指標才相對靠譜。通常人們用所有資料的30%作為測試資料集。如果你的資料量相對適中(比如有100到10,000個樣本),這麼做會非常有效。但是在大資料時代,我們的機器學習模型,往往會處理數10億個樣本,即使少分配一些給開發和測試樣本集,但是相對數量也會增加不少。此時,對於開發和測試資料集來說,太大的資料集並沒有必要,能評估出你的演算法效能即可。