1. 程式人生 > >機器學習筆記(四)機器學習可行性分析

機器學習筆記(四)機器學習可行性分析

資料 表示 image 隨機 訓練樣本 -s mage 例如 lin

技術分享

從大量數據中抽取出一些樣本,例如,從大量彈珠中隨機抽取出一些樣本,總的樣本中橘色彈珠的比例為技術分享,抽取出的樣本中橘色彈珠的比例為技術分享,這兩個比例的值相差很大的幾率很小,數學公式表示為:

技術分享

用抽取到的樣本作為訓練樣本集(in-sample),可以求得一個最佳的假設g,該假設最大可能的接近目標函數f,但是在訓練樣本集之外的其他樣本(out-of-sample)中,假設g和目標函數f可能差別很遠,不能說抽取樣本分布等同於所有樣本的分布,只是大致相近。

二者的錯誤幾率相差為:

技術分享

當數據資料足夠多,且模型H集合有有限個的選擇,可以得到Ein和Eout是大致相等的

技術分享

機器學習筆記(四)機器學習可行性分析