為什麼模型表現不好 17 October 2018
資料集分佈不同
需要處理的實際資料的分佈和開發集/測試集資料的分佈情況不同
演算法在開發集上過擬合
如果你發現演算法在開發集上的效能比測試集好得多,則表明你很有可能 在開發集上過擬合了。在這種情況下,你需要獲取一個新的開發集。
如果你發現演算法在開發集上的效能比測試集好得多,則表明你很有可能 在開發集上過擬合了。在這種情況下,你需要獲取一個新的開發集。
模型目標和評價指標選擇的不好
沒有做誤差分析
誤差分析(Error Analysis) 指的是檢查被演算法誤分類的開發集樣本的過程,以便幫助你找到造成這些誤差的原因。
偏差和方差是誤差的兩大來源。總誤差=偏差+方差。
演算法的偏差(bias):演算法在訓練集上的錯誤率。
演算法的方差(variance):演算法在開發集(或測試集)上的表現比訓練集上差多少。
減小演算法的偏差,就需要提高演算法在訓練集上的效能。
減小演算法的方差,就需要優化模型的泛化能力。
通過手動檢查約 100 個被演算法錯誤分類的開發集樣本來執行誤差分析,並計算主要的錯誤 類別。使用這些資訊來確定優先修正哪種型別的錯誤。
樣本集中有錯誤資料
比如label錯誤率或者feature錯誤率。自然會影響到模型誤差。