1. 程式人生 > >數學之美 第3章 統計語言模型

數學之美 第3章 統計語言模型

語料原理上越多越好,但是要把握好一個度的問題比如機器翻譯中的雙語預料就比較少的,還有就是有很多資料都有噪聲和錯誤的,訓練語料的噪聲高低也會對模型的效果產生一定的影響,因此在訓練資料的時候通常會對訓練資料進行預處理,一般情況下,少量的隨機噪聲清理的成本非常高,通常就不做處理,還有就是有些噪聲處理的太乾淨反而是不好的, 為什麼呢?因為訓練的資料和應用一致的,應用的過程還是會有噪聲的,而訓練資料沒有的話,實際上反而很不好