Machine Learning第六講[應用機器學習的建議] --(三)建立一個垃圾郵件分類器
阿新 • • 發佈:2019-01-08
內容來自Andrew老師課程Machine Learning的第六章內容的Building a Spam Classifier部分。
一、Prioritizing What to Work on(優先考慮的工作)
在垃圾郵件分類的問題中,我們首先需要選出很多特徵,根據這些特徵使用訓練集訓練,然後使用驗證集驗證誤差,最後使用這個模型預測結果。 在這個問題中,輸入的x形式為: 也即:Note:在郵件分類問題中,一般我們會選擇10000-20000個在訓練集中出現的比較頻繁的單詞。 怎樣能夠使垃圾分類器有更好的效能(最低的誤分類率)?一般可以從以下幾個方面入手: (1)收集更多的資料,如“honeypot”project可以用來發送垃圾郵件,這些郵件可以當做訓練集中的資料使用。
二、Error Analysis(誤差分析)
在學習的過程中,我們推薦的方法是(1)以一個簡單的專案開始,在訓練集上訓練,在驗證集上驗證。(2)畫出學習曲線幫助我們找出出現了什麼問題,怎麼解決,這部分內容參見(1)這些郵件是什麼型別的(type)? (2)哪些特徵可以幫助我們更好的分類這些郵件? 1、假設我們發現在這100個錯誤分類的郵件中, Phrama:12 Replica/fake:4 Steal passwords:53