1. 程式人生 > >構建短文字分類模型需要注意的幾點

構建短文字分類模型需要注意的幾點

一、深度學習模型

  1.CNN

  2.LSTM

  3.Attention

二、與傳統機器學習模型的比較

  1.SVM

  2.LR

  3.GBDT

  4.XGBoost

  5.RandomForest

  6.LightGBM

三、文字特徵選擇

  1.一般短文字的長度在200字元左右,需要更加精巧的模型來判別

  2.對於網路群聊短文字,包含各種特殊字元,表情符,@符號等。那麼這些字元在預處理的時候是否需要去掉?還是將所有的字元都扔進模型中?這是需要考慮的問題

  3.語言模型是nlp領域處理的基礎,特徵抽取時需要注意不要丟掉語言學資訊

  4.預訓練詞向量的選擇,是否使用預訓練詞向量,需要做結果對比。如果引入預訓練詞向量帶來的效果不大,可以使用隨機初始。預訓練詞向量的選擇:騰訊開源,自身構建

  5.結合單詞詞向量、分詞位置詞向量、詞性資訊三者提取文字特徵,通過concat構建新的特徵向量

  6.在文字表示上,可以使用RNN最後一個時刻的輸出作為文字的表示,也可以綜合考慮每個時刻的輸出