1. 程式人生 > >深度學習課程之文字預處理、詞袋模型、word2vec、語言模型(1.9)

深度學習課程之文字預處理、詞袋模型、word2vec、語言模型(1.9)

詞向量和語言模型

深度學習其實最成功的應用是在影象上,有了 CNN 可以很好地提取影象上的特徵,這些特徵經過幾層的神經網路結構可以很好地組合成比較抽象的特徵。

NLP 常見任務

  1. 自動摘要:媒體需要的頭條通過 NLP 自動提取
  2. 機器翻譯
  3. 主題識別
  4. 文字分類(主題分類、情感分類、按照你的需求分類)
  5. 問答系統
  6. 聊天機器人:NLP 的終極任務

NLP 處理方法

傳統:基於規則(去學習語言之間的語法規則,總結出一套系統,可拓展性不強)
現代:基於統計機器學習

  • HMM CRF SVM LDA RNN LSTM CNN
  • ”規則“隱含在模型引數裡

詞向量

詞向量:在計算機中用一個向量去表示一個詞,一段文字,這樣可以更高效地進行數學操作

1. 最初:

上位詞、同義詞 (貓和動物、寵物) ()

2. 離散表示:(Bag of Words 詞袋模型)

2.1 文件通過詞頻的方式來表示

單詞的 one-hot 表示:[1,0,0,0,0,0,0,0,0]

單詞到 index,再到 one-hot ,單詞的 one-hot 只能表示單獨的一個詞,不能體現出彼此之間的關係

文件向量的表示:[1,2,1,1,1,0,0,1,1]

  1. 這種表示的每一列指的是一個特徵,很重要的一點,放到分類模型如 LR NB SVM 中去學習,完成分類
  2. 文件向量可以直接將各詞的詞向量表示加和

缺點:稀疏向量、語序、語義鴻溝(否定詞起到的作用不大)、詞權重

  1. 詞在文件中的順序沒有被考慮
  2. 每個詞表示的權重相同,有些詞屬於停用詞不重要,有些詞表達了文字的主題,所以需要考慮每個詞在文字中的重要度

2.2 文件通過權重的方式來表示

詞權重指的是每個詞在其對應文字的重要度,表示形式如下:

  1. TF-IDF:TF-IDF詳細介紹
  2. Binary weighting 短文字相似性,Berboulli Naive Bayes,只考慮出現沒出現

2.3 Bi-gram 和 N-gram 解決了詞序的關係

優點:考慮了詞的順序
缺點:詞表的膨脹

詞編碼需要保證詞的相似性

向量空間分佈的相似性:英語和西班牙語
向量空間子結構:國王 - 女王 + 婦女 = 男人

最終目標:詞向量表示作為機器學習、特別是深度學習的輸入和表示空間