1. 程式人生 > >商品評價判別,文字分類——學習筆記

商品評價判別,文字分類——學習筆記

FASTTEXT(Facebook開源技術)

二分類任務,監督學習。

自然語言

NLP自然語言處理

語料Corpus:好評和差評

分詞Words Segmentation:基於HMM構建dict tree

構建詞向量Construct Vector:

one-hot獨熱編碼

 

但是漢語中詞太多了,獨熱編碼的詞向量隨著詞庫中詞彙的增長,會變得非常大。

而且one hot沒法判斷順序

 

Google開山之作:TF-IDF(term frequency–inverse document frequency)

解決了頻率和特殊性的關係。TF即詞頻(Term Frequency),IDF即逆向文件頻率(Inverse Document Frequency)。

TF(詞頻)就是某個詞在文章中出現的次數,此文章為需要分析的文字。為了統一標準,有如下兩種計算方法:

                                     (1)TF(詞頻) = 某個詞在文章中出現的次數 / 該篇文章的總次數;

                                     (2)TF 詞頻 = 某個詞在文章中出現的次數 / 該篇文章出現最多的單詞的次數;

IDF(逆向文件頻率)為該詞的常見程度,需要構建一個語料庫來模擬語言的使用環境。

                                     IDF 逆向文件頻率 =log (語料庫的文件總數 / (包含該詞的文件總數+1));

如果一個詞越常見,那麼其分母就越大,IDF值就越小。 

但還是有詞向量長度的問題。

 word2vec

將獨熱編碼當作輸入,經過神經網路,判斷one hot輸出的是什麼詞

但是並沒有關心輸出的詞是什麼。隱藏層,100個隱藏神經元,100個權重。

而是將神經網路過程中的該層的權重作為了詞向量。vector。