文本分類任務簡介
阿新 • • 發佈:2018-09-03
回歸 log 決定 idf 好的 語料庫 文本 人工 語義
文本分類任務框架:
文本→特征工程(決定著模型分類的上界)→分類器(逼近模型的上限)→類別
文本特征提取:
1.經典的文本特征(前人的研究的成熟理論)
2.手工構造新的特征(手工提取,看數據集中是否有好的性特征)
3.用神經網絡提取(神經網絡僅作為特征提取器來用)
經典的文本特征:
TF、TFIDF、Doc2vec、Word2vec
TF詞頻
TFIDF:詞頻-逆向文件頻率(TF-IDF)是一種在文本挖掘中廣泛使用的特征向量化方法,它可以體現一個文檔中詞語在語料庫中的重要程度。
Doc2vec:文檔到向量。主要是用深度學習的方法去訓練,將文本轉化為向量。
Word2vec:文本到向量,是一個分類器,它采用一系列代表文檔的詞語來訓練word2vec model。該模型將每個詞語映射到一個固定大小的向量。word2vec model使用文檔中每個詞語的平均數來將文檔轉換為向量,然後這個向量可以作為預測的特征,來計算文檔相似度計算等等。
構造新特征:
1.尋找可能會影響分類的新特征。文章長度可能會影響到分類,所以可以把文章的長度作為一個新特征。
2、人工構造可能影響分類的新特征。
神經網絡提取
特征選擇:
為什麽要進行特征選擇?
減弱維度災難,計算量降低。
降低學習難度。
特征選擇的方法有什麽?
包裹式:從一組特征中挑出幾個子集進行訓練驗證,最後選擇最優的子集。
嵌入式:用分類器進行特征選擇。logistic回歸中將w向量中比較小的(權重小的)剔除。
過濾式:在分類器之前單獨對特征進行過濾。
特征降維:
將一個高維向量進行低維映射。
有監督降維:(使用了樣本類別信息)LDA,即線性判別分析
無監督降維:LSA淺層語義分析、LDA對詞頻矩陣進行分解,得到向量、NMF對TFIDF進行矩陣分解。
文本分類任務簡介