1. 程式人生 > >文本分類任務簡介

文本分類任務簡介

回歸 log 決定 idf 好的 語料庫 文本 人工 語義

文本分類任務框架:

文本→特征工程(決定著模型分類的上界)→分類器(逼近模型的上限)→類別

文本特征提取:

1.經典的文本特征(前人的研究的成熟理論)

2.手工構造新的特征(手工提取,看數據集中是否有好的性特征)

3.用神經網絡提取(神經網絡僅作為特征提取器來用)

經典的文本特征:

TF、TFIDF、Doc2vec、Word2vec

TF詞頻

TFIDF:詞頻-逆向文件頻率(TF-IDF)是一種在文本挖掘中廣泛使用的特征向量化方法,它可以體現一個文檔中詞語在語料庫中的重要程度。

Doc2vec:文檔到向量。主要是用深度學習的方法去訓練,將文本轉化為向量。

Word2vec:文本到向量,是一個分類器,它采用一系列代表文檔的詞語來訓練word2vec model。該模型將每個詞語映射到一個固定大小的向量。word2vec model使用文檔中每個詞語的平均數來將文檔轉換為向量,然後這個向量可以作為預測的特征,來計算文檔相似度計算等等。

構造新特征:

1.尋找可能會影響分類的新特征。文章長度可能會影響到分類,所以可以把文章的長度作為一個新特征。

2、人工構造可能影響分類的新特征。

神經網絡提取

特征選擇:

為什麽要進行特征選擇?

減弱維度災難,計算量降低。

降低學習難度。

特征選擇的方法有什麽?

包裹式:從一組特征中挑出幾個子集進行訓練驗證,最後選擇最優的子集。

嵌入式:用分類器進行特征選擇。logistic回歸中將w向量中比較小的(權重小的)剔除。

過濾式:在分類器之前單獨對特征進行過濾。

特征降維:

將一個高維向量進行低維映射。

有監督降維:(使用了樣本類別信息)LDA,即線性判別分析

無監督降維:LSA淺層語義分析、LDA對詞頻矩陣進行分解,得到向量、NMF對TFIDF進行矩陣分解。

文本分類任務簡介