1. 程式人生 > >文字挖掘相關內容

文字挖掘相關內容

拖了一個月,終於想起還有一筆欠賬,

中文文字分類的流程如下:

1.預處理(去除噪聲、例如html標籤、文字格式轉化、檢測句子邊界)
2.中文分詞(使用中文分詞器為文字分詞,並去除停用詞)
3.構建詞向量空間(統計文字詞頻,生成文字的詞向量空間)
4.權重策略-TF-IDF方法(使用TF-IDF發現特徵詞,並抽取為反應文件主題的特徵)
5.分類器(使用演算法訓練分類器)
6.評價分類結果(分類器的測試結果分析)

文字處理的核心任務是要把非結構化和半結構化的文字轉換成結構化的形式,即向量空間模型,

在這之前,必須要對不同型別的文字進行預處理,在大多數文字挖掘任務中,文字預處理的步驟都是相似的,基本步驟如下:
1.選擇處理的文字範圍
2.建立分類文字語料庫

參考:https://www.cnblogs.com/sanmenyi/p/7015710.html

接下來,目的就是要將訓練集所有文字檔案(詞向量)統一到同一個詞向量空間中。在詞向量空間中,事實上不同的詞,它的權重是不同的,它對文字分類的影響力也不同,為此我們希望得到的詞向量空間不是等權重的空間,而是不同權重的詞向量空間。我們把帶有不同權重的詞向量空間叫做“加權詞向量空間”,也有的技術文件將其稱為“加權向量詞袋”,一個意思。
計算文字的權重向量,應該選擇一個有效的權重方案,最流行的方案是TF-IDF權重策略。其含義是詞頻逆文件頻率,也就是說:如果某個詞或者短語在一篇文章中出現的頻率高,並且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。TF-IDF的假設是,高頻率詞應該具有高權重,除非他也是高文件頻率。逆文件頻率就是使用詞條的文件頻率來抵消該詞的詞頻對權重的影響,從而得到一個較低的權重。

TF-IDF方法

參考:https://www.cnblogs.com/sanmenyi/p/7011344.html

不禁讓人想起了影象識別的那個sample,其實那個方法就是利用了詞袋模型把影象資訊壓縮成了向量,方便後面匹配查詢,妙啊。