1. 程式人生 > >基於TF-IDF的新聞標簽提取

基於TF-IDF的新聞標簽提取

出現 結果 方式 通過 一是 時間 -i 輸出 衡量

基於TF-IDF的新聞標簽提取

1. 新聞標簽

  新聞標簽是一條新聞的關鍵字,可以由編輯上傳,或者通過機器提取。新聞標簽的提取主要用於推薦系統中,所以,提取的準確性影響推薦系統的有效性。同時,對於將標簽展示出來的新聞網站,標簽的準確性也會影響用戶體驗。

2. 新聞標簽提取算法

  新聞首先是一段文本,新聞的標簽首先是這一段文本的關鍵字。在文本關鍵字提取當中,TD-IDF是首先可以想到的算法。TF-IDF算法的優點是:簡單快速,結果比較符合實際情況;缺點是,單純以“詞頻”衡量一個詞的重要性,不夠全面,而且重要的詞可能出現次數少。

直接將新聞文本利用TF-IDF出來的結果往往包含比較寬泛,不能夠直接使用。將TF-IDF輸出的結果集中的每個關鍵詞添加一個標簽權重。權重計算方式為 TF-IDF的權重乘標簽熱度權重,其中,標簽熱度權重可以通過爬取海量歷史新聞的標簽,統計標簽出現次數,以標簽次數作為熱度的權重。
如果想要精益求精的話,可以不簡單統計次數相加,而是帶上時間屬性,給近期時間一個較大的值,久的時間一個小的值。

3. 新聞標簽提取流程

a) 統計海量新聞標簽,並得到標簽熱度;
b)利用TF-IDF得新聞文本關鍵字集(取top20);
c) 將20個關鍵字的權重乘對應標簽熱度 Ti = TFIDFi * (1 + HOTi) 其中,加一是為了避免關鍵字不在標簽字典裏導致結果為0;
d) 根據計算結果重新排序,取前5個關鍵字;

4. 實驗結果

最後簡單驗證了一下,利用jieba完成TF-IDF,再python計算。
驗證了一條財經新聞 鏈接為:http://finance.caijing.com.cn/20170607/4281440.shtml
網站新聞的關鍵字為: 要麽, 房貸, 業務, 銀行
程序得到關鍵字為:房貸,貸款,銀行,利率,流動性
效果比較:顯然,程序得到的標簽更為準確。

基於TF-IDF的新聞標簽提取