1. 程式人生 > >基於java版jieba分詞實現的tfidf關鍵詞提取

基於java版jieba分詞實現的tfidf關鍵詞提取

基於java版jieba分詞實現的tfidf關鍵詞提取

文章目錄


為了改善我的 個性化新聞推薦系統的基於內容相似度的推薦演算法效果,我嘗試找尋關鍵詞提取效果可能優於本來使用的ansj的tfidf的其它庫,花了一番功夫後,發現tfidf演算法本身並不複雜,但是訓練tfidf的語料庫可能才是效能的瓶頸,所以我找到了很有名的中文分詞庫 jieba分詞的語料庫,並且找到了 jieba分詞的Java版本,於是fork了專案,並參照python版tfidf演算法,實現了Java版本的tfidf演算法,最後驗證了效果一致。(PS:但是給原專案發pull request的時候沒有人處理,看起來java版的專案似乎已經很長時間沒有人維護了…)

我的專案連結放到了這裡,歡迎大家star和fork,也歡迎提出任何建議和pull request,也希望以後能長期維護該專案,因為我本人對於自然語言處理的相關技術也是比較感興趣的。