1. 程式人生 > >文字關鍵詞提取二三事

文字關鍵詞提取二三事

基於此,我想說的是,雖然關鍵詞提取的演算法很多,也很花哨,但是思路比較簡單,應當在寫Paper之前,或者開發技術應用之前,做好技術定位。另外,幾乎沒有論文回答最基礎的一個問題,什麼是關鍵詞?為什麼某些詞應當被提取出來給閱讀者看而另外一些詞應當忽略?哪些詞應當展示給使用者看?太多研究關注演算法的精度和效率,而忽視了關鍵詞的本質內涵。關鍵詞不是一個客觀存在的東西,而本身也是人為標註的,因此模型的評估和優化,本身也是一個主觀的東西。這種主觀的東西,不應當以演算法開發者的意志所左右,而是應當關注使用者的需求,想使用者之所想,把使用者真正關心的那些關鍵詞展示出來。因此,雖然關鍵詞提取演算法當前停滯不前,但是從使用者的角度重新去考慮關鍵詞的定義,把使用者的特徵與詞彙的特徵相結合,進行指標的構建(Statistical)或者規則模型的學習(Rule Based),或許是可以為關鍵詞提取演算法的未來研究提供新的發展契機。