漢語言處理包 HanLP 1.6.4 釋出,優化新詞發現
阿新 • • 發佈:2018-12-19
HanLP 是由一系列模型與演算法組成的 Java 工具包,目標是普及自然語言處理在生產環境中的應用。HanLP 具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點。 在提供豐富功能的同時,HanLP 內部模組堅持低耦合、模型堅持惰性載入、服務堅持靜態提供、詞典堅持明文釋出,使用非常方便,同時自帶一些語料處理工具,幫助使用者訓練自己的模型。
HanLP v1.6.4 更新內容:
優化 CorpusLoader、優化 MutableFeatureMap 的設計
優化新詞發現,使結果不含分隔符:#826
TextRank 提取關鍵詞提升演算法速度 @hlstudio
使用者詞典熱更新時支援.csv @patrick_lin
增強詞向量讀取時的健壯性:#821
根據百度漢語和線上辭海修正拼音詞典 @AnyListen
修訂停用詞詞典 @duohappy
修復詞法分析器禁用使用者詞典時發生的問題、修復詞法分析器 seg 介面與命名實體識別的配合問題:hankcs/pyhanlp#15 (comment) 、修正結構化感知機多執行緒平均的問題
微調人名識別模型、新增月份詞彙
資料包相容 data-for-1.6.2.zip md5=3ebb9e47ecff740f09c9ec7c21324661 獲取最新版的資料包,請fork並git clone一份倉庫中的最新data。
Portable 版同步升級到 v1.6.4
<dependency> <groupId>com.hankcs</groupId> <artifactId>hanlp</artifactId> <version>portable-1.6.4</version> </dependency>
文章來源於網路