HanLP 1.7.0 釋出,新增文字聚類、流水線分詞
HanLP 1.7.0 釋出了,HanLP 是由一系列模型與演算法組成的 Java 工具包,目標是普及自然語言處理在生產環境中的應用。HanLP 具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點。 在提供豐富功能的同時,HanLP 內部模組堅持低耦合、模型堅持惰性載入、服務堅持靜態提供、詞典堅持明文釋出,使用非常方便,同時自帶一些語料處理工具,幫助使用者訓練自己的模型。
更新如下:
-
ofollow,noindex" target="_blank">新增文字聚類模組(k-means和repeated bisection)
-
詞法分析器加入規則
enableRuleBasedSegment
#991 -
支援通過 JVM 的啟動引數指定 data 路徑:
java -DHANLP_ROOT=/opt/hanlp
則載入/opt/hanlp/data
#983 -
分詞斷句支援指定斷句顆粒#1018
-
CustomDictionary.insert("新詞語", "詞性標籤")
支援省略頻次 -
NeuralNetworkDependencyParser
建構函式接受Segment
-
TextRankKeyword
支援構造自任意分詞器 -
優化雙陣列 trie 樹,構建後自動 shrink 到最低記憶體#984
-
修訂簡繁詞典
-
微調 ngram 和 nr 模型
-
新資料包data-for-1.7.0.zip
MD5 = 4c396f3039230ddfcef20865264512b1
-
Portable 版同步升級到 v1.7.0
<dependency> <groupId>com.hankcs</groupId> <artifactId>hanlp</artifactId> <version>portable-1.7.0</version> </dependency>
下載地址: