HanLP 1.7.6 发布,代号“最后的武士”
HanLP 1.7.6发布了。HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 此版本代号为“最后的武士”,寓意这是旧的十年里最后一次更新,接下来会是一个全新的时代。 更新内容如下: 新增 DocVectorModel.nearest(java.lang.String, int) 方法 fix#1332 词法分析器新增空格处理 fix#797 修订现代汉语补充词库 fix#1330 NGramDictionaryMaker 等默认 UTF-8 编码 fix#1320 WordVectorModel 支持自定义 Map 类型:#1304 修复信息熵计算中的除零错误 fix#1366 修复 Nature 的线程安全性 tfidf,idf 的数据可以通过加载 idf 文件得到 开放 CoreStop...