汉语言处理包 HanLP v1.3.5,新功能、优化与维护
HanLP v1.3.5 更新内容:
大幅优化CRF分词和二阶HMM分词,重构CharacterBasedGenerativeModelSegment
自定义词典支持热更新:#563 ,ngram模型支持热加载:#580
新增一个提高用户词典优先级的开关:#633
支持98年人民日报的复合词语料格式,如"[中央/n 人民/n 广播/vn 电台/n]nt"
开放TextRank关键词提取中的最大迭代次数参数:#577
为Term添加equal方法
TextRankKeyword 提取窗口相近词的强化
文本摘要方法支持自定义句子分隔符
提高AC自动机健壮性,添加hasKeyword接口
修复BinTrie.remove不存在的key时导致的问题:#540
解决mini模型下同时打开所有命名实体识别和数词识别时触发的问题:#542
CharTable.txt 添加上下标字符的对应关系
将“t”等不可打印的字符视作分隔符:#584
中文数词与阿拉伯数词切分开
修正全角年份识别中字符串长度错误,修正数字识别工具的错误,增加测试代码。支持读取包含BOM的文本文件。
校对CoreNatureDictionary.txt,删除以分号开头的错误词语:#221 (comment)
修复CoNLLWord中toString方法的bug
微调人名识别模型:#562 删除人名识别模型中的高频动词D标签,降低误命中率,音译人名识别取消外国地名触发
修复Nature.fromString和IOUtil.loadDictionary:#626
修正“还款”的拼音:#565 修正简繁一多对应校验表/梁→梁樑(樑為梁的異體字,由簡體轉為繁體時僅需採用梁即可):#606
数据包依然兼容data-for-1.3.3.zip: 国内网盘 或 海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git。
Portable版同步升级到v1.3.5
<dependency> <groupId>com.hankcs</groupId> <artifactId>hanlp</artifactId> <version>portable-1.3.5</version> </dependency>
HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。
文章来源于网络
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
详解文本分类之DeepCNN的理论与实践
导读 最近在梳理文本分类的各个神经网络算法,特地一个来总结下。下面目录中多通道卷积已经讲过了,下面是链接,没看的可以瞅瞅。我会一个一个的讲解各个算法的理论与实践。目录暂定为: 多通道卷积神经网络(multi_channel_CNN) 深度卷积神经网络(deep_CNN) 基于字符的卷积神经网络(Char_CNN) 循环与卷积神经网络并用网络(LSTM_CNN) 树状LSTM神经网络(Tree-LSTM) Transformer(目前常用于NMT) etc.. 之后的以后再补充。今天我们该将第二个,深度卷积神经网络(DeepCNN)。 DeepCNN DeepCNN即是深度卷积神经网络,就是有大于1层的卷积网络,也可以说是多层卷积网络(Multi_Layer_CNN,咳咳,我就是这么命名滴!)我们来直接上图,看看具体长得啥样子: 我大概描述下这个过程,比如sent_len=10,embed_dim=100,也就是输入的矩阵为(10*100),假设kernel num=n,用了上下padding,kernel size=(3*100),那么卷积之后输出的矩阵为(n*10),接着再将该矩阵放...
- 下一篇
11月8日云栖精选夜读 | 干货:阅读跟踪 Java 源码的几个小技巧!
今天跟大家分享一下我平时阅读源码的几个小技巧,对于阅读Java中间件如Spring、Dubbo等框架源码的同学有一定帮助。 本文基于Eclipse IDE,我们每天都使用的IDE其实提供了很多强大的功能,掌握它们,往往能够事半功倍。 热点热议 干货:阅读跟踪 Java 源码的几个小技巧! 作者:技术小能手发表在:Java技术栈 阿里巴巴数据中心双11守夜人:把机器当“媳妇”,愿做亿万网友背后的男人 作者:技术小能手发表在:阿里巴巴基础设施 作为一名IT从业者,究竟应不应该转型AI 作者:技术小能手发表在:SDNLAB 知识整理 详解文本分类之DeepCNN的理论与实践 作者:技术小能手发表在:深度学习自然语言处理 TensorFlow系列专题(六):实战项目Mnist手写数据集识别 作者:技术小能手发表在:磐创AI 分库分表技术演进&最佳实践 作者:技术小能手发表在:程序员DD 记一次MongoDB故障排查的过程 作者:技术小能手发表在:数据和云 Spring中获取request的方法及其线程安全性分析 作者:技术小能手发表在:Java乐园 美文回顾 教你十分钟构建好 Spri...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS8编译安装MySQL8.0.19