Jcseg 2.6.2 发布 - Java轻量级开源自然语言处理包
Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!
Jcseg 2.6.2版本主要功能都是为Gitee的搜索设计的,体验可以搓:https://search.gitee.com/?skin=rec&type=repository&q=%E5%88%86%E8%AF%8D
2.6.2版本主要更新内容如下:
1,升级到对lucene 8.20,solr 8.2.0和Elasticsearch的7.4.2版本的支持,Gitee搜索目前用的Elasticseach 7.4.2版本。
2,增加solr和elasticsearch索引级别的分词配置,可以不同索引使用不同的分词配置,具体可以参考Gitee搜索资源分享中的mapping:https://gitee.com/oschina/gitee-search-share。
3,部分已有词库的优化,拼音,词性,同义词等。
4,二次切分优化,增加中英混合词的的二次切分支持。
5,增加n-gram切分模式,可以自定义n,实现n-gram的切分,例如:”中文分词“ 1-gram会被切分成”中 文 分 词“,此功能在Gitee的搜索提示中用到了。
6,增加英文词条的切分,大部分的分词器对于英文都只是通过空格或者标点来切分,这个版本jcseg增加了对英文的切分,同时也是通过mmseg算法来去除歧义,例如:
英文组合词条:
jcseg~tokenizer:complex>> openarkcompiler 分词结果: open[0,4]/n ark[4,3]/n compiler[7,8]/n Done, total:15, tokens:3, in 0.00000sec
例如Gitee搜索”openark“:https://search.gitee.com/?q=openark&skin=rec&type=repository
拼音组合词条:
jcseg~tokenizer:complex>> guanyuwomen 分词结果: guanyu[0,6]/p women[6,5]/n Done, total:11, tokens:2, in 0.00105sec
例如:Gitee搜索"中文huancunxitong":https://search.gitee.com/?q=huancunxitong&skin=rec&type=repository
7,增加英文词库和拼音词库,用于支撑上述的英文切分,这个英文也包括拼音的切分,例如:Gitee搜索的拼音和汉语相互搜索:
搜索”fenci“: https://search.gitee.com/?q=fenci&skin=rec&type=repository
搜索”分词“: https://search.gitee.com/?q=%E5%88%86%E8%AF%8D&skin=rec&type=repository
搜索”中文分词“:https://search.gitee.com/?q=%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D&skin=rec&type=repository
搜索”中文fenci“:https://search.gitee.com/?q=%E4%B8%AD%E6%96%87fenci&skin=rec&type=repository
8,同义词优化,同义词词库和offset逻辑无缝对接lucene的increasement设计,便于实现同义词的检索和高亮,例如:Gitee搜索的同义词效果如下:
- 搜索”中文分词“:https://search.gitee.com/?q=%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D&skin=rec&type=repository
- 搜索”汉语分词“:https://search.gitee.com/?q=%E6%B1%89%E8%AF%AD%E5%88%86%E8%AF%8D&skin=rec&type=repository
- 搜索”普通话分词“:https://search.gitee.com/?q=%E6%99%AE%E9%80%9A%E8%AF%9D%E5%88%86%E8%AF%8D&skin=rec&type=repository
9,更改了Jcseg的API设计,使用函数接口来代替部分的class查找,使用更方便,API变更为如下:
//创建SegmenterConfig分词配置实例,自动查找加载jcseg.properties配置项来初始化 SegmenterConfig config = new SegmenterConfig(true); //创建默认单例词库实现,并且按照config配置加载词库 ADictionary dic = DictionaryFactory.createSingletonDictionary(config); //依据给定的ADictionary和SegmenterConfig来创建ISegment //为了Api往后兼容,建议使用SegmentFactory来创建ISegment对象 ISegment seg = ISegment.COMPLEX.factory.create(config, dic); //备注:以下代码可以反复调用,seg为非线程安全 //设置要被分词的文本 String str = "研究生命起源。"; seg.reset(new StringReader(str)); //获取分词结果 IWord word = null; while ( (word = seg.next()) != null ) { System.out.println(word.getValue()); }
10,BUG修复:
- 英文切分的offset问题:https://gitee.com/lionsoul/jcseg/issues/I19IQ4
- NLP日期实体识别问题:https://gitee.com/lionsoul/jcseg/issues/I17DMS
maven仓库(中央仓库同步中...):
<dependency> <groupId>org.lionsoul</groupId> <artifactId>jcseg-core</artifactId> <version>2.6.2</version> </dependency>
下载地址:
Gitee: https://gitee.com/lionsoul/jcseg/tree/v2.6.2-release
Github: https://github.com/lionsoul2014/jcseg/releases/tag/v2.6.2-release
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
win10 风格的 OA 管理系统 skyeye 更新,新增售后模块手机端
更新内容 skyeye-OA系统开始研发手机端, 基于uniapp开发的适用于微信小程序,头条小程序,支付宝小程序,H5端以及APP等各个终端。 目前开发好的功能( 售后工单系统 模块)有: 工单管理:售后人员进行工单报修、日常维护、慰问等。 申领单管理:工单报修时,进行产品配件申领以及对客户产品的维修。 配件管理:工人报修时需要申领的配件。 产品管理:工人针对客户所购买的产品进行报单操作。 客户管理:系统中的客户档案记录。 权限管控:由PC端控制手机端的权限,精确到按钮。 效果图 效果图 效果图 效果图 效果图
- 下一篇
举国抗疫迎大考,中软国际交出“教科书”答卷!秘密就在华为云WeLink?
【51CTO.com原创稿件】2020年新春伊始,一场始料未及的新型冠状病毒肺炎疫情开始肆虐华夏,一边是举国同心共抗疫情,一边是被打乱的社会生产节奏亟待恢复,开局举步维艰。对于个人而言,减少外出家中自我隔离,“悠长的假期”苦中作乐并不难捱;但对企业则完全不同了,2月复工即挑战——分散在全国的员工,哪些是健康无碍的,哪些是处于高传播风险中的?各地政策不同,哪些地方可以按原计划复工,哪些地方还需要观望?各办公区如何规范消毒,确保员工健康?有的员工可以按时上班,有的员工仍在隔离期,如何确保业务运转无虞?……面对这一系列问题,中软国际交出了一份“教科书”级别的答卷。 “抗疫”决策猛如虎,WeLink来当神助攻! 当疫情信息一曝光,中软国际便意识到疫情危害的严重性,整个管理层高度重视,第一时间将本次突发疫情时间定级为一级,启动“国家/企业级”疫情防控专项风险管理项目。董事局主席、CEO陈宇红亲自制定公司风险管理流程GPO,高级副总裁曹雁挂帅公司抗疫指挥部总指挥长,全方位保障客户业务连续性、保障公司和员工切身利益。 在春节假期期间,在全国拥有六万多名员工的中软国际面临首个难题,就是在员工流动性这么...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8编译安装MySQL8.0.19
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果