Jcseg 2.4.0 发布,Java 轻量级开源自然语言处理包
Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!
Jcseg 2.4.0更新如下:
1,修复时间组合实体识别的bug,有时候会出现错误组合的情况。
2,优化NLP模式的时间实体的识别,区分组合时间,例如:"米"实体为"length.m","3米"为"nuc_length.m"。
长度单位/null 米/n/length.m ,/w/null 例如/d/null 这/r/null 根/q/null 线/q/null 长/d/null 3米/q/nuc_length.m
3,依据百度的汉语数据修复词条中的部分拼音错误:https://gitee.com/lionsoul/jcseg/commit/4f08a01ea94828e4c4ac585a744b4755f33c8c4b
4,修复中文数字转阿拉伯数字后词条的offset错误。
5,依据百度的汉语数据修复词条中的部分拼音错误:https://gitee.com/lionsoul/jcseg/commit/3de95015056a7ea683c5955faef891fa68af36b5
6,修改Elasticsearch的资源访问为官网建议的安全资源访问形式,意味着es插件不需要再grant privileges。
7,Elasticsearch插件中增加插件级别的单例词库创建接口并且使用安全方式加载词库。
8,修改jcseg-server中的jetty版本为:9.3.24.v20180605
9,jcseg-server.properties配置文件增加自定义host支持,便于外网访问。
10,修复maven编译中的全部javadoc报错。
11,README中增加了jcseg的使用案例和链接,以及微信和QQ沟通账号。
下载地址:
Gitee: https://gitee.com/lionsoul/jcseg/tree/v2.4.0-release
Github: https://github.com/lionsoul2014/jcseg/releases/tag/v2.4.0-release
maven仓库地址:
<dependency> <groupId>org.lionsoul</groupId> <artifactId>jcseg-core</artifactId> <version>2.4.0</version> </dependency>
本文来自云栖社区合作伙伴“开源中国”
本文作者:狮子的魂

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Elasticsearch 大文本字段中的中文精确查询
中文精确查询用Elasticsearch怎么做? Google了不少文章,个人觉得没有抓住重点,或者Elasticsearch升级后有所改变。 背景介绍 前人精品文章推荐简单来讲,从Elasticsearch设计的初衷来讲, match查询用来做搜索引擎类似的评分查询,精确匹配查询用term来做,参见各种Elasticsearch的手册,不展开。中文的精确查询由于存在index保存阶段的分词和search阶段的分词,所以直接沿用这些方法并不适用。 问题:中文查询用match能查到,用term查不到。 准确的说是比如字段 title:北京奥运 , 查找 “北京奥运” ok, 查找 “北京” 没有,查找"北"在默认情况下可以找到很多。 解决办法: 采用term查询里面的wildcard query GET /_search { "query": { "wildcard" : { "user" : "ki*y" } } } 注意事项 Elasticsearch 6.0版本 Text字段 不再提供 not_analysed 属性,请改用keyword类型, 字段长度受限: Lucene's t...
- 下一篇
HBase生产环境配置与使用优化不完全指南
HBase上线至今,承载了线上所有实时交易量,虽然大部分请求都能够保证服务稳定(99.56%响应时间毫秒级),但是一旦HBase出现问题就是鸡飞狗跳的灾难。 从老机器到新集群,从老机房到新机房,期间经历过各种问题和生产故障,总结一番以备不时之需。 HBase使用定位:大规模数据+高并发+毫秒级响应的OLTP实时系统(数据库)。 集群部署架构 HBase集群一旦部署使用,再想对其作出调整需要付出惨痛代价,所以如何部署HBase集群是使用的第一个关键步骤。 以下是HBase集群使用以来的部署架构变化以及对应的分析。 第一阶段 硬件混合型+软件混合型集群 集群规模:20 部署服务:HBase、Spark、Hive、Impala、Kafka、Zookeeper、Flume、HDFS、Yarn等 硬件情况:内存、CPU、磁盘等参差不齐,有高配有低配,混搭结构 硬件混合型指的是该集群机器配置参差不齐,混搭结构。 软件混合型指的是该集群部署了一套CDH全家桶套餐。 这个集群不管是规模、还是服务部署方式相信都是很多都有公司的”标准“配置。 那么这样的集群有什么问题呢? 如果仅仅HBase是一个非“线上...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS关闭SELinux安全模块
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Linux系统CentOS6、CentOS7手动修改IP地址
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS8安装Docker,最新的服务器搭配容器使用
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能