ideaseg 1.1 发布,基于 NLP 的中文分词器
ideaseg 1.1 刚刚发布,该版本主要增加了支持多语种混合内容的分词功能,ideaseg 分词器能识别文本内容中存在的不同语言的内容,分别使用不同的分词器进行处理,提升分词的准确度。
使用方法:
POST _analyze { "analyzer": "ideaseg_multilang", "text": "你好我是中国人,,,,,,,дравствуйте я китаец,Hello word girls,早上好" }
你可以通过 https://gitee.com/indexea/ideaseg/tree/v1.1/ 获取该版本源码进行构建。
ideaseg 是 Indexea 推出的一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器, 包含了最新的模型数据,同时移除了 HanLP 所包含的非商业友好许可的 NeuralNetworkParser 相关代码和数据。
HanLP 相比其他诸如 IK、jcseg 等分词器而言,在分词的准确率上有巨大的提升,但速度上有所牺牲。 通过对 HanLP 进行优化配置,ideaseg 在准确度和分词速度上取得了最佳的平衡。
详细的介绍和使用方法请看 https://gitee.com/indexea/ideaseg 。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
开源 OA 办公系统 — 勾股 OA 4.92.10 发布
勾股 OA 办公系统是一款简单实用的开源的企业办公系统。系统集成了系统设置、人事管理、行政管理、消息管理、企业公告、知识库、审批流程设置、办公审批、日常办公、财务管理、客户管理、合同管理、项目管理、任务管理、知识库、附件管理等功能模块。系统简约,易于功能扩展,方便二次开发,可以用来做日常 OA,CRM,ERP,业务管理等系统。 勾股 OAv4.92.10 发布啦,主要更新了如下功能: 🔴更新日志: 1、优化:菜单图标位置小调整;2、优化:通讯录搜索;3、修复:消息入口错误修正;4、新增:消息声音提醒,默认不开启,可在系统配置那开启;5、修复:基本资料和修改密码入口错误修正;6、修复:菜单侧边栏伸缩后导航失效问题;7、修复:合同协议在未审核前的中止、作废操作提示问题;8、修复:消息类型为全部时,不显示收件人的问题;9、修复:tablePlus前端组件一个默认列hide会被覆盖的问题;10、优化:合同日期选择,去除合同日期范围选择时的区间联动标注模式;11、新增:列表页新增详情按钮,方便未提交审批的合同查看并去提交审批;12、修复:转岗申请页面文案错误问题;13、优化:消息轮询方法,去除...
- 下一篇
ImageMagick 7.1.1-20 发布,多功能图片处理软件
ImageMagick 7.1.1-20 已发布,该版本可以在Linux,Windows,Mac Os X,iOS,AndroidOS 等平台上运行。 ImageMagick 是一个用来创建、编辑、合成图片的软件。它可以读取、转换、写入超过 200 种格式的图片,包括 PNG、JPEG、GIF、HEIC、TIFF、DPX、EXR、WebP、Postscript、PDF 和 SVG 等等。 ImageMagick 可被用于图片切割、颜色替换、各种效果的应用,图片的旋转、组合,文本,直线, 多边形,椭圆,曲线,附加到图片伸展旋转等。支持Linux、Windows、Mac OS X、iOS、Android OS 平台。 7.1.1-20 版本的更新内容包括有: 支持Windows 1.0 图标格式(ImageMagick/ImageMagick#6670)bdc2c9f 代码清理。476a094 支持 GetMagickTTL() 方法 (ImageMagick/ImageMagick#4533)66c30fc 修复time-to-live deadlockc3d651e 改进time-to...
相关文章
文章评论
共有0条评论来说两句吧...