ideaseg —— 基于 NLP 的中文分词器
ideaseg
是一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器, 包含了最新的模型数据,同时移除了 HanLP 所包含的非商业友好许可的 NeuralNetworkParser 相关代码和数据。
HanLP
相比其他诸如 IK
、jcseg
等分词器而言,在分词的准确率上有巨大的提升,但速度上有所牺牲。 通过对 HanLP
进行优化配置,ideaseg
在准确度和分词速度上取得了最佳的平衡。
与其他基于 HanLP
的插件相比,ideaseg
同步了最新 HanLP
的代码和数据,去除了无法商用的相关内容;实现了自动配置; 包含了模型数据,无需自行下载,使用简单方便。
ideaseg
提供三个模块包括:
core
~ 核心分词器模块elasticsearch
~ ElasticSearch 的 ideaseg 分词插件 (最高支持 7.10.2 版本)opensearch
~ OpenSearch 的 ideaseg 分词插件 (默认版本 2.4.1)

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
每日一博 | cookie、session、token,还在傻傻分不清?
摘要:session 和 token 本质上是没有区别的,都是对用户身份的认证机制,只是他们实现的校验机制不一样而已。 本文分享自华为云社区《Session/Cookie/Token 还傻傻分不清?》,作者: 龙哥手记。 相信项目中用JWT Token的应该不在少数,但是发现网上很多文章对 token 的介绍有误,所以对 cookie,session, token 作了一下对比(文中token指jwt token)相信大家看完肯定有收获! Cookie 1991 年 HTTP 0.9 诞生了,当时只是为了满足大家浏览 web 文档的要求 ,所以只有 GET 请求,浏览完了就走了,两个连接之间是没有任何联系的,这也是 HTTP 为无状态的原因,因为它诞生之初就没有这个需求。 但随着交互式 Web 的兴起(所谓交互式就是你不光可以浏览,还可以登录,发评论,购物等用户操作的行为),单纯地浏览 web 已经无法满足人们的要求,比如随着网上购物的兴起,需要记录用户的购物车记录,就需要有一个机制记录每个连接的关系,这样我们就知道加入购物车的商品到底属于谁了,于是 Cookie 就诞生了。 Cook...
- 下一篇
开发者希望恢复 GCC 的 Java Front-End
继GCC Rust 与Modula-2 front-end合并后,开发人员希望恢复 GNU Compiler Collection (GCC) Java front-end,GCJ。一直以来,独立开发人员 Max Downey Twiss 都在致力于通过各种修复来恢复 GCJ。 早在 2016 年,GCC 编译器就因为无人维护而放弃了对 Java/GCJ 的支持。GCC Java 支持由于缺乏维护而被删除,并且由于已经有许多自由软件 Java 实现而没有引起太多关注。 根据介绍,鉴于现在还有其他 Java 字节码编译器和一个免费的 Java 运行时库,Max 主要将精力放在了专注于使 GCJ 成为一个免费的 Java 机器码编译器上。他希望用 OpenJDK 替换 Classpath,并专注于针对机器码的 GCJ。 现在,我们有了许多拼图碎片。我们有大量的 free Java 字节码编译器,以及免费的运行时库。唯一缺少的是一个免费的机器码编译器,而 GCJ 曾经是,现在也是。我计划用 OpenJDK 取代 Classpath,并在 GCJ 的机器码方面加倍努力,放弃 bytecode ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19