Java分享

专注最优质的分享

热门搜索:

HarmonyOS NEXT
ArkTS
Ai
ChatGPT
文心一言
ChatGLM
Docker
K8s
Kubesphere
SpringCloud
Nacos

您现在的位置是：首页 > 文章详情

准确率创新高，北大开源中文分词工具包 pkuseg

日期：2019-01-10点击：649收藏

北京大学近日开源了一个全新的中文分词工具包 pkuseg ，相比于现有的同类开源工具，pkuseg 大幅提高了分词的准确率。

pkuseg 由北大语言计算与机器学习研究组研制推出，具备如下特性：

高分词准确率。相比于其他的分词工具包，pkuseg 在不同领域的数据上都大幅提高了分词的准确度。根据项目文档给出的测试结果，pkuseg 分别在示例数据集（ MSRA 和 CTB8 ）上降低了 79.33% 和 63.67% 的分词错误率。
多领域分词。研究组训练了多种不同领域的分词模型。根据待分词的领域特点，用户可以自由地选择不同的模型。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。

性能对比

在 Linux 环境下，各工具在新闻数据 (MSRA) 和混合型文本 (CTB8) 数据上的准确率测试情况如下：

预训练模型

分词模式下，用户需要加载预训练好的模型。我们提供了三种在不同类型数据上训练得到的模型，根据具体需要，用户可以选择不同的预训练模型。以下是对预训练模型的说明：

MSRA : 在 MSRA（新闻语料）上训练的模型。新版本代码采用的是此模型。下载地址

CTB8 : 在 CTB8（新闻文本及网络文本的混合型语料）上训练的模型。下载地址

WEIBO : 在微博（网络文本语料）上训练的模型。下载地址

更多详情可查阅项目仓库。

原文链接：https://www.oschina.net/news/103470/pkuseg-open-sourced

关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有，本站原创内容转载请注明来源。

相关文章

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章