准确率创新高,北大开源中文分词工具包 pkuseg
北京大学近日开源了一个全新的中文分词工具包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率。
pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性:
高分词准确率。相比于其他的分词工具包,pkuseg 在不同领域的数据上都大幅提高了分词的准确度。根据项目文档给出的测试结果,pkuseg 分别在示例数据集( MSRA 和 CTB8 )上降低了 79.33% 和 63.67% 的分词错误率。
多领域分词。研究组训练了多种不同领域的分词模型。根据待分词的领域特点,用户可以自由地选择不同的模型。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。
性能对比
在 Linux 环境下,各工具在新闻数据 (MSRA) 和混合型文本 (CTB8) 数据上的准确率测试情况如下:
预训练模型
分词模式下,用户需要加载预训练好的模型。我们提供了三种在不同类型数据上训练得到的模型,根据具体需要,用户可以选择不同的预训练模型。以下是对预训练模型的说明:
MSRA : 在 MSRA(新闻语料)上训练的模型。新版本代码采用的是此模型。下载地址
CTB8 : 在 CTB8(新闻文本及网络文本的混合型语料)上训练的模型。下载地址
WEIBO : 在微博(网络文本语料)上训练的模型。下载地址
更多详情可查阅项目仓库。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
阿里收购 Apache Flink 商业公司 Data Artisans
1月8日,德国媒体 tech.eu 报道称,阿里巴巴以 9000 万欧元的价格收购了位于柏林的创业公司 Data Artisans 。Data Artisans 由开源流处理框架 Apache Flink 的核心团队组建,专为企业提供高吞吐、低延迟的大规模数据解决方案,以便企业能够即时响应数据,从而更合理、更快速地做出业务决策。 图片来自tech.eu 之后,阿里巴巴的企业新闻网站Alizila 和 DA 平台的官方博客都发布了收购的消息,并表示阿里作为 Apache Flink 最大贡献者之一,与 Data Artisans 团队已有密切合作,未来将一起持续为所有 Flink 社区用户、合作伙伴和开发者提供更多支持。 Data Artisans 组建于 2014 年,从官网信息来看,主要向企业提供 Apache Flink 和 dA Application Manager 两项服务。据悉,该公司此前就已融资650万欧元,客户包括阿里巴巴、ING、Netflix 和 Uber 。
- 下一篇
拒向 MongoDB 妥协,AWS 推出替代品 DocumentDB
AWS 昨日宣布推出DocumentDB,这是一个与 MongoDB API 兼容的新数据库产品。AWS 将 DocumentDB 描述为“一个快速、可扩展且高度可用的文档数据库,旨在与你现有的 MongoDB 应用和工具兼容”。实际上,它是一个 MongoDB 的托管版简易替代品,不使用任何 MongoDB 代码。 AWS 表示,尽管 MongoDB 在功能方面做得很好,但由于大规模设置和管理 MongoDB 集群所带来的复杂性,用户很难构建那些可扩展到每秒数 TB 和数十万次读写操作的高性能应用。Amazon DocumentDB 则是从头开始设计,可为用户提供大规模运行任务关键型(mission-critical)MongoDB 工作负载所需的性能、可扩展性和可用性,且与 Apache 2.0 开源 MongoDB 3.6 API 兼容。 话虽如此,但联想到MongoDB 去年10月因不满云供应商滥用行为而修改开源协议的动作,AWS 此举就显得耐人寻味了。 外媒 TechCrunch写道:DocumentDB 就是 AWS 做的 MongoDB 替代品,长期以来,AWS 一直被指...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7设置SWAP分区,小内存服务器的救世主
- Docker快速安装Oracle11G,搭建oracle11g学习环境