准确率创新高,北大开源中文分词工具包 pkuseg
北京大学近日开源了一个全新的中文分词工具包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率。
pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性:
高分词准确率。相比于其他的分词工具包,pkuseg 在不同领域的数据上都大幅提高了分词的准确度。根据项目文档给出的测试结果,pkuseg 分别在示例数据集( MSRA 和 CTB8 )上降低了 79.33% 和 63.67% 的分词错误率。
多领域分词。研究组训练了多种不同领域的分词模型。根据待分词的领域特点,用户可以自由地选择不同的模型。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。
性能对比
在 Linux 环境下,各工具在新闻数据 (MSRA) 和混合型文本 (CTB8) 数据上的准确率测试情况如下:
预训练模型
分词模式下,用户需要加载预训练好的模型。我们提供了三种在不同类型数据上训练得到的模型,根据具体需要,用户可以选择不同的预训练模型。以下是对预训练模型的说明:
MSRA : 在 MSRA(新闻语料)上训练的模型。新版本代码采用的是此模型。下载地址
CTB8 : 在 CTB8(新闻文本及网络文本的混合型语料)上训练的模型。下载地址
WEIBO : 在微博(网络文本语料)上训练的模型。下载地址
更多详情可查阅项目仓库。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
阿里收购 Apache Flink 商业公司 Data Artisans
1月8日,德国媒体 tech.eu 报道称,阿里巴巴以 9000 万欧元的价格收购了位于柏林的创业公司 Data Artisans 。Data Artisans 由开源流处理框架 Apache Flink 的核心团队组建,专为企业提供高吞吐、低延迟的大规模数据解决方案,以便企业能够即时响应数据,从而更合理、更快速地做出业务决策。 图片来自tech.eu 之后,阿里巴巴的企业新闻网站Alizila 和 DA 平台的官方博客都发布了收购的消息,并表示阿里作为 Apache Flink 最大贡献者之一,与 Data Artisans 团队已有密切合作,未来将一起持续为所有 Flink 社区用户、合作伙伴和开发者提供更多支持。 Data Artisans 组建于 2014 年,从官网信息来看,主要向企业提供 Apache Flink 和 dA Application Manager 两项服务。据悉,该公司此前就已融资650万欧元,客户包括阿里巴巴、ING、Netflix 和 Uber 。
-
下一篇
推特修复私人推文曝光 bug,漏洞已存在安卓客户端四年
推特官方近日宣布,对账户设置做了某些操作的安卓客户端用户,被保护推文可能已经暴露了超过四年。简单来说,就是部分人可见的推特会变得全部人可见。 bug 在2014年末就已存在 安卓用户开启了“保护你的推文”功能之后,对账户做了某些修改(比如更新了邮件地址),会导致这个功能失效。 在2014年11月3号到2019年1月14日(这个问题得到解决的日子)期间符合上述描述的用户,都可能受到 bug 的影响。推特官方在其帮助中心发帖称,iOS 和网页用户不会受此影响。推特公司已经告知这部分人 bug 的影响,并为他们开启“保护你的推文”功能。 然而确切的受影响人数还未确定,这也是推特发公告的原因。出于同个理由,推特官方近580万人关注的支持推特也发布了消息。 推特官方建议用户查看账号的推文保护设置,确保符合个人偏好设置。同时开启了全面审查,确保类似的问题不再出现。 新闻来源
相关文章
文章评论
共有0条评论来说两句吧...