您现在的位置是:首页 > 文章详情

智源研究院发布中文互联网语料库 CCI3.0

日期:2024-09-26点击:119

近日,智源研究院正式发布中文互联网语料库 CCI 3.0 (Chinese Corpora Internet,简称 CCI),包括 1000GB 的数据集以及 498GB 的高质量子集 CCI 3.0-HQ。

智源研究院于 2023 年 11 月首次开源 CCI 1.0,并在 2024 年 4 月发布 CCI 2.0。目前,CCI 系列数据集下载量已超过 4 万次,服务 500 多个企事业单位的大模型研发,助力高质量中文语料和训练数据建设,支撑中国人工智能产业生态发展。

CCI 3.0下载地址

据介绍,CCI 3.0收录超过2.68亿个网页,涵盖新闻、社交媒体、博客等多个领域。CCI 3.0的数据规模相较于CCI 2.0扩大近一倍,数据来源机构扩展至20多家,显著提升数据覆盖面和代表性。

CCI 3.0对原始数据进行了覆盖语法、句法、教育程度等10多个维度的细粒度分类和详细标记,以筛选高价值数据,为企业定制个性化训练数据提供可能性。

CCI 3.0 HQ是基于70B模型自动标注样本,然后训练小尺寸质量模型进行优中选优得到的高质量子集,可更好地满足不同行业和应用场景的需求。

此外,同一500M模型基于不同的数据集从零开始训练100B数据对比实验表明,CCI 3.0在单独中文语料训练和中英文语料混合训练的效果上优于其他数据集,而CCI 3.0 HQ的效果更加突出。

模型训练效果对比

原文链接:https://www.oschina.net/news/313593
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章