智源研究院发布开源中文互联网语料库 CCI 4.0
智源研究院宣布已发布大型开源文本数据集CCI 4.0,兼顾多样性与高质量,从单一语言数据集扩展为多语种数据集。
根据介绍,本次发布包括了中、英语两种语言,并将在随后的发布中,开源更多语言的版本。此外,CCI 4.0首次采用CoT方法进行推理轨迹数据合成,以提升预训练模型的基础推理能力。
CCI 4.0数据集由智源研究院牵头,联合包括阿里云、上海人工智能实验室、华为、出门问问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月之暗面、紫东太初、中科闻歌、科大讯飞等多个机构共同贡献。
智源研究院于2023年11月首次发布中文互联网语料库CCI 1.0,并于2024年3月和10月分别完成CCI2.0和CCI3.0的迭代,系列数据集的下载量已超过14万次,支持500余个企事业单位的大模型研发。
此次开源的CCI 4.0-M2-V1包括3个子数据集,即CCI 4.0-M2-Base V1、CCI 4.0-M2-CoT V1和CCI 4.0-M2-Extra V1,数据总量达35TB。其中,CCI 4.0-M2-Base V1是中英双语数据集,数据总量达26000GB,中文数据量为4300GB,相较于CCI 3.0数据规模增加4倍;CCI 4.0-M2-CoT V1 是中英双语合成数据集,包含用于提升推理能力的超过4亿条逆向合成人类思考轨迹数据,总token数量达425B(4250亿),比当前全球最大的开源合成数据集Cosmopedia规模提升近20倍。
Huggingface地址:
针对不同来源的数据,CCI 4.0在建设过程中采取了去重、质量分类、QA合成、loss过滤的处理原则。针对英文数据,进行领域分类和流畅度过滤等处理;针对中文数据,进行全局及分领域来源字符串去重,常规、低质、分领域流畅程度过滤,多种质量打分和分档等处理;针对合成数据,进行语义分段及摘要、总结思维链及合成问题等处理。智源研究院就CCI 4.0数据集开源进行了严格评审,以确保数据安全合规。
CCI 4.0数据集中的英文语料、中文语料及合成数据对模型训练效率及性能均有有效提升。
图1:CCI 4.0的数据加工方法在Nemotron-CC高质量数据集的使用前后效果对比
如图1所示,针对相同的英文网页原始语料(Nemotron-CC-high),CCI 4.0设计了基于loss过滤操作的有效性验证实验,通过使用过滤前与过滤后(Nemotron-CC-high from CCI4.0)的英文语料分别训练模型,再进一步对比模型在下游任务上的平均性能表示。结果显示,在训练过程中基于loss过滤的英文语料可在训练过程中提升模型的训练效率。
图2:CCI4.0-HQ中文数据集和CCI3.0-HQ数据集在训练500M模型效果上的对比
如图2所示,针对中文语料,设计了中文语料处理有效性的验证实验,以CCI 3.0中的中文网页语料数据作为基线方法进行模型训练表现对比,结果显示,相较于CCI 3.0的高质量中文数据集, CCI 4.0中的高质量中文网页数据仍可继续提升模型的训练效率。
图3:CCI 4.0-M2-CoT合成数据集效果验证
如图3所示,为验证合成数据的作用,设计了合成数据对于模型预训练的性能影响对比实验。分别使用含有合成数据的预训练语料和不含合成数据的预训练语料训练模型,结果显示,含有合成数据的预训练语料可在训练后期增强了模型在下游任务上的表现。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
夸克 AI 超级框上线「深度搜索」功能
夸克AI超级框正式上线了「深度搜索」,通过深度思考能力、智能检索技术和精准回答功能,为用户“高搜商”地解决多样化复杂问题。 据介绍,基于阿里自研的推理大模型和夸克每天处理数十亿次的搜索请求,夸克 “深度搜索” 拥有超高的“搜商”。首先,它能够深入分析用户提出的复杂问题,逐步分析问题并进行充分地思考,从而提炼出关键信息和真实意图。 其次,“深度搜索”采用“先思考,再检索”的全新方式。它会去全网检索和匹配优质信息源,精读数百个页面中的核心信息,根据情况调用不同的Agent,使搜索结果的内容更加深入和全面。 最终,“深度搜索”能把关键内容和跨领域知识进行深度融合,生成一份精确、可靠的详细解释和解决方案。尤其在日常生活、旅游规划、医疗健康、学习教育等领域中,进一步帮助用户解决实际问题,显著降低用户决策成本。 此外,夸克AI超级框同时迭代“图片智能处理”功能。据了解,夸克还将推出思考能力更强、调用Agent更多以及能提供专业报告的新产品。
- 下一篇
🎉程序员家庭专属福利 | 比起学区房,走 AI 竞赛升学更有性价比
5月8日(周四)19:00,开源中国 × 童行书院深度闭门会火热上线! 本次直播,你将收获—— 1️⃣ 科技赛道背后的开源技术密码 从算法到硬件,深度解构自动驾驶与AI竞赛的技术底层。 2️⃣ AI时代,竞赛如何助力孩子升学与职业发展 比赛项目选择、获奖加分攻略,以及与行业需求的无缝对接。 3️⃣ 程序员家庭孩子的未来出路在哪里? 技术+教育双驱动,探索多元化成长路径与职业前景。 📲 扫描二维码,立即预约直播,获取回放和一对一咨询! 别再纠结学区房还是竞赛加分,来听专家深度剖析,为孩子赢在起跑线上!
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Hadoop3单机部署,实现最简伪集群
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS8编译安装MySQL8.0.19
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装Docker,最新的服务器搭配容器使用
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)