智源研究院发布开源中文互联网语料库 CCI 4.0
智源研究院宣布已发布大型开源文本数据集CCI 4.0,兼顾多样性与高质量,从单一语言数据集扩展为多语种数据集。 根据介绍,本次发布包括了中、英语两种语言,并将在随后的发布中,开源更多语言的版本。此外,CCI 4.0首次采用CoT方法进行推理轨迹数据合成,以提升预训练模型的基础推理能力。 CCI 4.0数据集由智源研究院牵头,联合包括阿里云、上海人工智能实验室、华为、出门问问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月之暗面、紫东太初、中科闻歌、科大讯飞等多个机构共同贡献。 智源研究院于2023年11月首次发布中文互联网语料库CCI 1.0,并于2024年3月和10月分别完成CCI2.0和CCI3.0的迭代,系列数据集的下载量已超过14万次,支持500余个企事业单位的大模型研发。 此次开源的CCI 4.0-M2-V1包括3个子数据集,即CCI 4.0-M2-Base V1、CCI 4.0-M2-CoT V1和CCI 4.0-M2-Extra V1,数据总量达35TB。其中,CCI 4.0-M2-Base V1是中英双语数据集,数据总量达26000GB,中文数据量为4300...
