智源研究院发布中文互联网语料库 CCI3.0
近日,智源研究院正式发布中文互联网语料库 CCI 3.0 (Chinese Corpora Internet,简称 CCI),包括 1000GB 的数据集以及 498GB 的高质量子集 CCI 3.0-HQ。 智源研究院于 2023 年 11 月首次开源 CCI 1.0,并在 2024 年 4 月发布 CCI 2.0。目前,CCI 系列数据集下载量已超过 4 万次,服务 500 多个企事业单位的大模型研发,助力高质量中文语料和训练数据建设,支撑中国人工智能产业生态发展。 CCI 3.0下载地址 Flopsera:http://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3 Huggingface:https://huggingface.co/datasets/BAAI/CCI3-Data Datahub:https://data.baai.ac.cn/details/BAAI-CCI3 据介绍,CCI 3.0收录超过2.68亿个网页,涵盖新闻、社交媒体、博客等多个领域。CCI 3.0的数据规模相较于CCI 2.0扩大近一倍,...
