多语言语料库万卷·丝路 2.0 开源
上海人工智能实验室(上海AI实验室)联合新华社新闻信息中心、上海外国语大学、外研在线等,发布全新升级的“万卷·丝路2.0”多语言语料库。 在“万卷·丝路1.0”的基础上,2.0语料库新增塞尔维亚语、匈牙利语、捷克语3类语料,涵盖四大数据模态共计1150万条数据,并运用精细化处理技术使数据质量达到“工业级”标准,实现“开箱即用”。 根据介绍,“万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点,更新速览: 语种数量扩充:在5个语种基础上,新增塞尔维亚语、匈牙利语、捷克语等3个稀缺语料数据。 数据模态、总量全面升级:在纯文本数据基础上,新增图片-文本、音频-文本、视频-文本、特色指令微调SFT四大模态数据,覆盖多模态研究全链路;整体数据总量超过1150万条,音视频时长超过2.6万小时,满足多种研究任务的需求。 超精细数据,多场景适用:经成熟数据生产管线及安全加固,结合过滤算法与当地专家人工精细化地标注质检,“万卷·丝路2.0” 已成为覆盖多模态、多领域的大规模高质量数据集,含20余种细粒度多维分类标签及详细的文本描述,适配文化旅游、商业贸易、科技教育等不同场景,为开发者提供得力助手...
