多语言语料库万卷·丝路 2.0 开源
上海人工智能实验室(上海AI实验室)联合新华社新闻信息中心、上海外国语大学、外研在线等,发布全新升级的“万卷·丝路2.0”多语言语料库。
在“万卷·丝路1.0”的基础上,2.0语料库新增塞尔维亚语、匈牙利语、捷克语3类语料,涵盖四大数据模态共计1150万条数据,并运用精细化处理技术使数据质量达到“工业级”标准,实现“开箱即用”。
根据介绍,“万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点,更新速览:
-
语种数量扩充:在5个语种基础上,新增塞尔维亚语、匈牙利语、捷克语等3个稀缺语料数据。
-
数据模态、总量全面升级:在纯文本数据基础上,新增图片-文本、音频-文本、视频-文本、特色指令微调SFT四大模态数据,覆盖多模态研究全链路;整体数据总量超过1150万条,音视频时长超过2.6万小时,满足多种研究任务的需求。
-
超精细数据,多场景适用:经成熟数据生产管线及安全加固,结合过滤算法与当地专家人工精细化地标注质检,“万卷·丝路2.0” 已成为覆盖多模态、多领域的大规模高质量数据集,含20余种细粒度多维分类标签及详细的文本描述,适配文化旅游、商业贸易、科技教育等不同场景,为开发者提供得力助手。
为验证语料库质量与应用前景,上海AI实验室研究团队基于“万卷·丝路2.0”,训练出匈牙利语大模型,通用能力对标国际主流大模型,在本地化特色、安全性与中国关联性上表现出显著优势,可适用于本地生活与中匈合作领域场景。
目前,该模型已衍生出对话平台、多语言AI教师助手、AI匈中双语词典等创新应用。上海AI实验室同时与外研在线、库帕思等多家机构开展合作,推动“万卷·丝路2.0”在教育、文旅、技术交流领域落地,助力多语言AI生态发展。
上海AI实验室研究团队认为,通过整合多模态数据与精细化标注技术,“万卷·丝路2.0”首次实现了对低资源语言的系统性覆盖,尤其扩充了塞尔维亚语、匈牙利语、捷克语等语言的高质量语料建设,为文化交流互鉴带来可量化、可迭代的智能新维度。
“万卷·丝路”语料库下载链接:https://opendatalab.com/applyMultilingualCorpus

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
微软开源 “Hyperlight Wasm”,将轻量级虚拟机技术扩展至 WASM
微软去年开源了一个名为「Hyperlight」的轻量级虚拟机项目,这是一个嵌入式虚拟机管理程序,可以用作微虚拟机管理器,支持在 Windows 和 Linux 应用程序中运行。 近日,微软开源了Hyperlight Wasm——将其轻量级虚拟机(VM)技术扩展至 WebAssembly(WASM)领域。 Hyperlight Wasm 基于开源项目 Hyperlight 构建,作为微虚拟机管理器,专为运行多语言编写的 WASM 组件工作负载设计。该项目兼容 Windows Hypervisor Platform(Windows)、KVM(Linux)和 / dev / mshv(macOS)等虚拟化平台,通过 VM 沙箱隔离不可信代码,兼顾高性能与安全性,适用于嵌入式函数等轻量化场景。 Hyperlight Wasm 的 GitHub 仓库写道: "Hyperlight-Wasm 是一个组件,它使得 Wasm 模块能够在轻量级虚拟机支持的沙盒中运行。它的目的是使应用程序能够在 VM 中安全地运行不受信任或第三方 Wasm 代码,同时具有非常低的延迟/开销。它是建立在 Hyperligh...
- 下一篇
MaxKB 开源知识库问答系统 GitHub Star 数量突破 15,000 个!
截至2025年3月26日16:30,飞致云旗下开源项目——基于大语言模型和RAG的知识库问答系统MaxKB GitHub Star数超过15,000个!
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Mario游戏-低调大师作品
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境