高质量多模态语料“书生·万卷”开源发布
继今年7月在2023世界人工智能大会发起成立“大模型语料数据联盟”(以下简称“语料数据联盟”),上海人工智能实验室(上海AI实验室)于8月14日宣布,联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料。
“书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联盟成员丰富的内容积累与上海AI实验室领先的数据处理能力等优势,“书生·万卷”将为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料。
“书生·万卷”链接:https://opendatalab.org.cn/WanJuan1.0
今年7月6日,上海AI实验室正式发布全新升级的“书生通用大模型体系”,包括书生·多模态大模型、书生·浦语语言大模型和书生·天际实景三维大模型等三大基础模型,并且推出了书生·浦语开源体系(https://github.com/InternLM/InternLM),它不仅开放了一个高质量的语言大模型 InternLM-7B,在多项主流评测中性能领先于Llama-2-7B,还提供了覆盖从数据、训练到评测的全链条开放体系。书生·浦语开源体系为企业提供免费商用许可,降低大模型应用门槛,全面赋能产业。
“书生·万卷”已被用于书生大模型预训练,其开源发布将进一步降低大模型技术探索和落地的门槛。
据了解,“书生·万卷”的主要构建团队——OpenDataLab旨在建设面向人工智能开发者的超大规模、高质量、多模态开放数据服务平台,致力于打造国内公开数据资源的基础建设。目前,该平台已建立共享的多模态数据集5500个,涵盖超过1万亿token文本语料、60亿张图像、8亿个视频片段和100万个3D模型。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
稚晖君创业产品即将亮相:具身智能机器人“远征 A1”
8 月 14 日消息,华为“天才少年”稚晖君宣布,其创业公司将于 8 月 18 日发布智元具身智能机器人“远征 A1”。 从海报可以看到,“远征 A1”似乎是一款人形机器人,且拥有完整的类人造型,产品介绍中的“具身智能” (Embodied AI) 也代表了人工智能技术与机器人实体相结合。 具身智能(Embodied AI):有身体并支持物理交互的智能体,如家用服务机器人、无人车等。 ——“身体力行” 去年 12 月,稚晖君在微博发文宣布已经离开华为,将开始创业。“传言不虚,细节不表,接下来我会开启一段新的事业,去做更有挑战的事情,不是因为我们已经有把握把它做好,而是因为,这件事是我一直以来的热爱和梦想。” 延伸阅读 稚晖君:我既不是天才,也不是少年
- 下一篇
小米发布 CyberDog 2,超 80% 开源率
小米 CEO 雷军在 8 月 14 日晚举办的年度演讲上,宣布推出小米最新款仿生四足机器人 CyberDog 2,并面向全球开源。 根据介绍,CyberDog2 从代码、结构图纸都做了最大程度的开源,开源率超 80%;同时提供了图形化编程和各种感应能力的模块化处理,还开放了超过 100 个接口,支持程序员自由编程。 CyberDog 2 基于上一代进行了全面的技术升级:配备了新一代小米自研高性能电机,提供了更为强大的动态响应能力,支持更丰富的动作;全新升级 19 组传感器系统,接入小爱同学能力的 AI 语音交互系统。体积缩小了 16%,重量减轻了近 40%;仅重 8.9kg,接近一只杜宾犬的体型。 “更仿生,接近真狗外形,AI 自主学习模拟 3 万只机器狗并行训练。更智能,手势互动,语音控制,人脸识别,AIoT 联动,融合跟随避障。更强大,12 个 CyberGear 微电机,AI 自研平衡动态算法,AI 多模态融合感知决策系统。更开放,系统代码开源,结构图纸开放,功能接口开放,可视化编程。” CyberDog 2 目前定价 12999 元。一同发布的还有其内置的 CyberGear ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS8安装Docker,最新的服务器搭配容器使用
- Hadoop3单机部署,实现最简伪集群
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8编译安装MySQL8.0.19