高质量多模态语料“书生·万卷”开源发布-低调大师

高质量多模态语料“书生·万卷”开源发布

2023-08-15 399

继今年7月在2023世界人工智能大会发起成立“大模型语料数据联盟”（以下简称“语料数据联盟”），上海人工智能实验室（上海AI实验室）于8月14日宣布，联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等语料数据联盟成员，共同开源发布“书生·万卷” 1.0多模态预训练语料。

“书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分，本次开源的数据总量超过2TB。集合语料数据联盟成员丰富的内容积累与上海AI实验室领先的数据处理能力等优势，“书生·万卷”将为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料。

“书生·万卷”链接：https://opendatalab.org.cn/WanJuan1.0

今年7月6日，上海AI实验室正式发布全新升级的“书生通用大模型体系”，包括书生·多模态大模型、书生·浦语语言大模型和书生·天际实景三维大模型等三大基础模型，并且推出了书生·浦语开源体系（https://github.com/InternLM/InternLM），它不仅开放了一个高质量的语言大模型 InternLM-7B，在多项主流评测中性能领先于Llama-2-7B，还提供了覆盖从数据、训练到评测的全链条开放体系。书生·浦语开源体系为企业提供免费商用许可，降低大模型应用门槛，全面赋能产业。

“书生·万卷”已被用于书生大模型预训练，其开源发布将进一步降低大模型技术探索和落地的门槛。

据了解，“书生·万卷”的主要构建团队——OpenDataLab旨在建设面向人工智能开发者的超大规模、高质量、多模态开放数据服务平台，致力于打造国内公开数据资源的基础建设。目前，该平台已建立共享的多模态数据集5500个，涵盖超过1万亿token文本语料、60亿张图像、8亿个视频片段和100万个3D模型。

微信关注我们

原文链接：https://www.oschina.net/news/253784

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

稚晖君创业产品即将亮相：具身智能机器人“远征 A1”

8 月 14 日消息，华为“天才少年”稚晖君宣布，其创业公司将于 8 月 18 日发布智元具身智能机器人“远征 A1”。从海报可以看到，“远征 A1”似乎是一款人形机器人，且拥有完整的类人造型，产品介绍中的“具身智能” (Embodied AI) 也代表了人工智能技术与机器人实体相结合。具身智能(Embodied AI)：有身体并支持物理交互的智能体，如家用服务机器人、无人车等。 ——“身体力行” 去年 12 月，稚晖君在微博发文宣布已经离开华为，将开始创业。“传言不虚，细节不表，接下来我会开启一段新的事业，去做更有挑战的事情，不是因为我们已经有把握把它做好，而是因为，这件事是我一直以来的热爱和梦想。” 延伸阅读稚晖君：我既不是天才，也不是少年

2023-08-15

430

小米 CEO 雷军在 8 月 14 日晚举办的年度演讲上，宣布推出小米最新款仿生四足机器人 CyberDog 2，并面向全球开源。根据介绍，CyberDog2 从代码、结构图纸都做了最大程度的开源，开源率超 80%；同时提供了图形化编程和各种感应能力的模块化处理，还开放了超过 100 个接口，支持程序员自由编程。 CyberDog 2 基于上一代进行了全面的技术升级：配备了新一代小米自研高性能电机，提供了更为强大的动态响应能力，支持更丰富的动作；全新升级 19 组传感器系统，接入小爱同学能力的 AI 语音交互系统。体积缩小了 16%，重量减轻了近 40%；仅重 8.9kg，接近一只杜宾犬的体型。 “更仿生，接近真狗外形，AI 自主学习模拟 3 万只机器狗并行训练。更智能，手势互动，语音控制，人脸识别，AIoT 联动，融合跟随避障。更强大，12 个 CyberGear 微电机，AI 自研平衡动态算法，AI 多模态融合感知决策系统。更开放，系统代码开源，结构图纸开放，功能接口开放，可视化编程。” CyberDog 2 目前定价 12999 元。一同发布的还有其内置的 CyberGear ...

2023-08-15

454

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。