宇树开源 UnifoLM-VLA-0，面向通用人形机器人操作的 VLA 大模型-低调大师

宇树开源 UnifoLM-VLA-0，面向通用人形机器人操作的 VLA 大模型

2026-01-30 133

宇树科技宣布开源面向通用人形机器人操作的视觉-语言-动作（VLA）大模型 UnifoLM-VLA-0，旨在通过强化空间推理与物理交互能力，推动机器人从“图文理解”向“具身大脑”升级。

据介绍，该模型通过在机器人操作数据上的继续预训练，实现了从通用“图文理解”向具备物理常识的“具身大脑”的进化，旨在突破传统 VLM 在物理交互中的局限。

针对操作类任务中对指令理解与空间感知的高要求，模型通过继续预训练深度融合了文本指令与 2D/3D 空间细节，增强了模型的空间感知能力。构建了全链路动力学预测数据，模型具备更好的任务泛化性。在真机验证中，仅需单一策略即可高质量完成 12 类复杂的操作任务。

基于 Qwen2.5-VL-7B 开源模型，宇树构建了覆盖机器人与通用场景的多任务数据集，并开展持续预训练。该数据集涵盖 2D 检测与分割、任务层级分解、3D 目标检测、空间位置推理及轨迹预测等多维数据，有效提升了模型对几何空间与语义逻辑的对齐能力。

针对操作类任务，宇树对开源数据集进行了系统化清洗，最终仅利用约 340 小时的真机数据，进行离散动作的预测训练。在此基础上，模型集成了动作分块预测，以及前向与逆向动力学约束，实现对动作序列的统一建模，从而使 VLM 具备对机器人与物体物理交互规律的深度理解能力，并支持长时序动作规划与决策。

项目主页：https://unigen-x.github.io/unifolm-vla.github.io/
开源代码网址：https://github.com/unitreerobotics/unifolm-vla

微信关注我们

原文链接：https://www.oschina.net/news/400600/unifolm-vla

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

苹果收购以色列 AI 创企 Q.ai，布局下一代智能设备

苹果公司已于本月确认完成对以色列人工智能初创企业 Q.ai 的收购交易，旨在加强其人工智能与音频技术能力，加速智能设备上的 AI 功能创新。 Q.ai 成立于 2022 年，总部位于以色列拉马特甘，专注于机器学习与先进音频、成像技术研发。据报道，该公司开发的 AI 技术能够：分析环境中的低语或嘈杂声音，提升设备对语音的捕捉与理解；利用面部微表情实现所谓的“静默语音识别”，让设备在无需出声的情况下捕获用户意图。 Q.ai 的创始团队包括 CEO Aviad Maizels 及联合创始人 Yonatan Wexler、Avi Barliya，整个约 100 人团队将随收购加入苹果。虽然苹果官方尚未公布具体金额，多家媒体援引知情人士称交易估值接近 20 亿美元，这将成为苹果历史上第二大收购案（仅次于 2014 年收购 Beats 的约 30 亿美元）。值得注意的是，这并非 Maizels 第一次与苹果合作。他曾在 2013 年将以色列 3D 传感公司 PrimeSense 出售给苹果，该技术后来...

2026-01-30

94

阿里通义 Qwen 正式开源 Qwen3-ASR 系列语音识别模型，包括两个强大且全面的语音识别模型 Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B，以及一个创新的语音强制对齐模型 Qwen3-ForcedAligner-0.6B。Qwen3-ASR 系列的语音识别模型支持 52 个语种与方言的语种识别与语音识别。 Qwen3-ASR核心特性 All-in-one: Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B 均通过单一模型支持 30 个语种的语种识别与语音识别、22 个中文口音与方言语音识别、多个国家与地区的英文口音识别。准确而快速的语音识别能力：在复杂的声学环境与文本模式的场景下，Qwen3-ASR 系列模型均能保持稳定鲁棒的语音识别能力，包括歌唱识别等。Qwen3-ASR-1.7B 实现了语音识别准确率的全面领先，在开源与闭源自建评测上较主流开源模型与众多商用 API 上更优。0.6B 模型则实现了性能与效率的均衡，在异步推理模式下，128 并发的该模型能够达到 2000 倍的吞吐，处理 5 个小...

2026-01-30

110

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。