腾讯开源 HY-Embodied-0.5-X 具身多模态大模型-低调大师

腾讯开源 HY-Embodied-0.5-X 具身多模态大模型

2026-04-27 15

腾讯Robotics X实验室联合混元团队发布并开源 HY-Embodied-0.5-X，一款面向具身任务落地的多模态大模型，基于 HY-Embodied-0.5-MoT-2B 架构打造，围绕机器人在真实环境中“看得懂、想得清、做得到”的关键链路进行专项优化。

HY-Embodied-0.5 系列包含两款主力模型：MoT-2B（总参数4B，仅激活2B），采用创新的混合Transformer（MoT）架构，主打端侧部署和实时响应，以及MoE-32B（总参数407B，激活32B）。

相比通用多模态模型，HY-Embodied-0.5-X 更聚焦机器人在真实交互中的核心问题，重点增强了精细操作理解、空间推理、动作预测、风险判断、多模态指代理解和长程规划等能力，推动模型从“看懂”进一步走向“干活”。

HY-Embodied-0.5-X 结合自采机器人第一视角操作数据、机械臂操作数据以及开源具身数据，构建了覆盖操作理解、第一人称任务推理、多模态交互指代理解等核心场景的高质量训练数据，并配套思维链标注与自动化数据质量闭环。

在训练上，模型采用“验证—扩展—全量”的分阶段迭代策略，优先验证数据质量和训练配置，再逐步扩展到大规模训练，提升训练效率与效果稳定性。

场景方面，HY-Embodied-0.5-X 适用于家庭服务、桌面操作、任务规划与仿真评测等具身智能场景。模型既可以用于机器人在真实环境中的空间推理、精细操作推理、任务理解和失败反思，也可用于仿真环境中的规划评测、多模态交互研究，以及本地部署场景下的具身能力验证与开发。

在数据层面，HY-Embodied-0.5-X 融合了自采机器人第一视角操作数据、机械臂操作数据以及开源具身数据，构建了覆盖操作理解、第一人称任务推理、多模态交互指代理解等关键场景的高质量训练数据。

其中：

针对机械臂与人手操作轨迹，团队围绕状态理解、下一步动作预测、操作风险判断、失败诊断和候选动作优劣比较等任务进行了专项数据构建；
针对第一视角具身任务，覆盖了细粒度动作识别、子任务进度判断、手部空间定位、深度估计、相对空间关系推理、相机位姿推断等多类能力；
围绕真实协作场景中的“把这个放到那里”这类模糊指令，构建了结合语音与手势的多模态交互指代理解数据，进一步增强模型对真实人机协作场景的适应能力。

在数据建设之外，HY-Embodied-0.5-X 还引入了系统化的数据质量闭环。所有核心数据均附带思维链标注，用于训练模型在给出答案前进行逐步推理；同时，团队建立了从“生成—校验—修正”到“评测反跑验证”的完整流程，对结构化字段完整性、视觉有效性、多样性分布和模型增益效果进行端到端度量。面向开放世界泛化能力，团队还进一步将具身、互联网及 3D 数据纳入统一体系，构建了标准化的数据重构流水线，将异构源数据转化为统一的高质量具身推理数据。

在训练层面，HY-Embodied-0.5-X 采用“验证—扩展—全量”的分阶段迭代策略：先通过精选小规模高质量数据快速验证训练配置和数据清洗效果，再逐步扩大训练规模，最终在确认最优数据组合和训练策略后启动全量训练。这样的方式既提升了训练效率，也尽可能确保每一分算力都投入到最有价值的数据上。

围绕真实具身任务，HY-Embodied-0.5-X 主要展现出三方面特点：

第一，更强的空间理解能力。模型能够更准确地理解物体位置、场景布局、相对空间关系和操作状态，为动作决策和任务执行提供更可靠的感知基础。
第二，更强的长程规划能力。模型能够处理多步骤、强依赖的复杂任务，在连续交互中完成更稳定的任务拆解、动作规划与执行决策。
第三，更强的具身交互能力。模型不仅具备视觉理解与对话能力，还能够进行任务解析、指代消解、动作决策、风险判断和失败反思，更贴近真实机器人交互闭环。

一些测评结果如下：

微信关注我们

原文链接：https://www.oschina.net/news/437511

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

昇腾全面开源开放CANN，90+开源社区对接、70+大模型0day适配，Agent框架降低开发门槛

在AI从"对话工具"迈向"生产代理"的转折点上，算力底座的开放程度正在成为生态竞争的关键变量。华为昇腾在近期的生态媒体沟通会上释放了明确信号：CANN（Compute Architecture for Neural Networks）全面开源开放，与Triton、PyTorch、vLLM等90多个主流开源社区深度对接，并对DeepSeek、Qwen等70+全球及国产主流大模型实现"发布即支持"的0day适配。 CANN开源升级，从"能用"到"好用" 昇腾此次强调的是"把底层做厚，把体验...

2026-04-27

10

彭博社报道称，谷歌计划向 Anthropic 投资高达 400 亿美元，以满足其不断增长的计算需求。其承诺将首先投资 100 亿美元；若 Anthropic 达到特定业绩目标，谷歌还将追加 300 亿美元投资。根据介绍，Anthropic 本月向部分合作伙伴发布了其最新模型 Mythos，这是该公司迄今为止功能最强大的模型，具有重要的网络安全应用价值。由于存在潜在的滥用风险，Anthropic 限制了更广泛的访问权限，同时正与部分机构合作评估并应对这些风险。预计大规模运行 Mythos 的成本可能很高。近几周来，Anthropic 公司因 Claude 计算资源使用限制问题而饱受诟病。本月...

2026-04-27

10

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。