您现在的位置是:首页 > 文章详情

银河通用发布环视导航基座大模型 NavFoM

日期:2025-11-05点击:3

银河通用联合北京大学、阿德莱德大学、浙江大学等团队,推出了全球首个跨本体全域环视的导航基座大模型——NavFoM(Navigation Foundation Model)。把Vision-and-Language Navigation、Object-goal Navigation、Visual Tracking 和Autonomous Driving 等不同机器人的导航任务统一到相同的范式。

  • 全场景:同时支持室内和室外场景,未见过的场景 Zero-Shot 运行,无需建图和额外采集训练数据;
  • 多任务:支持自然语言指令驱动的目标跟随和自主导航等不同细分导航任务;
  • 跨本体:可快速低成本适配机器狗、轮式人形、腿式人形、无人机、甚至汽车等不同尺寸的异构本体。

除此之外,该模型允许开发人员以之为基座,通过后训练,进一步进化成满足特定导航要求的应用模型。

根据介绍,NavFoM 建立了一个全新的通用范式:“视频流 + 文本指令 → 动作轨迹”。无论是“跟着那个人走”,还是“找到门口的红车”,在 NavFoM 里都是同一种输入输出形式。模型不再依赖模块化拼接,而是端到端地完成“看到—理解—行动”的全过程。

这意味着,曾经割裂的任务经过统一的数据对齐和任务建模可以互相迁移;不同形态的机器人能共享学习经验和运动知识。

NavFoM 有两项关键技术创新:第一,TVI Tokens(Temporal-Viewpoint-Indexed Tokens)——让模型理解时间与方向。第二,BATS 策略(Budget-Aware Token Sampling)——让模型在算力受限下依然聪明。

此外,银河通用构建了的跨任务数据集包含八百万条跨任务、跨本体导航数据,覆盖视觉语言导航,目标导航,目标跟踪,自动驾驶,网络导航数据等多种任务;以及四百万条开放问答数据,让模型具备语言与空间之间的语义理解能力,这一训练量约为以往工作的两倍左右。

原文链接:https://www.oschina.net/news/381671
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章