蚂蚁正式开源 LingBot-Depth，基于掩码深度建模的新一代空间感知模型-低调大师

蚂蚁正式开源 LingBot-Depth，基于掩码深度建模的新一代空间感知模型

2026-01-27 9

蚂蚁集团旗下具身智能公司灵波科技正式开源高精度空间感知模型 LingBot-Depth。

据介绍，LingBot-Depth 是一种面向真实场景的深度补全模型，依托奥比中光 Gemini 330 系列双目 3D 相机进行 RGB-Depth 数据采集与效果验证，并基于深度引擎芯片直出的深度数据进行训练与优化，旨在将不完整且受噪声干扰的深度传感器数据转化为高质量、具备真实尺度的三维测量结果，提升环境深度感知与三维空间理解能力，为机器人、自动驾驶汽车等智能终端赋予更精准、更可靠的三维视觉。

LingBot-Depth 核心亮点

精准且稳定的相机深度感知
卓越的 3D 和 4D 环境感知能力
灵巧抓取操作适用于透明与反光物体

实验结果表明，该模型在深度精度与像素覆盖率两项核心指标上均超越业界顶级工业级深度相机。在 NYUv2、ETH3D 等多个基准测试中，LingBot-Depth 在深度补全、单目深度估计及双目匹配任务上均达到当前最优水平，并在无需显式时序建模的情况下保持视频级时间一致性。

LingBot-Depth 模型也已通过奥比中光深度视觉实验室的专业认证，在精度、稳定性及复杂场景适应性方面均达到行业领先水平。

在最具挑战的稀疏深度补全任务中，LingBot-Depth 性能整体优于现有多种主流模型。（图中数值越低代表性能越好。）下游任务验证进一步表明，模型能够在 RGB 与深度两种模态之间学习到对齐的潜在空间表征，从而实现对透明及反光物体的稳定机器人抓取。

LingBot-Depth 研发团队介绍称，他们研发了“掩码深度建模”（Masked Depth Modeling，MDM）技术。虽然训练过程中使用海量 RGB–深度图像对，但刻意遮挡其中一部分深度区域，让模型仅根据 RGB 图像去预测缺失的深度值。随着训练进行，模型逐渐学会建立“外观—几何”之间的对应关系，也就是从“物体看起来像什么”推断“它大概有多远”。

LingBot-Depth 模型、代码、技术报告已全部开源：

Website：https://technology.robbyant.com/lingbot-depth
Model：https://huggingface.co/robbyant/lingbot-depth
Code：https://github.com/Robbyant/lingbot-depthTech
Report：https://github.com/Robbyant/lingbot-depth/blob/main/tech-report.pdf

微信关注我们

原文链接：https://www.oschina.net/news/399783

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

英伟达发布开放天气 AI 套件 Earth-2

在2026年美国气象学会年会上，英伟达正式推出Earth-2系列开放模型与软件栈，涵盖中长期预报（Earth-2 Medium Range）、短临风暴预测（Earth-2 Nowcasting）及全球数据同化系统（Earth-2 Global Data Assimilation）。 Earth-2为科研机构、企业及政府提供可本地部署、微调和集成的全栈AI气象工具。该平台基于生成式AI与新型架构（如Atlas、StormScope和HealDA），可在数分钟内完成传统超算需数小时的初始场构建，并实现15天全球或公里级局地天气预报。目前，以色列气象局、The Weather Company、TotalEnergies、GCL及S&P Global等已投入应用。相关模型已在Hugging Face与GitHub开源，标志着AI驱动的天气预测进入开放协作新阶段。 Hugging Face：https://huggingface.co/collections/nvidia/earth-2 GitHub：https://github.com/NVIDIA/earth2studio

2026-01-27

10

腾讯搜狗输入法宣布全面AI化，升级AI语音、AI翻译、AI打字三大模型。除了三大核心能力，本次版本还上线了一键关闭键盘广告等体验优化。根据介绍，在 20.0.0 版本中，搜狗输入法AI语音输入基于腾讯混元研发的AI语音大模型，实现了语音识别延时下降40%，整体准确率提升至98%，方言识别准确率提升30%。新版本通过深度优化的ASR算法针对轻声与耳语场景完成专项升级，在约20 分贝（日常聊天40-60分贝）的低音量条件下，语音识别准确率仍可稳定保持 97%，即使在图书馆、深夜等场景，也能听清你的声音。针对口语化、断句不完整、语序混乱等常见问题，模型可结合上下文进行语义重整，减少二次修改。围绕中文输入中最常见的语法难点，“的地得”、“他她它”等易混音，提供一键替换能力，让语音转写结果更符合书面表达习惯。（首期上线安卓版） AI 翻译上，新版本中输入法接入混元冠军翻译模型，支持 30+ 种语言的输入即译。翻译被完整嵌进输入过程本身。聊天、办公或阅读外文内容时，无需复制或切换应用，翻译在输入中自然完成。在 AI 打字方面，运用大模型能力深度理解上下文和用户意图，在不同场景下给出更符合...

2026-01-27

8

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。