英伟达开源全模态理解模型 OmniVinci-低调大师

英伟达开源全模态理解模型 OmniVinci

2025-10-28 147

英伟达研究团队发布了名为 OmniVinci 的全模态理解模型，该模型在关键的全模态理解基准测试中取得了惊人的成果，相较于现有顶尖模型高出19.05分。更为引人注目的是，OmniVinci 仅使用了1/6的训练数据，展现出卓越的数据效率和性能。

OmniVinci 的目标是创建一个能够同时理解视觉、音频和文本的全能 AI 系统，使机器能够像人类一样通过多种感官感知并理解复杂的世界。为了实现这一目标，英伟达团队采取了创新的架构设计和数据管理策略，通过一个统一的全模态潜在空间，将不同感官的信息融合在一起，实现了跨模态的理解和推理。

在 Dailyomni 基准测试中，OmniVinci 的表现超过了 Qwen2.5-Omni，其在音频理解的 MMAR 测试中高出1.7分，在视觉理解的 Video-MME 测试中高出3.9分。使用的训练 Token 仅为0.2万亿，而 Qwen2.5-Omni 的训练量为1.2万亿，显示出 OmniVinci 的训练效率是其6倍。

该模型的核心创新在于全模态对齐机制，包括 OmniAlignNet 模块、时间嵌入分组（TEG）和约束旋转时间嵌入(CRTE)三项技术。OmniAlignNet 利用视觉和音频信号之间的互补性，加强了两者的学习与对齐。而 TEG 则通过将视觉和音频信息按时间分组，有效编码了时间关系。CRTE 则进一步解决了时间对齐问题，确保模型能够理解事件的绝对时间信息。

研究团队采用了两阶段的训练方法，首先进行模态特定训练，随后进行全模态联合训练，以逐步提升模型的全模态理解能力。在隐式全模态学习方面，研究者们通过现有的视频问答数据集，进一步提高了模型对音视频的联合理解能力。

微信关注我们

原文链接：https://www.oschina.net/news/379962

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Anthropic 推出 Claude for Excel

Anthropic 宣布推出 Claude for Excel，旨在进一步拓展其在金融服务领域的应用。此更新使得 Claude 能够作为金融专业人士的 AI 助手，尤其是那些使用 Microsoft 工具的用户。Claude for Excel 目前处于研究预览的测试阶段，用户可以通过 Excel 侧边栏直接与 Claude 进行互动。通过这项新功能，Claude 能够读取、分析并修改工作簿，且每一次的更改都能得到清晰的追踪和解释。这项功能尤其适合帮助用户调试公式、生成财务模型以及从零开始创建新的电子表格，从而大大节省了分析师的时间，通常这些工作需要花费数小时才能完成。此次 Excel 集成是 Anthropic 与 Microsoft 已有合作关系的重要补充。用户在 Claude 应用中不仅能够创建和编辑 Excel 和 PowerPoint 文件，还可以在 Microsoft365中搜索信息，包括电子邮件和 Teams 对话。此外，部分 Claude 模型还嵌入到 Microsoft Copilot Studio 和 Researcher Agent 中。为了推动新功能的使用...

2025-10-28

134

全球开源技术峰会（Global Open-source Technology Conference） GOTC 2025 将于 11 月 1 日至 2 日在北京隆重举行。为期 2 天的开源技术与行业盛会，将通过行业展览、主题发言、圆桌讨论等形式来诠释此次大会主题 ——“万源共振，智构未来”。会议聚焦Agentic AI、大模型时代的 “开源”、AI + 软件工程、软件基础设施智能化、AI Coding、具身智能等热门话题，探讨开源未来，助力开源发展。在大会展厅，40 多家开源技术社区将以创意摆摊的方式，打造一场身临其境的沉浸式市集体验，展示开源项目、周边商品，交流开源技术、开源理念、开放协作方式。大会报名通道：https://www.oschina.net/event/8598047 大会官网：https://gotc.oschina.net 一起来看看都有哪些社区吧！（排名不分先后）除了论坛与现场展厅，GOTC 2025 也同步举办线上特别展览：开源，从人类群智，到 AI 智能（https://www.oschina.net/gallery/，仅支持桌面端浏览）。用开源的软...

2025-10-28

143

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。