英伟达开源全模态理解模型 OmniVinci
英伟达研究团队发布了名为 OmniVinci 的全模态理解模型,该模型在关键的全模态理解基准测试中取得了惊人的成果,相较于现有顶尖模型高出19.05分。更为引人注目的是,OmniVinci 仅使用了1/6的训练数据,展现出卓越的数据效率和性能。
OmniVinci 的目标是创建一个能够同时理解视觉、音频和文本的全能 AI 系统,使机器能够像人类一样通过多种感官感知并理解复杂的世界。为了实现这一目标,英伟达团队采取了创新的架构设计和数据管理策略,通过一个统一的全模态潜在空间,将不同感官的信息融合在一起,实现了跨模态的理解和推理。
在 Dailyomni 基准测试中,OmniVinci 的表现超过了 Qwen2.5-Omni,其在音频理解的 MMAR 测试中高出1.7分,在视觉理解的 Video-MME 测试中高出3.9分。使用的训练 Token 仅为0.2万亿,而 Qwen2.5-Omni 的训练量为1.2万亿,显示出 OmniVinci 的训练效率是其6倍。
该模型的核心创新在于全模态对齐机制,包括 OmniAlignNet 模块、时间嵌入分组(TEG)和约束旋转时间嵌入(CRTE)三项技术。OmniAlignNet 利用视觉和音频信号之间的互补性,加强了两者的学习与对齐。而 TEG 则通过将视觉和音频信息按时间分组,有效编码了时间关系。CRTE 则进一步解决了时间对齐问题,确保模型能够理解事件的绝对时间信息。
研究团队采用了两阶段的训练方法,首先进行模态特定训练,随后进行全模态联合训练,以逐步提升模型的全模态理解能力。在隐式全模态学习方面,研究者们通过现有的视频问答数据集,进一步提高了模型对音视频的联合理解能力。
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
Anthropic 推出 Claude for Excel
Anthropic 宣布推出 Claude for Excel,旨在进一步拓展其在金融服务领域的应用。此更新使得 Claude 能够作为金融专业人士的 AI 助手,尤其是那些使用 Microsoft 工具的用户。Claude for Excel 目前处于研究预览的测试阶段,用户可以通过 Excel 侧边栏直接与 Claude 进行互动。 通过这项新功能,Claude 能够读取、分析并修改工作簿,且每一次的更改都能得到清晰的追踪和解释。这项功能尤其适合帮助用户调试公式、生成财务模型以及从零开始创建新的电子表格,从而大大节省了分析师的时间,通常这些工作需要花费数小时才能完成。 此次 Excel 集成是 Anthropic 与 Microsoft 已有合作关系的重要补充。用户在 Claude 应用中不仅能够创建和编辑 Excel 和 PowerPoint 文件,还可以在 Microsoft365中搜索信息,包括电子邮件和 Teams 对话。此外,部分 Claude 模型还嵌入到 Microsoft Copilot Studio 和 Researcher Agent 中。 为了推动新功能的使用...
-
下一篇
🔥🔥🔥40+开源技术社区摆摊啦,GOTC 2025开源集市等你来玩
全球开源技术峰会(Global Open-source Technology Conference) GOTC 2025 将于 11 月 1 日至 2 日在北京隆重举行。 为期 2 天的开源技术与行业盛会,将通过行业展览、主题发言、圆桌讨论等形式来诠释此次大会主题 ——“万源共振,智构未来”。会议聚焦Agentic AI、大模型时代的 “开源”、AI + 软件工程、软件基础设施智能化、AI Coding、具身智能等热门话题,探讨开源未来,助力开源发展。 在大会展厅,40 多家开源技术社区将以创意摆摊的方式,打造一场身临其境的沉浸式市集体验,展示开源项目、周边商品,交流开源技术、开源理念、开放协作方式。 大会报名通道:https://www.oschina.net/event/8598047 大会官网:https://gotc.oschina.net 一起来看看都有哪些社区吧!(排名不分先后) 除了论坛与现场展厅,GOTC 2025 也同步举办线上特别展览:开源,从人类群智,到 AI 智能(https://www.oschina.net/gallery/,仅支持桌面端浏览)。用开源的软...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS关闭SELinux安全模块
- Dcoker安装(在线仓库),最新的服务器搭配容器使用
- CentOS8编译安装MySQL8.0.19
- Windows10,CentOS7,CentOS8安装Nodejs环境
- SpringBoot2全家桶,快速入门学习开发网站教程
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS7,8上快速安装Gitea,搭建Git服务器


微信收款码
支付宝收款码