首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/379965

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

英伟达开源全模态理解模型 OmniVinci

英伟达研究团队发布了名为 OmniVinci 的全模态理解模型,该模型在关键的全模态理解基准测试中取得了惊人的成果,相较于现有顶尖模型高出19.05分。更为引人注目的是,OmniVinci 仅使用了1/6的训练数据,展现出卓越的数据效率和性能。 OmniVinci 的目标是创建一个能够同时理解视觉、音频和文本的全能 AI 系统,使机器能够像人类一样通过多种感官感知并理解复杂的世界。为了实现这一目标,英伟达团队采取了创新的架构设计和数据管理策略,通过一个统一的全模态潜在空间,将不同感官的信息融合在一起,实现了跨模态的理解和推理。 在 Dailyomni 基准测试中,OmniVinci 的表现超过了 Qwen2.5-Omni,其在音频理解的 MMAR 测试中高出1.7分,在视觉理解的 Video-MME 测试中高出3.9分。使用的训练 Token 仅为0.2万亿,而 Qwen2.5-Omni 的训练量为1.2万亿,显示出 OmniVinci 的训练效率是其6倍。 该模型的核心创新在于全模态对齐机制,包括 OmniAlignNet 模块、时间嵌入分组(TEG)和约束旋转时间嵌入(CRTE)三...

蚂蚁百灵大模型团队开源 Ring-flash-linear-2.0-128K,适用于超长文本的的代码编程

蚂蚁百灵大模型团队正式开源 Ring-flash-linear-2.0-128K,该模型适合在超长文本的的代码编程以及 agent 等场景进行使用。 据介绍,该模型利用线性和标准注意力的强大混合架构,完美平衡了高性能和高效率。通过将经过验证的 MoE 设计与优化(如 1/32 专家激活比率和 MTP 层)相结合,Ring-flash-linear 在仅激活 6.1B 参数的情况下达到了 40B 密集模型的性能。 该模型从 Ling-flash-base-2.0 转换而来,并在额外的 1T 令牌上进行了进一步训练。通过 SFT 与强化学习的稳定训练,使得模型在各项高难度复杂推理任务上均达到 SOTA 表现。 在基准测试方面,Ring-flash-linear-2.0-128k 不仅可以与标准注意力模型(如 Ring-flash-2.0)相媲美,而且在多个要求苛刻的任务中超越了其他开源 MoE 和 Dense 模型。此外还原生支持 128K 上下文窗口,并可以通过 YaRN 扩展到 512K。它比以往任何时候都更快、更精确,特别是在处理长输入和输出时。 Huggingface: https...

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。