英伟达发布 Llama-3.1-Nemotron-Nano-VL-8B-V1 视觉语言模型-低调大师

英伟达发布 Llama-3.1-Nemotron-Nano-VL-8B-V1 视觉语言模型

2025-06-05 219

英伟达发布了一款名为 Llama-3.1-Nemotron-Nano-VL-8B-V1 的视觉语言模型（VLM）。该模型拥有80亿参数，专注于文档智能，能够查询和总结来自物理世界或虚拟世界的图像和视频内容。该模型基于 Llama 3.1 构建。

据介绍，该模型的开发基于几个关键发现：

图像-文本对不足以达到最佳效果，交错的图像-文本数据至关重要；
在交错图像-文本预训练期间解冻大型语言模型（LLM）能够实现在上下文学习；
重新混合纯文本指令数据对于提升 VLM 和纯文本性能都非常关键。

Llama-Nemotron-Nano-VL-8B-V1 在训练的三个阶段均使用了商业图像和视频，并支持单图像和视频推理。其视觉编码器为 CRadioV2-H，语言编码器为 Llama-3.1-8B-Instruct。模型支持多张图像输入（在16K输入+输出token限制内），目前仅支持英文。输入格式包括 RGB 图像、MP4 视频和文本字符串。最大分辨率由12个512x512像素的图块布局约束决定，例如支持高达2048x1536（4x3布局）或1536x2048（3x4布局）的图像。

该模型在多个基准测试中取得了不错的成绩，例如在 MMMU Val（使用 ChatGPT 作为裁判）上达到48.2%，AI2D 上达到85.0%，ChartQA 上达到86.3%，DocVQA val 上达到91.2%，OCRBench 上得分839，VideoMME 上达到 54.7%。

NVIDIA 已在 Hugging Face 和 build.nvidia.com 上提供了该模型。使用该模型受 NVIDIA 开放许可协议和 Llama 3.1 社区模型许可的约束。

https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1

微信关注我们

原文链接：https://www.oschina.net/news/353669

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

美国商务部重组人工智能安全研究所，移除“安全”一词

美国商务部近日宣布将原美国人工智能安全研究所（U.S. AI Safety Institute）更名为人工智能标准与创新中心（CAISI），这项变动标志着该机构将重点从总体安全转向更加专注于应对国家安全风险和减少不必要的国际监管。商务部长霍华德・卢特尼克(Howard Lutnick)于6月3日正式发布了这一消息，并表示此次重组旨在 “评估和增强美国创新”，同时确保美国在国际人工智能标准中保持领导地位。人工智能安全研究所成立于2023年，旨在为全球各国政府提供最佳实践，以降低人工智能系统可能带来的风险。该研究所与 OpenAI 和 Anthropic 等美国主要人工智能公司达成了谅解备忘录，允许在新模型发布前获得使用权，并提出改进建议。 2025年，拜登任期接近尾声时，该研究所发布了一份关于管理人工智能风险的指南草案。草案中提到的风险包括利用系统制造生物武器，以及一些更常见的有害内容，如儿童性虐待内容（CSAM）。新成立的研究所将特别关注一些可证实的风险，主要包括网络安全、生物安全以及化学武器等领域。此外，该研究所还将研究由于使用竞争对手的人工智能系统而导致的恶意外国影响。此...

2025-06-05

208

“AI 技术将带来前所未有的变革，影响全面且不可逆转。” 互联网女皇 Mary Meeker 带着新作《#AI趋势报告2025》回归，这位曾经在互联网周期成功预见了多个趋势的传奇投资者不出意外地带来了新一轮刷屏。报告通过大量数据分析更直接地揭示了我们面对的商业重构进程，以及正在展开的机遇遍地的新黄金时代。移步【融云全球互联网通信云】，后台回复AI 趋势获取完整报告。网络效应、转换成本——这些一度定义了我们这个时代商业逻辑的规则，在 AI 时代迅速崩塌。创新性功能被无差别克隆包围，差异化优势在底层能力翻新中消散…… 更别说那些决策迟缓、行动无法言出法随的“后来者”，注定与市场窗口擦身而过。唯快不破，迅速更新认知并在执行中进化才是 AI 时代创业的正确姿势。专注业务创新，底层交给融云。融云推出一站式 AI 云服务，提供开箱即用的大模型API 服务，“模型多、上线快、性能好、成本省”，助力开发者和企业在 AI 时代快速试验创新力、始终保持竞争力。快速接入，前沿模型灵活选用突破单一模型限制，融云一站式 AI 云服务支持包括 DeepSeek、Qwen 等数十个领先大模型灵活调用、自...

2025-06-05

239

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。