英伟达发布 Llama-3.1-Nemotron-Nano-VL-8B-V1 视觉语言模型
英伟达发布了一款名为 Llama-3.1-Nemotron-Nano-VL-8B-V1 的视觉语言模型(VLM)。该模型拥有80亿参数,专注于文档智能,能够查询和总结来自物理世界或虚拟世界的图像和视频内容。该模型基于 Llama 3.1 构建。
据介绍,该模型的开发基于几个关键发现:
- 图像-文本对不足以达到最佳效果,交错的图像-文本数据至关重要;
- 在交错图像-文本预训练期间解冻大型语言模型(LLM)能够实现在上下文学习;
- 重新混合纯文本指令数据对于提升 VLM 和纯文本性能都非常关键。
Llama-Nemotron-Nano-VL-8B-V1 在训练的三个阶段均使用了商业图像和视频,并支持单图像和视频推理。其视觉编码器为 CRadioV2-H,语言编码器为 Llama-3.1-8B-Instruct。模型支持多张图像输入(在16K输入+输出token限制内),目前仅支持英文。输入格式包括 RGB 图像、MP4 视频和文本字符串。最大分辨率由12个512x512像素的图块布局约束决定,例如支持高达2048x1536(4x3布局)或1536x2048(3x4布局)的图像。
该模型在多个基准测试中取得了不错的成绩,例如在 MMMU Val(使用 ChatGPT 作为裁判)上达到48.2%,AI2D 上达到85.0%,ChartQA 上达到86.3%,DocVQA val 上达到91.2%,OCRBench 上得分839,VideoMME 上达到 54.7%。
NVIDIA 已在 Hugging Face 和 build.nvidia.com 上提供了该模型。使用该模型受 NVIDIA 开放许可协议和 Llama 3.1 社区模型许可的约束。
https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
美国商务部重组人工智能安全研究所,移除“安全”一词
美国商务部近日宣布将原美国人工智能安全研究所(U.S. AI Safety Institute)更名为人工智能标准与创新中心(CAISI),这项变动标志着该机构将重点从总体安全转向更加专注于应对国家安全风险和减少不必要的国际监管。 商务部长霍华德・卢特尼克(Howard Lutnick)于6月3日正式发布了这一消息,并表示此次重组旨在 “评估和增强美国创新”,同时确保美国在国际人工智能标准中保持领导地位。 人工智能安全研究所成立于2023年,旨在为全球各国政府提供最佳实践,以降低人工智能系统可能带来的风险。该研究所与 OpenAI 和 Anthropic 等美国主要人工智能公司达成了谅解备忘录,允许在新模型发布前获得使用权,并提出改进建议。 2025年,拜登任期接近尾声时,该研究所发布了一份关于管理人工智能风险的指南草案。草案中提到的风险包括利用系统制造生物武器,以及一些更常见的有害内容,如儿童性虐待内容(CSAM)。 新成立的研究所将特别关注一些可证实的风险,主要包括网络安全、生物安全以及化学武器等领域。此外,该研究所还将研究由于使用竞争对手的人工智能系统而导致的恶意外国影响。 此...
- 下一篇
融云上线大模型 API 服务,20 万 Token 免费送
“AI 技术将带来前所未有的变革,影响全面且不可逆转。” 互联网女皇 Mary Meeker 带着新作《#AI趋势报告2025》回归,这位曾经在互联网周期成功预见了多个趋势的传奇投资者不出意外地带来了新一轮刷屏。 报告通过大量数据分析更直接地揭示了我们面对的商业重构进程,以及正在展开的机遇遍地的新黄金时代。移步【融云全球互联网通信云】,后台回复AI 趋势获取完整报告。 网络效应、转换成本——这些一度定义了我们这个时代商业逻辑的规则,在 AI 时代迅速崩塌。创新性功能被无差别克隆包围,差异化优势在底层能力翻新中消散…… 更别说那些决策迟缓、行动无法言出法随的“后来者”,注定与市场窗口擦身而过。唯快不破,迅速更新认知并在执行中进化才是 AI 时代创业的正确姿势。 专注业务创新,底层交给融云。融云推出一站式 AI 云服务,提供开箱即用的大模型API 服务,“模型多、上线快、性能好、成本省”,助力开发者和企业在 AI 时代快速试验创新力、始终保持竞争力。 快速接入,前沿模型灵活选用 突破单一模型限制,融云一站式 AI 云服务支持包括 DeepSeek、Qwen 等数十个领先大模型灵活调用、自...
相关文章
文章评论
共有0条评论来说两句吧...