英伟达开源 2530 亿参数推理大模型,效果直逼 DeepSeek-R1
英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1,可用于聊天机器人开发、AI Agent 工作流、检索增强生成(RAG)和代码生成等场景。
根据英伟达开放模型许可证及 Llama 3.1 社区许可协议,该模型已获准用于商业用途。
NVIDIA Llama Nemotron 是英伟达在上个月推出的一系列支持推理和多样化 Agent 任务的模型。该模型系列提供三种不同尺寸:
- Nano:8B,基于Llama 3.1 8B进行微调,适用于在个人电脑和边缘设备上实现最高精度。
- Super:49B,从Llama 3.3 70B蒸馏而来,适用于在数据中心GPU上实现最高精度和最高吞吐量。
- Ultra:253B,从Llama 3.1 405B蒸馏而来,适用于在多GPU数据中心服务器上实现最大智能代理精度。
当时英伟达只放出了 Nano 和 Super 两个模型版本,现在他们终于把最大的版本 Ultra 给开源了。
目前,该模型的代码已在 Hugging Face 平台上公开,包含开放的权重和训练后数据。
- 模型地址:https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
- 文档地址:https://docs.api.nvidia.com/nim/reference/nvidia-llama-3_1-nemotron-ultra-253b-v1
Llama-3.1-Nemotron-Ultra-253B-v1 是从 Meta Llama-3.1-405B-Instruct 蒸馏得到的。这是一个经过后训练的推理模型,专注于推理、人类聊天偏好以及诸如 RAG(检索增强生成)和工具调用等任务。该模型支持 128K 的上下文长度,并且可以在单个 8xH100 节点上进行推理。
据介绍,Llama-3.1-Nemotron-Ultra-253B 的设计目标是支持高级推理、指令遵循以及 AI 助手工作流程。技术特点如下:
- 采用神经架构搜索(NAS)优化架构
- 引入跳跃注意力层、融合前馈网络(FFN)和可变 FFN 压缩率
- 降低内存占用和计算需求,保持输出质量
- 可在单个 8x H100 GPU 节点高效部署
- 部署支持 B100 和 Hopper 微架构硬件
- 在 BF16 和 FP8 精度模式下均验证通过
Llama-3.1-Nemotron-Ultra-253B-v1 的训练包括模型蒸馏、SFT、面向推理的 RL 以及面向对齐的 RL 四个阶段。
特别地,区别于一些只支持推理的大模型,Ultra 模型支持通过系统提示词控制是否开启推理模式。
该模型基于 Meta 早期的 Llama-3.1-405B-Instruct 模型开发,拥有 2530 亿个参数,在多项第三方基准测试中表现出色:
- 值得关注的是,英伟达新模型的性能逼近拥有 6710 亿参数的 DeepSeek R1,但只用了不到一半的参数量。
- 测试结果显示,GPQA(76 vs. 71.5)、IFEval 指令遵循(89.5 vs. 88.8)和 LiveCodeBench 编码任务(66.3 vs. 65.9)。并且,Llama-3.1-Nemotron-Ultra-253B 推理吞吐量也比 DeepSeek R1 671B 高 4 倍。
- 但在 MATH500 和 Arena Hard 基准测试中,DeepSeek R1 仍略占优势。
- 在一系列基准测试中,Llama-3.1-Nemotron-Ultra-253B-v1 优于 Meta 最新发布的 Llama 4 Behemoth 和 Llama 4 Maverick。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
王小川反思不足:此前战线拉过长,将聚焦 AI 医疗
百川智能创始人兼CEO王小川在公司成立两周年之际发布全员信。回顾了过去两年的成就与不足,并明确了公司当前及未来的发展方向。王小川强调,百川智能将坚定面向医疗领域的技术愿景和业务方向,通过“造医生-改路径-促医学”的路径,推动AI技术在医疗行业的深度应用。 王小川在信中提到,百川智能自2023年4月成立以来,经历了技术突破与产业落地的双重考验。公司不仅在通用基础模型、医学增强的推理模型等方面取得了显著进展,还成功将AI技术应用于全科、儿科等医疗领域,实现了AI医生在基层医疗中的试点应用。然而,他也坦诚地指出了公司发展中的不足,包括战线过长、不够聚焦以及部分团队工作目标出现摇摆和偏差等问题。 针对这些问题,王小川提出了明确的改进方向。他表示,接下来百川智能将围绕百小应、AI儿科、AI全科和精准医疗四个方面发展应用和服务,并专注聚焦、减少多余动作,深度思考、坚定不摇摆。同时,公司将减小组织的复杂度,更扁平、更少层级,让信息和决策更通畅。 在全员信中,王小川还透露了百川智能未来的愿景和使命。他表示,为生命建模型、为人类造医生是百川的使命,公司将通过构建生命健康数学模型,解决医学发展的瓶颈问题,...
- 下一篇
百度文心大模型 4.5 Turbo 将于 4 月 25 日亮相
百度发布官方预告,文心大模型 4.5 Turbo 将于 4 月 25 日的 Create 大会上正式亮相。 Create 2025 百度 AI 开发者大会将于 4 月 25 日在武汉体育中心举办,大会将围绕 MCP、DeepSeek、Agent、AI 编程等热点话题设置六大分会场。 除此之外,百度还表示将在 4 月 25 日带来主旨会议、生态大会等内容,以及 40 多节 AI 公开课和 5000 平米 AI 展区。现场嘉宾包括: 李彦宏:百度创始人、董事长兼首席执行官 沈抖:百度集团执行副总裁、百度智能云事业群总裁 王海峰:百度首席技术官 神秘嘉宾 不久前的 3 月 16 日,百度发布了文心大模型 4.5 和 X1,文心大模型 4.5已上线百度智能云千帆大模型平台,企业用户和开发者登录即可调用 API;文心大模型 X1也即将在千帆上线,百度搜索、文小言 App 等产品也将陆续接入文心大模型 4.5 和文心大模型 X1。 文心大模型 4.5 是百度首个原生多模态大模型,在多模态理解、文本和逻辑推理等方面有显著提升,多项测试表现优于 GPT4.5,API 调用价格仅为 GPT4.5 的 1...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS关闭SELinux安全模块
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Mario游戏-低调大师作品
- CentOS8编译安装MySQL8.0.19
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果