DeepSeek-V3.1 发布,迈向 Agent 时代的第一步
今天,我们正式发布 DeepSeek V3.1。本次升级包含以下主要变化:
-
混合推理架构:一个模型同时支持思考模式与非思考模式;
-
更高的思考效率:相比 DeepSeek-R1-0528,DeepSeek-V3.1-Think 能在更短时间内给出答案;
-
更强的 Agent 能力:通过 Post-Training 优化,新模型在工具使用与智能体任务中的表现有较大提升。
官方 App 与网页端模型已同步升级为DeepSeek-V3.1。用户可以通过“深度思考”按钮,实现思考模式与非思考模式的自由切换。
DeepSeek API 也已同步升级,deepseek-chat
对应非思考模式,deepseek-reasoner
对应思考模式,且上下文均已扩展为 128K。同时,API Beta 接口支持了 strict
模式的 Function Calling,以确保输出的 Function 满足 schema 定义。(详见官方文档:https://api-docs.deepseek.com/zh-cn/guides/function_calling)
另外,我们增加了对 Anthropic API 格式的支持,让大家可以轻松将 DeepSeek-V3.1 的能力接入 Claude Code 框架。(详见官方文档:https://api-docs.deepseek.com/zh-cn/guides/anthropic_api)
工具调用/智能体支持增强
编程智能体
表 1:编程智能体测评(SWE 使用内部框架测评,相比开源框架 OpenHands 所需轮数更少;Terminal Bench 使用官方 Terminus 1 framework)
在代码修复测评 SWE 与命令行终端环境下的复杂任务(Terminal-Bench)测试中,DeepSeek-V3.1 相比之前的 DeepSeek 系列模型有明显提高。
搜索智能体
表 2:搜索智能体测评(测试结果调用商用搜索引擎 API+网页过滤+128K context window;R1-0528 使用内部 workflow 模式测试;HLE 测试同时使用 python 与 search 工具)
DeepSeek-V3.1 在多项搜索评测指标上取得了较大提升。在需要多步推理的复杂搜索测试(browsecomp)与多学科专家级难题测试(HLE)上,DeepSeek-V3.1 性能已大幅领先 R1-0528。
思考效率提升
我们的测试结果显示,经过思维链压缩训练后,V3.1-Think 在输出 token 数减少 20%-50% 的情况下,各项任务的平均表现与 R1-0528 持平。
在各项评测指标得分基本持平的情况下(AIME 2025: 87.5/88.4, GPQA: 81/80.1, liveCodeBench: 73.3/74.8),R1-0528 与 V3.1-Think 的 token 消耗量对比图
同时,V3.1 在非思考模式下的输出长度也得到了有效控制,相比于 DeepSeek-V3-0324 ,能够在输出长度明显减少的情况下保持相同的模型性能。
API & 模型开源
模型开源
V3.1的 Base 模型在 V3 的基础上重新做了外扩训练,一共增加训练了 840B tokens。Base 模型与后训练模型均已在 Huggingface 与魔搭开源。
Base 模型:
-
Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
-
魔搭:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Base
后训练模型:
-
Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.1
-
魔搭:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1
需要注意的是,DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度。另外,V3.1 对分词器及 chat template 进行了较大调整,与 DeepSeek-V3 存在明显差异。建议有部署需求的用户仔细阅读新版说明文档。
价格调整
我们将于北京时间 2025 年 9 月 6 日凌晨起,对 DeepSeek 开放平台 API 接口调用价格进行如下调整:
-
执行新版价格表(如下图所示,详见定价页面);
-
取消夜间时段优惠。
在 9 月 6 日前,所有 API 服务仍按原价格政策计费,您可继续享受当前优惠。
同时,为更好地满足用户的调用需求,我们已进一步扩容 API 服务资源,欢迎使用!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Perplexity Comet 浏览器遭遇恶意指令攻击漏洞
Perplexity 公司推出的基于人工智能的 Comet 浏览器近日被发现存在处理未验证输入的严重安全漏洞。这一漏洞使得浏览器在请求对网页内容进行总结时,能够随意接受并处理页面上的文本,包括那些隐藏的恶意指令。这种攻击方式被称为间接提示注入攻击。 该漏洞的发现者是竞争对手 Brave 浏览器的安全团队,他们在比较自家 AI 服务 Leo 与其他浏览器的 AI 实现时,注意到了 Comet 的安全问题。Brave 的高级移动安全工程师 Artem Chaikin 和隐私与安全副总裁 Shivan Kaul Sahib 在一篇博客中提到:“我们在研究 Comet 时发现了这些漏洞,并向 Perplexity 报告了这些问题,这突显了浏览器中代理 AI 实现所面临的安全挑战。” 他们表示,这种漏洞表明,人工智能在处理网页内容时无法自行区分用户的指令与页面中的不可信内容。Chaikin 和 Sahib 进一步解释,他们创建了一个概念验证攻击示例,其中恶意指令被隐藏在 Reddit 页面的 “剧透” 标签后面。当 Comet 被请求总结该页面时,它获取了这些指令,并成功提取了一次性密码,进而获...
- 下一篇
Elastic 获得 2025 年 Google Cloud DORA “以 AI 构建未来架构” 奖
作者:来自 ElasticBrian Bergholm,Lon Holden,Aleta Hubbell,Valerio Arvizzigno,Yuvraj Gupta 我们很高兴地宣布,Elastic 荣获 2025 年 Google Cloud DORA 人工智能未来架构奖。 Google Cloud DORA 奖旨在表彰那些通过应用 DORA 原则来改善其软件交付和 Google Cloud 运营绩效而取得重大进步的组织。 随着 Elastic 工程团队的规模不断扩大,我们意识到需要一种更加数据驱动的方法来提高 DevOps 性能。我们转向 Google Cloud 的 DORA 框架来指导我们的工作并衡量影响。我们获得该奖项证明了我们代表客户在软件交付流程的速度、可靠性和质量方面有所改进。Elastic 和 Google Cloud 正在大力合作的新 AI 架构的创新和挑战中延续了同样的方法。 什么是 DORA? DORA是 Google Cloud 推行的一个项目,是同类中规模最大、持续时间最长的研究计划。它旨在了解驱动软件交付和运营性能的能力。通过对这些领域的研究,DORA...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2全家桶,快速入门学习开发网站教程