Deepseek 团队最新论文提出推测解码模块“DSpark”，生成速度大涨 85%-低调大师

Deepseek 团队最新论文提出推测解码模块“DSpark”，生成速度大涨 85%

2026-06-29 4

Deepseek团队近日在GitHub上线了一篇论文，作者栏里有梁文锋的名字。这不是DeepSeek融资5000亿之后的公关动作——这篇论文解决的是一个真实的生产问题：大模型在高并发下怎么保持响应速度。

论文提出的框架叫DSpark，北京大学和DeepSeek联合出品，MIT许可，训练代码和模型权重全在GitHub上的DeepSpec仓库里。

论文标题是《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》，6月27日发布。

推测解码不是什么新概念。基本思路是用一个小模型快速生成候选token，再用大模型做并行验证。问题是现有实现有两个明显缺陷：一是草稿模型生成到后面几个token时存活率下降，二是验证环节的算力分配一刀切——不管质量好坏，每个候选token都花一样的预算去验证。

DSpark针对这两个问题各给了一个解法。

第一个叫半自回归生成。并行主干网络一次性输出候选token的基础特征，然后一个轻量的顺序模块逐token补充依赖关系。结构只有2层Transformer，但候选序列有效生成长度比5层的传统并行模型还长。

第二个叫置信度调度验证。验证调度器根据实时算力负载和前缀的存活概率，动态决定每个请求验证多长的序列。高质量的候选优先验证，尾巴上大概率会被拒的token直接截断。

这两个机制加在一起，在离线基准测试里全面领先了Eagle3和DFlash。以Qwen3-4B为例，单轮有效生成长度比Eagle3高出30.9%，比DFlash高出16.3%。

但更有说服力的是线上。

DeepSeek直接把DSpark部署到了V4-Flash和V4-Pro的预览版引擎上，跑了真实的线上A/B测试。结果是：

V4-Flash在80 token/s的SLA条件下，吞吐量提升51%。把SLA拉紧到120 token/s——也就是要求更高了——吞吐量提升了661%。V4-Pro在35 token/s下提升52%，50 token/s下提升406%。

压力越大，DSpark的效果越明显。高并发场景里节省的算力不是线性的。

单用户生成速度的改善是60%到85%。这在API产品里的含义很直接：同样的模型回答，等待时间几乎减半。

论文还写了一个局限。复杂低适配查询场景下，完整候选块的生成有固定算力开销。并行主干必须生成完整的候选块，即使后面的大部分token被调度器截断，这部分计算也回收不了。这是个已知代价，团队选择在论文里写清楚。

DeepSeek刚完成首轮融资，投后估值5000亿。融资后第一周放出的不是PR稿，而是一篇合作论文加全套开源代码和权重。这个节奏本身传递的信号比任何公告都清楚：在模型推理效率这个赛道上，他们想把它从产品竞争变成基础设施竞争。而开源是最好的推进方式。

参考来源：

微信关注我们

原文链接：https://www.oschina.net/news/469428

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Claude Opus 没找到的安全漏洞，GLM 5.2 找到了

先看一个 IDOR 漏洞长什么样。 @app.route('/user/<int:user_id>') def get_user(user_id): user = User.query.get_or_404(user_id) return jsonify(user.to_dict()) 没有危险的函数调用。没有明显的注入点。代码只有三行，干净得不像有安全问题。问题在它没写的东西里：没有检查当前登录用户是不是 user_id 本人。把 URL 里的数字改一下，你就拿到了别人的数据。这就是 IDOR—— 不安全的直接对象引用。Semgrep 的安全研究团队管...

2026-06-29

2

Deepseek团队近日在GitHub上线了一篇论文，作者栏里有梁文锋的名字。这不是DeepSeek融资5000亿之后的公关动作——这篇论文解决的是一个真实的生产问题：大模型在高并发下怎么保持响应速度。论文提出的框架叫DSpark，北京大学和DeepSeek联合出品，MIT许可，训练代码和模型权重全在GitHub上的DeepSpec仓库里。论文标题是《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》，6月27日发布。推测解码不是什么新概念。基...

2026-06-29

3

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。