Redis 创始人 Salvatore Sanfilippo(antirez)近日正式发布 ds4—— 一个专为 DeepSeek V4 Flash 量身打造的本地推理引擎。该项目定位极其明确:不是通用 GGUF 运行器,不是其他运行时的封装,也不是框架,而是一个窄而深的专用实现。

ds4 的核心设计围绕 Metal GPU 展开,CPU 路径仅保留调试用途,服务器模式更是完全 Metal-only。这种极端的专注带来了显著的性能收益:在配备 512GB 内存的 Mac Studio M3 Ultra 上,短提示预填充速度达 84.43 tokens/s,而面对 11,709 tokens 的长提示时,预填充速度飙升至 468.03 tokens/s,生成速度保持在 36.86 tokens/s。即便是 128GB 内存的 MacBook Pro M3 Max,短提示预填充也能达到 58.52 tokens/s,生成速度 26.68 tokens/s。
项目最引人注目的特性之一是百万级上下文窗口支持。ds4 实现了压缩 KV 缓存,并支持将 KV 状态持久化到磁盘。这意味着会话可以在中断后恢复,无需重新计算已有上下文的 KV 缓存,对于需要处理超长文档或长时间多轮对话的场景极具实用价值。磁盘 KV 缓存采用自定义 KVC 格式,包含 SHA1 校验和 48 字节头部,甚至存储了 token 文本以便观察。
量化策略同样针对 DeepSeek V4 Flash 的 MoE 架构做了非对称处理:路由专家采用 IQ2_XXS/Q2_K 的 2-bit 量化,共享专家和投影层则保持原精度不动。这使得 128GB 内存的机器可以运行 2-bit 模型,256GB 以上则可选择 4-bit。此外,项目还实验性地支持 MTP 投机解码,不过作者坦承目前提速有限。
在接口层面,ds4 提供了 OpenAI/Anthropic 兼容的 HTTP 服务器 API,以及支持多轮对话的交互式 CLI。已有用户成功将其接入 opencode、Pi 和 Claude Code 等 Agent 工具。构建过程也极为简洁:运行 make 编译后,执行./download_model.sh q2 或 q4 即可自动下载对应量化模型。
antirez 在 README 中列出了选择 DeepSeek V4 Flash 的八条理由,包括更少的激活参数带来更高速度、思考长度与问题复杂度成正比、接近前沿模型的质量,以及 KV 缓存「不可思议的可压缩性」。他也直言这是 alpha 质量代码,且开发过程中得到了 GPT 5.5 的强力协助。项目基于 llama.cpp 和 GGML 的代码适配,采用 MIT 许可证开源。
开源地址:https://github.com/antirez/ds4