Redis 之父发布 DeepSeek V4 Flash 专用推理引擎 ds4-低调大师

Redis 之父发布 DeepSeek V4 Flash 专用推理引擎 ds4

2026-05-08 5

Redis 创始人 Salvatore Sanfilippo（antirez）近日正式发布 ds4—— 一个专为 DeepSeek V4 Flash 量身打造的本地推理引擎。该项目定位极其明确：不是通用 GGUF 运行器，不是其他运行时的封装，也不是框架，而是一个窄而深的专用实现。

ds4 的核心设计围绕 Metal GPU 展开，CPU 路径仅保留调试用途，服务器模式更是完全 Metal-only。这种极端的专注带来了显著的性能收益：在配备 512GB 内存的 Mac Studio M3 Ultra 上，短提示预填充速度达 84.43 tokens/s，而面对 11,709 tokens 的长提示时，预填充速度飙升至 468.03 tokens/s，生成速度保持在 36.86 tokens/s。即便是 128GB 内存的 MacBook Pro M3 Max，短提示预填充也能达到 58.52 tokens/s，生成速度 26.68 tokens/s。

项目最引人注目的特性之一是百万级上下文窗口支持。ds4 实现了压缩 KV 缓存，并支持将 KV 状态持久化到磁盘。这意味着会话可以在中断后恢复，无需重新计算已有上下文的 KV 缓存，对于需要处理超长文档或长时间多轮对话的场景极具实用价值。磁盘 KV 缓存采用自定义 KVC 格式，包含 SHA1 校验和 48 字节头部，甚至存储了 token 文本以便观察。

量化策略同样针对 DeepSeek V4 Flash 的 MoE 架构做了非对称处理：路由专家采用 IQ2_XXS/Q2_K 的 2-bit 量化，共享专家和投影层则保持原精度不动。这使得 128GB 内存的机器可以运行 2-bit 模型，256GB 以上则可选择 4-bit。此外，项目还实验性地支持 MTP 投机解码，不过作者坦承目前提速有限。

在接口层面，ds4 提供了 OpenAI/Anthropic 兼容的 HTTP 服务器 API，以及支持多轮对话的交互式 CLI。已有用户成功将其接入 opencode、Pi 和 Claude Code 等 Agent 工具。构建过程也极为简洁：运行 make 编译后，执行./download_model.sh q2 或 q4 即可自动下载对应量化模型。

antirez 在 README 中列出了选择 DeepSeek V4 Flash 的八条理由，包括更少的激活参数带来更高速度、思考长度与问题复杂度成正比、接近前沿模型的质量，以及 KV 缓存「不可思议的可压缩性」。他也直言这是 alpha 质量代码，且开发过程中得到了 GPT 5.5 的强力协助。项目基于 llama.cpp 和 GGML 的代码适配，采用 MIT 许可证开源。

开源地址：https://github.com/antirez/ds4

微信关注我们

原文链接：https://www.oschina.net/news/437769

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

商汤发布日日新 SenseNova 6.7 Flash-Lite，Token 消耗直降 60%

商汤科技宣布正式推出新一代轻量化多模态智能体模型 —— 商汤日日新 SenseNova 6.7 Flash-Lite。同时 SenseNova Token Plan 限时免费开放，开发者首月可享受每 5 小时刷新 1500 次调用额度的无门槛调用配额。全线办公技能 SenseNova-Skills 同步开源。根据介绍，SenseNova 6.7 Flash-Lite 专为“真实世界工作流”而生，采用原生多模态架构，能够像人类一样，能直接“看懂”复杂的网页布局、文档结构与财务图表，实现“看、想、做&rdquo...

2026-05-08

3

Redis 创始人 Salvatore Sanfilippo（antirez）近日正式发布 ds4—— 一个专为 DeepSeek V4 Flash 量身打造的本地推理引擎。该项目定位极其明确：不是通用 GGUF 运行器，不是其他运行时的封装，也不是框架，而是一个窄而深的专用实现。 ds4 的核心设计围绕 Metal GPU 展开，CPU 路径仅保留调试用途，服务器模式更是完全 Metal-only。这种极端的专注带来了显著的性能收益：在配备 512GB 内存的 Mac Studio M3 Ultra 上，短提示预填充速度达 84.43 tokens/s，而面对 11,...

2026-05-08

4

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。