DwarfStar 4 是 Redis 之父 antirez 最新开源的项目,这是一款专为 DeepSeek V4 Flash 模型打造的本地推理引擎。这个消息在科技圈引发了不小的震动,他的目标很明确:让本地 AI 推理达到一个新的高度,让普通开发者也能在自己的机器上体验接近前沿模型的能力。

这件事的发生并不是偶然。DeepSeek V4 Flash 之所以值得关注,是因为它解决了一个长期困扰本地 AI 的问题:如何在有限的硬件条件下,获得足够好的推理效果。DeepSeek V4 Flash 拥有 2840 亿参数,配备 100 万 token 的上下文窗口,并且可以在 2-bit 量化的情况下在 96GB 或 128GB 内存的 Mac 上运行。这是一个相当诱人的组合——性能足够强,硬件要求又相对可及。
antirez 在博客中透露,这个项目是他在过去一周高强度工作中完成的,平均每天工作 14 小时。这对于一个自称平时每天只工作 4-6 小时的人来说,是一个巨大的转变。他自己说,这种状态只在 Redis 早期开发阶段经历过。这也说明了一个问题:当一个开发者真正相信某个想法时,他愿意投入更多时间和精力。
DwarfStar 4 的设计理念非常清晰:不是做一个通用的 GGUF 运行时,而是针对 DeepSeek V4 Flash 的每一个细节做深度优化。这意味着不只是让模型能跑,而是要让模型在特定硬件上跑得足够好、足够稳定。目前项目支持 Metal(macOS)和 NVIDIA CUDA,在 AMD ROCm 上也有社区支持。这种专注让项目能够把每一分精力都用在真正重要的地方。
值得注意的一点是:antirez 明确表示,这个项目的开发过程中使用了 GPT 5.5 作为重要辅助工具。他说,没有 GPT 5.5 的帮助,不可能在短短一周内完成这个项目——即使有了这样的帮助,你仍然需要知道如何与 LLM "温和地交流"。这个承认很有意思,它说明当前 AI 辅助编程已经到了一个新的临界点:一个有经验的开发者加上合适的 AI 工具,确实可以在极短时间内完成过去需要几个月的工作。
但更让人兴奋的是实际效果。antirez 说,这是他第一次在使用本地推理时,感觉到它真的可以替代他平时向 Claude 或 GPT 请教的复杂问题。换句话说,DS4 不再是 "勉强能用的 A",而是更接近 "真正可用的 B"。这种转变对于整个本地 AI 社区来说,是一个重要的信号。
现在,antirez 已经公布了 DwarfStar 4 的未来规划:质量基准测试、可能加入的编码 agent、硬件设置来运行 CI 测试以确保长期质量、更多平台移植,以及分布式推理的支持。这些目标都很实际,尤其是分布式推理——这意味着未来可以在多台机器上协同运行同一个模型,进一步提升性能。
由此可见,本地的 AI 推理正在变得越来越可行。不是因为硬件突然变得便宜了,而是因为模型和引擎都在变得更加智能和专注。当一个 2840 亿参数的模型可以在 96GB 内存的 MacBook 上运行时,当一个专注的工程师可以在 AI 的帮助下用一周时间构建一个完整的推理引擎时,这个领域的天花板正在被重新定义。
AI 太重要了,以至于不能仅仅成为一种"被提供的服务"。这是 antirez 在博客最后写下的话。这句话在这个背景下显得格外有意义——当所有的 AI 服务都掌握在几个大公司手中时,能够在本地运行强大模型的能力,就是一种对未来的保障。
来源:antirez (https://antirez.com/news/165)