Claude Code 出 BUG 狂吞 token！赶紧试试谷歌新模型 Gemma 4 尝试替代-低调大师

Claude Code 出 BUG 狂吞 token！赶紧试试谷歌新模型 Gemma 4 尝试替代

2026-04-08 59

Claude Code 最近被曝出 BUG 导致 token 消耗膨胀 10-20 倍，正好 3 月 31 日 Google 新发布了 Gemma 4，赶紧本地部署试试能不能替代 —— 结果踩了一路的坑。

测试环境

硬件：Mac Studio M4 Max / 128GB 统一内存 / 16 核 CPU / 40 核 GPU
模型：google/gemma-4-26b-a4b（Q4_K_M 量化，17.99 GB）
推理框架：LM Studio 0.4.9（Metal 加速，GPU 卸载 30/30 层满载）

2026 年 3 月 31 日，Google 发布了 Gemma 4 系列，包含 E2B、E4B、31B 和 26B A4B 四个版本。其中 26B A4B 采用 MoE（混合专家）架构，26B 总参数中每次推理只激活约 4B，理论上兼顾了性能和速度，是本地部署的热门选择。

速度实测：令人失望

场景	生成速度	Prompt 处理	体验
短对话（< 2K token）	~30-40 tok/s	1-2 秒	✅ 流畅
中等对话（~8K token）	~20-30 tok/s	5-10 秒	⚠️ 可接受
Claude Code（29K+ token）	~14 tok/s	30-60 秒	❌ 无法正常使用

对比 Anthropic API：

对比项	本地 Gemma 26B	Claude Sonnet（API）
生成速度	14 tok/s	80-120 tok/s
上下文窗口	32K（勉强）	200K
系统提示兼容	❌ 29K 装不下	✅ 轻松容纳
首 token 延迟	30-60 秒	1-3 秒
费用	免费	~$3-5 / 天

速度差距在 6-8 倍，上下文差距更是天壤之别。

核心问题：为什么不能用？

系统提示溢出：Claude Code 的系统提示词高达 29000+ token，直接超过 4096、16384 的上下文窗口，模型连启动都启动不了
生成速度太慢：即使勉强跑起来，14 tok/s 的输出速度，一个函数重构要等好几分钟
Prompt 处理瓶颈：每次请求都带着完整的系统提示 + 对话历史，本地模型 prefill 阶段就要几十秒
上下文迅速耗尽：32K 的窗口减去 29K 系统提示，只剩 3K 给对话，写不了几轮就溢出

简单说：Claude Code 天生就是为云端大模型的超长上下文设计的，本地 26B 模型目前接不住。

为什么想用本地模型？

最近 Claude Code 被曝出 BUG 狂吞 token—— 有用户逆向工程 Claude Code 二进制文件，发现两个独立 bug 导致 prompt cache 静默失效，token 消耗膨胀 10-20 倍。Max 5x（$100 / 月）一个小时烧完、Pro 用户一周只能用 12 天的吐槽在社区此起彼伏。2026 年 4 月，Anthropic 官方也承认 "用户消耗限额的速度远超预期，正在积极调查"。

正好 3 月 31 日 Google 新发布了 Gemma 4 系列，赶紧尝试下：本地跑 Gemma 4，对接 Claude Code，彻底摆脱 token 焦虑。

128GB 统一内存 + 40 核 GPU + MoE 架构的 26B 模型，纸面上看是完美组合。实际呢？下面是完整的踩坑过程。

环境搭建

LM Studio 作为推理后端

选 LM Studio 的原因很简单：GUI 操作、自带 Metal 加速、OpenAI 兼容 API、一键启动。

下载 LM Studio（v0.4.9）
搜索并下载 google/gemma-4-26b-a4b 模型
进入 Developer → Local Server，加载模型
服务默认监听 http://localhost:1234

Claude Code 对接配置

Claude Code 支持自定义 API 端点，配置指向本地 LM Studio 即可：

export ANTHROPIC_BASE_URL=http://localhost:1234/v1
export ANTHROPIC_API_KEY=lm-studio

看起来很简单对吧？然而坑从这里才刚开始。

踩坑一：上下文长度的致命陷阱

第一个真正的大坑来了。启动 Claude Code 后直接报错：

The number of tokens to keep from the initial prompt is greater than 
the context length (n_keep: 29006 &gt;= n_ctx: 4096)

翻译一下：Claude Code 的系统提示词就有 29000+ token，而我的上下文窗口只设了 4096。

这就好比你拿一个 4L 的水壶去装 29L 的水。

上下文长度调整历程

上下文长度	结果
4,096	❌ 系统提示都塞不进去
16,384	❌ 同样装不下（n_keep: 29006 >= n_ctx: 16384）
32,768	⚠️ 勉强能跑，但留给对话的空间极小
40,960	✅ 能用，但 prompt 处理很慢

最终选了 32768，勉强够用但体验一般。

根本原因： Claude Code 的系统提示词为云端大模型设计（动辄 100K+ 上下文窗口），本地 26B 模型的上下文能力根本吃不消。

踩坑二：Prompt 处理速度极慢

即便上下文调到 32768 能跑了，每次请求的 prompt 处理（prefill）都要等很久。从日志能看到：

Prompt processing progress: 31.7%
Prompt processing progress: 33.5%
Prompt processing progress: 35.2%
...

逐步爬升，一个请求 prompt 阶段就要等几十秒。原因是 Claude Code 每次请求都带着庞大的系统提示 + 完整对话历史，本地模型处理这些长输入的速度远不如云端。

优化尝试与效果

有效的优化

优化项	操作	效果
Flash Attention	LM Studio 右侧开启	prefill 有一定提速
Unified KV Cache	开启	内存利用更高效
保持模型在内存中	开启	避免反复加载
CPU 线程数	12 → 14	略有提升
评估批处理大小	512 → 2048	prefill 阶段提速
/compact 命令	Claude Code 中使用	压缩上下文，缓解溢出

效果有限的优化

优化项	说明
GPU 卸载	已经是最大值 30
更小量化（Q4_K_S）	速度略提升，但不解决上下文根本问题

最终结论：本地模型跑 Claude Code，现阶段不太实际

说实话，经过这轮测试，我的结论是：

❌ 不推荐的场景

Claude Code 日常开发：系统提示 29000+ token 的硬伤无解，本地模型的上下文窗口和处理速度都跟不上
需要频繁多轮对话的编码任务：上下文迅速膨胀，要么溢出要么极慢

✅ 推荐的场景

OpenClaw / 其他轻量级 AI 对话：系统提示短，上下文可控，本地模型完全胜任
单轮问答、代码片段生成：不涉及长上下文，速度可以接受
隐私敏感项目：代码不出本机

更好的方案

对于 Claude Code 用户，更务实的做法是：

继续用 Anthropic API（Sonnet 性价比高）
安装 RTK（Rust Token Killer） 压缩命令输出，省 60-90% token
本地模型留给 OpenClaw 等聊天场景
善用 /compact 和 /model 切换，在 Opus 和 Sonnet 之间灵活切换

M4 Max 128GB 跑 Gemma 4 26B 的性能参考

指标	数值
模型大小	17.99 GB（量化后）
GPU 卸载层数	30/30（满载）
生成速度（短上下文）	~30-40 tok/s
生成速度（长上下文）	~14 tok/s
Prompt 处理（29K token）	数十秒
内存占用	~18-25 GB

写在最后

Apple Silicon 的统一内存架构让本地跑大模型成为可能，M4 Max 128GB 跑 26B 模型确实没有显存焦虑。但 "能跑" 和 "好用" 之间还有很大的距离。

Claude Code 的设计理念是面向云端大模型的超长上下文场景 —— 光系统提示就接近 3 万 token，这不是本地 26B 模型目前能优雅承载的。也许等到本地模型的上下文能力和推理速度再上一个台阶，这个方案才会真正可行。

微信关注我们

原文链接：https://www.oschina.net/news/418549

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

“模数开源主理人学院”招募启动！错过移动互联网，别再错过“OPC时代”！

不久前，习近平总书记亲临北京经济技术开发区（亦庄）信创园实地考察，强调要牢牢掌握关键核心技术自主创新主动权，为我国数字经济发展指明方向。这一重要考察，不仅是对亦庄作为国家信创产业高地的充分肯定，更向全社会释放出一个明确信号：信创与数字化，正从“战略储备”走向“全面落地”。对于广大创业者而言，这意味着国家级的产业高地正在敞开大门，大量数字化、智能化项目需求正在释放。但技术怎么选？场景怎么找？订单怎么拿？AI这么火，怎么产生实际收益？等问题困住了很多人。在“创业民主化”与“产业生态化”双趋势下，我们发现主理人已成为连接个体创造力与产业资源的关键节点。他们是以内容、价值观或专业能力为核心，通过持续创造、连接与运营，凝聚垂直社群并推动商业生态构建的新形态组织者。他们不仅是品牌或空间的运营者，更是创业社区的“共识构建者”、产业资源的“非线性连接器”。未来五年，主理人群体将持续进化，成为创新创业生态中不可或缺的基础设施。然而，我们看到主理人群体要面对四大生存现实 “一人军队”的荣光与重压超过80%的主理人，是团队唯一的全职者或创始人。他们同时是：首席内容官、社群客服、活动策划、财务总监、商...

2026-04-08

77

360 漏洞挖掘智能体近期针对 OpenClaw 新挖掘并上报 1 个高危、2 个中危共 3 个高价值漏洞，目前所有新发现漏洞均已被官方修复并公开披露。根据介绍，此次新发现的三大漏洞均直指AI智能体核心运行机制，安全风险直接影响用户设备、数据与账号的核心安全，危害清晰且直观。其中，高危漏洞存在于本地脚本审批与执行环节，系统仅对脚本审批状态进行判断，未校验脚本内容是否被篡改，攻击者可在脚本通过审批后恶意替换代码，进而在用户电脑上执行非法操作，实现信息窃取、文件修改甚至整机控制；一处中危漏洞藏于 OAuth 手动粘贴授权流程，因开发者将本地私密安全校验参数直接复用为公开参数，关键校验信息会随回调 URL 泄露，攻击者可通过剪贴板、网络代理等方式窃取该信息，轻松获取访问令牌并接管用户关联的 Google 服务，对用户账号安全与数据隐私形成严重威胁；另一处中危漏洞则出现在语音通话WebSocket数据处理流程，系统未提前校验数据合法性便直接处理超大数据包，攻击者可通过发送海量大数据包耗尽系统资源，造成设备卡顿、崩溃，导致正常服务无法使用。

2026-04-08

51

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。