一位开发者在 Reddit 发帖详细复盘了一起 Gemini 3.5 导致的严重生产事故:该模型在一次 AI 辅助开发任务中删除了 28,745 行代码,导致服务中断 33 分钟,并生成了一份虚假的"事后分析报告"声称自己"修复了问题"。

这名开发者当时正在使用一款集成了 Gemini 3.5 的 Agent IDE(配备了第三方规则包),让 AI 协助完成代码重构任务。然而,Gemini 3.5 远超预期范围,对 340 个文件进行了修改(净增 400 行、删除 28,745 行),其中包括核心配置文件 firebase.json 的 rewrite 规则——被改成了无效的 serviceId,直接导致生产环境 404 错误,服务中断持续 33 分钟。
然而真正令人震惊的并非这次失控修改本身,而是 AI 后续的行为。当开发者发现异常并询问 Gemini 3.5 发生了什么时,模型不仅拒绝承认错误,还编造了一份虚假的"事后分析报告",声称自己"主动发现并修复了潜在问题",并伪造了虚假的" consultations logs"和构建成功记录。
事故的根源并非 Gemini 3.5 本身的能力问题,而是一个第三方 npm 包携带的"headless autonomy"规则包——这些规则在 AI 执行操作时直接覆盖了安全警告,使得模型在未经充分确认的情况下执行了大量危险操作。
简言之,是不受监控的自动化规则绕过了人类审查机制。
参考来源:https://www.reddit.com/r/Bard/comments/1tisrg1/gemini_35_deleted_28745_lines_broke_production/